汽车产业正逐渐朝向域控制器前进。Ambarella的CV3系列域控制器主要用于处理L2+到L4级自驾车的感知、多感器融合以及路经规划...

安霸(Ambarella)首席技术官Les Kohn在和《EE Times》的独家访谈中说:“客户一开始都说,我们提供的芯片所支持的‘人工智能’(AI)处理能力过于强大,没有必要。现在,产业对于AI的需求开始暴增。”

Ambarella的汽车产业客户现在面对再强大的AI运算能力也不嫌多。该公司的CV3系列域控制器主要用于处理L2+到L4级自驾车的感知、多感器融合以及路经规划。CV3系列控制器内建专利的AI加速器,可以同时处理最高20个图像串流。

汽车产业正逐渐朝向域控制器前进,而非在传感器边缘进行AI运算,因为未来自驾车的相机数动辄十台以上,而且还需要加上雷达与其他传感组件。

Ambarella首席技术官Les KohnCES 2023上展示产品。(来源:Ambarella)

Kohn表示:“每一个传感器都可能遇到需要进行大量运算的情境,如果全部都要在边缘处理,就必须为每一传感器分配一定资源。其结果是,遇到少数需求量特别庞大的情境,这些资源就不够用。但大多数情境下,资源却反而过剩。”

透过域控制器,可以轻松地在峰值与一般情境之间更均衡地分配处理资源。这也表示,结合不同传感器的原始资料可以实现先进的传感器融合,而无需进行预处理。

Kohn表示:“其结果将更胜于传感器个别处理各自资料,因为若在传感器预处理后才融合资料,很多信息在这时已经遗失了。”

域控制器

业界对于域控制器的AI处理能力需求不断提高,原因有几个。

尽管旧式的自驾车软件采用传统的算法,透过Arm处理器执行感知、融合以及路径规划。随着AI技术兴起,从感知部份开始,最终涵盖至整个L3级与L4级系统。

Kohn表示,客户还需要预留未来的软件成长空间,包含产品部署后的追加功能。此外,域控制器的高效率AI运算能力也是控制功耗的一种方法。虽然在单相机的系统中,功耗差异不会太大,但到了庞大的L3系统,其功耗差异就可能直接影响电动车的行驶里程。

Kohn补充道,更复杂的L3与L4系统必定需要某种形式的冗余机制,才能符合功能安全的规定。而这也会增加对于AI处理能力的需求。但AI算法本质上就不是100%准确,这要如何和严格的功能安全标准取得平衡呢?

Kohn说:“在我看来,任何L3或L4级的算法,无论基于传统或深度学习技术,都一定会犯错误。就我们目前所看到的,好的深度学习算法发生错误的机率比传统算法来得低。这就是为什么产业开始转向使用深度学习技术。换言之,如果你的目标是实现ASIL-D可靠度,仍然需要一个多样化的系统组合。”

多样化的系统组合可能包含基于传统算法的检查机制。但Kohn认为,最终还是需要两个独立平行的不同深度学习算法。

他说道:“只要它们是完全独立的,就不会同时犯同一种错误。这有助于让你能够实现等同于传统算法的ASIL-D可靠度。”

神经向量处理器

CV3系列芯片搭载Ambarella自行研发的神经向量运算(NVP)引擎,做为专用的AI加速器,芯片中的其他专用引擎还包含:通用向量处理器(GVP)、图像信号处理器(ISP)、立体视觉与光流运算引擎,以及编码器引擎。这其中是否还有哪些AI工作负载可以进一步独立出来,透过额外的引擎进行处理?

针对这点,Kohn表示:“目前来说言之过早。AI工作的性质如今还在持续变化,若持续导入新的引擎,各种类型的AI运算之间是否能找到合适的平衡可能带来风险。”

Transformer神经网络的视觉应用也在持续成长。CV3系列芯片是最早支持Transformer的特定领域边缘运算加速器。

Kohn说道:“Transformer模型近年来越来越受到关注,尤其是在深度融合相关的应用。因为Transformer目前无疑是结合所有传感器的最佳工具,或至少是其中的关键组件之一。Transformer是现在的潮流。”

安霸的NVP汇集了多项可以降低延迟与提高能源效率的元素。

其中的一项关键是NVP的数据串流编程模型。该模型并非列出低层级指令,而是将卷积或矩阵相乘的高层级运算子(operator)结合为图表,用于描述运算单位间的关联性,以及处理器运算数据的方式。每个运算子之间的通信都在芯片上的存储器完成。这与GPU不同,GPU每一层的数据皆从DRAM读取,完成后再储存为DRAM。Kohn表示,这可以让效率提高十倍以上。

上述NVP中采用的运算子组合是Ambarella努力的成果。该公司在“算法优先”的原则下研究客户的神经网络与传统算法,针对其打造优化的演算子组合,并进一步针对这些演算子设计优化的数据路径。

CV3系列芯片针对AI 、向量运算、图像运算、立体视觉与光流运算,以及编码器引擎等领域提供其专用的加速引擎。(来源:Ambarella)

稀疏运算

Kohn表示,另一个对效能有贡献的技术是“稀疏运算”(sparse processing),不论是对矩阵或卷积相乘都相当重要。

他说:“很多厂商宣称支持稀疏运算,但实际上提供的是结构化剪枝(structured pruning)。简单来说,就是砍掉网络中的部份通道,因而改变了网络的结构。相形之下,稀疏运算的做法是,你可以将例如每四个系数中的两个设为零,但这仍然有其局限性。当你的稀疏运算存在这么多限制,对于准确性就会有很大的影响。”

Ambarella的设计支持随机稀疏运算:任何位置的任何权重都可以为零,如果超过一半的权重为零,就不需处理其余部份(采用其他机制仍需要处理四个零中的两个)。

由于具备这种灵活性,让Ambarella的技术比竞争对手的方案更有效地将网络稀疏化(缩减大小),并提升整体网络速度,因为需要的运算量减少了。然而,这种方法需要一个反复训练的过程,透过渐进式的稀疏化,将准确性提升到极限。透过Ambarella的工具链在每一个步骤反复训练,准确性的损耗可以被降到最小。

相较于NVP,独立的通用向量处理器(GVP)主要任务是雷达处理算法。然而,Kohn表示,若未涉及大量使用卷积与矩阵相乘的工作负载,在GVP运行的速度相当于NVP,而且由于其晶粒体积较小,因而能源效率更佳。

 

Ambarella为《EE Times 》现场展示其雷达技术。(来源:EE Times)

降低精准度

CV3的NVP加速器支持16位、8位以及4位的精准度。Kohn过去曾告诉《EE Times》,混合精度应该是最实际的解决方案,但再那之后我们仅看到少数几个8位以下的边缘应用案例。

他说道:“除了超低功耗的嵌入式应用,要做到8位以下的更复杂应用非常困难。其中难度特别高的部分在于启动数据。如果将权重压缩到8位以下会比较简单,而实际上,我们已经在某些案例这么做了。为了在复杂的网络中将启动数据压到8位以下,意味着很难维持准确性。”

Kohn表示,4位权重可以有效改善存储区宽带,并在某些情境下改善效能。某些分层甚至可以在纯粹的4位下运行,而有些分层至少要达到16位启动。

Ambarella的工具可以自动处理混合精度量化。

Kohn表示:“一切都取决于是否有好的训练数据。我们会有一个量化版本是不需要任何重复训练,只需要一些校准数据。这么做的速度更快。但如果你想要尝试极限,仍然需要量化感知的重复训练。”

RISC架构

Kohn在1980年代曾经担任英特尔(Intel)首款RISC芯片i860的首席架构师,长期以来大力推崇RISC。CV3系列目前搭载Arm核心。因此,我们问Kohn认为是否有一天会在Ambarella旗下产品中采纳RISC-V核心?

他回答道:“我们确实曾经思考过。但这必须在效能上与高端Arm处理器竞争,并同时符合功能安全的需求,这是一大难题。相关的技术还没有到位。除此之外,我们的客户是否会接受也是个问题。”

他表示,汽车产业的客户对于采用新架构往往抱持较保守的态度。Ambarella内部拥有基于OpenRISC (早于RISC-V)的核心设计,有机会改造为RISC-V。Kohn说道:“如果我们能为主处理器和芯片上的其他组件提供一个通用的架构,那就是一大成就。”

Kohn进一步表示,为了满足客户日与俱增的需求,Ambarella的未来发展蓝图是开发更大、更快且更高效的芯片。针对L2和L2+的应用,Ambarella仍会推出成本效益较高的小芯片。但针对广大的L4操作适用范围(ODD),Kohn认为:“势必需要用到多个高效能的强大芯片。”

(参考原文:Les Kohn: 'L4 Will Need Multiple Big Chips',by Sally Ward-Foxton)

本文同步刊登于台湾版《电子工程专辑》杂志20238

责编:Amy.wu
本文为EET电子工程专辑原创文章,禁止转载。请尊重知识产权,违者本司保留追究责任的权利。
阅读全文,请先
您可能感兴趣
继AMD在Semicon 2023 上宣布的 4 亿美元印度投资后,近日AMD官宣了在印度班加罗尔开设了其最大的全球设计中心,扩大在印度的研究、开发和工程业务。AMD 印度地区负责人 Jaya Jagadish表示:“印度设计中心于 2004 年成立,只有少数员工。如今,AMD 全球员工的 25% 位于印度,他们支持 AMD 在数据中心、游戏等领域的领先产品的开发、PC 和嵌入式客户。这个新设施标志着我们成长历程中的下一个里程碑,我们将成为半导体进步的重要贡献者。”
在2023临港国际半导体大会上,围绕新能源汽车行业对化合物半导体的需求趋势、亟待突破的技术瓶颈、实际应用误区、以及如何形成本土化差异竞争优势等话题,众多企业高管展开了热烈讨论。
根据一份在中国台湾的安全备案文件中显示,富士康将在印度建设项目投资超过15亿美元。该投资是通过富士康子公司鸿海科技印度大型开发公司进行的,该公司在2015年起就在印度马哈拉施特拉邦注册。同时提交的一份文件称,该子公司将为一个建设项目提供等值的印度卢比预算,以满足“运营需求”。
近日针对戴尔正在考虑将供应链撤出中国大陆的计划,引起市场的广泛关注,并持续发酵。戴尔针对此事做出了回应。戴尔在北京钓鱼台国宾馆举办的进入中国 25 周年庆祝活动上,戴尔全球资深副总裁吴冬梅表示:我们期待未来继续在中国发展。中国一直是戴尔重要的国际市场。
龙架构(LoongArch)从顶层架构,到指令功能等全部自主设计,无需国外授权,得到了上百个与指令系统相关的国际软件开源社区的支持,得到了统信、麒麟、欧拉、龙蜥、鸿蒙等操作系统的支持,得到了WPS、微信、QQ、钉钉、腾讯会议等基础应用的支持,已形成与X86、ARM等并列的基础软件生态。
大家都关心制造,但在未来短时期之内,我们很难在既有赛道下将工艺突破到7纳米以下。解决方案在哪?就是在特殊工艺和封装上开辟新的赛道。
据最新HBM市场研究显示,为了更妥善且健全的供应链管理,NVIDIA也规划加入更多的HBM供应商,其中三星(Samsung)的HBM3(24GB)预期于今年12月在NVIDIA完成验证。而HBM3e进度依据时间轴排列如下表所示,美光(Micron)已于今年7月底提供8hi(24GB)NVIDIA样品、SK海力士(SK hynix)已于今年8月中提供8hi(24GB)样品、三星则于今年10月初提供8hi(24GB)样品。
受智能手机产量下滑,以及品牌厂搭载趋势改变的影响,预估2023年智能手机相机模组出货量年减幅度将再扩大至8.9%,约40.65亿颗。而经过一年的库存去化,在2024年智能手机生产量有望恢复的预期下,明年智能手机相机模组市场有望恢复成长,出货量年增率预估3%,约41.71亿颗。
近日,武汉芯源半导体正式发布首款基于Cortex®-M0+内核的CW32A030C8T7车规级MCU,这是武汉芯源半导体首款通过AEC-Q100 (Grade 2)车规标准的主流通用型车规MCU产品。
1200 V分立器件提供出色的性能,有助于加速全球能源转型
『这个知识不太冷』系列,旨在帮助小伙伴们唤醒知识的记忆,将挑选一部分Qorvo划重点的知识点,结合产业现状解读,以此温故知新、查漏补缺。在过去十年中,移动无线数据快速增长,使得运营商愈加迫切地需要新频
在技术飞速进步的今天,物联网(IoT)以其深远的连通性和巧妙的数据处理能力,正成为引领变革的力量。原始设备制造商(OEM)站在一个关键的十字路口,他们不仅需要思考如何将IoT的力量融入现有产品,提升智
由亚化咨询主办的第六届半导体大硅片论坛将于12月7-8日在上海召开,来自新昇、超硅、上海集成电路协会、KLA等公司的专家将带来精彩报告工业参观:半导体大硅片企业上海新昇半导体与上海超硅半导体,目前新昇
点击上面“电动知家”↑关注,记得加“星标”!电动知家消息,据多家媒体报道,华为拟成立的智能汽车系统及部件公司向投资者出售股权后,估值可高达2500亿元人民币。其中,长安汽车和母公司中国兵器装备集团或分
点击上面“电动知家”↑关注,记得加“星标”!电动知家消息,11月30日,宁德时代首席科学家吴凯在2023国际汽车电子与软件大会·滴水湖峰会上透露,目前,宁德时代旗下时代智能开发的滑板底盘已实现技术突破
点击上面“电动知家”↑关注,记得加“星标”!电动知家消息,根据财联社的报道,全美3000多家汽车经销商组成的联盟11月28日向拜登发出一封公开信,呼吁他在电动汽车推广政策上踩刹车。该联盟在信中写道,这
点击上面“电动知家”↑关注,记得加“星标”!电动知家消息,科创板上市公司孚能科技(688567)11月29日晚公告,广州工控集团拟将获得公司控制权的方式,由此前的协议转让股份方式,转换为广州工控集团认
  大型电子工业洁净厂房的防火设计至关重要,以确保生产设备、人员和财产的安全。以下是合洁科技电子洁净工程公司总结的一些常见的防火设计分析要点。   
Dear customers and vendors, welcome to the Market Insights-Newsletter from Quiksol that delivers tim
2023亚马逊云科技re:Invent第二天,亚马逊云科技首席执行官Adam Selipsky在两个半小时的演讲中,重点围绕重构云基础架构、重构计算、重构存储、重构企业级生成式AI等主题,宣布了多项重