AI和IoT是这两年被人反复提及的话题热点,毕竟它们给予行业的信心是贯彻了信息技术的整个垂直领域的。这两者能够造就机遇的重要原因,就在于它们尚未形成(或可能不会形成)非常统一的“生态”,迄今为止也没有哪位巨擘一手遮天构建起具有充分话语权的生态。以边缘AI为例,仅是手机设备上用于推理(inference)的神经网络单元,时下大概也都处在多家争鸣的状态……

AI和IoT是这两年被人反复提及的话题热点,毕竟它们给予行业的信心是贯彻了信息技术的整个垂直领域的。这两者能够造就机遇的重要原因,就在于它们尚未形成(或可能不会形成)非常统一的“生态”,迄今为止也没有哪位巨擘一手遮天构建起具有充分话语权的生态。

以边缘AI为例,仅是手机设备上用于推理(inference)的神经网络单元,时下大概也都处在多家争鸣的状态:华为的NPU、联发科的APU、高通的异构AI引擎,乃至苹果的神经网络执行单元。这个在主SoC上常驻的运算单元,并不像CPU、GPU那样有着典型的标准和生态。

我们首先想到有能力带动边缘终端设备AI单元“标准化”的,应该就是Arm了。不过Arm的动作比我们预想的都稍慢一些,去年2月,Arm才宣布要推Project Trillium机器学习IP;去年5月给出了有关Project Trillium机器学习处理器架构的更多细节信息。到上个月底正式宣布推出其NPU IP产品Ethos-N57/N37(最高规格的N77理论上算是已推的产品)。

在珊珊来迟的情况下,Arm的生态能力是否能够持续在NPU上有所体现,是值得我们观察的。更有趣的是,Arm生态掌控开始出现松动的迹象还体现在IoT领域,尤其今年国内RISC-V呼声如此之高,而且IoT——尤其是IIoT本来就是个需求碎片化的市场,Arm的生态能力在此间又有多少价值?

在前不久于上海举办的Arm Tech Symposia 2019大会上,我们专访了Arm市场营销副总裁Ian Smythe,从中或可知Arm在这件事情上的态度。

20191104-arm-1.jpg

Arm市场营销副总裁Ian Smythe

Arm的NPU能做什么?

除了NPU之外,Arm同期发布的还包括GPU IP:Mali-G57,这应该是Arm中端定位GPU中的首款Valhall架构产品;以及DPU Mali-D37。这里我们重点要谈的是Ethos系列NPU。

首先我们先了解一下Arm的Ethos家族NPU(包括了N77、N57、N37)究竟是怎么回事。去年Arm还将其称作“Arm Machine Learning processor”,今年的TechCon大会时,NPU这个名字就被钦定了(不知联发科、苹果和高通怎么看待这件事,华为:有什么问题吗?)。

20191104-arm-2.jpg

这三款IP的性能预期如上图所示,其中最高配的N77在1GHz频率下可以达到4 TOPS算力,效率在5 TOP/W;可选配的片上SRAM为1-4MB。Ethos NPU的CE计算引擎,主要由MCE(MAC乘法累加计算引擎)、PLE(可编程层引擎)和SRAM三部分组成。

在N77、N57和N37几个IP上,CE模块数量会有差别(N77至多16个CE,N57至多8个,N37至多4个),主体以此来划分产品定位。在应用方向上,N37可应用于智能电视、安防摄像头,N57则可面向智能家居中枢 ,N77的市场在高端智能手机、computational photography,还有AR/VR等。

内部结构上,(1)支撑原生算力部分的,就是一系列的MAC引擎;(2)与此同时,提供某种程度的可编程控制流模块;(3)外加存储子系统。所以Arm的机器学习IP着力点主要在三方面:卷积计算的效率、足够的可编程性,以及高效的数据移动。从这个层面来看,Ethos和市场上不少现有的神经网络加速IP是类似的。

20191104-arm-3.jpg

Ethos NPU内部包含一些通用功能模块,如存储互联接口、DMA引擎。上面这张图的绿色箭头表示的是数据流,红色则为控制流。SRAM是CE(计算引擎)执行计算操作的本地通用buffer。每个CE都有一些固定功能模块,在神经网络模型上的多个层级执行操作,比如Input feature map read模块要将控制信息传递给权重decoder。在此,卷积操作的核心是128-wide的MAC单元,针对存储了神经网络模型的量化权重(quantized weights)8bit、16bit整数数据执行操作。

20191104-arm-4.jpg

在选择AI处理器的方向时,Arm很显然是偏向通用的思路的(也是Arm的唯一选择,而有一类AI芯片制造商选择了相对专用的思路),毕竟我们谁也不知道未来会有什么样的模型架构出现——所以具备针对未来应用的架构弹性,是现阶段很多AI芯片制造商考虑的关键。前文就提到的PLE可编程层引擎,就是一个带有矢量与神经网络特定指令的专用处理单元,这里的神经网络“特定指令”,能够以相比固定功能模块,更具弹性和可编程性的方式,应用于其他层级的操作。

就Arm市场宣传的NPU特色来看,Ethos的一大亮点在于数据集/特征图部分数据的压缩能力。Arm采用一种无损压缩算法,宣称达到最高3倍的压缩比,这样就能减少外部DRAM带宽压力,对于整个系统性能都有积极价值。

20191104-arm-5.jpg

针对神经网络模型的训练和优化,实际更能提升存储带宽相关的性能表现。Arm的软件工具针对更大的压缩比,以及去相关连接(prune,如上图),进行数据优化,最终可以减轻MAC引擎的运算需求,提升能效比。

不过其实我们并不能从Arm提供的这些信息来判断,Ethos NPU相比市面上已经存在的各家神经网络处理单元是否有优势——包括宣传中提到的Winograd技术,其实都属于常规操作。从时间上来看,华为、苹果的同类单元部署,乃至生态的搭建都已经有一段时间了。

而Arm在机器学习方面相对知名的方案,是在Mali GPU中加强机器学习性能,比如今年年中Valhall架构发布之际,宣传其机器学习性能提升60%。在AI专核领域,Arm仍是个后来者,在这个已经逐渐碎片的市场上,Arm是如何打算的?

“需要更加一致的软硬件API”

在大部分人看来,Arm的优势就在“生态”构建能力上,毕竟其移动、IoT等市场的份额无论如何都是不容小觑的。能够直观体现这种能力的是Arm在开发软件生态上的搭建。Ian Smythe说:“Arm NN框架,是一个开源的架构,可加速机器学习部署的框架。在这个框架体系下,我们可以帮助开发者更简单、快速地获得硬件的全部性能,完成解决方案的部署。”

“我们的一大优势,就是非常完整的、在全球范围内部署的软件生态系统。这是Arm非常重要的一个基石所在。正是基于软件生态系统,我们才能在数十年内拥有这么多的合作伙伴,有这么紧密的合作。”

20191104-arm-6.jpg

Arm NN的价值在于隐藏底层硬件的复杂性,另外让开发者可使用他们熟悉的高层神经网络框架(如TensorFlow)。在面向硬件时,可以融合各种IP,包括调动NPU这样的专核(也可以是第三方的IP,按照Ian Smythe所说,这类实例已经非常巨量),并以NN优化算法同时调动CPU、GPU。这在我们看来,可能会成为Arm在机器学习IP方面的一个优势项。

Ian Smythe告诉我们:“具体的应用场景中有很多不同的工作负载,某些负载CPU擅长,有些GPU处理起来更高效,而相对复杂的AI工作,NPU用起来就更有效率:比如图像识别。不过我们在此需要考虑一个重要因素,在工作负载从CPU offload(转往其他处理单元)时,这中间本身消耗的成本有多高是需要考虑的。”

“比如比较简单的短关键词识别,这种场景并不需要AI核心来处理,Cortex核心就能完成这些工作;但是图像识别这样的任务,启用AI核心才能更好地识别图像内容。”

“这两个例子都是相对简单的情况,而很多时候并不是这么容易的,我们需要在中间点做各种考量。我们需要解决的是,找到一个平衡点,来进行调用和计算。所以Arm有专门的分析系统和解决工具,我们有更好的开发工具链体系,满足这样的需求。比如,Arm有专门的单元库,让上层同时加载GPU和NPU计算资源。”

Arm NN在首发时宣传的一个亮点就是Compute Library包含一系列低级别机器学习和计算机视觉函数,面向Cortex-A CPU和Mali GPU(那时NPU还没有发布)。这个Compute Library的目标就是汇集针对这些函数的优化:这些当然是对开发者隐藏的。现在新版本的Arm NN必然是加入了NPU抽象考量的。

不过实际在芯片制造商打造自己的AI专核或解决方案时,相应的开发框架也在不停涌现,典型如高通的SNPE,联发科的NeuroPilot等,这也是目前这一市场还处在发展前期的表现。高通SNPE和华为的HiAI也是典型调用异构单元做加速处理的框架。

20191104-arm-7.jpg

在面向Android NNAPI时,NNAPI提供一个硬件抽象层,面向不同类型的处理器;Arm NN for Android在此是为Mali GPU提供硬件抽象层,未来的版本会支持Arm机器学习处理器

或许这个时候就是考验生态搭建能力,以及对微架构和软件理解能力的时候了。Arm与前面提到的这几家厂商的差别,在整个生态链所处的位置是不同的。这大概就能够成为Arm的优势。

“第三方应用要访问CPU以外的资源,这件事是存在挑战的。第三方开发者需要思考,我怎么用API,如何访问AI加速资源:这些资源可以为我的app所用吗?我用的游戏引擎支持吗?这很难。第三方开发者必定希望他们上市的软件版本越少越好,不需要针对不同处理器、芯片编译更多不同的程序,减少开发时间。”Ian Smythe表示。

“机器学习市场现在还在发展的初级阶段,市场上存在很多不同的AI实施方案,但这种分化局面不会持续多久。未来的市场一定会更加趋于统一,虽然这个过程需要多久我不清楚。但我们需要更加一致的软硬件API,来提供AI性能,我觉得这对未来市场的发展是非常重要的。”

针对上述问题,Ian Smythe还特别举了个例子:“去年年底,Facebook做一项研究,还出了白皮书,是针对市场上不同的芯片架构,对Facebook的app做优化。研究最终结论是,应该为Cortex-A53做优化,因为这是现在市场上使用最广泛的架构。这是来自第三方的观点。”

“第一方市场出现分化当然没什么,但你不能因此要求第三方也去分化。大家需要合作。写完代码就在所有的手机上跑起来,这是我们的目标,也是我们的优势所在。从CPU、GPU、NPU做部署,我们要让整个过程变得简单、便捷。”

生态的价值可以有多大?

到这里,Arm的态度已经十分明确了,即便在AI芯片市场,Arm算是个后来者,依然能够利用生态的优势来开辟局面。生态的力量在此可能仍然是强大的。

最后值得一提的是,很多人说IoT市场需求和应用碎片化,Arm的生态优势已经没有价值。RISC-V因此对Arm造成巨大威胁。Ian Smythe则表示,“这类型的竞争我们经历过很多。”“一方面,Arm有自己的ISG业务(物联网服务集团),有端到云的服务,我们有能力去理解边缘设备如何进行管理、控制和实施,包括做各种相关IoT边缘的内部分析——这都是Arm生态系统的组成部分,贯穿整个生态为你提供支持。”

20191104-arm-8.jpg

Arm的Pelion IoT平台,是去年Q3 Arm发布设备到数据IoT平台;这个平台产品涵盖了Arm早前收购具备连接管理能力的Stream和云数据管理平台的Treasure Data

“如果你想选择现成的芯片,我们生态中的的选择非常多样化,哪怕只是一些微小的需求差异,都能找到对应选择。如果你考虑自己做芯片,RISC-V的确取得了很大的关注,但一旦涉及到SoC设计,它和Arm需要面临的挑战是一样的,都很难,从RISC-V IP供应商进行授权可能也需要花钱。”

“Arm的生态系统在不断成长中的,我们有大量可选的CPU产品;我们有完整的工具链和生态;我们和EDA供应商有着很好的合作关系,做验证测试也会更便捷。就只说我们的自定义指令集支持,我们依然要确保其一致性、完整性,这是我们必须做到的。但RISC-V一方是无法保证这些的。”

“生态的价值,在于你可以做出选择(The power of ecosystem there is that the choices is available)。”

参考来源:
[1]Arm NN - Arm Developer(https://developer.arm.com/ip-products/processors/machine-learning/arm-nn)
[2]ARM Details "Project Trillium" Machine Learning Processor Architecture - AnandTech(https://www.anandtech.com/show/12791/arm-details-project-trillium-mlp-architecture)

责编:Luffy Liu

本文为EET电子工程专辑原创文章,禁止转载。请尊重知识产权,违者本司保留追究责任的权利。
阅读全文,请先
您可能感兴趣
《报告》显示,2023年上半年,中国人工智能服务器市场规模环比增长54.1%。IDC预计,全球人工智能硬件市场(服务器)规模将从2022年的195亿美元增长到2026年的347亿美元,五年年复合增长率达17.3%;在中国,预计2023年中国人工智能服务器市场规模将达到91亿美元,同比增长82.5%,2027年将达到134 亿美元,五年年复合增长率达21.8%。
尽管SK海力士利用TSV技术,使其HBM产品一直保持业界领先水平,但仍需解决产能偏低、成本过高的问题。为此,SK海力士持续研发主打封装技术TSV外,还在关注“扇出型晶圆级封装”,将其视为促使未来利润产生的新的增长动力和技术。
​​​​​​​随着PC市场触底反弹,高通发布全新的骁龙 X Elite SoC,瞄准AI PC市场。全新的骁龙 X Elite 采用台积电 4 纳米工艺节点制造,配备强大的 12 核 Oryon CPU。在Oryon CPU、Adreno GPU和Hexagon NPU之间,骁龙 X Elite可以提供高达75 TOPS的AI计算性能。
瑞萨最近发布了全球首款基于Cortex-M85的MCU,全面提升了MCU的AI能力。现在的MCU为什么需要AI性能?
通用Cruise被暂停无人驾驶以及此前发生的类似事件,再一次警示我们:尽管自动驾驶技术具有很多优势和潜力,但是在选择使用这种技术时,也需要充分考量其可能存在的风险和问题,尤其是安全可靠性。那么,这是否预示着自动驾驶行业进入一个“漫长的冬天”呢?
未来传感器也需要具备更多智能和学习的功能,即需要把AI慢慢从目前云端下沉到边缘,边缘智能可以带来很多好处:一是传感器实时性非常好;二是AI部署到智能器件,无论是传感器,还是MCU,功耗相对比较低;三是它对个人数据的保护会起到非常关键的作用,需要把所有数据都传到云端去处理;四是把AI技术用到消费产品,通过边缘化的智能技术,可以满足个性化的体验。
根据TrendForce集邦咨询最新OLED技术及市场发展分析报告统计,在近期发表的摺叠新机中,UTG的市场渗透率已逾九成,随着摺叠手机规模持续成长,预估2023年UTG产值将达3.6亿美元;2024年可望挑战6亿美元。
随着终端及IC客户库存陆续消化至较为健康的水位,及下半年iPhone、Android阵营推出新机等有利因素,带动第三季智能手机、笔电相关零部件急单涌现,但高通胀风险仍在,短期市况依旧不明朗,故此波备货仅以急单方式进行。此外,台积电(TSMC)、三星(Samsung)3nm高价制程贡献营收亦对产值带来正面效益,带动2023年第三季前十大晶圆代工业者产值为282.9亿美元,环比增长7.9%。
治精微推出具过压保护OVP、低功耗、高精度运放ZJA3018
无线技术每天都在拯救生命,有些非常方式是人们意想不到的。在美国加利福尼亚州Scotts Valley,一名路过的慢跑者发现一处住宅冒出火焰后,按响了门铃,试图通知屋主。屋主不在家中,但无线门铃连接到了智能家居中枢,提醒屋主慢跑者试图联系。屋主立即向他提供了安全密码,让他跑进房子,从火场中救出了宠物。
来看看,你需不需要这门接收机设计课程吧(已更新八次)。如有需要,现在仍然可以报名。(1)前几天,号友发来她的听课笔记,我真的是泪流满面。感觉,自己这么长时间的备课,总算没白费。说实话,我备课的时候,真
相信每个硬件工程师应该都用过DC-DC,那么分压反馈电阻的取值有没有想过呢?实际应用中大抵都是直接抄的手册中推荐的分压电阻阻值,就算没有正好对应输出电压的分压阻值,也一般是选择接近的电阻大小。但是,总
自从集成电路发明以后,人类的电子信息技术开始腾飞,60年多年来,在摩尔定律的指导下,半导体集成电路的高速发展彻底改变了电子产品。以计算机为例,1946年诞生的世界第一台数字计算机重30吨,占地约140
11月9日是主题为“预防为主,生命至上”的第32个全国消防安全日,当天,智能建筑电气技术杂志《IBE Talks》栏目第27期特邀请中国勘察设计协会电气分会副会长、清华大学建筑设计研究院有限公司电气总
AMD Vitis™ 高层次综合 ( HLS ) 已成为自适应 SoC 及 FPGA 产品设计领域的一项颠覆性技术,可在创建定制硬件设计时实现更高层次的抽象并提高生产力。Vitis HLS 通过将 C
为加强智慧应急能力建设,以新安全格局服务新发展格局,由中国科学院大学、全国安全职业教育教学指导委员会共同主办的“2023智慧应急发展论坛”于2023年12月10日在京召开。本次论坛主题是“加强智慧应急
本文来源:物联传媒本文作者:市大妈前几年,对大部分人来说,FWA是一个比较陌生的领域,尽管早在3G和4G时代就已经得到一定的发展。后来,随着5G的发展,FWA作为当前5G应用量级最大的场景之一,被更多
01 项目简介该项目是使用ESP32模块复刻的Nokia1110,可运行NES游戏模拟器和LVGL,主要功能包括彩屏显示,ADC按键,Type-C充电,USB转串口,DAC音乐播放,SD卡读写,WS2
芝能汽车出品11月,我国动力和储能电池合计产量为87.7GWh,实际拆解估算动力电池约为70.7GWh,同比上升11.5%,环比上升8.4%装车量44.9GWh,同比增长31.0%,环比增长14.5%
本文来源:物联传媒“2023‘物联之星’中国物联网行业年度榜单” 评选活动正在火热进行中!为深度挖掘物联网领域的优秀企业、创新产品和优秀项目,审读年度热门领域和发展方向,推动物联网行业的普及与宣传,促