向右滑动:上一篇 向左滑动:下一篇 我知道了
广告

市场上有那么多AI芯片,还需要Arm的NPU吗?

时间:2019-11-04 作者:黄烨锋 阅读:
AI和IoT是这两年被人反复提及的话题热点,毕竟它们给予行业的信心是贯彻了信息技术的整个垂直领域的。这两者能够造就机遇的重要原因,就在于它们尚未形成(或可能不会形成)非常统一的“生态”,迄今为止也没有哪位巨擘一手遮天构建起具有充分话语权的生态。以边缘AI为例,仅是手机设备上用于推理(inference)的神经网络单元,时下大概也都处在多家争鸣的状态……

AI和IoT是这两年被人反复提及的话题热点,毕竟它们给予行业的信心是贯彻了信息技术的整个垂直领域的。这两者能够造就机遇的重要原因,就在于它们尚未形成(或可能不会形成)非常统一的“生态”,迄今为止也没有哪位巨擘一手遮天构建起具有充分话语权的生态。IxaEETC-电子工程专辑

以边缘AI为例,仅是手机设备上用于推理(inference)的神经网络单元,时下大概也都处在多家争鸣的状态:华为的NPU、联发科的APU、高通的异构AI引擎,乃至苹果的神经网络执行单元。这个在主SoC上常驻的运算单元,并不像CPU、GPU那样有着典型的标准和生态。IxaEETC-电子工程专辑

我们首先想到有能力带动边缘终端设备AI单元“标准化”的,应该就是Arm了。不过Arm的动作比我们预想的都稍慢一些,去年2月,Arm才宣布要推Project Trillium机器学习IP;去年5月给出了有关Project Trillium机器学习处理器架构的更多细节信息。到上个月底正式宣布推出其NPU IP产品Ethos-N57/N37(最高规格的N77理论上算是已推的产品)。IxaEETC-电子工程专辑

在珊珊来迟的情况下,Arm的生态能力是否能够持续在NPU上有所体现,是值得我们观察的。更有趣的是,Arm生态掌控开始出现松动的迹象还体现在IoT领域,尤其今年国内RISC-V呼声如此之高,而且IoT——尤其是IIoT本来就是个需求碎片化的市场,Arm的生态能力在此间又有多少价值?IxaEETC-电子工程专辑

在前不久于上海举办的Arm Tech Symposia 2019大会上,我们专访了Arm市场营销副总裁Ian Smythe,从中或可知Arm在这件事情上的态度。IxaEETC-电子工程专辑

20191104-arm-1.jpgIxaEETC-电子工程专辑

Arm市场营销副总裁Ian SmytheIxaEETC-电子工程专辑

Arm的NPU能做什么?

除了NPU之外,Arm同期发布的还包括GPU IP:Mali-G57,这应该是Arm中端定位GPU中的首款Valhall架构产品;以及DPU Mali-D37。这里我们重点要谈的是Ethos系列NPU。IxaEETC-电子工程专辑

首先我们先了解一下Arm的Ethos家族NPU(包括了N77、N57、N37)究竟是怎么回事。去年Arm还将其称作“Arm Machine Learning processor”,今年的TechCon大会时,NPU这个名字就被钦定了(不知联发科、苹果和高通怎么看待这件事,华为:有什么问题吗?)。IxaEETC-电子工程专辑

20191104-arm-2.jpgIxaEETC-电子工程专辑

这三款IP的性能预期如上图所示,其中最高配的N77在1GHz频率下可以达到4 TOPS算力,效率在5 TOP/W;可选配的片上SRAM为1-4MB。Ethos NPU的CE计算引擎,主要由MCE(MAC乘法累加计算引擎)、PLE(可编程层引擎)和SRAM三部分组成。IxaEETC-电子工程专辑

在N77、N57和N37几个IP上,CE模块数量会有差别(N77至多16个CE,N57至多8个,N37至多4个),主体以此来划分产品定位。在应用方向上,N37可应用于智能电视、安防摄像头,N57则可面向智能家居中枢 ,N77的市场在高端智能手机、computational photography,还有AR/VR等。IxaEETC-电子工程专辑

内部结构上,(1)支撑原生算力部分的,就是一系列的MAC引擎;(2)与此同时,提供某种程度的可编程控制流模块;(3)外加存储子系统。所以Arm的机器学习IP着力点主要在三方面:卷积计算的效率、足够的可编程性,以及高效的数据移动。从这个层面来看,Ethos和市场上不少现有的神经网络加速IP是类似的。IxaEETC-电子工程专辑

20191104-arm-3.jpgIxaEETC-电子工程专辑

Ethos NPU内部包含一些通用功能模块,如存储互联接口、DMA引擎。上面这张图的绿色箭头表示的是数据流,红色则为控制流。SRAM是CE(计算引擎)执行计算操作的本地通用buffer。每个CE都有一些固定功能模块,在神经网络模型上的多个层级执行操作,比如Input feature map read模块要将控制信息传递给权重decoder。在此,卷积操作的核心是128-wide的MAC单元,针对存储了神经网络模型的量化权重(quantized weights)8bit、16bit整数数据执行操作。IxaEETC-电子工程专辑

20191104-arm-4.jpgIxaEETC-电子工程专辑

在选择AI处理器的方向时,Arm很显然是偏向通用的思路的(也是Arm的唯一选择,而有一类AI芯片制造商选择了相对专用的思路),毕竟我们谁也不知道未来会有什么样的模型架构出现——所以具备针对未来应用的架构弹性,是现阶段很多AI芯片制造商考虑的关键。前文就提到的PLE可编程层引擎,就是一个带有矢量与神经网络特定指令的专用处理单元,这里的神经网络“特定指令”,能够以相比固定功能模块,更具弹性和可编程性的方式,应用于其他层级的操作。IxaEETC-电子工程专辑

就Arm市场宣传的NPU特色来看,Ethos的一大亮点在于数据集/特征图部分数据的压缩能力。Arm采用一种无损压缩算法,宣称达到最高3倍的压缩比,这样就能减少外部DRAM带宽压力,对于整个系统性能都有积极价值。IxaEETC-电子工程专辑

20191104-arm-5.jpgIxaEETC-电子工程专辑

针对神经网络模型的训练和优化,实际更能提升存储带宽相关的性能表现。Arm的软件工具针对更大的压缩比,以及去相关连接(prune,如上图),进行数据优化,最终可以减轻MAC引擎的运算需求,提升能效比。IxaEETC-电子工程专辑

不过其实我们并不能从Arm提供的这些信息来判断,Ethos NPU相比市面上已经存在的各家神经网络处理单元是否有优势——包括宣传中提到的Winograd技术,其实都属于常规操作。从时间上来看,华为、苹果的同类单元部署,乃至生态的搭建都已经有一段时间了。IxaEETC-电子工程专辑

而Arm在机器学习方面相对知名的方案,是在Mali GPU中加强机器学习性能,比如今年年中Valhall架构发布之际,宣传其机器学习性能提升60%。在AI专核领域,Arm仍是个后来者,在这个已经逐渐碎片的市场上,Arm是如何打算的?IxaEETC-电子工程专辑

“需要更加一致的软硬件API”

在大部分人看来,Arm的优势就在“生态”构建能力上,毕竟其移动、IoT等市场的份额无论如何都是不容小觑的。能够直观体现这种能力的是Arm在开发软件生态上的搭建。Ian Smythe说:“Arm NN框架,是一个开源的架构,可加速机器学习部署的框架。在这个框架体系下,我们可以帮助开发者更简单、快速地获得硬件的全部性能,完成解决方案的部署。”IxaEETC-电子工程专辑

“我们的一大优势,就是非常完整的、在全球范围内部署的软件生态系统。这是Arm非常重要的一个基石所在。正是基于软件生态系统,我们才能在数十年内拥有这么多的合作伙伴,有这么紧密的合作。”IxaEETC-电子工程专辑

20191104-arm-6.jpgIxaEETC-电子工程专辑

Arm NN的价值在于隐藏底层硬件的复杂性,另外让开发者可使用他们熟悉的高层神经网络框架(如TensorFlow)。在面向硬件时,可以融合各种IP,包括调动NPU这样的专核(也可以是第三方的IP,按照Ian Smythe所说,这类实例已经非常巨量),并以NN优化算法同时调动CPU、GPU。这在我们看来,可能会成为Arm在机器学习IP方面的一个优势项。IxaEETC-电子工程专辑

Ian Smythe告诉我们:“具体的应用场景中有很多不同的工作负载,某些负载CPU擅长,有些GPU处理起来更高效,而相对复杂的AI工作,NPU用起来就更有效率:比如图像识别。不过我们在此需要考虑一个重要因素,在工作负载从CPU offload(转往其他处理单元)时,这中间本身消耗的成本有多高是需要考虑的。”IxaEETC-电子工程专辑

“比如比较简单的短关键词识别,这种场景并不需要AI核心来处理,Cortex核心就能完成这些工作;但是图像识别这样的任务,启用AI核心才能更好地识别图像内容。”IxaEETC-电子工程专辑

“这两个例子都是相对简单的情况,而很多时候并不是这么容易的,我们需要在中间点做各种考量。我们需要解决的是,找到一个平衡点,来进行调用和计算。所以Arm有专门的分析系统和解决工具,我们有更好的开发工具链体系,满足这样的需求。比如,Arm有专门的单元库,让上层同时加载GPU和NPU计算资源。”IxaEETC-电子工程专辑

Arm NN在首发时宣传的一个亮点就是Compute Library包含一系列低级别机器学习和计算机视觉函数,面向Cortex-A CPU和Mali GPU(那时NPU还没有发布)。这个Compute Library的目标就是汇集针对这些函数的优化:这些当然是对开发者隐藏的。现在新版本的Arm NN必然是加入了NPU抽象考量的。IxaEETC-电子工程专辑

不过实际在芯片制造商打造自己的AI专核或解决方案时,相应的开发框架也在不停涌现,典型如高通的SNPE,联发科的NeuroPilot等,这也是目前这一市场还处在发展前期的表现。高通SNPE和华为的HiAI也是典型调用异构单元做加速处理的框架。IxaEETC-电子工程专辑

20191104-arm-7.jpgIxaEETC-电子工程专辑

在面向Android NNAPI时,NNAPI提供一个硬件抽象层,面向不同类型的处理器;Arm NN for Android在此是为Mali GPU提供硬件抽象层,未来的版本会支持Arm机器学习处理器IxaEETC-电子工程专辑

或许这个时候就是考验生态搭建能力,以及对微架构和软件理解能力的时候了。Arm与前面提到的这几家厂商的差别,在整个生态链所处的位置是不同的。这大概就能够成为Arm的优势。IxaEETC-电子工程专辑

“第三方应用要访问CPU以外的资源,这件事是存在挑战的。第三方开发者需要思考,我怎么用API,如何访问AI加速资源:这些资源可以为我的app所用吗?我用的游戏引擎支持吗?这很难。第三方开发者必定希望他们上市的软件版本越少越好,不需要针对不同处理器、芯片编译更多不同的程序,减少开发时间。”Ian Smythe表示。IxaEETC-电子工程专辑

“机器学习市场现在还在发展的初级阶段,市场上存在很多不同的AI实施方案,但这种分化局面不会持续多久。未来的市场一定会更加趋于统一,虽然这个过程需要多久我不清楚。但我们需要更加一致的软硬件API,来提供AI性能,我觉得这对未来市场的发展是非常重要的。”IxaEETC-电子工程专辑

针对上述问题,Ian Smythe还特别举了个例子:“去年年底,Facebook做一项研究,还出了白皮书,是针对市场上不同的芯片架构,对Facebook的app做优化。研究最终结论是,应该为Cortex-A53做优化,因为这是现在市场上使用最广泛的架构。这是来自第三方的观点。”IxaEETC-电子工程专辑

“第一方市场出现分化当然没什么,但你不能因此要求第三方也去分化。大家需要合作。写完代码就在所有的手机上跑起来,这是我们的目标,也是我们的优势所在。从CPU、GPU、NPU做部署,我们要让整个过程变得简单、便捷。”IxaEETC-电子工程专辑

生态的价值可以有多大?

到这里,Arm的态度已经十分明确了,即便在AI芯片市场,Arm算是个后来者,依然能够利用生态的优势来开辟局面。生态的力量在此可能仍然是强大的。IxaEETC-电子工程专辑

最后值得一提的是,很多人说IoT市场需求和应用碎片化,Arm的生态优势已经没有价值。RISC-V因此对Arm造成巨大威胁。Ian Smythe则表示,“这类型的竞争我们经历过很多。”“一方面,Arm有自己的ISG业务(物联网服务集团),有端到云的服务,我们有能力去理解边缘设备如何进行管理、控制和实施,包括做各种相关IoT边缘的内部分析——这都是Arm生态系统的组成部分,贯穿整个生态为你提供支持。”IxaEETC-电子工程专辑

20191104-arm-8.jpgIxaEETC-电子工程专辑

Arm的Pelion IoT平台,是去年Q3 Arm发布设备到数据IoT平台;这个平台产品涵盖了Arm早前收购具备连接管理能力的Stream和云数据管理平台的Treasure DataIxaEETC-电子工程专辑

“如果你想选择现成的芯片,我们生态中的的选择非常多样化,哪怕只是一些微小的需求差异,都能找到对应选择。如果你考虑自己做芯片,RISC-V的确取得了很大的关注,但一旦涉及到SoC设计,它和Arm需要面临的挑战是一样的,都很难,从RISC-V IP供应商进行授权可能也需要花钱。”IxaEETC-电子工程专辑

“Arm的生态系统在不断成长中的,我们有大量可选的CPU产品;我们有完整的工具链和生态;我们和EDA供应商有着很好的合作关系,做验证测试也会更便捷。就只说我们的自定义指令集支持,我们依然要确保其一致性、完整性,这是我们必须做到的。但RISC-V一方是无法保证这些的。”IxaEETC-电子工程专辑

“生态的价值,在于你可以做出选择(The power of ecosystem there is that the choices is available)。”IxaEETC-电子工程专辑

参考来源:IxaEETC-电子工程专辑
[1]Arm NN - Arm Developer(https://developer.arm.com/ip-products/processors/machine-learning/arm-nn)IxaEETC-电子工程专辑
[2]ARM Details "Project Trillium" Machine Learning Processor Architecture - AnandTech(https://www.anandtech.com/show/12791/arm-details-project-trillium-mlp-architecture)
IxaEETC-电子工程专辑

责编:Luffy LiuIxaEETC-电子工程专辑

本文为EET电子工程专辑 原创文章,禁止转载。请尊重知识产权,违者本司保留追究责任的权利。
黄烨锋
欧阳洋葱,编辑、上海记者,专注成像、移动与半导体,热爱理论技术研究。
您可能感兴趣的文章
  • AI芯片推论性能比拼,Nvidia称第一 继今年稍早之前发表了AI训练的性能测试基准后,MLPerf近期又针对AI推论性能公布了一份测试基准以及各家业者的跑分结果。
  • 地平线张永谦:AI在边缘侧落地背后的思考 “边缘侧智能设备大规模爆发的趋势,使数据成为如今AI芯片领域最大的挑战。”2019年11月7日,在由ASPENCORE《电子工程专辑》、《国际电子商情》和《电子技术设计》主办的“2019全球双峰会”上,地平线副总裁&AIOT芯片方案产品线总经理张永谦以“边缘AI芯片赋能行业,共建普惠AI时代”为题,介绍了地平线机器人在边缘AI芯片以及解决方案,以及地平线对AI在边缘侧落地背后的思考。
  • 轻量级AI可望“跨镜追踪”抓嫌犯 英国萨里大学(University of Surrey)开发一种新的轻量级人工智能(AI)技术,可重新辨识并匹配影片中的行人,并足以为边缘装置实现跨镜追踪(ReID)…
  • 全球第二大比特币矿机巨头欲赴美上市 近日,区块链迎来最强风口,趁着区块链的大潮,全球第二大比特币矿机厂商欲赴美上市,有望成为赴美上市的“区块链第一股”。作为全球第二大比特币矿机生产商,嘉楠耘智2017年比特币挖矿机总出货量约29.45万台,出货量占全球市场份额的20.9%,占按算力计算的全球市场份额的19.5%。
  • Micron Insight 2019亮点:从3D XPoint SSD到AI平台、安 美国时间10月24日,Micron Insight 大会在旧金山27号码头召开,本届大会重点关注智能化加速,了解如何在边缘设备中通过数据访问和分析速度来加速智能,从而丰富科学和医学领域的生活。
  • 『全球CEO峰会』重磅演讲者:AI之后,魏少军谈“半导体产 随着摩尔定律的放缓,前沿技术不再是人们关注的唯一焦点,创新正朝着创造差异化的方向转变。而“连接”,让一切可能变得可控。 ASPENCORE 第二届“全球CEO峰会”仍选址在全球创新指数最强的深圳举办(点击查看峰会介绍与报名),峰会将邀请世界各地行业领袖和创新巨擘汇集深圳,探讨新一轮技术冲击下最热门的技术话题,搜罗差异化的创新点,准确定义下一代电子产品。
相关推荐
    广告
    近期热点
    广告
    广告
    广告
    可能感兴趣的话题
    广告