广告

边缘AI持续混战,如何以1/7面积和100倍性价比向NVIDIA发起挑战?

时间:2020-10-27 作者:邵乐峰 阅读:
InferX X1芯片是“AI边缘系统领域迄今为止性能最高的芯片”,可对目标检测与识别等各类神经网络模型进行加速,其应用范围包括机器人、工业自动化、医学成像、基因测序、银行安全、零售分析、自动驾驶、航天工程等等。与目前业内领先的NVIDIA Xavier 相比,InferX X1在处理 YOLOv3目标检测识别模型时的性能提高了30% 。
广告
电子工程专辑 EE Times China -提供有关电子工程及电子设计的最新资讯和科技趋势

在Gartner提供的新兴技术发展周期报告中,边缘AI(Edge AI)只不过是发展还不到5年时间的一个点,拥有巨大的光明前景。因此,为边缘应用打造AI芯片正成为众多半导体公司的“新宠”,从英伟达(NVIDIA) GPU到赛灵思(Xilinx)特定领域架构(DSA)处理器,再到莱迪思(Lattice)超低功耗FPGA;从内存处理器(PIM)技术(如Mythic、Syntiant、Gyrfalcon)到近内存运算(如Hailo),再到可编程逻辑(Flex Logix)和RISC-V内核(Esperanto、GreenWaves),可谓“百舸争流”。

Edge AI要“达到生产力成熟期”大约还需要2-5年的时间(来源:Gartner)

但Flex Logix联合创始人王成诚博士日前在接受《电子工程专辑》独家专访时表示,客户在意的其实并不是架构,而是性能、功耗和成本这三要素,所谓“最好的产品”,其实就是能够在最低的价位和功耗基础上满足吞吐量需求。他预测,未来几年内AI加速器领域会出现比较明显的洗牌过程,由于跨度比较大,这些公司不会全部都是直接竞争关系,但如果有公司被淘汰乃至消失不见,也不是什么令人感到意外的事情。

直接对标英伟达

他是在为公司最新推出的InferX X1芯片进行宣讲时做出上述论述的。InferX X1芯片被王成诚称作“AI边缘系统领域迄今为止性能最高的芯片”,但他认为有必要事先做出澄清的是,这里所指的“性能最高”,并非指绝对的算力,而是指在某一价位/某一市场中绝对是最高的。

NVIDIA Jetson Xavier处理器是InferX X1的主要竞争目标。从王成诚在今年Linley Processor Conference上展示的数据看,尽管与Xavier相比,InferX X1只有8.5TOPS的算力,但其乘积累加(MAC)利用率却高达70%,这意味着可使用较小面积和较低成本处理高清图像和较大模型。例如在处理YOLOv3目标检测识别模型时,InferX X1在batch=1的情况下,可以对1Megapixel图像达到25.4帧每秒(fps)的吞吐量,对2Megapixel高清图像达到12.7帧每秒(fps),性能相比Xavier提升了30%。如果处理其他多个用户模型方面,InferX X1的性能更是高达Xavier的10倍。

InferX X1与NVIDIA Jetson Xavier处理器性能对比(图片来源:Flex Logix)

即便与Tesla T4相比,X1在性能和效率上也不落下风。

(图片来源:Flex Logix)

但采用16nm制程工艺的InferX X1芯片面积仅为54mm2,是1美分硬币的1/5,远远小于Xavier芯片350mm2的面积,批量价格也只有Xavier NX的1/10,而且达到这样的高吞吐量只需要用到一个x32 LPDDR4X DRAM。

之所以强调YOLOv3模型,王成诚解释说是因为相比于其他各类目标检测与识别的神经网络模型,YOLOv3的准确率是最高的。如果将ResNet-50和YOLOv3进行对比就会发现,两者之间最大的区别还在于典型基准的图像大小:ResNet-50使用224×224像素(实际上无人使用该尺寸);而YOLOv3使用608×608,甚至1440×1440像素,属于高清处理,这对自动驾驶、机器人、银行安全及零售分析领域的客户来说十分重要。

以自动驾驶为例,未来,每辆车都将配有多个推理引擎,可以实时检测到行人、公共汽车和小轿车从而避开他们,而所有小细节只有在大尺寸图像(比如在YOLOv3)中才能被捕捉到。设想一下用肉眼看图像的情况,也是如此,我们在一张小图片上会错过很多细节,甚至还可能曲解图片。

上述示例中,对于使用ResNet-50的每张图像,需要20亿个MAC,但是对于YOLOv3,则需要超过2000亿个MAC,增加了100倍。很显然,YOLOv3的计算负载要大得多。但X1主要应用于AI边缘推理应用,而此类应用最强调超低延迟的即时响应,这是否意味着YOLOv3运行速度要慢100倍呢?

发起挑战的秘密

在XFLX可编程互联网络架构、可重配置张量处理器和重新设计的内存子系统面前,答案显然是否定的。

  • XFLX可编程互联网络架构

该架构属于Flex Logix的专有技术,此前被应用于嵌入式FPGA中,并在过去数年内被国内外多家知名公司所使用,包括Dialog半导体、波音、桑迪亚国家实验室、以及大唐电信旗下的辰芯科技。

“在准备设计AI芯片的时候,我们发现其实业内没有一个很出色的方案,能够将处理器、MAC、加法器、乘法器和内存有机的连接在一起,而且设计边缘神经网络推理芯片的一个难题是如何降低大量的数据交换及降低功耗,所以我们就创新性的将这一架构应用在X1中,并取得了不错的效果。”王成诚说。

因此,在运算一层网络的时候,设计人员利用可编程互连将X1的MAC根据该层网络的数据流(dataflow)来连接,相当于专为这一层运算配置了一颗ASIC芯片。在处理当前层级的同时,下一层神经网络模型的配置及权重可在后台从DRAM中被预加载(pre-load),每一次重配置只需要几微秒的时间,极大减少了由DRAM带宽限制所带来的计算的停顿。此外,Layer fusion功能还可通过将一个以上的配置文件进行合并来降低DRAM延时。

基于同样的原理,可编程互连也可与片上SRAM连接,将这一层的输出快速配置成下一层的输入,从而避免了大量的数据交换。所以InferX X1只需要一颗x32 DRAM就够了,从而将芯片设计得更小,大大降低了功耗和成本。

  • 一维张量处理器(1D TPU) 

每颗X1芯片中的可重配置张量处理器由64个1D TPU组成,而每个1D TPU包括64B输入张量、64 INT8 MACs、32 BF16 MACs和64Bx256B权重矩阵,每64个时钟周期可完成4096次乘加运算。 

TPU与SRAM间的数据通路竞争问题交由可编程互联网络架构加以解决,可以达到非常高的数据交互速度。eFPGA可编程逻辑则用于实现包括控制TPU运行的高性能状态机,以及各种运算符的控制逻辑。

面对不断衍生的诸如3D卷积等新型神经网络架构模型,王成诚表示,很多AI加速器芯片内部采用了ASIC架构,现有神经网络模型在这些固定架构上运行时性能非常高,但只要模型发生了变化,性能就会出现大幅下滑。究其原因,很大程度是因为神经网络模型中的某些层次对传统乘法器和加法器布局难以支持,编译器(Compiler)也无法对ASIC中固化的结构进行修改。

但对可编程逻辑来说,设计人员可以将多个TPU配置成串联或者并联结构,以实现多种不同的张量运算,并保持较高性能。InferX编译器可以将TensorFlow Lite或者ONNX的模型直接转换为可以在InferX X1上运行的程序。

  • 重新设计的内存子系统

Flex Logix公司首席执行官Geoff Tate此前曾撰文将MAC比喻为AI芯片的“引擎”,并称如果没有正确的燃料传输系统(内存和互联),引擎就会熄火。因此,为了让内存更接近MAC,从而缩短延迟时间,提高MAC分布式并行处理能力,Flex Logix采用了分布式的内存架构,也就是把MAC分成块,然后用本地化SRAM来分配这些块。

X1中使用了最少的内存资源以降低成本,包括LPDDR4x DRAM和总共14MB的SRAM,相比之下,Xavier则需要4-8个GDDR6 DRAM。也就是说,要达到同样的性能,Xavier需要X1 5倍的DRAM频宽才能实现。

“DRAM的类型选择是非常重要的一环。”王成诚说之所以选择LPDDR4,是考虑到它具有更宽的总线配置,可以从单个DRAM中获得更多的带宽。相比之下,高带宽内存(HBM)极其昂贵,对于成本预算严格的边缘应用不太适用;DRAM芯片不便宜,需要考虑PHY、I/O接口、封装等选项,而且对热非常敏感,对于在室外工作的汽车和监控摄像机来说,可能是个问题。因此,考虑到成本和散热问题,最好尽量少用DRAM。

InferX X1的批量生产芯片和配套软件将于2021年第二季度开始全面出货,用户样品及早期软件工具则计划于2021年第一季度开始对用户进行供货。

相关文章阅读:

边缘计算中的 AI 如何驱动5G和IoT

电子工程专辑 EE Times China -提供有关电子工程及电子设计的最新资讯和科技趋势
本文为EET电子工程专辑 原创文章,禁止转载。请尊重知识产权,违者本司保留追究责任的权利。
邵乐峰
ASPENCORE 中国区首席分析师。
  • 人工智能的演进需要高适应性的AI推理平台 随着模型增大和结构上变得更加复杂,FPGA正成为一种越来越具吸引力的基础器件来构建高效、低延迟AI推理解决方案,而这要归功于其对多种数值数据类型和数据导向功能的支持。但是,仅仅将传统的FPGA应用于机器学习中是远远不够的。机器学习以数据为中心的特性需要一种平衡的架构,以确保性能不受人为限制。
  • AMD收购赛灵思计划接连获欧盟与英国批准 AMD以350亿美元收购赛灵思(Xilinx)的计划获得了欧盟的无条件批准。AMD此前于5月底向欧盟提交了收购协议,提出到获得批准仅用时一个多月。不过,这笔交易仍需等待中国监管部门的正式批准。
  • EDA三巨头的仿真验证之路 与以往比拼硬件性能高低和种类不同的是,如今要确保芯片开发成功,确保市场可以接受,必须要拥有强大的软件运行性能,甚至在某种程度上可以认为,“软件性能决定了半导体的成功”。这意味着,在芯片开发过程中,需要使用软件工作负载和基准来验证功耗和性能,而如何能够在仿真和验证过程中同时兼顾软硬件,正成为EDA厂商近期关注的重点。
  • 高云半导体被移出涉军名单后声明:向美国联邦法院申请撤 6月26日,高云半导体在其官方微信公众号上发布撤诉声明,表示:在我方律师的要求下,得到了美国司法部的确认,高云半导体已不在美国政府任何涉军名单之中,并且确认美国国防部已经在其官网就相关内容做了更正……
  • 基于FPGA的SmartNIC技术及其在数据中心的应用 今天的服务器往往把 30% 的 CPU 周期用在管理网络上。即相当于每三部生产服务器中就有一部用于组网。SmartNIC 支持系统架构师将高性能计算资源部署在服务器的边缘,也就是网络上。然后 SmartNIC就能用于保护服务器,进而保护企业,同时有力地从成本高昂得多的服务器 CPU 上卸载任务。
  • 英特尔人事大变动,新设软件及图形芯片两大部门瞄准英伟 6月22日, 英特尔在其官网宣布将重组数据平台集团 (DPG),创建两个新的业务部门,分别是加速计算系统和图形部门(AXG),以及软件和先进技术部门。同时现任高管Sandra Rivera以及Raja Koduri将获得提拔、担任更重要职务。另外,科技行业资深人士Nick McKeown以及格Greg Lavender将加盟英特尔高管团队。在英特尔工作了26年的老兵、曾经的CEO候选人,DPG前执行副总裁兼总经理Navin Shenoy则将在7月6日离职……
  • 新款iPad Pro 2021成最受欢迎的 由于采用性能相对强大的M1处理器和mini-LED屏幕以及更多的创新,新款iPad Pro 2021已经成为消费者心目中最受欢迎。然而,iPad 2却已经在全球范围内被列入“复古和过时”的名单中。
  • 三星折叠屏手机Galaxy Z Fold 3 目前来看,折叠屏新机作为一种新的生产力工具,逐渐成为高端/平板的一种趋势,有报料称三星的Galaxy Z Fold 3发布时间或为7月,并且会引入新手势操控。

  •  Cirrus Logic宣布同意收购Lion S Cirrus Logic近日宣布已达成协议,以3.35亿美元现金收购位于美国加利福尼亚的Lion Semiconductor。此次收购为智能手机、笔记本电脑和其他设备的电源应用带来了独特的知识产权和产品,并加速了公司高性能混合信号业务的增长。预计 Lion Semiconductor将立即增加 GAAP 和非 GAAP 每股收益,从交易完成到 2022 财年结束之间贡献约 6000 万美元的收入。
  • 2021国产IP和定制芯片生态大会成功 7月6日,2021国产IP和定制芯片生态大会在上海盛大召开,本次大会由中国高端IP和芯片定制企业芯动科技主办,是国内首个聚焦IP技术和产品合作的行业生态大会,适应了产业链上下游对合作共赢的企盼,有力助推国产自主化风口……
  • 晶体管发明与诞生及发展历程详解 1947年12月23日,第一个基于锗半导体的具有放大功能的点接触式晶体管面世,标志着现代半导体产业的诞生和信息时代正式开启。点接触式晶体管:把间距为50 μm的两个金电极压在锗半导体上,微小的电信号由
  • 【CMR产业联盟】2021四项工业应用移动机器人团体标准完成立项 2021四项团体标准正按照时间计划表进行工作,计划在2021年12月进行发布。 文|秘书处 银凤自2019年6月CMR产业联盟标准管理委员会成立以来,标委会对移动机器人产业标准制定
  • 刚过去的一百天里,这 20 家中国公司成了独角兽 2021年Q2 中国有20家企业融资后估值达到10亿美金意思。来源 | IT桔子作者 |  IT桔子IT 桔子作为新经济创投数据库,持续追踪中国独角兽公司的出现与发展。我
  • 软银的全球移动机器人版图 从工业到商用,国内外移动机器人企业备受软银关注;停产Pepper,出售波士顿动力,软银缩减商业化能力弱的机器人业务。 文|张蔓今年5月,软银领投了优艾智合新一轮近亿人民币融资,但这也只是软银
  • Broadcom(博通)双收双发(2T2R)SDIO接口WiFi模块 IT6356 可替代正基的AP6356S/AP6398S模块IT6356 WiFi模组简介2T2R WiFi模块:此模块为 2.4G + 5G 双频道,支持802.11a/b/g/n/AC,支持蓝牙
  • 一个“言语粗俗”的李想,如何撑起理想的高端化? 不利于理想汽车高端化发展的定位。文 | 李平来源 | 砺石商业评论“造谣我们用水银的人和媒体,祝愿你们血液里流动着水银,脑子里装满了水银!” 一场突如其来的“水银门”事件,再次让理想汽车与其
  • 怎么选择一款示波器?核心指标 示波器(英语:oscilloscope)是一种能够显示电压信号动态波形的电子测量仪器。它能够将时变的电压信号,转换为时间域上的曲线,原来不可见的电气信号,就此转换为在二维平面上直观可见光信号,因此能够
  • 漫画描述数字电路之时序电路 1什么是时序电路?组合电路是根据当前输入信号的组合来决定输出电平的电路,换言之,就是现在的输出不会被过去的输入所左右,也可以说成是,过去的输入状态对现在的输出状态没有影响的电路。时序电路和组合电路不同
  • 苹果、脸书入局泡沫市场,元宇宙是AR/VR的救星吗? 苹果六年憋不出个产品,Facebook卖一台亏一台,就这还能一年融资224亿的市场,别再让人失望了啊喂!来源:硅兔赛跑(ID: sv_race)作者|Eric编辑 | 梓 首图来源:网络在经
  • B站牵手阿里入股如涵,UP主里要诞生下一个李佳琦? 如涵喜提阿里B站联手入股,直播带货涌入二次元能搅起多大的浪?文 | 美股研究社B站的UP主们可能要做好直播带货的准备了。来自企查查的信息显示,从纳斯达克退市两个多月的“网红第一股”如涵文化近期新增了以
广告
热门推荐
广告
广告
广告
EE直播间
在线研讨会
广告
广告
广告
向右滑动:上一篇 向左滑动:下一篇 我知道了