广告

边缘AI持续混战,如何以1/7面积和100倍性价比向NVIDIA发起挑战?

时间:2020-10-27 作者:邵乐峰 阅读:
InferX X1芯片是“AI边缘系统领域迄今为止性能最高的芯片”,可对目标检测与识别等各类神经网络模型进行加速,其应用范围包括机器人、工业自动化、医学成像、基因测序、银行安全、零售分析、自动驾驶、航天工程等等。与目前业内领先的NVIDIA Xavier 相比,InferX X1在处理 YOLOv3目标检测识别模型时的性能提高了30% 。
广告

在Gartner提供的新兴技术发展周期报告中,边缘AI(Edge AI)只不过是发展还不到5年时间的一个点,拥有巨大的光明前景。因此,为边缘应用打造AI芯片正成为众多半导体公司的“新宠”,从英伟达(NVIDIA) GPU到赛灵思(Xilinx)特定领域架构(DSA)处理器,再到莱迪思(Lattice)超低功耗FPGA;从内存处理器(PIM)技术(如Mythic、Syntiant、Gyrfalcon)到近内存运算(如Hailo),再到可编程逻辑(Flex Logix)和RISC-V内核(Esperanto、GreenWaves),可谓“百舸争流”。

Edge AI要“达到生产力成熟期”大约还需要2-5年的时间(来源:Gartner)

但Flex Logix联合创始人王成诚博士日前在接受《电子工程专辑》独家专访时表示,客户在意的其实并不是架构,而是性能、功耗和成本这三要素,所谓“最好的产品”,其实就是能够在最低的价位和功耗基础上满足吞吐量需求。他预测,未来几年内AI加速器领域会出现比较明显的洗牌过程,由于跨度比较大,这些公司不会全部都是直接竞争关系,但如果有公司被淘汰乃至消失不见,也不是什么令人感到意外的事情。

直接对标英伟达

他是在为公司最新推出的InferX X1芯片进行宣讲时做出上述论述的。InferX X1芯片被王成诚称作“AI边缘系统领域迄今为止性能最高的芯片”,但他认为有必要事先做出澄清的是,这里所指的“性能最高”,并非指绝对的算力,而是指在某一价位/某一市场中绝对是最高的。

NVIDIA Jetson Xavier处理器是InferX X1的主要竞争目标。从王成诚在今年Linley Processor Conference上展示的数据看,尽管与Xavier相比,InferX X1只有8.5TOPS的算力,但其乘积累加(MAC)利用率却高达70%,这意味着可使用较小面积和较低成本处理高清图像和较大模型。例如在处理YOLOv3目标检测识别模型时,InferX X1在batch=1的情况下,可以对1Megapixel图像达到25.4帧每秒(fps)的吞吐量,对2Megapixel高清图像达到12.7帧每秒(fps),性能相比Xavier提升了30%。如果处理其他多个用户模型方面,InferX X1的性能更是高达Xavier的10倍。

InferX X1与NVIDIA Jetson Xavier处理器性能对比(图片来源:Flex Logix)

即便与Tesla T4相比,X1在性能和效率上也不落下风。

(图片来源:Flex Logix)

但采用16nm制程工艺的InferX X1芯片面积仅为54mm2,是1美分硬币的1/5,远远小于Xavier芯片350mm2的面积,批量价格也只有Xavier NX的1/10,而且达到这样的高吞吐量只需要用到一个x32 LPDDR4X DRAM。

之所以强调YOLOv3模型,王成诚解释说是因为相比于其他各类目标检测与识别的神经网络模型,YOLOv3的准确率是最高的。如果将ResNet-50和YOLOv3进行对比就会发现,两者之间最大的区别还在于典型基准的图像大小:ResNet-50使用224×224像素(实际上无人使用该尺寸);而YOLOv3使用608×608,甚至1440×1440像素,属于高清处理,这对自动驾驶、机器人、银行安全及零售分析领域的客户来说十分重要。

以自动驾驶为例,未来,每辆车都将配有多个推理引擎,可以实时检测到行人、公共汽车和小轿车从而避开他们,而所有小细节只有在大尺寸图像(比如在YOLOv3)中才能被捕捉到。设想一下用肉眼看图像的情况,也是如此,我们在一张小图片上会错过很多细节,甚至还可能曲解图片。

上述示例中,对于使用ResNet-50的每张图像,需要20亿个MAC,但是对于YOLOv3,则需要超过2000亿个MAC,增加了100倍。很显然,YOLOv3的计算负载要大得多。但X1主要应用于AI边缘推理应用,而此类应用最强调超低延迟的即时响应,这是否意味着YOLOv3运行速度要慢100倍呢?

发起挑战的秘密

在XFLX可编程互联网络架构、可重配置张量处理器和重新设计的内存子系统面前,答案显然是否定的。

  • XFLX可编程互联网络架构

该架构属于Flex Logix的专有技术,此前被应用于嵌入式FPGA中,并在过去数年内被国内外多家知名公司所使用,包括Dialog半导体、波音、桑迪亚国家实验室、以及大唐电信旗下的辰芯科技。

“在准备设计AI芯片的时候,我们发现其实业内没有一个很出色的方案,能够将处理器、MAC、加法器、乘法器和内存有机的连接在一起,而且设计边缘神经网络推理芯片的一个难题是如何降低大量的数据交换及降低功耗,所以我们就创新性的将这一架构应用在X1中,并取得了不错的效果。”王成诚说。

因此,在运算一层网络的时候,设计人员利用可编程互连将X1的MAC根据该层网络的数据流(dataflow)来连接,相当于专为这一层运算配置了一颗ASIC芯片。在处理当前层级的同时,下一层神经网络模型的配置及权重可在后台从DRAM中被预加载(pre-load),每一次重配置只需要几微秒的时间,极大减少了由DRAM带宽限制所带来的计算的停顿。此外,Layer fusion功能还可通过将一个以上的配置文件进行合并来降低DRAM延时。

基于同样的原理,可编程互连也可与片上SRAM连接,将这一层的输出快速配置成下一层的输入,从而避免了大量的数据交换。所以InferX X1只需要一颗x32 DRAM就够了,从而将芯片设计得更小,大大降低了功耗和成本。

  • 一维张量处理器(1D TPU) 

每颗X1芯片中的可重配置张量处理器由64个1D TPU组成,而每个1D TPU包括64B输入张量、64 INT8 MACs、32 BF16 MACs和64Bx256B权重矩阵,每64个时钟周期可完成4096次乘加运算。 

TPU与SRAM间的数据通路竞争问题交由可编程互联网络架构加以解决,可以达到非常高的数据交互速度。eFPGA可编程逻辑则用于实现包括控制TPU运行的高性能状态机,以及各种运算符的控制逻辑。

面对不断衍生的诸如3D卷积等新型神经网络架构模型,王成诚表示,很多AI加速器芯片内部采用了ASIC架构,现有神经网络模型在这些固定架构上运行时性能非常高,但只要模型发生了变化,性能就会出现大幅下滑。究其原因,很大程度是因为神经网络模型中的某些层次对传统乘法器和加法器布局难以支持,编译器(Compiler)也无法对ASIC中固化的结构进行修改。

但对可编程逻辑来说,设计人员可以将多个TPU配置成串联或者并联结构,以实现多种不同的张量运算,并保持较高性能。InferX编译器可以将TensorFlow Lite或者ONNX的模型直接转换为可以在InferX X1上运行的程序。

  • 重新设计的内存子系统

Flex Logix公司首席执行官Geoff Tate此前曾撰文将MAC比喻为AI芯片的“引擎”,并称如果没有正确的燃料传输系统(内存和互联),引擎就会熄火。因此,为了让内存更接近MAC,从而缩短延迟时间,提高MAC分布式并行处理能力,Flex Logix采用了分布式的内存架构,也就是把MAC分成块,然后用本地化SRAM来分配这些块。

X1中使用了最少的内存资源以降低成本,包括LPDDR4x DRAM和总共14MB的SRAM,相比之下,Xavier则需要4-8个GDDR6 DRAM。也就是说,要达到同样的性能,Xavier需要X1 5倍的DRAM频宽才能实现。

“DRAM的类型选择是非常重要的一环。”王成诚说之所以选择LPDDR4,是考虑到它具有更宽的总线配置,可以从单个DRAM中获得更多的带宽。相比之下,高带宽内存(HBM)极其昂贵,对于成本预算严格的边缘应用不太适用;DRAM芯片不便宜,需要考虑PHY、I/O接口、封装等选项,而且对热非常敏感,对于在室外工作的汽车和监控摄像机来说,可能是个问题。因此,考虑到成本和散热问题,最好尽量少用DRAM。

InferX X1的批量生产芯片和配套软件将于2021年第二季度开始全面出货,用户样品及早期软件工具则计划于2021年第一季度开始对用户进行供货。

相关文章阅读:

边缘计算中的 AI 如何驱动5G和IoT

本文为EET电子工程专辑 原创文章,禁止转载。请尊重知识产权,违者本司保留追究责任的权利。
邵乐峰
ASPENCORE 中国区首席分析师。
  • 适合先进视频编解码应用的FPGA产品和技术 虽然ASIC的性能通常很高,但它只支持设计时设想的功能集,不能进行现场升级;CPU是最灵活且最易于设计的,但是其时钟频率已经难以提升,其性能大幅提升的时代已经结束;随着工作负载逐年增加,CPU已无法满足需求。FPGA在性能和灵活性之间提供了良好的平衡。由于需要大量的并行处理,因此视频编码、解码和图像处理算法都更适合于用FPGA来实现。
  • “可组合式”方案掀起现代数据中心革命 数据中心的工作负载始终处于动态变化中,如何在不进行硬件升级的前提下保持数据中心的可扩展性和敏捷性?赛灵思“可组合式数据中心”方案给出了有益的尝试。
  • FPGA厂商如何降低开发难度?基于应用的平台化策略成首选 Lattice继2019年公布sensAI,2020年公布mVision 1.0和Sentry 1.0之后,日前,mVision 2.0和Sentry 2.0版本也正式面世。
  • 由十年前的今天福岛核电站泄露想到的?(图文) 三月十四对于大多数人来说,是一个慵懒的周末,但是对于邻国日本来说,十年前的今天可是一场前所未有的天灾。福岛核电巨大灾难影响至今,不仅是核工业的发展,其背后更深层次是控制芯片和系统研发,那么我国核工业控制和专用芯片又发展的怎么样了呢?
  • FPGA在复杂多变的5G商业模式中迎来创新机遇 未来几年,5G小蜂窝、宏蜂窝以及毫米波的部署会更加普及,会更重视用户体验和对最终用户的功能提升。在这一大背景下,具备强大可扩展性的解决方案,将更具市场竞争优势。
  • 华邦HyperRAM技术助力高云半导体GoAI 2.0边缘计算方案 边缘机器学习推理已成为许多市场应用的主流,包括消费、工业和医疗等应用领域。国产FPGA厂商高云半导体推出的GoAI 2.0机器学习平台提供了SDK和加速器,可在FPGA上搭建卷积神经网络,执行边缘推理的机器学习。GoAI 2.0是一种功能全面的软硬件解决方案,专门为机器学习应用开发,应用场景包括智能门锁、智能音箱、声控装置和智能玩具等边缘计算应用。
  • 千亿级别的暴涨与暴跌的比特币为啥 比特币暴跌20%或有400亿美金资金爆仓,显卡行业也深受波及,而这背后一方面是政府的禁令频发,另一方面金融犯罪的案例被推到了台面上,再加持众多资本狂割韭菜使得整个市场乌烟瘴气。而纵观发展历史,速度快的CPU为何没有用武之地呢,本文来带你一探究竟。
  • EE快讯——华为2021第18届全球分析 2021年4月12日,华为在深圳举办了第18届华为全球分析师大会,会上华为徐文伟提出了未来10年九大技术挑战与研究方向;轮值董事长徐直军表示:6G比5G快50倍,将在2030年左右推出,同时表示要提升软件能力减少芯片依赖,对海思的态度是养得起,也会一直养着,对于业界一直猜测的麒麟9000芯片库存还有多少,徐直军表示:华为的库存可以支撑公司活得更长一点。另一方面,欧菲光的前途终于有了结果...
  • 紫光展锐:大破大立,做数字世界的生态 4月20日,以“构go”为主题的2021紫光展锐创见未来大会在线上举行。会上,展锐重磅发布了5G业务新品牌——唐古拉系列,推出了Cat.1bis新技术特性,并分享了创新业务AR领域的最新商用进展。此外,展锐重申了公司产业定位——数字世界的生态承载者,并公布了对消费电子业务和工业物联网领域的前瞻预见和战略规划。
  • 安谋中国发布全新“山海”S12解决 安谋中国今天发布面向 AIoT 系统的全栈安全解决方案“山海”S12,包含硬件加解密引擎、安全软件和安全服务三大部分,从芯片的安全 IP 层到云端安全应用和安全管理提供全链路的安全保护。“山海”S12可以广泛应用于智能手机、平板、智能电视及安防等行业,为多种安全解决方案如数字版权保护、AI 安全、身份认证等提供基础安全能力。
广告
热门推荐
广告
广告
广告
EE直播间
在线研讨会
广告
广告
广告
向右滑动:上一篇 向左滑动:下一篇 我知道了