广告

AI芯片推理性能比拼,Nvidia称第一

时间:2019-11-13 作者:Sally Ward-Foxton 阅读:
继今年稍早之前发表了AI训练的性能测试基准后,MLPerf近期又针对AI推理性能公布了一份测试基准以及各家业者的跑分结果。
广告

MLPerf的AI训练性能测试基准有来自5家公司的63个“参赛者”提供了跑分结果,而参与推理性能测试基准跑分并提供成绩的公司数量更多,共有来自14个组织的500组成绩,包括来自多家新创公司的数字,不过有几家知名的市场新秀显然缺席。

在经过严格条件限制以实现系统之间直接比较性能的封闭性赛程中,比分结果显示各个系统的性能分数达到5个量级(magnitude)的差异,而在预估功耗方面则横跨了3个量级。在开放性的赛程中,参赛者则能利用一系列的模型,包括较低精确度的实作。

Nvidia的商用装置在封闭赛程中的所有分组都获得了第一名,其他领先者包括数据中心分组的Habana Labs、Google与Intel;而在边缘装置的分组中,Nvidia则与Intel以及Qualcomm相互较劲。市场研究机构Moor Insights and Strategy分析师Karl Freund表示:“Nvidia是唯一拥有能在MLPerf所有项目进行性能测试之量产芯片、软件、可编程性以及人才的公司,而且他们几乎在所有项目都胜出。”

Freund接着指出:“GPU的可编程性让它们在未来的MLPerf测试结果中拥有独特定位…我认为这证明了Nvidia实力的广度,以及这些挑战者的利基性质。但众家挑战者会随着时间推移逐渐成熟,因此Nvidia会需要继续在软硬件技术上创新。”

Nvidia公布的图表展示了该公司对测试结果的诠释,他们在商用装置封闭赛程的所有4个情境中,将自己置于第一名位置。那些情境就是代表不同的使用案例,脱机(offline)与服务器情境则是针对数据中心推理的测试项目。其中脱机情境可能代表大量图片的脱机标记,并量测纯粹的处理量,服务器情境则代表来自不同使用者、在无法预料的时间内送出的多个要求,量测在一个固定时间内的处理量。

边缘推理情境则包括单一数据流(stream),例如针对手机应用程序中单一影像进行推理的时间;以及多数据流,也就是量测来自多个摄影机系统的多少个影像数据流能同时被推理。参与测试的公司能提供在上述四种情境中,针对选定机器学习模型执行影像分类、物体侦测以及语言翻译的测试结果。

商用装置在封闭赛程中的数据中心推理测试结果,以每个加速器为单位与Nvidia的分数进行比较。其中X代表未提交结果。


(来源:Nvidia)

“看数据中心推理的测试结果,Nvidia在包括服务器与脱机项目中的所有5个测试中都排名第一;”Nvidia加速运算产品管理总监Paresh Kharya表示:“我们的Turing GPU表现超越所有商用解决方案的产品。”他强调,Nvidia是唯一在数据中心与服务器(这个情境的困难度更高)分组中提供所有5项基准检验模型跑分结果的公司,其性能表现优于竞争对手。

在数据中心分组中与Nvidia成绩最接近的对手是以色列新创公司Habana Labs的Goya推理芯片;Moor Insights and Strategy的Freund表示:“Habana是唯一完全量产高性能芯片的挑战者,在下一轮可望包含功耗表现数据的MLPerf测试中应该会表现优良。”
Habana Labs在接受EE Times访问时指出,该测试成绩完全以性能为基础,功耗并不是一个量测标准,也非实用性(例如考虑采用被动冷却或水冷解决方案)与成本。Habana在开放性赛程中也展现了低延迟优势,比起封闭性赛程能更进一步降低延迟;此外该公司也提交了多数据流情境中的测试结果。

配备Goya推理芯片的Habana Labs PCIe卡。

20191113-101.jpg
(来源:Habana Labs)

在边缘推理测试中,Nvidia则在商用方案的封闭式赛程所有4个项目中胜出。Qualcomm的Snapdragon 855 SoC以及Intel的Xeon CPU在单数据流情境中紧随Nvidia,不过Qualcomm与Intel都没有提交较困难的多数据流情境测试结果。

商用装置在封闭赛程中的边缘推理测试结果,以每个加速器为单位与Nvidia的分数进行比较。其中X代表未提交结果。

20191113-102.jpg

(来源:Nvidia)

至于“预览版”(也就是还未正式上市的产品)系统分组的测试结果,则是让阿里巴巴旗下平头哥(T-Head)的含光(Hanguang)芯片与Intel的Nervana NNP-I、以色列业者Hailo的Hailo-8,以及美国业者Centaur Technologies的一款参考设计同台竞争。还有研发团队分组的测试结果,则有一家仍在隐身模式的韩国新创公司Furiosa AI名列其中。

编译:Judith Cheng   责编:Yvonne Geng

(参考原文:Benchmark Scores Reveal Who’s Winning the AI Inference Race,by Sally Ward-Foxton)

 

本文为EET电子工程专辑 原创文章,禁止转载。请尊重知识产权,违者本司保留追究责任的权利。
Sally Ward-Foxton
Sally Ward-Foxton是EE Times特派记者,她专注于EE Times美国版的AI技术和相关话题,以及EE Times欧洲版杂志中的欧洲企业报道。 Sally base在英国伦敦,她报道电子行业已有15年,曾为Electronic Design、ECN、Electronic Specifie撰写设计、电子元件类文章。 她拥有剑桥大学的电气和电子工程硕士学位。
  • 系统级芯片(SoC)的复杂设计选择:EDA和IP 在做系统级芯片(SoC)的设计规划时,需要考虑哪些主要因素?目前主流的SoC一般包括哪些功能模块或IP?有什么新的技术趋势值得关注?为SoC选择IP时主要基于什么标准或要求?如何实现差异化设计?当前SoC在设计验证方面遇到哪些挑战?有什么应对解决方案?AI在复杂的高性能SoC设计中能够发挥什么作用?未来设计趋势如何?
  • 地平线计划C轮融资总额超7亿美金,已完成C1轮融资 2020年12月22日,地平线公告已启动总额预计超过7亿美金的C轮融资,目前已完成由五源资本(原晨兴资本)、高瓴创投、今日资本联合领投的C1轮1.5亿美金融资,参与本轮融资的其他机构包括……
  • 系统级芯片(SoC)的复杂设计选择:片上网络(NoC) 什么是片上网络(NoC)?为什么系统级芯片(SoC)设计需要NoC?片上网络(NoC)相比传统的总线接口通信有什么优点和缺点?高性能的SoC设计在性能、功耗和尺寸方面面临哪些挑战? 5G、AI和自动驾驶等新兴应用对SoC设计提出了什么特别要求?
  • 智连大湾区,TE能提供哪些“智”与“连”的技术及服务? 今年是谋划“十四五”规划的关键之年,同时也正值深圳经济特区成立40周年,中国为应对国际形势的压力和全球疫情带来的影响,“新基建”的概念开始提出及其涉及范围逐步明确。在如此背景下,粤港澳大湾区(以下简称“大湾区”)作为我国开放程度最高、经济活力最强的市场之一,人工智能、大数据中心、5G基建等新项目在大湾区各大城市集群落地、全面开花。数字新基建已成为大湾区建设的新引擎。
  • 系统级芯片(SoC)的复杂设计选择:RISC-V处理器内核 在做系统级芯片(SoC)的设计规划时,需要考虑哪些主要因素?目前主流的SoC一般包括哪些功能模块或IP?有什么新的技术趋势值得关注?RISC-V与FPGA如何有机结合助力SoC设计?当前的SoC设计在性能、功耗和尺寸方面面临哪些挑战?有何解决方案?物联网和边缘计算等嵌入式系统对SoC设计提出了什么特别要求?
  • CMOS传感器在3D视觉、感测和度量中的应用 工厂已进入自动化工作,以提高产能和在产品查验和库存的方方面面节省时间和金钱。要优化这些因素,拥有视觉系统的机器需要更高速和以更佳性能工作。因应这些发展,2D视觉遇上了限制,使得3D视觉被广泛引进,以实施更高精度的质量检验,反向工程或物件量度任务。三角测量技术正在这些应用中获大量使用,鉴于三轴图像要求高分辨率,需要非常高速的的传感器。
广告
热门推荐
广告
广告
广告
EE直播间
在线研讨会
广告
广告
面包芯语
广告
向右滑动:上一篇 向左滑动:下一篇 我知道了