AI(人工智能)已经是未来十年甚至是数十年科学和科技界最重要的发展领域,未来技术的进步也将在AI的不断进化中快速提升。在AI领域的软件模型算法已经相对成熟(当然还在不断的优化、改进和发展)的当下,对硬件的考验与要求越来越高。以往,AI芯片级硬件主要被NVIDIA的 A100主导称王,现在这一局面逐渐被打破。6月底, MLCommons公布的MLPerf v2.0 训练结果显示,Graphcore的Bow Pod系列和Intel的HLS-Gaudi2的性能已经比NVIDIA的DGX-A100快了超过30%。

AI(人工智能)已经是未来十年甚至是数十年科学和科技界最重要的发展领域,未来技术的进步也将在AI的不断进化中快速提升。在AI领域的软件模型算法已经相对成熟(当然还在不断的优化、改进和发展)的当下,对硬件的考验与要求越来越高。以往,AI芯片级硬件主要被NVIDIA的A100主导称王,现在这一局面逐渐被打破。6月底,MLCommons公布的MLPerf v2.0 训练结果显示,Graphcore的Bow Pod系列和Intel的HLS-Gaudi2的性能已经比NVIDIA的DGX-A100快了超过30%。

MLPerf v2.0 Result,来源:MLCommons,2022-6-29,整理 by @Challey

MLPerf竞赛由图灵奖得主大卫·帕特森(David Patterson)联合谷歌、斯坦福、哈佛大学等单位共同成立,是国际上最有影响力的基准测试之一。在AI领域,主要模型有ResNet(深度残差网络)和BERT等。ResNet的提出是CNN(卷积神经网络)图像史上的一件里程碑事件,BERT是史上最强的NLP模型之一,但却也最耗时间。

下面主要针对这两种模型对Graphcore、Intel、NVIDIA的对应硬件的性能进行综合比较,本文将主要对Graphcore Bow Pod 与NVIDIA A100的性能进行分析。需要详细了解AI模型算法可以关注我们或者联系作者(微信同名)。

三大AI硬件性能比较

先看具体数据:

图表分析如下:

完成ResNet-50模型的运算,

NVIDIA的A100耗时28.679分;

Graphcore的Bow Pod16耗时19.635分,相比A100快了31.53%;

Intel的Habana Gaudi2耗时18.362分,比A100快了35.97%,比Graphcore的Bow Pod16稍快。

完成BERT模型的运算,

NVIDIA的A100耗时24.185分;

Graphcore的Bow Pod16耗时20.654分,相比A100快了14.60%;

Intel的Habana Gaudi2耗时17.209分,比A100快了28.84%。

在以上两种模型运算中,Intel最快,NVIDIA最慢。

如果用大尺度计算平台,比如8台DGX-A100和Bow Pod256相比,性能对比约为6x比10x,而Bow Pod的价格远远低于DGX-A100,甚至低到只有A100的1/8。

来源:Graphcore

Intel HLS-Gaudi2在本次MLPerf v2.0测试中提交的性能表现不错,但目前还未公布价格,但按照Intel以往的策略,比A100稍微便宜,比Graphcore要贵(较多)。

因此,从性价比来看,Graphcore是最好的,相对A100,无论是性能还是价格都更优

在当前科技行业,一个AI应用模型的训练费用动辄数百万甚至数千万,性价比显得尤为重要。下面,我们主要分析Graphcore的Bow Pod系列硬件性能出众的原因,以及其生态发展情况。

性能超过30%的原因分析

为什么Graphcore的硬件在这种能够标称AI运算能力的测试中胜出,甚至比A100超过30%?笔者了解到,主要有以下三个方面:

3D芯片封装技术

2022年3月,Graphcore发布了一款IPU产品Bow,采用台积电7纳米的3D封装技术。这款处理器将计算机训练神经网络的速度提升40%,同时能耗比提升了16%。

能够有如此大的性能的全面提升,主要得益于台积电的3D WoW硅晶圆堆叠技术。

在台积电3D封装技术的加持下,Bow IPU单个封装中的晶体管数量达到了前所未有的新高度:超过600亿。

官方介绍称,Bow IPU的变化主要体现在这颗芯片采用3D封装,晶体管的规模有所增加,算力和吞吐量均得到提升,Bow每秒可以执行350万亿flop的混合精度AI运算,是上一代产品的1.4倍,吞吐量从47.5TB提高到了65TB。

Graphcore首席技术官和联合创始人Simon Knowles将其称为当今世界上性能最高的AI处理器。

软件优化

在软件上,我们发现Graphcore进行了很多优化,在通信库、内存、编译器等方面进行了非常多的性能提升,使得整个local batch size有了很大的提升,整个吞吐量在软件的优化下,大概实现了1.2-1.3倍。

模型优化

同时,在模型层面Graphcore对整个训练过程进行了一些优化。比如在训练过程中有一些训练迭代,迭代之后要做验证来看精度是多少,这个验证过程不会提高训练精度,但会消耗训练资源,Graphcore优化了验证的过程,提高了验证效率,从而使得它的计算效率提高了。

芯片3D封装技术,软件和模型的优化,使得Graphcore的Bow Pod的性能比NVIDIA的A100提高了超过30%。

基于芯片硬件底层和AI上层架构的生态

在此次提交的测试中,我们发现Graphcore与百度同时提交了基于Bow Pod的硬件测试。Graphcore与百度飞桨联合提交的结果显示性能也一样非常出众。

Graphcore采用的是其自研框架PopART,这是一个基于芯片所构造的高效的训练推理引擎。而百度采用的是百度飞桨架构。

百度飞桨使用Bow Pod16和Bow Pod64进行了BERT在封闭分区的提交,结果与Graphcore使用PopART进行提交的结果几乎一致。

数据来源:Graphcore和MLCommons官方

这说明了Graphcore的软件栈非常成熟,能够快速对接新的AI框架。另一方面,也说明百度飞桨的框架非常高效,没有任何性能侵入式的设计(性能损失)。

延展开来,也体现了Graphcore在其基于芯片硬件底层和上层AI架构方面的良好生态。特别是国内与百度飞桨基于芯片硬件和架构及模型的深入合作。

Graphcore的PopART架构

PopART是Graphcore自研的训练推理框架,它是非常底层的一个AI框架。依托于PopART,可以往上支持不同的训练框架,譬如PyTorch、百度飞桨,以及其他未来的一些AI框架等等。

“比起直接使用PopART,我们更希望让其他框架在IR层和PopART进行对接,它是一个更底层的框架。”Graphcore中国工程副总裁、AI算法科学家金琛曾这样表示。

百度飞桨架构

在国内,AI研发最早、技术出众的当属百度。百度在深度学习技术领域中,是比较早地应用该技术的企业,据报道,2012年百度便已经把深度学习技术用于百度内部的业务,像我们经常用到的百度搜索、百度机器翻译等等,在2012年前后,就已经进行了数据同步。基于百度内部自研的需要,百度在2014年前后开始在自研社区搭建框架,并且在2016年把这个框架进行开源,这就是百度飞桨。

2017年前后,百度在发改委的支持下,成立了目前国内唯一的深度学习技术及应用国家工程实验室,2020年,升级为深度学习技术及应用国家工程研究中心。

经过几年的推广,目前百度飞桨已经进入相对稳定的发展节奏,每2-3年发布一个大版本,半年发布一个小版本。

百度飞桨架构

百度飞桨整个产品栈,最底层是核心框架,是用来实现AI应用开发核心的开发训练以及部署功能的底层核心框架。除了框架要做的动态图、动静转换等高性能工作之外,在硬件合作方面,目前在全球的三大框架内,百度飞桨是唯一一个在积极地接收各家厂商代码的框架,并且建立完备的CI和CE的技术栈,来确保所有硬件合作伙伴的代码能跟着百度飞桨的主干代码进行升级,TensorFlow和PyTorch目前是只有一条A类型代码。

除了底层的核心框架以外,百度飞桨作为一个深耕产业级应用的平台,在上层的技术模型库和以模型为特色的一些领域的端到端开发套件上,采取了和其他框架不太一样的发展路线。除了经典的深度学习应用工具以外,在强化学习、图神经网络,包括目前受到很多关注的AI for Science等方向,百度也有很多的开源工具提供给科研以及企业内的开发者使用。

基于百度希望通过和硬件合作伙伴一起推动AI软件技术栈的升级的思路,Graphcore与百度达成深度合作,达到了性能几乎无损失的AI软硬件结合。

Graphcore与百度飞桨的深度合作

Graphcore与百度飞桨的合作主要有两个方面。

第一,在整个硬件适配的过程中,Graphcore与百度相互合作和启发,形成了很多新的思路,下图展示了百度飞桨对接硬件厂商的适配统一方案。

百度早期的方案主要是进行类似算子开发、映射的工作,主要对接包括像NVIDIA的CUDA或者AMD的ROCm这样的一些软件栈进行。由于这几年各类型的硬件厂商非常多,每个厂商采用不同的创新的软件栈来不断提升整个软件栈的开发效率以及性能,所以百度飞桨也在不断地更新,或者增加百度与硬件厂商对接的技术方案,包括已有的算子开发方案、深度学习编译器方案、神经网络格式方案。

Graphcore在与百度飞桨的合作过程中,提出了一个新的思路,就是以子图或者整图的方式,硬件厂商做高效率对接。

最终的效果通过这次的MLPerf v2.0结果可以看到,无论是基于PopART的成绩还是基于百度飞桨的成绩,性能一致度非常高。在得到这个成果之前,百度飞桨花了半年多的时间在对框架进行改造,以整图的方式和厂商更好地对接,Graphcore也是首家在训练场景中和百度对接的硬件厂商,从结果看整个效果很好。

第二,百度本次也打开了在全球范围内首次双方共同提交的先例,这个过程中有很多技术上的合作,也在MLPerf的规则内收获了一些来自MLPerf整个组织的官方认可。

“这个过程中也有非常多的不确定性以及挑战。在与Graphcore合作的整个过程中,我们觉得,无论是Graphcore本地的工程、营销团队,还是国际团队,都非常崇尚技术,非常开放,并且抱有一个愿意紧密合作的态度,所以我们以很高的效率,大概一个季度多一点的时间就完成了整体的联合提交。”百度飞桨产品团队负责人赵乔表示。

“从2020年的百度飞桨的早期硬件生态圈,一直到2022年的硬件生态共创计划,Graphcore一直是百度非常重要的硬件厂商合作伙伴。目前我们和Graphcore在AI Ecosystem的共创方面还有很多新的方向。以技术为核心,百度飞桨会跟着Graphcore新的技术创新,在硬件的适配等方面不断提供一些共创的新思路,我们也会把核心技术的创新转变在产品化方面,无论是百度飞桨的软件栈,还是Graphcore的软件栈,或者是在Graphcore的模型花园里为开发者提供一些更偏应用层面的开发工具,我们将基于这些内容在生态方面开展合作,并在百度的内部以及国内其他的行业,落地产业开展真实应用。此外,我们与Graphcore也计划在AI Studio上后续开设Graphcore的硬件应用专区,基于这个平台更好地共同拓展与国内开发者,甚至国际开发者合作的边界,繁荣整个AI开发者社区。”赵乔曾这样高度肯定与Graphcore的合作。

结语

当前科技行业,一个AI应用模型的训练费用动辄数百万甚至数千万,而未来科技的发展速度也越来越依赖AI技术对计算和分析的加速,同样的模型,花更少的成本以更快的速度完成训练和计算显得非常重要,因此,AI硬件的性价比显得尤为重要。

同时,基于芯片和硬件底层和上层应用的生态完善也将成为未来AI应用致胜的关键一环。

如Graphcore、Intel一样,越来越多的芯片和硬件厂商已经或将逐渐超越以往NVIDIA A100这个曾经的王者。

下一篇,我们将对Intel HLS-Gaudi2与NVIDIA A100的性能进行PK分析,感兴趣者可以关注我们或者联系作者。

8月16-17日,#IIC Shanghai 2022将在上海国际会议中心举行!

聚焦#IC 设计、SoC设计、#碳中和 、元宇宙/AR/VR、物联网、新能源汽车和自动驾驶、智能家居/家电、新能源发电与传输、汽车电动化、第三代半导体、东数西算等行业热点。

会议上有来自安谋科技、ADI、Cadence、英飞凌、纳芯微、极海、沐曦、思特威、合见工软、智芯微、京东方、Imagination、PI等国内外领先厂商的100多位重磅嘉宾及行业先锋在大会上发表创新演讲。

现场惊喜好礼等你来 ~席位有限,立即报名请戳:https://aspencore.mike-x.com/ViZFZN5

责编:Challey
本文为EET电子工程专辑原创文章,禁止转载。请尊重知识产权,违者本司保留追究责任的权利。
阅读全文,请先
您可能感兴趣
功耗已成为制约集成电路发展的重要瓶颈。亚阈值技术通过将芯片工作电压降低到晶体管的阈值电压附近,可大幅降低数字系统的功耗。中科院微电子所感知中心低功耗智能技术与微系统团队研发出nW级高精度上电复位电路,有效拓宽了该上电复位电路的应用领域。
随着每一代芯片的缩小迭代都需要更长的时间和更高的成本,传统摩尔定律在2D缩放领域的步伐正在放缓,新的设计和制造方式的需求也在与日俱增。在此背景下,应运而生一种新趋势,即超越摩尔定律、降低对先进工艺节点需求的3D堆叠异构混合集成技术,为市场展现了其令人愉悦的承诺和魅力。
这项研究的一个关键挑战是将所有光学功能集成到一个可“插入”现有基础设施的设备上。研究团队提出的解决方案是:在芯片制造后对其进行校准,也就是使用集成参考路径而非外部设备对芯片进行校准,这提供了“拨号上网”所需的所有设置,以及想要的开关功能或光谱响应。
本月初,瑞萨电子宣布收购一家嵌入式AI解决方案供应商Reality Analytics, Inc(Reality AI)。虽说对瑞萨而言,收购属于常规操作,但这应该是瑞萨首次执行以AI技术为明确目标的收购操作。瑞萨是在边缘AI技术上行动相对比较晚的芯片厂商。对瑞萨电子的AI技术布局,及其对该市场的展望做观察,也有利于我们进一步理解该市场的发展现状和未来的可能性。
中科院微电子所重点实验室科研团队在40nm 256Kb RRAM 芯片上实现了图神经网络小样本学习的功能验证。
人工智能和机器学习正在各行各业如火如荼地取得快速进展,业界为推动进展所做的技术努力和解决方案也层出不穷。作为一种新趋势,本文介绍的SSD控制器解决方案,内置人工智能和机器学习引擎,再加上低功耗内存计算解决方案,将作为新助力,应对人工智能面临的各项挑战。
由于采用性能相对强大的M1处理器和mini-LED屏幕以及更多的创新,新款iPad Pro 2021已经成为消费者心目中最受欢迎。然而,iPad 2却已经在全球范围内被列入“复古和过时”的名单中。
目前来看,折叠屏新机作为一种新的生产力工具,逐渐成为高端/平板的一种趋势,有报料称三星的Galaxy Z Fold 3发布时间或为7月,并且会引入新手势操控。

智能手机是目前CIS产品最大的应用市场,其成像系统始终在进行强劲升级。据Counterpoint Research预测,未来每部智能手机的CMOS图像传感器(CIS)含量将平均扩大至4.1。同时更强大的芯片组、成像性能的突破以及软硬件的进步等多因素的综合作用,将不断为手机市场的消费者提供更好的成像体验。
2022年7月18日和19日,人民日报客户端和新华社新华网新华号、羊城晚报、凤凰网等主流媒体,先后转发了宋仕强先生的原创文章《华强北研究》。人民日报客户端文章名称为《宋仕强
电子万花筒平台核心服务 中国最活跃的射频微波天线雷达微信技术群电子猎头:帮助电子工程师实现人生价值! 电子元器件:价格比您现有供应商最少降低10%射频微波天线新产品新技术发布平台:让更多优秀的国产射频
7月26日,瑞典林雪平大学官网宣布,他们衍生的氮化镓公司Swegan已成功获得1.25亿瑞典克朗(约8216万元人民币)的投资,资金将用于扩大员工数量(目前公司约有20名员工),并建设新的生产线。##
01前言:PC电源知多少个人PC所采用的电源都是基于一种名为“开关模式”的技术,所以我们经常会将个人PC电源称之为——开关电源 (Switching Mode Power Supplies,简称SMP
    关注、星标公众号,直达精彩内容文章出处:Qt小罗整理:李肖遥1 需求描述实现USB设备的热插拔状态检测;可识别USB设备信息,例如PID、VID、设备序列号等。几年前在CSDN上分享过,被CS
客户需要轻便、紧凑、强大的适配器为他们所有的重要设备快速充电。在OEM原厂和非原厂供应商竞相为电动工具、电动自行车和移动设备推出最快、最小、最通用的USB PD充电器的背景下,工程师必须掌握关键的优势
--关注回复“SOA”--↓↓领取:面向智能车辆开发的开放性SOA方案↓↓日前,东风裕隆管理人发布招商公告,根据重整程序相关规定进行公开招商,并对意向投资人列出了7项基本要求,其中明确“投资项目以新能
简 介: 本文给出了第十七届全国大学生智能车竞赛华南赛区比赛各个组别的成绩和相应的统计分析。关键词: 全国大学生智能车竞赛,华南赛区,成绩01 各组别成绩一、摄像头四轮序号赛点名称学校名称队伍名称计时
▲ 点击上方 关注STM32 2022 STM32 线上技术周说起嵌入式技术,STM32可以说是开发者心目中一个响当当的品牌。经过多年发展,意法半导体已成为全球通用MCU厂商。如今的STM32家族包含
随着科技迭代更新速度加快,绿色经济和智能化新概念已被广为所知,越来越多的电动汽车和智能产品已出现在人们的日常生活中,这也非常考验厂商的研发速度,在研发过程中,锂离子电池管理系统(BMS)往往是项目的核
01 各组别成绩电磁四轮专科序号学校名称队伍名称最好成绩次好成绩最终成绩1重庆交通职业学院交融世界一队20.16420.57520.3702重庆电子工程职业学院的卢23.97724.34524.161