广告

IPU的MLPerf跑分成绩出来了,来看和GPU的对比

时间:2021-07-01 作者:黄烨锋 阅读:
此前我们针对IPU虽多有解读,而且也提到它在某些特定工作中(比如此前和微软Azure合作中,在BERT语言模型training和inference;与百度合作,在Deep Voice 3模型training等)的性能、效率表现远超GPU。不过这是一家之言……
广告

前年Aspencore的双峰会上,我们采访Graphcore CEO Nigel Toon之时就曾谈到过Graphcore的IPU处理器尚未参与AI业界比较知名的MLPerf基准测试。当时Nigel Toon和Graphcore高级副总裁兼中国区总经理卢涛都表示,Graphcore的资源还比较有限,这一阶段“仍需聚焦开发核心软件特性,以及和客户一同进行一些应用场景的落地”。

Graphcore高级副总裁兼中国区总经理 卢涛

其实6月初MLCommons(MLPerf基准测试的发起主体)发布的Board Members名单中,就能看到有三名新成员加入。其中一位就是Graphcore的战略与业务开发执行副总裁Jon Khazam——这位也是业内名人。所以这次Graphcore参与到MLPerf基准测试中,也是意料之中的。

来看看IPU的测试成绩

此前我们针对IPU虽多有解读,而且也提到它在某些特定工作中(比如此前和微软Azure合作中,在BERT语言模型training和inference;与百度合作,在Deep Voice 3模型training等)的性能、效率表现远超GPU。不过这是一家之言,用卢涛的话来说,MLPerf更像是把大家“拉到同一个维度里对话”,“对于业界具备较大的参考意义”。

藉由Poplar生成的ResNet-50和BERT的graph图——此前我们还解读过这种专属于Graphcore的可视化呈现,这种可视化在我们看来也是Graphcore的形象代表

MLPerf基准测试有Training(训练)和Inference(推理)两部分,面向图像分类、对象检测、翻译、NLP、推荐系统、强化学习等都有对应的测试。这次Graphcore参与的是MLPerf Training v1.0中的ResNet-50和BERT两项——分别是CV(计算机视觉)和NLP(自然语言处理)应用中比较具有代表性的模型。

而Graphcore用于基准测试的硬件设备,分别是IPU-POD16和IPU-POD64,此前我们也撰文提到过IPU-M2000的算力扩展。测试中,IPU-POD16是4个1U的IPU-M2000,加1台双路服务器(dual-CPU x86 server),算力标称为4 PetaFLOPS;IPU-POD64则是由16个IPU-M2000组成,4台双路服务器,算力16 PetaFLOPS。卢涛表示,BERT模型training配1台x86服务器,而ResNet-50模型training则配4台。卢涛还说,未来有做更大规模集群的性能提交计划。

测试结果如上图。这里BERT模型training成绩中,Closed和Open的区别在于,Closed是完全按照MLPerf规定的网络架构优化方式和硬件配置测得的成绩;而Open则是Graphcore“提交中稍微改动了一下网络架构”后的成绩。这张图可以体现,IPU做算力扩展时的效率,尤其在BERT模型training中,IPU-POD64可以达成相比IPU-POD16大约3.5倍的性能优势,性能折损较小。

和英伟达这次参与测试所用的DGX A100 80GB比较(总共8张卡,也就是640GB总的HBM显存容量),ResNet-50和BERT模型training任务下,5U的IPU-POD16虽然相比6U的DGX A100 640GB的training时间会更久,但从Performance/TCO也就是性价比的角度来看,IPU-POD16还是有优势的;具体优势如上图所示。

毕竟DGX A100 640GB价格接近30万美元,这里IPU-POD16的价格,据说是合作伙伴给出的目录价。这个对比实际上没有给出另一个功耗维度的考量,在TCO总拥有成本中,散热、电力等开支都是其中的组成部分。从理论上来说,IPU应该会比GPU有着更高的效率,所以在特定任务下的性价比优势可能会更大。不过更具体的开发项目可能还需要考虑开发成本。这就涉及到厂商的生态构建能力了,这一点英伟达大概会更占优。从总体上,可能需要具体问题具体分析。

在性能测试结果这部分,卢涛还特别提到ResNet-50存在已经有5年时间,“5年对人工智能发展来说不短了。而一些新的CV模型如EfficientNet,就不在MLPerf的任务列表中。这种新型的CV模型在IPU上的性能表现更好。”所以Graphcore也对比了EfficientNet-B4模型training性能。这项测试里,IPU-POD16的吞吐就有比较大的优势,所以单纯以设备性能除以设备价格,性价比优势也顺势扩大到了3.8倍。“这从某种意义上佐证了IPU的巨大潜力,尤其是面向一些新型的算法模型的时候。”卢涛说。不过这可能也和Graphcore当前的努力方向有关,比如下文将提到Graphcore在EfficientNet模型上有对应的研究成果。

值得一提的是,这里并没有给出IPU-POD64的比较,或许是因为在算力扩展的效率折损中,带来的性价比优势会相对收窄。

持续走向完善的AI芯片

Graphcore能够参与到MLPerf测试中,其实也很大程度表明了Graphcore这家公司正全面走向发展正轨;另一方面则是像Graphcore这种在AI芯片领域颇具行业代表性的新兴力量,更多地加入MLPerf测试,也是AI行业在飞速发展的佐证。

可类比的是,当年GPU从专用的图形处理器,发展到后来可实现CUDA编程和应用于AI之时,就是英伟达公司规模持续扩大,公司内部将更多注意力转向软件、工具,完善开发生态的过程。像IPU这样的AI处理器也必然经历这样的过程。

比较有趣的是,这次Graphcore中国工程总负责人、AI算法科学家金琛公布了Graphcore在SDK优化方面进步的一些数字。下面这张图中,对比的是Poplar SDK 1.4、2.0和2.1版本在不同模型training吞吐方面的性能提升(基于相同的IPU-POD16硬件)。SDK 1.4其实是Graphcore去年底才发布的,而今年一季度2.0就问世了,2.1则在6月份发布——版本递进速度的确相当快,不同模型下的性能提升也很显著。

“对于Graphcore这样一个500人左右的公司来说,能在半年内取得这样的提升,可以说是相当显著的成果了。”金琛说。这一点的确相当值得肯定。英伟达现如今在GTC上普遍都会谈通过软件、工具、库等的优化,实现同等硬件之下的性能提升。所以英伟达现在也总说自己不是一家芯片公司。这好像也是众多AI芯片厂商普遍在摸索和发展的方向,是生态建设能力的体现。

Graphcore中国工程总负责人 AI算法科学家 金琛

“BERT-Large模型的整体性能提升了1.5倍以上。对于BERT-Large第一阶段预训练(SL128)吞吐量的来说,其SDK 1.4的吞吐量是大概2700,SDK 2.0是大概3700,SDK 2.1是4000多。”“CV图像分类方面,EfficientNet在SDK 2.1上的性能和SDK 1.4相比提升了1.5倍。”金琛表示。

这其中能看出提升最为显著的是ResNet-50模型,SDK 2.1相比1.4性能提升了2.1倍。“这是发挥了我们SDK中的比较显著的两个feature的作用:一是post I/O的overlap,即在CPU和IPU间进行任务处理时,在图像传输的过程中会与计算发生重叠,这样可以更好地利用IPU的计算资源。另外,我们在算子库和Tile Memory Layout方面也取得了一些进步,使得我们在算子方面有所提升。”

针对2.1倍的提升,金琛给我们作了更多的解释:“训练ResNet时,配置四个机头(4台x86 CPU服务器),四个机头中每一个Host都起了四个Instance,基本有16个process去处理图像pre-process的过程。这样带来的好处是数据的pre-load部分就不会再成为计算瓶颈。这样的‘多进程’可以大大缩短pre-process在整个训练过程中的占比。”

这些都能很大程度表明Graphcore在快速发展,甚至和1年前我们认识的Graphcore相比都大不一样。我们倒是认为,随Graphcore在AI研究中的愈发驾轻就熟,这次公布的成绩并不能完全体现IPU硬件层面的真正实力,将来的提升空间可能还会很大。

卢涛说:“参加MLPerf Benchmark需要较大的投入。我们有十几个团队成员直接、间接地参与了这个项目,投入了至少半年以上的时间。”过去Graphcore作为初创公司的资源比较有限,而现在“Graphcore整体软硬件,尤其是软件和生态更加成熟完善,公司整体实力和之前相比也更加雄厚。所以我们参加了MLPerf Training v1.0的Benchmark,后续也有持续投入的计划。”

金琛提到,在参与MLPerf基准测试的过程中,还诞生了几篇颇具意义的research paper,分别是Graphcore针对EfficientNet所作的一些工作(Making EfficientNet More Efficient: Exploring Batch-Independent Normalization, Group Convolutions and Reduced Resolution Training)和“使用pretraining BERT,使得BERT性能得到两倍的提升”。这些都是IPU生态完善中的佐证。

责编:Luffy Liu

 

本文为EET电子工程专辑 原创文章,禁止转载。请尊重知识产权,违者本司保留追究责任的权利。
黄烨锋
欧阳洋葱,编辑、上海记者,专注成像、移动与半导体,热爱理论技术研究。
  • 50家国产MCU厂商综合信息汇总 我们从如下五个角度对每家公司进行高度概括性陈述和对比:主要产品、核心技术、关键应用、主要客户、竞争优势。虽然公司员工人数和研发人员比例、申请专利数量和财报等数据可
  • 国产MCU发展的五大驱动力 对国产MCU厂商来说,“国产替代”和“芯片短缺”反而成为推动其MCU产品线打入大中型OEM厂商供应链,甚至汽车供应链的驱动力。据《电子工程专辑》分析师团队调查了解,凡是能够保证代工厂和封测合作伙伴正常供应的国产MCU厂商,都享受到了销售和利润同时增长的甜头。
  • 未来MCU设计的六个方向 随着AI和IoT的发展与融合,微处理器(MCU)的设计也更加复杂,逐渐从传统单一功能的微控制器转向集成更多功能特性、计算性能更强的系统级芯片(SoC)。ASPENCORE《电子工程专辑》分析师团队识别出如下六个MCU设计的发展方向。
  • 10大国产MCU上市公司 国内从事MCU研发的IC设计公司有50多家,其中在上交所和深交所上市的公司有10多家。ASPENCORE旗下《电子工程专辑》分析师团队从中挑选10家以MCU为主营业务的上市公司,分别从核心技术、主要产品、应用市场、供应链和竞争优势等方面予以阐述。
  • 现在到处都是传感器,我该怎么办? 现在,对于运输、机器人、家庭自动化、智能城市、工厂和仓库管理中许多可能的应用来说,通过视觉、雷达或激光雷达传感来进行物体识别和碰撞警告,通过超声波传感器实现短距离的接近侦测,通过IMU进行运动和姿势检测,基于声学的危险声音检测已经很普遍了。说实话,这个清单是无穷无尽的。我们拥有建立一个由智能传感驱动的未来主义的、几乎是科幻小说的世界所需要的所有原材料。但是怎么做呢?
  • CTSD ADC系列之二:为信号链设计人员介绍CTSD架构 本文将采用一种与传统方法不同的方式介绍连续时间Σ-Δ (CTSD) ADC技术,以便信号链设计人员了解这种简单易用的新型精密ADC技术,将其想像成一个连接了某些已知组件的简单系统。在第1部分,我们主要介绍了现有信号链设计的关键挑战,利用精密CTSD ADC,在实现高精度的同时还可保持连续时间信号完整性,从而可以显著简化这些设计。现在的问题是CTSD架构背后是什么使其能够实现这些优势?
  • 新款iPad Pro 2021成最受欢迎的 由于采用性能相对强大的M1处理器和mini-LED屏幕以及更多的创新,新款iPad Pro 2021已经成为消费者心目中最受欢迎。然而,iPad 2却已经在全球范围内被列入“复古和过时”的名单中。
  • 三星折叠屏手机Galaxy Z Fold 3 目前来看,折叠屏新机作为一种新的生产力工具,逐渐成为高端/平板的一种趋势,有报料称三星的Galaxy Z Fold 3发布时间或为7月,并且会引入新手势操控。

  • EMC对策产品: TDK推出用于移动设备 TDK株式会社(TSE:6762)推出用于移动设备的TCM0403M系列小型薄膜共模滤波器
  • 比科奇ORANIC板卡获行业大奖,5G小基 比科奇(Picocom)日前宣布:该公司荣获全球小基站论坛(SCF)一项大奖,其全新的ORANIC板卡赢得了全球小基站论坛(SCF)2021年度“小基站芯片及组件杰出创新金奖”。
  • 相见恨晚的Altium Designer使用技巧 首先声明下,写这个专题的目的不是为了做教程,所以前提都是建立在大家对于AD比较熟悉的基础上,旨在为大家减少一些画板过程中的繁琐机械的劳动~本文转载自Altium官方公众号。废话不多说,正文开始!场景一
  • MOS工作过程 if (!window.__second_open__) { document.getElementById('js_image_desc').inne
  • 惊艳!大佬用200个LED做了一个智能手表(附PCB) 最近在hackaday上逛的时候,看到一个还在制作中的非常炫酷的手表项目,分享给大家。背景作者正在造的这个ESP32 Pico Watch有WIFI、BT、Mesh、一个振动马达、一个RTC、4个按钮
  • 一代国民神车落寞,宝马中国收购华晨中华工厂 点击蓝字关注我们据财经汽车报道,8月31日,华晨集团等12家企业实质合并重整案召开第二次债权人大会,会上共有三项议案,包括财产管理及变价方案、成立债权人委员会两项议案,以及核心议案宝马中国收购华晨中华
  • 采样电阻选型详析 电流检测电阻的基本原理根据欧姆定律,当被测电流流过电阻时,电阻两端的电压与电流成正比.当1W的电阻通过的电流为几百毫安时,这种设计是没有问题的.然而如果电流达到10-20A,情况就完全不同,因为在电阻
  • Q2晶圆代工排名公布:台积电第一、中芯国际第五 8月31日,集邦资讯公布了Q2季度全球晶圆代工市场最新排名,总产值达到了244.07亿美元,环比增长6.2%,创下了2019年Q3季度以来连续8个季度增长的新高。在TOP10厂商中,台积电一家独大,Q
  • 增速最快!中芯国际Q2晶圆代工表现抢眼 快科技消息,8月31日,集邦资讯公布Q2季度全球晶圆代工市场最新排名,总产值达到了244.07亿美元,环比增长6.2%,创下了2019年Q3季度以来连续8个季度增长的新高。在TOP10厂商中,台积电一
  • 【数据】2021年vivo占稳中国手机市场第一 关注国产手机最新消息:今日,知名市调机构Counterpoint Research发文称,vivo是中国智能手机市场的低调之王。但从数据来看,vivo自2021年第一季度以来一直占据着中国智能手机市场
  • 如何将Flash模拟成EEPROM ↑点击上方蓝色字体,关注“嵌入式软件实战派”获得更多精彩内容。温馨提示:本文参考《EEPROM Emulation with Qorivva MPC55xx, MPC56xx, and MPC57xx
  • 美国插手中韩半导体领域关键收购案 ▲ 更多精彩内容 请点击上方蓝字关注我们吧!近些年来,虽然中国面板产能持续提升,已成为全球最大的显示面板生产国,但驱动芯片却仍以进口为主,成为中国面板产业发展的一大瓶颈。  今年3
广告
热门推荐
广告
广告
广告
EE直播间
在线研讨会
广告
广告
广告
向右滑动:上一篇 向左滑动:下一篇 我知道了