广告

谷歌揭秘TPU超越CPU与GPU的原因

时间:2017-04-20 作者:Rick Merritt 阅读:
Google在一项机器学习测试报告中指出,其TPU的效能较英特尔的Haswell CPU与Nvidia K80 GPU更高至少15倍,每瓦执行的兆次运算也提高了30倍以上…

网络巨擘谷歌(Google)日前指出,该公司的Tensor处理器(TPU)在机器学习的测试中,以数量级的效能优势超越英特尔(Intel)的Xeon处理器和Nvidia的绘图处理器(GPU)。在一份长达17页的报告中,Google深入剖析其TPU和测试基准显示比目前的商用芯片更快至少15倍的速度,并提供更高30倍的效能功耗比(P/W)。DhqEETC-电子工程专辑

去年五月,Google宣布其ASIC设计是为了加快各种应用在其数据中心服务器的推论作业。现在,该公司将在今年6月的一场计算机架构大会中,透过一篇论文首度公开对于此芯片及其效能的深入研究。DhqEETC-电子工程专辑

这份报告提供了有关加速器与Google多元神经网络工作负载的深度观察,并建议工程师在此快速成长的领域中投注更多的学习。DhqEETC-电子工程专辑

曾带领超过70位工程师团队设计TPU 的知名硬件工程师Norman P. Jouppi说:“我们希望聘请一些优秀的工程师,并让他们了解我们正在进行高质量的工作,同时也让云端客户知道我们的实力。”DhqEETC-电子工程专辑

该计划的其中一位负责人员是美国加州伯克利大学(U.C. Berkeley)退休教授David Patterson,他同时也是一位资深的处理器架构师,在日前一场硅谷的工程师聚会中介绍了这份报告。Google还在部落格中发布Jouppi所撰写关于此芯片的文章。DhqEETC-电子工程专辑

如今Google的数据中心仍采用此芯片。不过,关于该芯片使用的范围与未来计划加强的部份,Jouppi并不愿透露任何细节。DhqEETC-电子工程专辑

这款40W功率的TPU是一款采用28纳米工艺、70MHz频率运算的芯片,专为加速Google TensorFlow 算法而设计。其主要的逻辑单元包含65,536个8位的乘积累加运算单元和24MB高速缓存,并提供每秒92兆次指令周期。DhqEETC-电子工程专辑

在2015年采用Google机器学习芯片而进行的测试中,相较于英特尔(Intel)的Haswell服务器处理器(CPU)和Nvidia的K80绘图处理器(GPU),采用TPU时的运作速度提高了15到30倍,效能提高了30到80倍。该报告中指出:“TPU的相对增量效能功耗比为41到83——这就是我们为什么客制化ASIC的原因,它让TPU比GPU高出25到29倍的的效能功耗比。”DhqEETC-电子工程专辑

2015年的测试使用了英特尔 22纳米工艺的18核心Haswell E5-2699 v3 CPU,其频率频率(速度)为2.3GHz,热设计功耗(TDP)为145W。Nvidia K80 GPU功耗为150W,频率频率最高到875MHz。DhqEETC-电子工程专辑

20170419_TPU_NT01P1
图1:TPU(星形)在神经网络推论作业的效能超越英特尔Haswell处理器(圆形),以及Nvidia K80(三角形) (来源:Google)DhqEETC-电子工程专辑

TPU内部揭密DhqEETC-电子工程专辑

在该报告中提到,TPU所达到的数量级效能优势,很少有别的厂商能做到,也可能让TPU成为特定领域架构的原型。预计接下来将会有许多追随者,而使得标准更为提高。DhqEETC-电子工程专辑

事实上,TPU的目标不在于提高数据处理量,而是专注于达到7毫秒(ms)的延迟,使专用加速器发挥功效,因此,它舍弃了高吞吐量的多任务通用处理器所需的许多组件,而用于执行其他许多任务。DhqEETC-电子工程专辑

但此ASIC芯片在能耗比的表现上不及英特尔和Nvidia的芯片。在10%的负载状况下,TPU的最大功率消耗为88%。相形之下,K80在10%负载下消耗66%的功率,而英特尔Haswell的最大功耗为56%。DhqEETC-电子工程专辑

Google解释,这是由于仅15个月的设计时程相对较短,使得TPU无法加入许多节能方面的功能。DhqEETC-电子工程专辑

数据缓冲区约占TPU的37%,媒体访问控制(MAC)组合占30%。虽然TPU比起Nvidia GPU的尺寸更小、功耗更低,但其上的MAC数量却是K80的25倍,芯片上内存容量则为其3.5倍。DhqEETC-电子工程专辑

TPU搭载PCIe Gen3 x16总线,并提供256位的内部数据路径。主机CPU将加速器视为浮点运算处理器,透过PCIe总线传达指令。
20170419_TPU_NT01P2
图2:大部份的TPU主要用于处理MAC数组,以及24MB高速缓存DhqEETC-电子工程专辑

TPU使用与GPU加速器相同的Tensorflow软件,开发人员可维持核心驱动器的稳定,必要时调整使用者空间的驱动程序,以因应不断改变的应用。DhqEETC-电子工程专辑

Google发现,持续增加的内存带宽对于效能表现的影响最大。平均来说,加速频率速度的效益不大,而当MAC扩增到512x512矩阵时,加快频率速度的效能还将微幅下降。DhqEETC-电子工程专辑

该报告中指出,从2015年的测试以来,英特尔已经推出14纳米CPU,Nvidia也推出16纳米GPU了。然而,TPU也可能将其外部DDR3内存升级到像K80所使用的GDDR5内存。DhqEETC-电子工程专辑

报告中指出:“未来的CPU与GPU在执行推论时将会更快速。采用2015版GPU内存而重新设计的TPU将会提高两倍到三倍的速度,而且比K80高出70倍、比Haswell更高200倍的效能功耗比。”DhqEETC-电子工程专辑

Google宣称在英特尔CPU上执行8位运算相当辛苦。报告中提到:“我们原本只有一款CPU执行8位运算的结果,因为有效地使用其AVX2整数运算指令,效果提升了3.5倍。”DhqEETC-电子工程专辑

由于其采用数据处理量为导向的架构,即使是改良过的GPU要达到Google的 7nm延迟目标,仍然充满挑战。同时,“这款TPU仍有很大的改进空间,所以这不是一个容易达成的目标。”
20170419_TPU_NT01P3
图3:ASIC芯片支持PCIe Gen 3 x16总线,并搭载DDR3内存DhqEETC-电子工程专辑

开发人员掌握多元化信息DhqEETC-电子工程专辑

该报告中提到,研究人员受到热门的ImageNet比赛吸引,已经变得过于投入卷积神经网络(CNN)。现实世界的应用采用更广泛的神经网络类型,报告并强调,多层感知(MLP)占Google AI开发工作的61%。“虽然大部份的架构师一直在加速CNN设计,但这部份只占5%的工作负载。”DhqEETC-电子工程专辑

“虽然CNN可能很常见于边缘设备,但卷积模型的数量还赶不上数据中心的多层感知(MLP)和长短期内存(LSTM)。我们希望架构师尽可能地加速MLP和LSTM设计,这种情况类似于当许多架构师专注于浮点运算效能时,大部份的主流工作负载仍由整数运算主导。”DhqEETC-电子工程专辑

Jouppi说:“我们已经开始与一些大学合作,扩大提供免费模式。”但他并未透露内容细节。DhqEETC-电子工程专辑

这篇报告回顾了二十多年来神经网络的相关数据,包括其竞争对手——微软(Microsoft)基于FPGA的Catapult计划,加速了网络作业。最初的25W Catapult在200MHz频率上运作3,926个18位MAC,并且以200MHz 频率速度执行5MB内存。Google表示,以Verilog语言设计的固件比起使用TensorFlow软件来说效率更低。
20170419_TPU_NT01P4
图4:TPU卡可插入服务器的SATA插槽上DhqEETC-电子工程专辑

TPU计划于2013年开始,当时并以FPGA进行了试验。该报告中提到:“我们舍弃FPGA,因为我们当时发现它和GPU相比,在效能上不具竞争力,而TPU比起GPU在相同速度或甚至更快的速度下,可以达到更低的功耗。”DhqEETC-电子工程专辑

尽管二十多年来,神经网络终于在最近从商用市场起飞了。DhqEETC-电子工程专辑

Jouppi说:“我们所有人都被这蓬勃发展的景象吓到了,当初并未预期到会有如此大的影响力。一直到五、六年以前,我都还一直抱持怀疑态度…而今订单开始逐月增加中。”DhqEETC-电子工程专辑

相较于传统途径,深度神经网络(DNN)已经让语音识别的错误率降低了30%,这是二十年来最大的进步。这让ImageNet影像辨识竞赛中的错误率从2011年的26%降至3.5%。DhqEETC-电子工程专辑

该报告结论还提到,“神经网络加速器存在的理由在于效能,而在其演进过程中,如何达到良好的直觉判断,目前还为时过早。”DhqEETC-电子工程专辑

本文授权编译自EE Times,版权所有,谢绝转载DhqEETC-电子工程专辑

EETC wechat barcode


关注最前沿的电子设计资讯,请关注“电子工程专辑微信公众号”。
DhqEETC-电子工程专辑

DhqEETC-电子工程专辑

本文为EET电子工程专辑 原创文章,禁止转载。请尊重知识产权,违者本司保留追究责任的权利。
Rick Merritt
EE Times硅谷采访中心主任。Rick的工作地点位于圣何塞,他为EE Times撰写有关电子行业和工程专业的新闻和分析。 他关注Android,物联网,无线/网络和医疗设计行业。 他于1992年加入EE Times,担任香港记者,并担任EE Times和OEM Magazine的主编。
您可能感兴趣的文章
  • AI在汽车中的应用:实用深度学习 在未来的某个时候,人们必定能够相对自如地运用人工智能,安全地驾车出行。这个时刻何时到来我无法预见;但我相信,彼时“智能”会显现出更“切实”的意义。
  • 利用深度学习和计算机视觉分析脸部表情 深度学习技术对于降低计算机视觉识别和分类的错误率展现出巨大的优势。在嵌入式系统中实施深度神经网络有助于机器透过视觉解读脸部表情,并达到类似人类的准确度。
  • 人工智能风口到了?不急,先看这几个本土案例 作为目前最受投资者青睐的项目,人工智能类项目的确算得上是市场当红辣子鸡。随着智能机器人、智能监控、自动驾驶汽车等概念和产品陆续推出,人工智能能够落地的项目也越来越多。本土很多85后、90后的大学生在高校......
  • 产业专家划重点,工程领域面临这四大挑战 参与美国国家工程学院近日于硅谷举行之研讨会的产业专家,提出了当前工程领域面临的四大挑战。
  • 自动驾驶汽车的5级处理能力是如何划分的? 当我们去逐级实现自动驾驶的不同级别时,处理能力对于实现完全自动化这一愿景至关重要,此时驾驶员可以“放开方向盘、移开目光和放飞心灵”。 在这个级别上,车内的人只是乘客;同时因为没有司机,所以也不需要方向盘。 然而,在我们实现该目标之前,我们应该首先了解从非自动驾驶到完全自动驾驶之间的各种级别……
  • 大数据和AI应用的新计算架构 大多数计算技术专家都承认,全球数据每两年会翻一番。预计到2020年,对那些与人工智能相关的高级应用,比如机器学习、机器人技术、自动驾驶和分析,以及金融市场来说,数据集将超过21ZB或更多。这些类型的应用都依赖于大数据,这就需要一些实时计算非常小、但层级很多的软件算法,但如今的多核处理器和架构在性能和效率方面不能很好地满足这些算法的需要。本文将为您介绍一种新的针对大数据和人工智能应用的新计算架构。
相关推荐
    广告
    近期热点
    广告
    广告
    广告
    可能感兴趣的话题
    广告