向右滑动:上一篇 向左滑动:下一篇 我知道了
广告

何谓迄今最复杂的处理器芯片——IPU处理器?

时间:2019-07-02 作者:Sally Ward-Foxton 阅读:
Graphcore公司日前推出了一款称为智能处理单元(IPU)的新型AI加速处理器。其首席执行官Nigel Toon在接受EETimes采访时介绍了其公司愿景、AI加速器市场以及AI的未来。
电子工程专辑 EE Times China -提供有关电子工程及电子设计的最新资讯和科技趋势

总部位于英国布里斯托的Graphcore公司日前推出了一款称为智能处理单元(IPU)的新型AI加速处理器。该公司于2016年启动风险投资计划,并在2018年12月的最后一轮融资中募集了2亿美元。基于其17亿美元的公司估值,Graphcore已成为西方半导体界的唯一“独角兽”。它的投资者们包括戴尔、博世、宝马、微软和三星pMaEETC-电子工程专辑

近日,Graphcore首席执行官Nigel Toon在接受EETimes采访时介绍了其公司愿景、AI加速器市场以及AI的未来。pMaEETC-电子工程专辑

20190702-002.jpgpMaEETC-电子工程专辑

 pMaEETC-电子工程专辑

Graphcore的IPU芯片已经在生产、发货并产生收入,目前正与极少数早期客户合作。pMaEETC-电子工程专辑

Graphcore目前的主要产品是一款可插入服务器的双宽、全高300 W PCI Express卡。卡顶部的连接器可以实现卡间互连。每张Graphcore C2卡都配有两个Colossus IPU处理器芯片。芯片本身,即IPU处理器,是迄今为止最复杂的处理器芯片:它在一个16纳米芯片上有几乎240亿个晶体管,每个芯片提供125 teraFLOPS运算能力。一个标准4U机箱中可以插入8张卡,卡间通过IPU链路互连。8张卡上的IPU可以作为一个处理器元件工作,提供两个petaFLOPS的运算能力。与芯片在CPU和GPU中的存在形式不同,它为机器智能提供了更高效的处理平台。这个产品将用于云计算服务器,也极有可能用于自动驾驶汽车。pMaEETC-电子工程专辑

Graphcore如何应对运行深度学习软件堆栈的挑战?

在过去的三四年中出现的深度学习标准框架(如TensorFlow和PyTorch)与图形描述符(如ONNX)一样,可以在其中一些框架之间进行数据交换。开发人员可以根据框架快速设计神经网络,但这些设计基本上是图形框架,也就是说,它们描述了操作符和图形内部元素之间连接的数学图形。pMaEETC-电子工程专辑

而Graphcore从这些高级框架中获取输出并将其输入到我们称之为Poplar的软件层,Poplar作为我们的映射和编译工具,它采用高级框架图形并将它们映射成为在IPU处理器上运行的完整计算图形。每个IPU处理器都有1200个独立的专用内核,以及机器学习所需的所有控制操作和超越函数。每个IPU内核可运行多达六个程序线程。因此,如果您有16个处理器,那么在一个4U机箱中可以运行超过100,000个独立的并行程序。pMaEETC-电子工程专辑

正是这种并行处理能力实现了快速训练模型并进行实时操控,这也使的Graphcore能够在自然语言处理以及在理解自动驾驶视频方面取得重大进展。因此,强大的并行处理能力非常重要。pMaEETC-电子工程专辑

有了Graphcore的IPU,一个完整的机器学习模型可以在处理器内部生成。而且IPU处理器具有数百兆字节的RAM,可在处理器上以超过1.6 GHz的速率全速运行,因为其中的延迟已被线程隐藏。具有高带宽内存(HBM)等技术的GPU可以提供每秒900 GB的内存带宽,而Graphcore的单个IPU处理器提供大约45 TB内存带宽,因此,Graphcore可以更快地操纵模型。一个4U机箱中有16个IPU,它将使你拥有无可比拟的内存带宽,其上运行了成千上万的线程,而且是同时运行,而这也是Graphcore得以加速机器智能工作的部分原因。pMaEETC-电子工程专辑

Graphcore IPU与领先的GPU性能相比如何?

Graphcore IPU的性能与市场上领先的GPU相比如何?这取决于它完成的任务。如果用于静态图像分类的前馈卷积神经网络,GPU已经可以做得很好,但IPU可以提供两到三倍的性能优势,有时甚至是五倍。pMaEETC-电子工程专辑

对于更复杂的模型,比如那些数据通过后再反馈以尝试理解上下文(例如,对话)的模型,由于数据被传递多次,所以需要非常高的速率。对于这样的应用,因为所有的模型都保存在Graphcore的处理器中,IPU可以比GPU快很多,可能快十倍、二十倍或者五十倍。pMaEETC-电子工程专辑

目前,Graphcore专注于与早期介入客户合作,帮助他们解决实际问题,但会回过头来做一些基准测试,并且将测试结果提交给MLPerf。pMaEETC-电子工程专辑

基准测试的问题在于它们的保守,它们通常专注于标准的卷积神经网络,而这个行业已经发生了很大的变化。尽管基准测试也是一种有用的相对衡量标准,但看到产品在实际应用中的真正性能也很重要。pMaEETC-电子工程专辑

在日新月异的发展速度之下,很难讲还有什么可比性。如果采用了标准框架,那么为了进行比较在不同的系统上进行尝试也非常容易。pMaEETC-电子工程专辑

Graphcore IPU芯片可以用于推理或培训。从架构的角度来看这对Graphcore非常重要,因为随着机器学习的发展,系统将能够从经验中学习。pMaEETC-电子工程专辑

推理性能的关键点包括:低延迟、适用于小型模型、小批量,以及可能会尝试引入稀疏性的训练模型。IPU可以有效地完成所有这些事情。在一个4U机箱中,16个IPU共同协作进行培训,每个IPU可以运行单独的推理任务,并由一个CPU上运行的虚拟机控制,最终得到的是一个可用于培训的硬件。因此,一旦模型被训练,就可以部署它,但随着模型的发展,开始想要从经验中学习时,就可以采用这个硬件来实现这个功能。pMaEETC-电子工程专辑

映射和编译工具Poplar与CUDA有何异同?

Graphcore的映射和编译工具Poplar虽然与CUDA处于同等地位,但它实际上是一种编程语言,而不是在较低级别描述图形的框架。pMaEETC-电子工程专辑

在Poplar中,可以描述一种新型的卷积函数或一种新型的递归神经网络层,然后将其作为高级框架中的库元素。Graphcore提供完整的所有高级操作符和库元素;同时还提供许多低级操作符,你可以简单地将之互连以创建新的库元素。或者,如果您想做一些完全创新的事情,那么可以使用Poplar C ++环境创建自己的东西。pMaEETC-电子工程专辑

Graphcore希望大家分享他们的创新,而其他人则乐于接受。如果仔细看一下Google的TPU或NVIDIA的GPU,你会发现很多库元素都是关闭的,它们是黑盒子,您无法看到它们是如何构建的。而Graphcore是开放的,人们可以修改它并扩展它。我们希望建立的是这样一个开放的社区。pMaEETC-电子工程专辑

相比谷歌、百度及FB等公司,Graphcore的竞争优势?

Graphcore正日益面临这个领域的一些强大对手,如谷歌、百度、Nvidia、英特尔以及数据中心巨头Facebook和阿里巴巴,据传他们也正在开发自己的芯片。Graphcore将会如何与这些公司竞争?如果数据中心公司开发自己的AI加速器,那这个市场的竞争还会存在吗?pMaEETC-电子工程专辑

Graphcore认为将会有三个主要市场。pMaEETC-电子工程专辑

首先是一个相当简单的小型加速器市场,通常应用于移动电话的IP内核,一些大型手机制造商已经在做这方面的工作。但Graphcore没有参与这个市场。ASIC设备很有市场前景。举例来说,一个拥有大量用户的具有非常特定工作量的公司,或许他们运营着一个庞大的社交网络,他们可以创建一个非常具体的功能并将其构建到一个芯片中,然后将其部署到数据中心以提高这一功能的效率。这类ASIC解决方案拥有巨大的市场,但是,Graphcore并没有参与。pMaEETC-电子工程专辑

Graphcore所做的是一个通用处理器,您可以通过编程以惊人的效率来做许多不同的事情。如果应用于云计算环境,这项技术可以非常轻松地解决问题,它功能多样,易于编程,提供极为有效的结果,Graphcore相信这是一项致胜的技术。pMaEETC-电子工程专辑

采用专用ASIC芯片的事实几乎已经证明了GPU的弱点。人们需要一种更高效、易于使用的为机器智能而设计的处理器,而这正是Graphcore所做的。Graphcore认为通用IPU有机会形成截至目前最大的细分市场。通过为上述所有问题提供更加高效的解决方案,相信可以引领该领域的行业标准。pMaEETC-电子工程专辑

如果只是针对基本的前馈卷积神经网络,GPU是一个非常好的解决方案,但随着网络变得越来越复杂,人们需要一个新的解决方案,这就是ASIC和FPGA产生的原因。我们接触过的所有创新者都说使用GPU正在阻碍他们创新。如果仔细看一下他们正在研究的模型类型,你会发现他们主要研究卷积神经网络的形式,因为递归神经网络和其他类型的结构,例如强化学习,并不能很好地映射到GPU。由于没有足够良好的硬件平台,研究领域受到限制,而这正是我们将IPU推向市场的原因。pMaEETC-电子工程专辑

Graphcore会面向企业市场吗?企业市场很有意思,尤其是在企业界有很多公司正在尝试进行真正的深度学习,Graphcore对这个市场深感兴趣并专注于此。问题是,Graphcore如何接触这类客户?他们遍布全球,并处于不同的垂直市场。对于初创公司而言,这是一个难以进入的市场。可以说Graphcore的策略比较狡猾,他们与戴尔建立了密切的关系。戴尔是Graphcore公司的投资者,通过与他们合作,Graphcore顺利地进入市场,并通过多种不同形式将我们的技术交付给客户,例如,Graphcore的产品可能是4U全能IPU服务器,也可能是内置单个IPU PCI卡的工作站。有很多不同的选择来抓住这个市场,而Graphcore得到并利用了这个机会。pMaEETC-电子工程专辑

Graphcore成为西方半导体界的唯一独角兽。拥有如此高的估值,对公司来说是好事,因为它是对公司业务的很好验证,让Graphcore可以筹集大量资金,他们现在拥有令人难以置信的快速增长的火力,对于一个新兴市场来说这很重要。这种快速增长在未来的两三年内都将持续,Graphcore将在这段时间极速奔跑以成为领先者。pMaEETC-电子工程专辑

本文同步刊登于电子工程专辑杂志2019年7月刊pMaEETC-电子工程专辑

电子工程专辑 EE Times China -提供有关电子工程及电子设计的最新资讯和科技趋势
本文为EET电子工程专辑 原创文章,禁止转载。请尊重知识产权,违者本司保留追究责任的权利。
Sally Ward-Foxton
Sally Ward-Foxton是EE Times特派记者,她专注于EE Times美国版的AI技术和相关话题,以及EE Times欧洲版杂志中的欧洲企业报道。 Sally base在英国伦敦,她报道电子行业已有15年,曾为Electronic Design、ECN、Electronic Specifie撰写设计、电子元件类文章。 她拥有剑桥大学的电气和电子工程硕士学位。
您可能感兴趣的文章
  • AI推论处理器已死? 人工智能(AI)芯片的市场现实是什么?根据业界专家认为,如今我们已经脱离AI炒作,开始前进到更能准确反映现实的阶段...
  • 高效电源管理架构加速量子计算机商用化 迄今为止还没有成熟的量子计算机出现,文章讨论了超级计算机的电源需求、百亿亿级(Exascale)计算机、以及量子计算机的电源需求。电源管理设计人员面临的挑战将很快从Exascale计算机转换到量子计算机,而后者的电源管理将更具独特的挑战性。
  • 2019年第三季全球PC出货量成长1.1% 过去几季,PC领导厂商受惠于价格下滑的DRAM及SSD等零组件,在PC业务的毛利已有所改善,前三大厂商的市场地位因此更为强化。
  • 你的AI芯片有自己的DNN吗? 为了让AI加速器在最短延迟内达到最佳精准性,特别是在自动驾驶汽车(AV)中,TFLOP(万亿次浮点运算)已经成为许多所谓大脑芯片的关键指标。然而,有专家认为这种野蛮处理方式并不可持续。在EE Times的一次独家专访中,DeepScale的首席执行官Forrest Iandola给出了其不可持续的理由,是因为AI硬件设计师所持有的许多常见的假设已经过时。
  • 冷静点…还不懂事的自驾车很危险! 没有人类掌控方向盘的车子,不了解它要去哪里而且为什么要去,这会是自动驾驶车辆普及化的重大障碍...
  • PCIe成英特尔与其对手竞技的新战场 PCI Express (PCIe)发展迅猛,英特尔、IBM、Nvidia、Xilinx等公司相互角逐。资深分析师就上述公司之间的竞争态势开展调查。
相关推荐
    广告
    近期热点
    广告
    广告
    广告
    可能感兴趣的话题
    广告