广告

Graphcore如何能成为西方半导体业唯一“独角兽”?

时间:2019-07-10 作者:Sally Ward-Foxton,EE Times特派记者 阅读:
总部位于英国布里斯托的新创公司Graphcore,开发了一款被称为智能处理单元的新型AI加速器;Graphcore估计市值达17亿美元,被认为是西方半导体产业界唯一的“独角兽”,其投资者包括Dell、Bosch、BMW、Microsoft和Samsung等巨擘。
EETC https://www.eet-china.com

总部位于英国布里斯托(Bristol,UK)的新创公司Graphcore,开发了一款被称为智能处理单元(intelligence processing unit,IPU)的新型AI加速器;该公司在2016年在风险资本业者的支持下诞生,并在2018年12月进行的最后一轮融资募集了2亿美元。urLEETC-电子工程专辑

Graphcore估计市值达17亿美元,被认为是西方半导体产业界唯一的“独角兽”,其投资者包括Dell、Bosch、BMW、Microsoft和Samsung等巨擘。EE Times记者最近采访了Graphcore执行长Nigel Toon (文章上方大图右,左为Graphcore技术长Simon Knowles),畅谈该公司愿景、AI加速器市场以及AI领域未来发展。urLEETC-电子工程专辑

EE Times:Graphcore的IPU芯片已经开始销售了吗?以什么形式?

我们的产品已经量产出货以取得营收,目前正在与极少数早期客户合作。我们目前的主要产品是一款可插入服务器的double-width、full-height 300W PCI Express卡,顶部连接器可以实现卡间互连。每一片Graphcore C2卡都配有两颗Colossus IPU处理器芯片;该芯片本身,即IPU处理器,是迄今为止最复杂的处理器芯片──在16纳米单芯片上容纳了240亿个晶体管,每颗芯片可提供125 teraFLOPS运算力。urLEETC-电子工程专辑

我们能在一个标准4U机箱中插入8张卡,卡间透过IPU链路互连。卡上的处理器能像是同一个处理单元般共同运作,提供双petaFLOPS的运算力。IPU与CPU和GPU的运算架构不同,能为机器智能提供更高效率的处理平台。这类运算模块能应用于云端运算服务器,也具备进驻自动驾驶车辆的潜力。urLEETC-电子工程专辑

EE Times:Graphcore如何因应在数据中心执行深度学习软件堆栈的挑战?

在过去3、4年崛起的标准化深度学习框架,如TensorFlow和PyTorch,搭配ONNX等图形描述子(graph descriptors),能支持某些框架之间的数据交换,让开发人员快速设计神经网络;这些设计基本上是图形框架,也就是说,它们描述了一种包括运操作数(operators)和图形内部元素链接的数学图形。urLEETC-电子工程专辑

而我们从这些高阶框架中取得输出并将其输入到我们称之为Poplar的软件层;Poplar扮演我们的映射和编译工具,采用高阶框架图形并将它们映像成为在IPU处理器上执行的完整运算图形。每颗IPU处理器都有1,200个独立的专用核心,以及机器学习所需的所有控制操作和超越函数(transcendental function)。每个IPU核心可执行多达六个程序线程;因此如果你有16颗处理器,在一个4U机箱中可以执行超过10万个独立的平行程序。urLEETC-电子工程专辑

正是这种平行化水平,让用户可实现快速训练模型并进行实时操作──这也让我们能够在自然语言处理以及理解自动驾驶车辆应用的视频方面取得重大进展。因此,强大的平行处理能力真的非常重要。urLEETC-电子工程专辑

有了Graphcore的IPU,能在处理器内部生成完整的机器学习模型。该处理器具有数百MB的RAM,可在处理器上以超过1.6GHz的速率全速运行;其中的延迟已被程序线程隐藏。若GPU内具备高带宽内存(HBM)等内存技术,还能以更快的速度操控模型。urLEETC-电子工程专辑

HBM可达到900GBps的内存带宽,我们的单颗IPU处理器则可约45TB内存带宽;因此一个4U机箱中若有16颗处理器,将带来大量的内存带宽──能平行运作成千上万个程序线程;这是我们得以加快机器智能任务执行速度的部分原因。urLEETC-电子工程专辑

EE Times:与市面上领先的GPU方案相较,Graphcore的IPU性能表现如何?

这取决于任务。如果是执行用以分类静态影像的前馈卷积神经网络(feed-forward convolutional neural networks),GPU的表现已经相当好,但IPU可以提供两到三倍的性能优势、有时甚至是五倍。对于更复杂的模型,例如有数据来回传递以尝试理解情境(例如对话)的模型;由于数据被传递多次,需要非常快。对于这样的应用,因为所有的模型都保存在我们的处理器中,IPU可以比GPU快很多,甚至可能快十倍、二十倍或者五十倍。urLEETC-电子工程专辑

EE Times:Graphcore是否计划将性能测试结果送交MLPerf或其他基准检验平台?

我们会这么做;目前我们专注在与早期客户合作,帮助他们解决实际问题,但我们会回过头去做一些基准检验。基准检验平台的问题在于它们比较守旧,通常专注于标准的卷积神经网络(CNN),可是这个产业已经往前走了很大步。虽然基准检验是有用的相对衡量标准,但看到产品在实际应用上的真实性能表现也很重要。urLEETC-电子工程专辑

创新发展可说日新月异,很难保证你不是“拿苹果跟橘子比”;如果采用标准框架,(为了比较)在不同的系统上进行尝试也很容易。urLEETC-电子工程专辑

EE Times:Graphcore的IPU芯片在推论与训练上都适用吗?

是的,你可以用相同IPU芯片进行推论或训练;从架构的角度来看,这对我们非常重要,因为随着机器学习演进,系统将能够从经验中学习。推论性能表现的关键包括低延迟、能使用小模型、小批次(small batches),以及可能会尝试导入稀疏性(sparsity)的训练模型;IPU可以有效地完成所有这些事情。urLEETC-电子工程专辑

因此在一个4U机箱中,16颗IPU共同合作协作进行训练,每颗IPU可以执行独立的推论任务,并由一个CPU上执行的虚拟机来控制,最终你会得到一个可用于训练的硬件。因此一旦模型被训练、布署,随着模型演进且我们开始想要从经验中学习时,就可以采用相同硬件。urLEETC-电子工程专辑

EE Times:在人才方面,Graphcore将如何培养软件开发工程师,就像是竞争对手Nvidia为CUDA技术所做的?

Graphcore的映射和编译工具Poplar虽然在某种程度上与CUDA差不多,但实际上是一种程序语言,不是在较低层级描述图形的框架。你可以在Poplar中描述一种新型的卷积函数,或一种新型的递归神经网络层,将之视为高阶框架中的函式库元素(library element)。我们可提供各种高阶运操作数与函式库元素,还有许多低阶运操作数;你可以轻松将之互连以创建新的函式库元素,或者是如果你想做一些完全创新的事情,可以使用Poplar C ++环境创建自己的东西。urLEETC-电子工程专辑

我们希望大家分享他们的创新让其他人使用。如果你检视Google的TPU或NVIDIA的GPU,会发现很多函式库元素都是封闭的黑盒子,无法看到它们是如何打造;但而我们的是开放的,人们可以进行修改并扩展,我们希望建立的是这样的一个开放社群。urLEETC-电子工程专辑

EE Times:在AI领域,Graphcore面对的是包括Google、百度(Baidu)、Nvidia、Intel,以及据说也在开发自家芯片的数据中心巨擘Facebook、阿里巴巴(Alibaba)等对手。Graphcore将如何与那些公司竞争?如果数据中心业者开发自己的AI加速器,市场竞争态势又将如何变化?

我认为会有三个主要市场。首先是一个相当简单的小型加速器市场,通常是以应用于手机的IP核心形式来提供;我们知道一些手机大厂已经在进行这类开发,但我们没有参与这个市场。urLEETC-电子工程专辑

还有一个是类似ASIC组件的市场;举例来说,某家公司拥有具备大量用户的特定工作负载──或许他们经营一个很大的社交网络──他们可以在一颗芯片中创建一个非常具体的功能,然后在数据中心布署该芯片以加速执行此功能。这种ASIC类型方案市场也会很大,但我们也没有参与。urLEETC-电子工程专辑

我们在做的是一种通用处理器,可以让你用来做许多不同的事情,而且是以惊人的效率。如果该技术应用于云端运算环境,能非常轻松地解决问题,而且功能多样、容易编程,并带来极具效益的结果…我们相信这是一种能在市场上致胜的技术。urLEETC-电子工程专辑

人们打造专属ASIC类型芯片的事实,几乎可证明GPU并非市场所需。市场需要的是一种更高效益、容易使用、为机器智能量身打造的处理器,这正是我们所做的。我们认为通用IPU有机会形成迄今最大的一个市场类别,透过为以上所有问题从零开始打造一种更高效益的解决方案,我们相信我们能主导该领域的产业标准。urLEETC-电子工程专辑

EE Times:在AI加速器市场俨然成为领导者的GPU,其实在一开始并不是为了这个目的而设计,您认为它会继续占据主流地位吗?

如果只是要做基本的前馈卷积神经网络,GPU是很不错的解决方案,但随着网络变得越来越复杂,人们需要全新的解决方案──这也是为何他们要用ASIC和FPGA。urLEETC-电子工程专辑

我们接触过的所有创新者都说,使用GPU会阻碍阻碍他们的创新,而如果仔细看一下他们正在做的模型种类,会发现他们主要采用的是CNN形式,因为递归神经网络和其他种类结构,例如强化学习,不能很妥善地映像在GPU。研究领域因为缺乏够好的硬件平台而受限,这也是为什么我们要将IPU推向市场。urLEETC-电子工程专辑

EE Times:Graphcore会进入企业应用市场吗?如果答案是肯定的,你们要如何在竞争对手环伺的该市场脱颖而出?

企业应用市场很有意思,特别是当很多公司正尝试进行真正的深度学习──我们对这个部分特别感兴趣,也并专注于此。问题是,我们该如何接触这类客户?他们遍布全球,分散在不同的垂直市场;对于新创公司来说,这是一个很难进入的市场。urLEETC-电子工程专辑

但我们的策略可以说相当“狡猾”──我们与Dell建立了密切的合作关系;Dell是我们公司的投资者,透过与他们合作,我们顺利地进入企业应用市场,并透过多种不同形式将我们的技术提供给客户。举例来说,我们的产品可能是4U规格一体化IPU服务器,也可能是内建单片IPU PCI卡的工作站;我们有很多不同的选项瞄准这个市场,我们也已取得管道。urLEETC-电子工程专辑

EE Times:恭喜你们成为西方半导体界的唯一“独角兽”;拥有如此高的身价,Graphcore将如何确保投资者获得良好的投资报酬?

拥有很高的估计市值对我们的公司来说是好事,因为那是公司业务模式的有力验证,而且能让我们可以筹集到大量资金。我们现在拥有具备惊人成长速度的“火力”,这非常重要,因为我们所在的是一个新兴市场;这种动力将在未来的两至三年内发挥作用,我们得在这段时间内跑得非常快,以成为市场上的领先者。urLEETC-电子工程专辑

本文同步刊登于电子工程专辑杂志台湾版2019年7月刊;责编:Judith ChengurLEETC-电子工程专辑

(参考原文: Graphcore CEO Touts 'Most Complex Processor' Ever ,by Sally Ward-Foxton)urLEETC-电子工程专辑

 urLEETC-电子工程专辑

EETC https://www.eet-china.com
本文为EET电子工程专辑 原创文章,禁止转载。请尊重知识产权,违者本司保留追究责任的权利。
您可能感兴趣的文章
  • 深度学习的兴起,是通用计算的挽歌? 早期的计算机鲜有真正“通用”的设计,它们基本上都是为某一类算法特制的,我们不能简单将其说是像ASIC或FPGA。即便在真空管转向半导体以后,针对新功能进行硬件重新设计也是必须的。后来才有基于冯诺依曼体系的计算机架构,即可以存储指令,在软件中执行算法才成为可能。这是“专门硬件”向通用硬件的华丽转身。
  • 何谓迄今最复杂的处理器芯片——IPU处理器? Graphcore公司日前推出了一款称为智能处理单元(IPU)的新型AI加速处理器。其首席执行官Nigel Toon在接受EETimes采访时介绍了其公司愿景、AI加速器市场以及AI的未来。
  • 展锐全网通4G虎贲T310方案横空出世 在2019年春季中国电子信息博览会上,紫光展锐率先在业内推出采用ARM大小核架构的4核全网通4G基带解决方案虎贲T310,性能全面领先竞争对手的4小核或8小核方案,可为全球千元以下的入门级4G智能手机提供旗舰级的用户体验。
  • 协同仿真可实现更好的IC测试 虽然IC设计复杂性日益增加,但留给IC设计工程师的时间却没怎么变化。这迫使工程师加速所有相关流程。花费太多时间在测试上可能会错过产品及时面世的最佳时机,而花费太少时间可能会漏掉设计错误。随着我们转向更复杂的SoC设计,有效地利用测试时间变得越来越重要。有多种途径可以测试我们的设计,我们必须选择最佳方法来优化测试和花费的时间。仿真作为一种改善测试时间的方法优势突出,虽然方式并不简单。
  • 核芯互联:五年内具备与TI的一战之力 核芯互联的芯片产品思路,就是在数字产品上坚定不移地以RISC-V架构为核心发展嵌入式和边缘计算产品,同时在模拟产品上拓展深度和广度,最终以“Chiplet”的模式,将所积攒的IP迅速通过SIP的方式互联成超大规模服务器/自动驾驶系统芯片。
  • 高端处理器测评:高通骁龙855第一,海思麒麟980第三 目前在高端移动处理器中,市场竞争者不外乎只有包括高通、三星、及华为海思等 3 家。已经暂时停止研发高端处理器的联发科,也有消息传出将在近期重返高端处理器的发展市场,而且采用的还是 7 纳米工艺。不过,毕竟都还没看到产品,因此就不计算在内。对此,近期中国知名的硬件评测软件“鲁大师”公布了高端移动处理器的效能排行榜,其结果让市场人士也感到讶异。
相关推荐
    广告
    近期热点
    广告
    广告
    广告
    可能感兴趣的话题
    广告