向右滑动:上一篇 向左滑动:下一篇 我知道了
广告

Graphcore如何能成为西方半导体业唯一“独角兽”?

时间:2019-07-10 作者:Sally Ward-Foxton 阅读:
总部位于英国布里斯托的新创公司Graphcore,开发了一款被称为智能处理单元的新型AI加速器;Graphcore估计市值达17亿美元,被认为是西方半导体产业界唯一的“独角兽”,其投资者包括Dell、Bosch、BMW、Microsoft和Samsung等巨擘。

总部位于英国布里斯托(Bristol,UK)的新创公司Graphcore,开发了一款被称为智能处理单元(intelligence processing unit,IPU)的新型AI加速器;该公司在2016年在风险资本业者的支持下诞生,并在2018年12月进行的最后一轮融资募集了2亿美元。Q7dEETC-电子工程专辑

Graphcore估计市值达17亿美元,被认为是西方半导体产业界唯一的“独角兽”,其投资者包括Dell、Bosch、BMW、Microsoft和Samsung等巨擘。EE Times记者最近采访了Graphcore执行长Nigel Toon (文章上方大图右,左为Graphcore技术长Simon Knowles),畅谈该公司愿景、AI加速器市场以及AI领域未来发展。Q7dEETC-电子工程专辑

EE Times:Graphcore的IPU芯片已经开始销售了吗?以什么形式?

我们的产品已经量产出货以取得营收,目前正在与极少数早期客户合作。我们目前的主要产品是一款可插入服务器的double-width、full-height 300W PCI Express卡,顶部连接器可以实现卡间互连。每一片Graphcore C2卡都配有两颗Colossus IPU处理器芯片;该芯片本身,即IPU处理器,是迄今为止最复杂的处理器芯片──在16纳米单芯片上容纳了240亿个晶体管,每颗芯片可提供125 teraFLOPS运算力。Q7dEETC-电子工程专辑

我们能在一个标准4U机箱中插入8张卡,卡间透过IPU链路互连。卡上的处理器能像是同一个处理单元般共同运作,提供双petaFLOPS的运算力。IPU与CPU和GPU的运算架构不同,能为机器智能提供更高效率的处理平台。这类运算模块能应用于云端运算服务器,也具备进驻自动驾驶车辆的潜力。Q7dEETC-电子工程专辑

EE Times:Graphcore如何因应在数据中心执行深度学习软件堆栈的挑战?

在过去3、4年崛起的标准化深度学习框架,如TensorFlow和PyTorch,搭配ONNX等图形描述子(graph descriptors),能支持某些框架之间的数据交换,让开发人员快速设计神经网络;这些设计基本上是图形框架,也就是说,它们描述了一种包括运操作数(operators)和图形内部元素链接的数学图形。Q7dEETC-电子工程专辑

而我们从这些高阶框架中取得输出并将其输入到我们称之为Poplar的软件层;Poplar扮演我们的映射和编译工具,采用高阶框架图形并将它们映像成为在IPU处理器上执行的完整运算图形。每颗IPU处理器都有1,200个独立的专用核心,以及机器学习所需的所有控制操作和超越函数(transcendental function)。每个IPU核心可执行多达六个程序线程;因此如果你有16颗处理器,在一个4U机箱中可以执行超过10万个独立的平行程序。Q7dEETC-电子工程专辑

正是这种平行化水平,让用户可实现快速训练模型并进行实时操作──这也让我们能够在自然语言处理以及理解自动驾驶车辆应用的视频方面取得重大进展。因此,强大的平行处理能力真的非常重要。Q7dEETC-电子工程专辑

有了Graphcore的IPU,能在处理器内部生成完整的机器学习模型。该处理器具有数百MB的RAM,可在处理器上以超过1.6GHz的速率全速运行;其中的延迟已被程序线程隐藏。若GPU内具备高带宽内存(HBM)等内存技术,还能以更快的速度操控模型。Q7dEETC-电子工程专辑

HBM可达到900GBps的内存带宽,我们的单颗IPU处理器则可约45TB内存带宽;因此一个4U机箱中若有16颗处理器,将带来大量的内存带宽──能平行运作成千上万个程序线程;这是我们得以加快机器智能任务执行速度的部分原因。Q7dEETC-电子工程专辑

EE Times:与市面上领先的GPU方案相较,Graphcore的IPU性能表现如何?

这取决于任务。如果是执行用以分类静态影像的前馈卷积神经网络(feed-forward convolutional neural networks),GPU的表现已经相当好,但IPU可以提供两到三倍的性能优势、有时甚至是五倍。对于更复杂的模型,例如有数据来回传递以尝试理解情境(例如对话)的模型;由于数据被传递多次,需要非常快。对于这样的应用,因为所有的模型都保存在我们的处理器中,IPU可以比GPU快很多,甚至可能快十倍、二十倍或者五十倍。Q7dEETC-电子工程专辑

EE Times:Graphcore是否计划将性能测试结果送交MLPerf或其他基准检验平台?

我们会这么做;目前我们专注在与早期客户合作,帮助他们解决实际问题,但我们会回过头去做一些基准检验。基准检验平台的问题在于它们比较守旧,通常专注于标准的卷积神经网络(CNN),可是这个产业已经往前走了很大步。虽然基准检验是有用的相对衡量标准,但看到产品在实际应用上的真实性能表现也很重要。Q7dEETC-电子工程专辑

创新发展可说日新月异,很难保证你不是“拿苹果跟橘子比”;如果采用标准框架,(为了比较)在不同的系统上进行尝试也很容易。Q7dEETC-电子工程专辑

EE Times:Graphcore的IPU芯片在推论与训练上都适用吗?

是的,你可以用相同IPU芯片进行推论或训练;从架构的角度来看,这对我们非常重要,因为随着机器学习演进,系统将能够从经验中学习。推论性能表现的关键包括低延迟、能使用小模型、小批次(small batches),以及可能会尝试导入稀疏性(sparsity)的训练模型;IPU可以有效地完成所有这些事情。Q7dEETC-电子工程专辑

因此在一个4U机箱中,16颗IPU共同合作协作进行训练,每颗IPU可以执行独立的推论任务,并由一个CPU上执行的虚拟机来控制,最终你会得到一个可用于训练的硬件。因此一旦模型被训练、布署,随着模型演进且我们开始想要从经验中学习时,就可以采用相同硬件。Q7dEETC-电子工程专辑

EE Times:在人才方面,Graphcore将如何培养软件开发工程师,就像是竞争对手Nvidia为CUDA技术所做的?

Graphcore的映射和编译工具Poplar虽然在某种程度上与CUDA差不多,但实际上是一种程序语言,不是在较低层级描述图形的框架。你可以在Poplar中描述一种新型的卷积函数,或一种新型的递归神经网络层,将之视为高阶框架中的函式库元素(library element)。我们可提供各种高阶运操作数与函式库元素,还有许多低阶运操作数;你可以轻松将之互连以创建新的函式库元素,或者是如果你想做一些完全创新的事情,可以使用Poplar C ++环境创建自己的东西。Q7dEETC-电子工程专辑

我们希望大家分享他们的创新让其他人使用。如果你检视Google的TPU或NVIDIA的GPU,会发现很多函式库元素都是封闭的黑盒子,无法看到它们是如何打造;但而我们的是开放的,人们可以进行修改并扩展,我们希望建立的是这样的一个开放社群。Q7dEETC-电子工程专辑

EE Times:在AI领域,Graphcore面对的是包括Google、百度(Baidu)、Nvidia、Intel,以及据说也在开发自家芯片的数据中心巨擘Facebook、阿里巴巴(Alibaba)等对手。Graphcore将如何与那些公司竞争?如果数据中心业者开发自己的AI加速器,市场竞争态势又将如何变化?

我认为会有三个主要市场。首先是一个相当简单的小型加速器市场,通常是以应用于手机的IP核心形式来提供;我们知道一些手机大厂已经在进行这类开发,但我们没有参与这个市场。Q7dEETC-电子工程专辑

还有一个是类似ASIC组件的市场;举例来说,某家公司拥有具备大量用户的特定工作负载──或许他们经营一个很大的社交网络──他们可以在一颗芯片中创建一个非常具体的功能,然后在数据中心布署该芯片以加速执行此功能。这种ASIC类型方案市场也会很大,但我们也没有参与。Q7dEETC-电子工程专辑

我们在做的是一种通用处理器,可以让你用来做许多不同的事情,而且是以惊人的效率。如果该技术应用于云端运算环境,能非常轻松地解决问题,而且功能多样、容易编程,并带来极具效益的结果…我们相信这是一种能在市场上致胜的技术。Q7dEETC-电子工程专辑

人们打造专属ASIC类型芯片的事实,几乎可证明GPU并非市场所需。市场需要的是一种更高效益、容易使用、为机器智能量身打造的处理器,这正是我们所做的。我们认为通用IPU有机会形成迄今最大的一个市场类别,透过为以上所有问题从零开始打造一种更高效益的解决方案,我们相信我们能主导该领域的产业标准。Q7dEETC-电子工程专辑

EE Times:在AI加速器市场俨然成为领导者的GPU,其实在一开始并不是为了这个目的而设计,您认为它会继续占据主流地位吗?

如果只是要做基本的前馈卷积神经网络,GPU是很不错的解决方案,但随着网络变得越来越复杂,人们需要全新的解决方案──这也是为何他们要用ASIC和FPGA。Q7dEETC-电子工程专辑

我们接触过的所有创新者都说,使用GPU会阻碍阻碍他们的创新,而如果仔细看一下他们正在做的模型种类,会发现他们主要采用的是CNN形式,因为递归神经网络和其他种类结构,例如强化学习,不能很妥善地映像在GPU。研究领域因为缺乏够好的硬件平台而受限,这也是为什么我们要将IPU推向市场。Q7dEETC-电子工程专辑

EE Times:Graphcore会进入企业应用市场吗?如果答案是肯定的,你们要如何在竞争对手环伺的该市场脱颖而出?

企业应用市场很有意思,特别是当很多公司正尝试进行真正的深度学习──我们对这个部分特别感兴趣,也并专注于此。问题是,我们该如何接触这类客户?他们遍布全球,分散在不同的垂直市场;对于新创公司来说,这是一个很难进入的市场。Q7dEETC-电子工程专辑

但我们的策略可以说相当“狡猾”──我们与Dell建立了密切的合作关系;Dell是我们公司的投资者,透过与他们合作,我们顺利地进入企业应用市场,并透过多种不同形式将我们的技术提供给客户。举例来说,我们的产品可能是4U规格一体化IPU服务器,也可能是内建单片IPU PCI卡的工作站;我们有很多不同的选项瞄准这个市场,我们也已取得管道。Q7dEETC-电子工程专辑

EE Times:恭喜你们成为西方半导体界的唯一“独角兽”;拥有如此高的身价,Graphcore将如何确保投资者获得良好的投资报酬?

拥有很高的估计市值对我们的公司来说是好事,因为那是公司业务模式的有力验证,而且能让我们可以筹集到大量资金。我们现在拥有具备惊人成长速度的“火力”,这非常重要,因为我们所在的是一个新兴市场;这种动力将在未来的两至三年内发挥作用,我们得在这段时间内跑得非常快,以成为市场上的领先者。Q7dEETC-电子工程专辑

本文同步刊登于电子工程专辑杂志台湾版2019年7月刊;责编:Judith ChengQ7dEETC-电子工程专辑

(参考原文: Graphcore CEO Touts 'Most Complex Processor' Ever ,by Sally Ward-Foxton)Q7dEETC-电子工程专辑

 Q7dEETC-电子工程专辑

本文为EET电子工程专辑 原创文章,禁止转载。请尊重知识产权,违者本司保留追究责任的权利。
Sally Ward-Foxton
Sally Ward-Foxton是EE Times特派记者,她专注于EE Times美国版的AI技术和相关话题,以及EE Times欧洲版杂志中的欧洲企业报道。 Sally base在英国伦敦,她报道电子行业已有15年,曾为Electronic Design、ECN、Electronic Specifie撰写设计、电子元件类文章。 她拥有剑桥大学的电气和电子工程硕士学位。
您可能感兴趣的文章
  • 联发科首颗5G SOC单芯片处理器明日发布 MT6885Z 预计使用 Cortex-A77 的 CPU 核心和 Mali-G77 的 GPU 核心,并整合旗下 Helio M70 5G 基频,提供 Sub-6GHz 频段支持,其下载速度达到了 4.7Gbps,上传速度则是达到了 2.5Gbps,向下兼容 4G、3G、2G 网络。
  • MIT开发出基于碳纳米管FET的RISC-V微处理器 由于硅技术不再遵循历史规律发展,业界已经对硅以外的纳米技术进行了大量研究。MIT的研究人员采用碳纳米管晶体管(Carbon Nanotube Transistors)成功研制出16位RISC-V微处理器,其设计流程和工艺均遵照行业标准,但能效比硅基微处理器高10倍。
  • 如何选择AI加速器? 越来越多的公司开始将机器学习纳入其营运业务中,但随着AI生态系统扩展,他们开始面对如何为其业务决定最适用加速器的“选择题”…
  • 新版本Geekbench 5基准测试在改进的同时带来了偏差 处理器设计社区离不开基准测试,作为一种跨平台的基准测试,Geekbench在众多可用产品中最受欢迎。Geekbench 5相较于之前的版本做了一些重大改进,但新版本比以前少了一些系统级性能基准测试,甚至还额外产生了以前版本中没有的偏差。
  • AI芯片推理性能比拼,Nvidia称第一 继今年稍早之前发表了AI训练的性能测试基准后,MLPerf近期又针对AI推理性能公布了一份测试基准以及各家业者的跑分结果。
  • AI推理处理器已死? 人工智能(AI)芯片的市场现实是什么?根据业界专家认为,如今我们已经脱离AI炒作,开始前进到更能准确反映现实的阶段...
相关推荐
    广告
    近期热点
    广告
    广告
    广告
    可能感兴趣的话题
    广告