向右滑动:上一篇 向左滑动:下一篇 我知道了
广告

芯片架构正为了适应大数据要求而改变

时间:2017-06-01 作者:Rick Merritt 阅读:
业界共同的愿景是开发一款人工智能(AI)处理器,它可为神经网络处理训练与推理等任务,甚至可能出现一些新的自我学习技术;这种AI处理器还必须能透过大规模的平行化方式提供强大的性能,同时具有高功效且易于编程...

由亚马逊(Amazon)、Google和Facebook等网络巨擘所收集的大量数据集,正推动处理这些巨量数据的新芯片复兴。预计在六月底的年度计算机架构大会上将亮相其中两项最新成果。xraEETC-电子工程专辑

斯坦福大学(Stanford University)的研究人员将介绍一种可重配置处理器——Plasticine,它可支持比FPGA更高近100倍的每瓦特性能,同时也更易于编程。此外,Nvidia的两名资深设计人员定义了一款推理处理器,可提供较现有组件更高2倍性能与能源效率。xraEETC-电子工程专辑

这些芯片象征着这项任务的冰山一角。过去一年来,英特尔(Intel)收购了三家机器学习创业公司。而其竞争对手——三星(Samsung)则连手Dell EMC投资英国公司Graphcore,这是该领域的六家独立新创公司之一。xraEETC-电子工程专辑

Nvidia正致力于推动其GPU作为神经网络训练引擎的销售。同时,该公司也正调整其芯片架构,使其得以更有效地处理这些任务。xraEETC-电子工程专辑

Google则声称其庞大的x86 CPU丛集以及Nvidia的GPU均不足以胜任这项处理任务。因此,Google推出了自家的两款加速器版本——Tensor处理器(TPU)。xraEETC-电子工程专辑

Graphcore首席执行官Nigel Toon说:“如今正是‘计算2.0’(Compute 2.0)的时代,它象征着一个全新的运算世界。Google最终将使用以TPU为基础的机架结构,几乎不使用任何CPU,因为它有98%的营收都来自搜寻——这正是机器学习的理想应用。”xraEETC-电子工程专辑

最终,机器学习芯片将出现在广泛的嵌入式系统中。以汽车每年卖出1,800万辆和服务器约1,000万套的年销售量来看,Toon说:“自动驾驶车应用可望为这项技术带来一个比云端更大的市场,而且是一个以往从未存在过的市场。”xraEETC-电子工程专辑

如今业界共同的愿景是开发一款人工智能(AI)处理器,它可为神经网络处理训练与推理等任务,甚至可能出现一些新的自我学习技术。这种AI处理器还必须能透过大规模的平行化方式提供强大的性能,同时具有高功效且易于编程。xraEETC-电子工程专辑

即使是这项开发任务的基本数学也引发热烈讨论。Toon认为,16位浮点乘法与32位累加运算的组合,能够带来优化精确度以及最小误差。xraEETC-电子工程专辑

这正是Nvidia Volta架构导入的Tensor核心所使用的途径,同时也是Graphcore将在今年10月出样给早期合作伙伴的高阶芯片。该新创公司正专注于开发一款采用新内存与互连的大型芯片,该芯片并可外接至各种单元与丛集。xraEETC-电子工程专辑

后多核心时代的灵活性xraEETC-电子工程专辑

由Kunle Olukotun带领的斯坦福大学研究团队也有类似的目标,不过,他们采取了一条与Plasticine不一样的道路。xraEETC-电子工程专辑

Olukotun说:“多核心时代即将结束......我们正处于一个现代应用程序(app)改变运算模式的时代。”Olukotun曾经协助一家新创公司率先打造出多核心设计,该技术最终成为Oracle基于Sparc处理器的一部份。xraEETC-电子工程专辑

“对于机器学习的统计模型,真正需要的运算方式与古典的确定性运算途径截然不同,所以这将带来一个真正的机会。”xraEETC-电子工程专辑

如同英国布里斯托的竞争对手Graphcore一样,斯坦福大学研究团队摒弃了共享一致的快取等传统思维。斯坦福大学数据科学计划执行总监Stephen Eglash认为,Plasticine“最令人兴奋之处在于硬件可在运行时重新配置,为特定计算方式实现优化。”xraEETC-电子工程专辑

Olukotun说:“我们的目标在于让拥有专业知识的任何人都能建立可生产的机器学习系统,而不一定得由机器学习或硬件领域的专家来做。”xraEETC-电子工程专辑

为了实现这一目标,斯坦福大学定义了一种新的语言Spatial,可将算法的各部份映像至平行处理器的各部份。Olukotun说:“我们拥有完整的编译程序流程,从高层级的Tensor Flow架构到硬件呈现……事实上,它具有比FPGA更高10倍每瓦特性能,也更易于编程100倍。”xraEETC-电子工程专辑

Spatial类似于Nvidia的Cuda GPU编程语言,但应该更易于使用。它能将诸如分散/收集或MapReduce等功能映像至硬件中的外显内存阶层架构,经由DRAM和SRAM实现串流数据集。xraEETC-电子工程专辑

因此,Pasticine处理器“是一项软件至上的计划,”Olukotun说。xraEETC-电子工程专辑

Eglash认为在物联网的边缘节点正需要这样的技术。“我们所产生的数据将会比传送至云端的更庞大,所以必须采用一些分布式的本地运算。”xraEETC-电子工程专辑

短期来看,机器学习将为智能型手机带来“超级个性化”,针对使用者的喜好自动量身打造。别再为密码和指纹伤脑筋了。Eglash说:“你的手机可能在几秒内就知道你是不是本尊。”xraEETC-电子工程专辑

在工业物联网(IIoT),推理任务已经被分配至网关了。GE Digital云端工程主管Darren Haas说,“我们所打造的一切都可以被划分成较小的设备,甚至是Raspberry Pi ...我们在云端建立了大规模的模型,并使其得以在边缘执行于轻量级硬件上。”xraEETC-电子工程专辑

斯坦福大学的Plasticine架构xraEETC-电子工程专辑

斯坦福大学的Plasticine是一种全新的架构,可能是Graphcore等新创公司将会采用的技术。它充份利用了平行模式和高层级抽象,以撷取有关数据位置、内存存取模式和控制流程等细节,从而在“一系列的密集与稀疏应用上进行操作”。xraEETC-电子工程专辑

在该芯片核心采用16×8的交错式图形运算单元(PCU)数组与图形内存单元(PMU),透过3个互连信道利用3种控制协议进行连接。这款尺寸为113mm2的芯片采用Spatial将应用映像至数组上;相较于采用类似28nm工艺打造的FPGA,该芯片可提供更高95倍的性能以及高达77倍的每瓦性能。xraEETC-电子工程专辑

Plasticine在1GHz频率频率下的功耗高达49W,支持12.3TFlops的峰值浮点运算性能,以及16 MB的芯片容量。xraEETC-电子工程专辑

PCU是执行巢状模式之可重配置SIMD功能单元的多级管线。PMU使用库存的缓存器内存和专用寻址逻辑与地址译码器。
20170531-big-data-1
Plasticine采用16×8的PCU与PMU数组,以及地址产生器和交换盒xraEETC-电子工程专辑

这些主单元和其他周边组件透过字级纯量、多字符向量和位级控制互连进行连接,且全部都采用相同的拓扑结构。各个连接都采用分布式的分层控制机制,以尽可能减少使用同步单元,从而实现序列、流水线或串流的执行。xraEETC-电子工程专辑

该途径简化了编译程序映射并可提高执行效率。“每个Plasticine组件均用于映像应用的特定部份:本地地址计算在PMU中完成,DRAM地址运算发生在DRAM地址管理单元,其余的数据运算则在PCU中进行。”xraEETC-电子工程专辑

Olukotun解释说:“本质上,它是一组高度库存的内存,支持专用地址单元产生附近的地址。只需执行计算,即可让内存在正确的时间将数据串流至运算单元,而无需解译指令。”xraEETC-电子工程专辑

该芯片采用四个DDR信道外接DRAM,并进行缓冲和管理,以尽可能减少芯片外处理。xraEETC-电子工程专辑

Olukotun说:“许多机器学习都专注于建置卷积神经网络(CNN),但我们的目标是打造更灵活且涵盖稀不断变化中的疏密集算法,让开发人员可以将其设计想法传达给硬件。”xraEETC-电子工程专辑

研究人员采用周期精确仿真来合成设计的RTL,为线性代数、机器学习、数据分析与图形分析等任务产生基准。他说:“我们希望这些设计概念能直接用于芯片上,并计划在6到18个月内进行芯片设计。”
20170531-big-data-2
Plasticine与英特尔28nm Stratix-V的性能比较 (来源:Stanford)xraEETC-电子工程专辑

Nvidia研究人员打造稀疏推理引擎xraEETC-电子工程专辑

另一组由9名研究人员组成的研究团队(其中有7人来自Nvidia)将介绍稀疏卷积神经网络(SCNN)推理加速器。该研究团队包括资深的微处理器设计人员Joel Emer(曾协助定义同步多线程),以及Nvdia首席科学家William Dally。xraEETC-电子工程专辑

相较于同级配置的密集CNN加速器,SCNN可提供更高2.7倍的性能和2.3倍的能源效率。该芯片采取较以往的研究更先进的途径,可消除无关紧要的数学运算,并专注于以最高效的方法处理CNN权重与启动。xraEETC-电子工程专辑

此外,它采用了一种新的数据流,可在压缩编码过程中保持稀疏权重与启动,从而避免不必要的数据传输以及减少储存的需求。此外,“SCNN数据流有助于将这些权重与启动有效地传递到乘法器数组,并在此广泛重复使用。”xraEETC-电子工程专辑

该途径可让“较大CNN的所有操作量保留在各层间的芯片缓冲区,完全不必使用大规模网络所需的高成本跨层DRAM参考资源。”
20170531-big-data-3
SCNN使用处理元素(PE)数组,处理权重以及输入/输出启动 (来源:Nvidia)xraEETC-电子工程专辑

该芯片的处理元素(PE)采用支持权重和启动向量的乘法器数组。该芯片采用16nm工艺技术,将64个PE与16个乘法器封装于7.4mm2模块中,使其尺寸略大于类似的密集CNN加速器。xraEETC-电子工程专辑

该论文并比较了SCNN与其他研究中的芯片。然而,Dally猜测这款芯片“比商用推理加速器的效率更高,因为它利用的是稀疏设计途径。”xraEETC-电子工程专辑

如同Plasticine一样,目前的研究成果是以仿真为基础,尚未制造芯片。Dally说:“我们正为这款设计进行布局以及时序收敛。”xraEETC-电子工程专辑

Nvidia尚未宣布商用化SCNN技术的任何计划,但在研究论中指出,“我们正持续在这个领域的研发工作。”xraEETC-电子工程专辑

编译:Susan HongxraEETC-电子工程专辑

本文授权编译自EE Times,版权所有,谢绝转载xraEETC-电子工程专辑

EETC wechat barcode


关注最前沿的电子设计资讯,请关注“电子工程专辑微信公众号”。
xraEETC-电子工程专辑

xraEETC-电子工程专辑

本文为EET电子工程专辑 原创文章,禁止转载。请尊重知识产权,违者本司保留追究责任的权利。
Rick Merritt
EE Times硅谷采访中心主任。Rick的工作地点位于圣何塞,他为EE Times撰写有关电子行业和工程专业的新闻和分析。 他关注Android,物联网,无线/网络和医疗设计行业。 他于1992年加入EE Times,担任香港记者,并担任EE Times和OEM Magazine的主编。
您可能感兴趣的文章
  • 第二季全球前十大IC设计公司营收排名出炉 据集邦咨询最新统计,全球前十大IC设计业者2019年第二季营收排名出炉,受中美贸易摩擦及供应链库存攀升影响,全球消费性电子产品包括智能手机、平板、笔电、液晶监视器、电视与服务器等市场需求皆不如预期,前五名业者第二季营收皆较去年同期衰退。
  • 华为确认三大EDA公司已停止合作后,Mentor回应 8月23日,华为正式发布AI处理器Ascend 910(昇腾910),同时推出全场景AI计算框架MindSpore。在会后的采访中,当被问及华为和Synopsys、Cadence、Mentor三家EDA公司的合作时,华为轮值董事长徐直军表示,“大家都很清楚,这些公司都不能和我们合作了……
  • 2019年上半年全球IC设计初创公司融资一览表 进入2019,全球半导体市场的下滑和中美科技冷战的不确定性也给IC设计初创企业的风投融资带来了负面影响。ASPENCORE旗下《电子工程专辑》主分析师顾正书根据EETimes、Crunchbase及各家获得融资的IC设计公司网站的公开信息,汇总出2019年上半年全球IC设计初创公司融资一览表。 从我们选取的13家获得风投融资的IC设计公司来看,总融资金额约为7.5亿美元,其中地平线一家就占据了6亿美元。按照国家来分,美国4家,中国3家,以色列3家,加拿大、法国和澳大利亚各1家。所涉及的技术包括AI推理、物联网传感器、边缘计算、存算一体、无线通信、模拟IC、生物感应、OLED显示等。应用领域涉及ADAS/自动驾驶、数据中心计算、边缘设备、医疗制药、显示屏幕、智慧城市等。
  • 形式验证简介及其三种技术形式 形式验证是一种自动检查方法,它可以捕获许多常见的设计错误,并发现设计中的歧义之处。硬件系统有许多应用都至关重要,其产生的任何故障都可能导致极大的经济损失或物理损害。 本文将讨论形式验证及其各种技术形式。
  • NXP:跨界的产品,双面的属性 2019年已成为恩智浦微控制器部门推出新产品最多的一年……
  • 2019第一季全球前十大IC设计厂商排名出炉 据TrendForce旗下研究院最新统计,2019年第一季全球前十大IC设计业者营收及排名出炉,前五名中仅有联发科维持小幅成长,其余包含博通、高通、英伟达与超威皆出现衰退,其中英伟达因库存尚未完全去化,衰退幅度最大,达24.4%。
相关推荐
    广告
    近期热点
    广告
    广告
    广告
    可能感兴趣的话题
    广告