广告

克服常见的人工智能问题:内存瓶颈

时间:2022-04-18 09:10:36 作者:Sally Ward-Foxton 阅读:
人工智能方兴未艾,各领域都正以足以让业界激动不已的速度快速发展,但它也面临各种挑战,内存需求就是一个瓶颈,特别是对于参数动辄多达上万亿的复杂大型模型训练而言。如何破解人工智能的内存瓶颈?且看本文中专家们的观点。
广告

人工智能(AI)怀疑论者批评当前技术中存在的内存瓶颈,认为无法加速处理器和内存之间的数据传输,从而阻碍了实际应用的推广。

用于在数据中心训练AI模型的AI加速器需要最高的可用内存带宽。虽然将整个模型存储在处理器中,可以省掉片外存储器,但这不是一个可行的解决方案,因为最大的模型需要测量的参数达数十亿或数万亿个。

过去的系统受内存的限制,而如今的数据中心架构则利用各种技术来克服内存瓶颈。

高带宽内存

一种流行的解决方案是利用高带宽内存(HBM),其中包括通过硅中介层将4、8或12个DRAM裸片的3D堆栈连接到处理器。该技术的最新版本HBM2E具有比其前身更快的每引脚信号速率,高达每引脚3.6Gb/s,因而提高了带宽。三星和SK Hynix都能提供8裸片HBM2E堆栈,其总容量为16GB,带宽高达460GB/s(SK Hynix表示,相比之下DDR5带宽为2.4GB/s,GDDR6为64GB/s)。HBM3有望将速度和容量提得更高。

最新版本的英伟达旗舰数据中心GPU A100可以提供80GB的HBM2E性能和2TB/s的内存带宽。A100包含5个16GB DRAM堆栈,加上利用HBM2的40GB版本DRAM,总带宽可达1.6TB/s。两者之间的差异将用于极度消耗内存的深度学习推荐的AI模型训练速度提高了三倍。

同时,数据中心CPU也在充分利用HBM带宽。英特尔的下一代Xeon数据中心CPU Sapphire Rapids也将HBM引入了Xeon系列。它们是英特尔首款新AMX指令扩展的数据中心CPU,专为AI等矩阵乘法负载设计。他们还可以利用片外DDR5 DRAM或DRAM加HBM。“通常情况下,CPU针对容量进行了优化,而加速器和GPU针对带宽进行了优化,”英特尔高级首席工程师Arijit Biswas在最近的一次Hot Chips演讲上介绍道。“然而,随着模型大小呈指数级增长,我们看到对容量和带宽的需求一直在持续增长。Sapphire Rapids通过原生支持这两者来做到这一点。”

图1:英伟达的A100数据中心GPU具有6个HBM2E内存堆栈(出于良率原因仅利用了五个)(来源:Nvidia)

该方法通过内存堆叠得到了增强,“其中包括对软件可见的HBM和DDR的支持,以及将HBM用作DDR支持缓存的软件透明缓存,”Biswas补充道。

然而,Sapphire Rapids的首席工程师Nevine Nassif告诉电子工程专辑,HBM版本是以牺牲芯片面积为代价的。

“[与HBM兼容的]裸片略有不同,”她说,“还有一个不同于DDR5控制器的HBM控制器。在没有HBM的Sapphire Rapids版本中,我们往裸片的一个区域中添加了用于加密、压缩等的加速器。所有这些都省掉了——除了数据流加速器——取而代之的是HBM控制器。”

“最重要的是,为了支持HBM的带宽要求,我们必须对网格进行一些更改。”Nassif补充道。

除了CPU和GPU,HBM在数据中心FPGA中也很受欢迎。例如,英特尔的Stratix和赛灵思Versal FPGA都有HBM版本,一些AI ASIC也采用它。腾讯支持的数据中心AI ASIC开发商Enflame Technology将HBM用于其DTU 1.0器件,该器件还针对云AI训练进行了优化。这款80-TFLOPS(FP16/BF16)芯片利用了2个HBM2堆栈,可提供通过片上网络连接的512-GB/s带宽。

图2:DTU 1.0数据中心AI加速芯片有2个HBM2内存堆栈。(来源:Enflame科技)

单位成本性能

虽然HBM为数据中心AI加速器所需的片外内存提供了极高的带宽,但仍然存在一些值得注意的问题。

图3:Graphcore对不同内存技术的容量和带宽进行了比较。当其他人尝试利用HBM2E解决这两个问题时,Graphcore却在其Colossus Mk2 AI加速器芯片上利用了主机DDR内存和片上SRAM的组合。(来源:Graphcore)

Graphcore就是其中之一。Graphcore首席技术官Simon Knowles在Hot Chips演讲中指出,大型AI模型中更快的计算需要相应的内存容量和带宽。虽然许多人利用HBM来提高容量和带宽,但权衡因素还包括HBM的成本、功耗和热限制。

Graphcore的第二代智能处理单元(IPU)相反利用其大型896 MiB片上SRAM来支持其1,472个处理器内核运行所需的内存带宽。Knowles表示,这足以避免卸载DRAM所需的更高带宽。为了支持内存容量,因太大而无法在芯片上安装的AI模型利用服务器级DDR形式的低带宽远程DRAM。这种配置连接到主机处理器,允许中等规模模型扩展分布在IPU集群中的SRAM上。

鉴于该公司以单位成本性能为基础推广其IPU,Graphcore拒绝HBM的主要原因似乎是成本。

“HBM与AI处理器集成的净成本是服务器级DDR每字节成本的10倍以上,”Knowles指出。“即使容量适中,HBM也主导着处理器模块的成本。如果AI计算机可以利用DDR,那么它就可以在相同的拥有成本下部署更多的AI处理器。”

Knowles认为,40GB的HBM有效地将封装后的标线大小处理器的成本提高了三倍。Graphcore的8GB HBM2与8GB DDR4的成本细分估计表明,HBM裸片的尺寸是DDR4裸片的两倍(将20-nm HBM与Knowles认为是同时代的18-nm DDR4进行比较),从而增加了制造成本。还有TSV蚀刻、堆叠、组装和封装的成本,以及内存和处理器制造商的利润率。

图4:Graphcore对HBM2与DDR4内存的成本分析显示,前者的成本比后者高10倍。(来源:Graphcore)

“DDR DIMM不会发生这种边际堆叠,因为用户可以直接从内存制造商处采购,”Knowles表示。“事实上,出现可插拔式计算机组件生态系统的一个主要原因是为了避免边际堆叠。”

走得更远

脱胎于Hot Chips的隐形模式,EsperantoTechnologies提供了另一种解决内存瓶颈问题的方法。该公司的1,000核RISC-V AI加速器针对的是超大规模推荐模型推理,而不是上面提到的AI训练负载。

Esperanto公司创始人兼执行主席戴夫·迪策尔指出,数据中心推理不需要巨大的片上内存。“我们的客户不想要250MB的片上内存,”Ditzel说。“他们想要100MB——他们想用推理做的所有事情都适配100MB。比这更大的任何东西会需要更多内存。”

Ditzel补充说,客户更喜欢将大量DRAM与处理器放在同一张卡上,而不是在芯片上。“他们建议我们,‘只需将所有内容都放到卡上,然后利用您的快速接口。然后,只要你能以比PCIe总线更快的速度达到100GB的内存就行了。’”

Ditzel将Esperanto的方法与其他数据中心推理加速器进行比较后发现,其他人专注于消耗整个功率预算的单个巨型处理器。这家初创公司坚称,Esperanto的方法——将多个低功耗处理器安装在双路M.2加速卡上——可以更好地利用片外内存。单芯片竞争对手“引脚数量非常有限,因此他们必须利用像HBM之类的产品才能在少量引脚上获得非常高的带宽——但HBM确实很昂贵、很难获得而且功耗很高,”Ditzel表示。

图5:Esperanto声称通过利用6个较小的芯片而不是单个大芯片解决了内存瓶颈问题,并留出了引脚用于连接LPDDR4x芯片。(来源:世界语技术)

Esperanto公司的多芯片方法可提供更多引脚用于与片外DRAM通信。除了6个处理器芯片外,该公司还利用了24个专为手机设计的低压廉价LPDDR4x DRAM芯片,“每比特能量与HBM大致相同”,Ditzel指出。

“因为[LPDDR4x]的带宽[比HBM]低,所以我们可以通过更宽尺寸来获得更多带宽,”他补充道,“我们在加速卡的内存系统上利用1,500位宽,[而单芯片竞争对手]负担不起1,500位宽的内存系统,因为对于每个数据引脚来说,你必须有多个电源和多个接地引脚,引脚实在太多了。

“之前处理过这个问题,我们只好说,‘让我们把它分开吧,’”Ditzel透露。

通过822-GB/s的内存带宽访问192GB的总内存容量。所有64位DRAM芯片的总和可得到1,536位宽的内存系统,分成96个16位通道以便更好地处理内存延时。这一切都满足120W的功率预算。

流水线权重

晶圆级AI加速器公司Cerebras Systems设计了一个处于晶圆远端的内存瓶颈解决方案。在Hot Chips上,该公司发布了一款用于其CS-2AI加速器系统的内存扩展系统MemoryX,旨在实现高性能计算和科学工作负载。MemoryX力图训练带一万亿或更多参数的大型AI模型。

图6:Cerebras Systems公司的MemoryX是其CS-2晶圆级引擎系统的片外存储器扩展,其行为就像在片上一样。(来源:Cerebras系统)

MemoryX是DRAM和闪存的组合,其行为就像片上一样。该架构被宣传为极具弹性,设计可容纳4TB到2.4PB(2000亿到120万亿个参数)——该容量足以容纳世界上最大的AI模型。

该公司的联合创始人兼首席硬件架构师Sean Lie表示,为了使其片外内存表现得像片上一样,Cerebras优化了MemoryX,以消除延时影响的方式将参数和权重数据以流的形式传输给处理器。

“我们将内存与计算分开,从根本上使它们脱离开来,”他说,“这样做能使通信变得优雅而直接。我们可以这样做的原因是神经网络针对模型的不同组件利用不同的内存。因此,我们可以为每种类型的内存和每种类型的计算设计一个专门构建的解决方案。”

最终这些组件被解开,从而“简化了缩放问题,”Lie说。

在训练期间,必须立即访问对延时敏感的活动内存。因此Cerebras会保持激活片上内存。

 

图7:Cerebras在AI训练期间利用流水线消除延时敏感的传递信息。(来源:Cerebras系统)

Cerebras将权重存储在MemoryX上,然后根据需要将它们流式传输到芯片上。Lie表示,在没有背靠背依赖性的情况下,权重内存的利用相对较少。这可以用来避免延时和性能瓶颈。粗粒度流水线还避免了层之间的依赖关系;层的权重在前一层完成之前开始流式传输。

同时,细粒度流水线避免了训练迭代之间的依赖关系;后向传播中的权重更新被同一层的后续前向传播所覆盖。

“通过利用这些流水线技术,权重流水式执行模型可以隐藏外部权重引起的额外延时,并且可以达到如同权重在晶圆上[被本地访问]时的相同性能,”Lie表示。

(参考原文:Memory Bottlenecks: Overcoming a Common AI Problem )

本文为《电子工程专辑》2021年4月刊杂志文章,版权所有,禁止转载。点击申请免费杂志订

责编:Amy.wu
本文为EET电子工程专辑原创文章,禁止转载。请尊重知识产权,违者本司保留追究责任的权利。
Sally Ward-Foxton
Sally Ward-Foxton是EE Times特派记者,她专注于EE Times美国版的AI技术和相关话题,以及EE Times欧洲版杂志中的欧洲企业报道。 Sally base在英国伦敦,她报道电子行业已有15年,曾为Electronic Design、ECN、Electronic Specifie撰写设计、电子元件类文章。 她拥有剑桥大学的电气和电子工程硕士学位。
  • 移动应用开发的未来是什么? 在智能手机如此普及的今天,人们时常忘记移动应用是“新事物”。目前还没有任何移动应用开发放缓的迹象。人工智能(AI)、VR、AR和区块链等新兴技术正在不断影响移动应用开发的进程,手机和可穿戴设备上的应用已逐渐渗透到人们的生活。那么,移动应用开发的未来是什么呢?
  • 谈谈vivo X80手机上的“双芯”是否真的有价值 现在国产手机OEM厂商发布自研芯片时,真正透露的技术细节少之又少,只会给个大致的概念。前几天vivo召开了X80系列手机发布会,以“双芯”为主题,主要是指联发科天玑9000 + vivo自研的V1+芯片。自打手机OEM厂商“自研芯片”大热以来,vivo应用于X70系列手机的V1 ISP芯片就很吸引眼球,V1+即为V1的迭代款……
  • 45家国产AI芯片厂商调研分析报告 AspenCore声明:感谢安谋科技、合见工软与瀚博半导体在AI芯片报告的调研和撰写过程中提供专业的技术指导、应用案例分析和行业洞察。我们将邀请来自这三家公司的技术专家参与EE直播间在线讲座:Fabless技术和应用系列-AI芯片的设计挑战与应用市场分析。
  • 中国云计算完全国产化了吗? 在基础云计算laaS方面,我们已经基本实现了独立自主,国产化率达到了45%;在平台即服务云计算PaaS方面,我们在政务方面应该实现了绝大部分的国产化;在软件即服务云计算SaaS方面呢?
  • 玩手游为什么需要AI芯片?谈谈AI超分技术在手机上的落地 AI技术成为一条重要的出路,比较典型的是基于深度神经网络,采用超分(super-resolution)方案实时地提升游戏的画质和游戏体验。简单来说,超分也就是把原本低分辨率的画面升格(upscale)为高分辨率的画面——具体到游戏……
  • AI芯片的价值链 作为一个新兴的半导体市场,AI芯片的产业链涉及多个价值节点,其中有一些是高性能处理器芯片所共用的,但也有AI芯片所独有的价值链节点。从半导体产业的角度来看,AI芯片价值链包括风险投资(VC)、技术人才(Talent)、芯片设计工具(EDA)、IP/Chiplet、晶圆代工(Foundry)以及封装测试(OSAT)
  • 新款iPad Pro 2021成最受欢迎的 由于采用性能相对强大的M1处理器和mini-LED屏幕以及更多的创新,新款iPad Pro 2021已经成为消费者心目中最受欢迎。然而,iPad 2却已经在全球范围内被列入“复古和过时”的名单中。
  • 三星折叠屏手机Galaxy Z Fold 3 目前来看,折叠屏新机作为一种新的生产力工具,逐渐成为高端/平板的一种趋势,有报料称三星的Galaxy Z Fold 3发布时间或为7月,并且会引入新手势操控。
  • Porotech动态像素调整技术实现Micr 由于我们彻底巅覆 GaN 的半导体材料和结构技术,让我们突破在单位像素上呈现全光谱颜色。同时,PoroGaN微显示平台的光电特性,简化了电子和光电系统设计集成的过程。目前微米纳米级的Micro-LED 和 Mini-LED 显示器在制造所需的多阶段工艺仍然具有挑战性,凭借 Porotech 的多孔氮化镓 (GaN) 技术和架构平台,可以大幅简化现有质量转移(Mass Transfer)或拾取和放置(Pick-and-Place)等Micro-LED制程。
  • 豪威集团在AutoSens展会上首次推出 OAX4600可实现无缝隙的驾驶员/乘员监控系统功能和灵活的汽车设计,在较小的封装内集成低功耗的RGB-IR ISP和两个NPU 
  • A股半导体上市公司现金储备排行榜 芯片验证春季班开班!1750元补助即将收尾!就业畅销课《芯片验证从入门到精通》来源:半导体风向标在创芯人才网如何高效投递简历?
  • 机器学习再造无线电 仅由人设计电信系统的时代即将结束。从现在开始,人工智能(AI)将在这些系统的设计和运行中扮演关键角色。原因很简单:迅猛升级的复杂性。每一代通信系统都致力于改善覆盖范围、比特率、用户数量和功耗。但与此同
  • 马来西亚一PCB企业盛大开业 广告分割线5月9日,总部位于韩国的半导体封装基板和印制电路板制造商Simmtech在马来西亚的子公司SUSTIO Sdn Bhd(以下简称:SUSTIO)举行了盛大的开业典礼,该公司位于槟州威南县的峇
  • 这个C语言大坑,你见过没? 在开发过程中,你是否会发出“基础不牢,地动山摇”的感慨?我相信,只要有经验的工程师,应该都有过。鱼鹰曾经因为一个很基础的知识,差点毁了整个项目,这不是危言耸听。因为这个代码用于整个系统自检,一旦运行出
  • Keil调试时设置断点的高级用法 在线调试程序时,打断点是非常有效的一种方式,配合单步调试,可以快速定位问题。但有的时候,手动打断点用起来不是那么方便。比如,想要在一个循环的第N次停下来,如果手动打断点,那就要不停的点击单步运行,直到
  • 苹果将更多决策交给中国工程师,iPhone14也将如此 在疫情前,苹果公司每个月都会派出数百名美国工程师前往中国,监督生产其大部分产品的代工商。如今由于受疫情影响,苹果正在调整与代工方的合作方式。差旅限制阻碍了大多数美国人的出行,苹果开始更多地依赖本土工程
  • 逼近极限!台积电准备推进1.4nm工艺;索尼上海工厂部分复工;美国七大科技巨头3天市值蒸发1万亿美元|日报 今日要点● 台积电准备推进1.4nm工艺● 索尼上海工厂部分复工● 美七大科技巨头3天市值蒸发1万亿美元● 中兴去年出货1亿部终端半数采用自研芯片● 华为一季度下架超2万款APP巨头动向逼近极限!台积
  • 仪器的测试结果一定是可信的么? 作为一个射频工程师,测试是不可避免的一项工作。射频设计,只有通过实际测试,各项指标满足要求,才算完成。可是,不知道大家在测试过程中,发现测试出的结果与理论不符的时候,有没有考虑过,这可能不是你本身设计
  • 昆山这家首批复工复产的PCB企业产能已恢复80% 广告分割线当前,江苏省昆山市千灯镇按照市委、市政府统一部署,一手抓疫情防控不松懈,一手抓经济发展不动摇,把有序恢复经济社会发展和常态化疫情防控两方面工作统筹结合、同步开展,为夺取双胜利打下牢固的基础。
  • 南京大学、东南大学团队突破双层二维半导体外延生长核心技术,成果登上《自然》正刊! 芯片验证春季班开班!1750元学习补助即将收尾!就业畅销课《芯片验证从入门到精通》近日,南京大学王欣然教授团队与东南大学王金兰教授团队合作,实现厘米级均匀的双层二硫化钼薄膜可控外延生长,该成果近日发表
广告
热门推荐
广告
广告
广告
EE直播间
在线研讨会
广告
广告
广告
向右滑动:上一篇 向左滑动:下一篇 我知道了