(本文编译自Semiconductor Engineering)
AI需要密集计算和海量数据支持。这些计算可由CPU、GPU或专用加速器执行,而数据在传输到处理器的过程中会经过DRAM,因此,最适合该用途的DRAM类型取决于执行训练或推理的系统类型。
如今,工程团队面临的内存挑战在于如何满足AI快速增长的计算需求,而同步DRAM在其中发挥着至关重要的作用。所有数据都需要经过处理、存储和访问,这些步骤中的任何不匹配都可能影响整体系统性能。
Cadence产品营销部门总监Frank Ferro表示:“我们正在获得越来越强的计算能力。但从内存带宽的角度如何充分利用这些算力呢?”
这个问题没有简单的答案,也没有一刀切的解决方案。目前,SDRAM主要分为四类,每类都有其特定用途和优缺点:
DDR内存通常与CPU(尤其是复杂指令集架构或CISC处理器)搭配使用。程序可能包含复杂的分支和多种操作,而DDR针对此类计算进行了优化。DDR是最通用的架构,其延迟(首次数据访问时间)优于除HBM之外的所有其他类型,并且由于采用64位数据总线实现中等带宽。“双倍数据速率”指的是数据在时钟的上升沿和下降沿均能进出内存。这在早期内存和大多数逻辑电路中并不常见,它们通常只在一个边沿触发时钟。
LPDDR与DDR类似,但它在迭代升级中逐步加入了多项特性,以便在保持高性能的同时降低功耗。其节能特性包括:
更低电源电压;
温度补偿刷新率,允许在低温时减少刷新频率;
深度和部分断电模式;
部分阵列刷新选项;
写入均衡,用于补偿数据选通信号和时钟信号之间的偏差;
命令/地址训练以优化信号时序和完整性;
更低的I/O电容;
后续几代采用6位单数据速率(SDR)命令和地址总线,取代此前的10位DDR总线;
两条半宽总线,而非一条全宽总线;
差分时钟;
数据复制和Write-X(全1或全0写入)命令,减少特定场景下的数据传输量;
差分电压和频率调节(DVFS)。
后续几代产品包含更复杂的时钟结构,其中有一个四分之一速率的主时钟持续运行,从中衍生出多个仅在必要时运行的全速时钟。LPDDR并非集成于双列直插式内存模块(DIMM)中,而是采用BGA封装,直接焊接到电路板上。
GDDR是一种配合GPU进行图形处理的变体。它拥有比DDR更高的带宽,可以向处理器传输大量图形数据,但延迟也比DDR更高。
HBM涉及具有非常宽总线的DRAM芯片堆栈,可以提供非常高的带宽和低延迟,以防止内存访问成为数据密集型计算(例如AI训练、AI推理和高性能计算(HPC))的瓶颈。
这四种DRAM类型的主要区别在于访问协议,而不是存储单元本身。“无论使用GDDR、LPDDR、DDR还是HBM,底层的内存技术基本都是相同的,差异仅在于访问DRAM的方式。这些不同的访问方式会对性能和功耗产生很大的影响。
图1:不同SDRAM系列的比较。容量以单芯片计算(HBM不以单堆栈计算)。没有哪个系列在各方面都表现出色。DDR和LPDDR的吞吐量和容量可以相媲美,但成本是主要区别。
数据中心之王
数据中心是HBM无可争议的领地。Expedera首席软件工程师Ramteja Tadishetti表示:“我们认为HBM仍将主要应用于数据中心的训练和超高速接口。但HBM的价格使其更适用于云端,而难以进入成本敏感的边缘设备领域。”
HBM能耗更高,价格也更高,但数据中心的其他组件也一样。Quadric首席营销官Steve Roddy表示:“虽然HBM是本地内存中最昂贵、最耗电的选择,但与训练芯片中使用的全光罩尺寸裸片相比,它的成本和功耗只是九牛一毛。”
这些成本考量将迫使无力承担HBM成本的厂商做出妥协。“超大规模云服务商通常拥有足够的资金和资源,能够采用HBM,”新思科技内存接口产品线总监Brett Murdock解释道。“而二线厂商必须开始做出权衡,因为他们未必具备足够的规模来获得HBM供应商或2.5D封装商的支持。”
HBM对训练场景尤为重要,因其需要的带宽比推理更高。尽管数据中心推理仍在使用HBM,但LPDDR和GDDR也在该领域逐渐普及。“HBM已成为训练模型时近内存应用的热门选择,”Ferro表示,“我推测GDDR和LPDDR将成为推理加速器卡上的主流内存。”
Murdock对此表示赞同,并指出两者之间应该采取更多混合方案。“训练比推理需要更多内存,所以人们可能更倾向于HBM4和LPDDR6的组合,其中LPDDR6是为了满足容量需求。”
三星也观察到类似的趋势。“混合内存的应用正变得越来越普遍,”三星IP和生态系统营销高级总监Kevin Yee表示。“不仅仅是DDR、LPDDR、GDDR或HBM。我们开始看到为了节省功耗而采用混合内存方案。”
一个新兴的方向是定制HBM,大批量采购商可以与内存制造商合作,将堆栈底部的标准逻辑基础芯片替换为具有专有增值功能甚至优化通道的定制芯片。
虽然所有内存都需要考虑散热问题,但对于HBM而言,这一点尤为重要,因为它采用堆叠结构,而任何堆叠结构都会带来散热挑战,尤其是堆叠中间芯片的散热。此时需要进行多物理场仿真,但这需要更精确的模型。“表征这种3D堆叠结构的热行为面临诸多挑战,”弗劳恩霍夫IIS自适应系统工程部设计方法部门负责人Roland Jancke表示,“不仅是内存堆叠,任何包含处理器、内存、传感器等元件的堆叠结构均是如此。”
最后,还有地缘政治因素。“除了供应和成本之外,另一个考虑因素是政治因素。宽泛地说,HBM 对中国基本是限制准入的,”Murdock指出,“因此,中国公司目前在AI设计中使用LPDDR5X,而未来则将转向LPDDR6。”
CPU的固定搭配
DDR在数据中心中占据一席之地,但它通常用于协调操作的CPU。无论是GPU还是神经处理单元(NPU)等加速器,在数据中心场景中通常分别依赖HBM以获取更高带宽,或依赖LPDDR以实现更低功耗。
图2:CPU与G/NPU所采用的内存对比。DDR在CPU执行的通用顺序计算中表现出色,而HBM和LPDDR则分别为涉及高度并行计算的训练与推理算法提供更高带宽或更低功耗,GDDR也可能在此场景中应用。
Murdock表示:“通常情况下,服务器和DDR是标配组合。如今,DDR5 RDIMM是黄金标准,但有些服务器正在转向DDR5 MRDIMM(多路复用RDIMM,通过对两个RDIMM进行乒乓操作使带宽翻倍),利用现有的DRAM提供更高的性能。DDR5 MRDIMM在价格和功耗方面都比较昂贵。”
但DDR并未针对处理AI数据模式进行优化。Expedera的Tadishetti表示:“DDR仍是可靠的二级存储方法。然而,除非延迟和性能有显著改善,否则它在效率方面无法与LPPDR竞争,原始性能也不及GDDR/HBM。”
尽管如此,DDR 凭借普及性和成本优势占据了市场。“对于不受功耗限制的大规模推理优化设备,DDR是首选的本地内存,”Roddy表示,“对于任何通过有线供电(家庭、办公室、工厂)或自带电源(汽车)的设备,DDR的速度和成本组合都堪称无敌。在NPU子系统上运行的推理应用,若能智能管理外部内存,便可通过批量处理和预取DDR访问来最大化性能,同时利用DDR庞大的规模经济优势。”
新晋宠儿
不过,LPDDR已开始渗透到各种系统中,如果它不取代其他方案,也可能会被添加到系统中以降低功耗。
Roddy表示:“对于电池和功耗受限的设备,LPDDR提供了卓越的带宽与功耗平衡。为手机市场量产的海量LPDDR使其成为大多数新兴AI消费类和便携设备的成本敏感型选择。”
其他人也表示认同。“LPDDR是内存领域的多面手——事实上,它在某些方面堪称大师,”Murdock表示,“它同时占据移动和汽车应用市场。”
甚至有人尝试用它打造“经济型HBM”。Rambus内存接口芯片产品营销副总裁John Eble指出:“可以堆叠LPDDR来扩展容量。”
LPDDR也在以降低功耗的方式进入数据中心,尽管它无法满足超大规模数据中心用户的所有需求。“LPDDR的主要缺点是缺乏RAS(可靠性、可用性、可维护性)功能,而且它不具备同等程度的ECC,”Eble表示,“它没有‘芯片冗余’概念,即从DRAM芯片故障中恢复的能力。LPDDR的设计初衷并非为了实现这种级别的RAS功能。”
尽管DDR通常与CPU配套使用,但LPDDR也已占据先机。“英伟达推出了基于Arm架构的Grace处理器,并选择将其与LPDDR内存捆绑,”Eble补充道。
在注重性能的边缘系统中,LPDDR也可能取代DDR。“许多边缘设备没有内存,而有内存的设备通常只需要很少的内存,所以它们倾向于寻找最便宜的内存,”Murdock表示,“那些真正需要内存发挥一定性能的设备会选择LPDDR,因其功耗和性能都很好。”
总是配角?
在AI系统中较少见到的一类内存是GDDR,其具有的一些特性本应吸引AI系统,但在关键参数上往往屈居第二。GDDR的吞吐量高于LPDDR,但低于HBM。它的成本低于HBM或LPDDR,但高于DDR。目前还没有明确的参数要求某些类型的系统必须使用GDDR。因此,它在AI领域常被忽视。
Roddy表示:“GDDR对AI应用而言似乎总不合时宜。对于面向推理的消费设备,GDDR价格过高,而设计精良、具有离线编译功能的NPU可以智能地预取权重和激活函数,根本不需要GDDR更快的随机访问速度。在数据中心,HBM的原始速度优势已经取代了GDDR。”
然而,只要容量限制不构成障碍,GDDR在图形相关的生成算法中仍有潜力。“它主要用于图形和生成式AI的某些方面,”Tadishetti表示,“随着图像和视频生成模型的日益增长趋势,一些需求可能会转向GDDR。但需要明确的是,我们还没有看到OEM这样做。”
四大技术路线
所有DRAM标准均源自JEDEC,但每种类型分属不同委员会。DDR由JC-42.3子委员会(典型的JEDEC命名法,其中JC-42涵盖所有固态存储器)负责,JC-42.1负责标准化GDDR,JC-42.2负责HBM,JC-42.6负责LPDDR。这四个委员会都在继续推进各自的DRAM产品的技术迭代,但LPDDR和HBM的新版本更受关注。
Murdock表示:“LPDDR5X现已上市且价格合理,能够满足许多应用的功耗和性能需求。鉴于LPDDR6相较于LPDDR5X的性能提升,我们已经看到设计端对它的需求。”
虽然LPDDR6的具体变化尚未公开,但预计主要会影响时钟频率、存储方式、总线宽度和突发访问机制。此外,它将内置纠错码(ECC),这证明了高速场景下存储单元和信号的敏感性。LPDDR6预计于今年年底问世。。
HBM4是备受期待的下一代高带宽内存。与HBM3相比,它的带宽、通道数和数据总线宽度均翻了一番。预计将于2026年上市。
动态发展的环境
即使内存速度提升、相对功耗下降,处理器也在经历类似的技术演进。理想情况下,处理器和内存应该协同发展,避免任何一方成为瓶颈。但由于两者独立研发,未来仍会存在交替领先的情况。
尽管专用NPU难以实现大规模应用,部分产品却有望实现极低功耗的运算。一旦这类NPU流行起来,将对功耗受限系统中的内存提出更高要求。同样,随着数据中心处理器性能的提升,HBM也需要跟上步伐。
仅仅选择合适的内存是不够的。确保高质量的访问信号对于高速运行至关重要。“从系统性能的角度来看,内存通道确实是最重要的,我们必须考虑信号完整性,”Cadence的Ferro表示。
尽管技术趋势已很明显,系统设计师仍需深入研究,为特定系统匹配最适宜的内存类型,并确保系统整体能够支撑其运行。
END