随着人工智能(AI)的快速发展,从边缘AI(物联网设备)到为深度学习模型提供动力的大型数据中心,对更高性能、更低功耗和高效内存解决方案的需求跨越了广泛的应用领域。尽管AI发展迅速,但内存仍然是其致命弱点。如果内存技术没有突破,AI的性能提升将停滞不前。传统的内存架构难以跟上日益增长的AI工作负载,因此必须重新思考下一代AI系统的内存技术。
AI中日益增长的内存挑战
无论是高能效的边缘AI应用,还是高性能的数据中心AI训练,AI工作负载都需要实时处理大量数据。然而,传统的内存技术,如SRAM、低功耗双倍数据速率(LPDDR)DRAM和高带宽内存(HBM)DRAM,都存在重大局限性:
- SRAM速度快,但漏电功耗高,对大型千兆字节分立式内存芯片而言可扩展性差。
- LPDDR DRAM容量更大,但存在延迟和能效低的问题。
- HBM DRAM带宽高,但功耗较大,影响整体系统效率。
DRAM功耗的隐性成本
AI内存最紧迫的挑战之一是DRAM的功耗,而DRAM仍然是数据中心的主要内存技术。由于DRAM的耗电量占数据中心总耗电量的30%以上,因此提高内存效率对于可持续的AI计算至关重要。造成这种高耗电量的因素有几个:
- 能源消耗巨大:随着AI工作负载需要更大的内存容量,DRAM功耗也相应增加。
- 背景功耗:DRAM功耗的很大一部分来自“背景功耗”,包括保持数据完整性所需的刷新周期。
- 取决于工作负载的能耗:DRAM的实际功耗根据工作负载强度而波动,内存访问越频繁,功耗越高。
这种不断增长的能源需求对可持续的AI计算构成了重大挑战,因此探索既能降低功耗又能保持高性能的新内存解决方案至关重要。
大型AI模型的内存挑战
随着AI模型,尤其是大型语言模型(LLM)的规模不断扩大,训练和推理对内存的需求变得更加极端。理想的AI内存应具有以下特点:
- 更快的读/写延迟——与实时AI处理所需的SRAM速度相当或超过该速度。
- 比HBM更高的带宽——以跟上AI工作负载所需的大量数据。
- 超低功耗——最好是非易失性的,以减轻边缘和数据中心AI的能源负担。
- 可扩展性和可制造性——确保更高的密度和具有成本效益的大规模生产。
- 成本效益——对于新技术而言,成本结构始终是一个挑战。我们需要一个强有力的总拥有成本(TCO)论据,并不断努力降低硅晶圆成本,无论是通过减小存储单元尺寸实现长期可扩展性,还是通过开发存储单元堆叠技术。
新兴内存解决方案:AI计算的未来
为了摆脱这些限制,新的内存架构必须提供高速、高带宽和高能效的解决方案。一些新兴技术正在引领这一变革:
1. 磁阻RAM(MRAM)
重要性:与DRAM和SRAM相比,MRAM具有读取速度快、非易失性和功耗低的特点。
进步:新型STT-MRAM正在提高写入耐久性、带宽和可扩展性,使其适用于AI加速器和边缘设备。
影响:MRAM可降低待机功耗,实现内存计算,并降低AI系统的TCO。
2. 电阻式RAM(RRAM)
重要性:RRAM是一种超低功耗非易失性存储器,具有高密度和快速开关速度。
进步:耐久性和保持性的提高使RRAM成为AI推理工作负载和神经形态计算的候选技术。
影响:RRAM支持高能效的AI模型存储和边缘AI应用。
3. 3D DRAM和HBM的演进
重要性:传统DRAM扩展速度正在放缓,但3D DRAM堆叠和下一代HBM(如HBM4及更高版本)正在提高性能。
进步:未来的HBM迭代旨在降低每瓦功耗和提高带宽,从而解决一些AI瓶颈。
影响:这种演进增强了大规模AI模型的训练和推理能力,但仍然面临功耗限制。
4. 内存内计算(CIM)和内存内处理(PIM)
重要性:AI推理受到内存移动的瓶颈限制,因此CIM/PIM对于加速AI性能至关重要。
进步:MRAM、RRAM、相变存储器(PCM)和DRAM正在被用于内存计算架构。
影响:这些方法减少了数据传输延迟,提高了AI加速器的效率,并支持实时AI工作负载。
超越内存技术:生态系统和基础设施协调
除了对创新内存技术的期望之外,其他关键因素在AI性能提升中也发挥着至关重要的作用:
- 生态系统协调——内存技术必须与行业标准一起发展,包括HBM和通用芯片互连快递(UCIe)等新兴互连技术,确保与AI加速器无缝集成。
- 更高的芯片堆叠技术——为了满足不断增长的AI内存容量需求,高密度芯片堆叠的进步对于提高可扩展性和效率至关重要。
- 内存内计算提高AI效率——通过内存内计算减少AI芯片和内存之间的交互,有助于降低处理负载、提高能效并缩短AI处理时间。
- 优化芯片布局的SoC能力——为了在包括内存在内的各种AI器件中实现最佳效率,必须优化SoC设计,以实现无缝集成、减少瓶颈并提高整体系统性能。
边缘AI中的内存挑战
对于边缘AI应用(包括智能手表等可穿戴设备、电动汽车和智能摄像头)而言,关键挑战是在保持高性能的同时延长电池寿命。当前的内存架构通常依赖于NOR闪存(用于代码存储)和LPDDR(用于快速数据访问)的组合。但是,这种方法会增加系统复杂性、功耗和电路板空间。
需要一种统一的内存解决方案来简化架构,降低功耗和空间,同时提高效率。新兴的非易失性内存技术结合了快速的读写速度和超低功耗,可以显著增强边缘AI设备,在不牺牲性能的情况下延长电池寿命。
AI计算正走到一个十字路口,传统的内存技术已不足以满足功率和性能需求。随着LLM变得越来越大,内存必须不断发展,以满足对类似SRAM的速度、HBM级带宽、超低功耗、非易失性和可扩展性的需求。
通过集成下一代内存解决方案,包括MRAM、RRAM和内存计算架构,可以克服当前的内存瓶颈并将AI系统的效率提升到新的水平。下一波内存创新浪潮将是释放AI全部潜力的关键,推动从边缘AI到超大规模数据中心的新突破。随着行业不断创新,重新思考内存设计将对塑造AI性能的下一个前沿领域至关重要。
