半导体产业正经历一场由人工智能(AI)崛起以及传统摩尔定律放缓所驱动的关键转型。如何在满足前所未有的AI算力需求的同时,还可解决能效、安全性与可靠性等关键挑战,正成为全行业关注和讨论的重点。
为此,Arm特别推出了题为《芯片新思维:人工智能时代的新根基》的行业分析报告,与多位业界专家共同探讨AI时代启幕之际的行业现状与趋势,以及未来面临的挑战与机遇。
通向AI计算之路
作为该报告的作者之一,Arm解决方案工程部执行副总裁Kevork Kechichian日前在与《电子工程专辑》的交流中表示,过去40年中,芯片技术经历了深刻的演进与革新。这些技术不仅定义了当今我们所使用的数十亿消费电子产品,更推动了数据中心和云端的计算解决方案发展,使其成为支撑AI时代计算处理的关键。
他将芯片技术的发展划分为四个阶段:
- 摩尔定律的引入:20世纪80-90年代,基于摩尔定律的超大规模集成电路(VLSI)和极大规模集成电路(ULSI)技术,推动了数百万到数十亿个晶体管集成到单个芯片上,在带动算力与能效指数级增长的同时,也助推了移动芯片的兴起。
- 移动芯片组的发展:20世纪90年代中期,搭载Arm架构的诺基亚6110 GSM手机取得了巨大的商业成功,加速了移动芯片组的发展演进,其性能与能效的持续提升,以及功能的日益丰富,最终促成2000年代中期智能手机诞生,直接推动如今市场上更强大、更复杂的移动芯片——系统级芯片(SoC)的发展。
- 移动SoC的广泛应用:移动 SoC 随后被应用到了其他消费类设备和技术市场,如个人电脑、笔记本电脑、物联网设备以及嵌入式系统。随着对计算功能和组件需求的持续增长,行业对性能的追求愈发强烈。但受物理设计、技术和经济因素的多重限制,摩尔定律正接近极限。因此,现代SoC设计更注重性能提升与高能效计算的协同优化。
- 定制芯片、CSS和芯粒技术的兴起:步入AI时代,计算工作负载的规模与复杂性持续攀升,原有的增长模式难以为继。因此,整个行业都在推动AI领域的高能效计算,涵盖从大型数据中心到边缘设备(即各类终端设备)的所有技术触点。
例如,为满足AI计算需求,针对特定市场、应用或客户的需求而量身打造的定制芯片正成为行业发展的重要趋势。全球四大超大规模云服务提供商正在积极探索和投资定制芯片,2024年,其云服务器采购支出已接近全球云服务器采购支出的半数,如AWS Graviton4、微软Azure Cobalt、Google Axion等。同时,许多中小企业也在积极投入定制芯片的研发,如智原科技、Rebellions等公司。
“定制芯片设计的关键在于确保芯片与软件具备高度的可复用性。”Kevork指出,虽然我们可以很简单地说,每颗芯片都是根据特定需求定制而成,但底层平台必须具备一定的通用性,这正是平台真正的价值所在。这些底层平台需要能够确保不同定制芯片之间实现一定程度的相互复用,唯有如此,才能有效应对成本与产品上市时间所带来的挑战。
同时,考虑到通过摩尔定律实现半导体缩放的传统方法已达到物理与经济的极限,除了定制芯片,计算子系统(CSS)以及芯粒(chiplet),也是持续提升性能与能效的替代方案,并有望定义未来十年的技术创新方向。
AI计算中的能效与可持续发展
随着AI工作负载对计算密集型任务的需求日益增加,能效已成为AI计算发展的首要考量。以数据中心为例,2022年,美国数据中心电力消耗占全美用电总量的2.5%(约1300亿千瓦时),预计到2030年这一比例将激增至7.5%(约3900亿千瓦时)。这相当于约 4000万个美国家庭的年用电总量,接近全美家庭总数的三分之一。
“全球范围内的‘AI主导权’争夺战,正推动大量资金投入到规模日益庞大的模型训练中。然而,这种依赖算力堆砌的‘蛮力式’发展路径在经济上难以为继,由此催生了对更智能、更高能效的芯片解决方案的迫切需求。”
为降低能源成本,芯片设计正在集成优化的内存层次结构与协同设计的通信机制。这些解决方案既减少了数据的传输,还借助芯片堆叠、高带宽内存以及先进的互连等技术,最大程度地降低剩余数据传输过程中的能耗。与此同时,AI框架和算法也正日益针对每瓦性能和单位成本性能等指标进行微调,实现算力与经济可持续性之间的平衡。
与数据中心处理相辅相成的,还有边缘处理。它能以更节能的方式完成推理任务,并通过智能分配工作负载提高整体系统能效。目前,从移动端到物联网,一系列采用了更小型、更高能效AI模型的设备正在推动AI转向边缘侧。例如,Arm与Meta的优化合作使得Meta Llama 3.2大语言模型能够以前所未有的速度在基于Arm架构的移动设备上运行。
Kevork认为,要在降低能耗的同时更好地平衡算力和能效,需要做好以下四方面的准备:
- 晶体管层,与晶圆代工厂紧密合作,确保晶体管在功耗和性能方面实现优化,无论是动态功耗还是漏电功耗;
- 架构层,对CPU以及各类处理引擎的指令集进行针对性优化;然后向上进入整个结构中的更高层级,从系统级芯片设计、封装到数据中心等方面进行优化。
- 传输层,关键要点是对于数据及其传输过程的保护,降低在内存之间传输数据所消耗的电力。
- 软件层,实现智能负载均衡,即针对AI的不同方面进行处理上的优化,并合理分配工作负载,尽可能减少不同节点之间的数据传输。
AI时代的芯片保护
根据DarkTrace在2024年发布的一项调查报告,近74%的受访者表示AI驱动的网络威胁对他们所在的组织已带来显著冲击,60%的受访者担心其所在组织尚未做好充分准备来应对这类AI驱动的威胁与攻击。在一个连传统的后门攻击和侧信道攻击仍令人胆寒的行业里,AI带来的安全威胁成为了另一种严峻的可能。
来源:DarkTrace—2024年AI网络安全状况报告
但幸运的是,现代SoC的发展早已超越了简单的处理单元范畴,它们集成了加密防护、机密计算架构(CCA)、内存标记扩展(MTE)等复杂的安全机制,这些机制协同工作,构建起了针对当前和新兴威胁的多层防御体系。
而且,现代SoC的信任体系建立在硬件信任根(RoT)的基础之上,这也是整个系统的芯片级可信源。这一基础使系统具备强大的身份验证与认证能力,从设备启动的瞬间即可对每个组件与流程的完整性进行验证。
在报告中Arm提到,考虑到AI模型的规模和复杂性正呈指数级增长,当前部分模型的参数量已突破万亿级门槛,这对可扩展计算架构的需求变得尤为迫切。对此,半导体产业正在积极构建多层次的软硬件防护体系,从嵌入式芯片加密技术,到经AI强化的安全监测系统,以应对新兴的安全威胁。
AI时代芯片设计的变革
数十年来,半导体产业始终遵循摩尔定律的节奏稳步前行。然而,传统芯片技术在7纳米及更先进制程工艺上遭遇严峻挑战。Arm也在报告中指出,“传统的缩放方式——即通过持续缩小晶体管间距来推动长达数十年进步的核心驱动力——不仅已经放缓,实际上已走向终结。”
这一现实在静态随机存取存储器(SRAM)的缩放进程中表现得尤为明显:从5纳米到 2纳米工艺节点,SRAM单元面积并未出现显著缩减,尽管其在功耗和性能方面仍有所改进。
来源:WikiChip,如今芯片面积的缩放预计将受到SRAM的限制,尤其是聚焦AI功能的芯片
另一方面,以往,芯片设计与制造环节相对独立,保持着一定距离。然而,随着新的工艺节点要求整个生态系统更深入的合作,使得芯片设计与制造之间的关联更为紧密。与此同时,用于芯粒的先进封装技术,正在成为推动未来创新的关键驱动力。
芯粒设计趋势的兴起,实际上并不是为了让芯片变得更小。事实上,随着晶体管数量的增长速度超过单纯缩放技术所能支持的速度,系统整体尺寸仍在持续加大。这一技术演变始于2010年代,当时台积公司推出了CoWoS技术,使系统能够突破晶圆厂光刻设备的物理尺寸限制,实现系统扩展。目前,该技术正朝着实现9倍系统缩放能力的路线图稳步推进。
“在我们当前所处的技术范式中,最关键的是如何对芯粒的设计与接口方式进行标准化。这涉及从封装厂如何集成这些芯粒,一直到在系统中不同芯粒之间进行通信的全过程。因此,与合作伙伴就标准化问题达成共识至关重要。”Kevork说。
另一方面,从芯粒技术角度来看,鉴于先进工艺节点所能产出的实际可用晶粒(die)数量有限,行业正转向采用尺寸更便于管控的芯粒技术。同时,将芯片中的不同功能模块进行隔离设计,大大提升了整体的成本效益。
因此,当把一个复杂的SoC拆分为不同模块时,我们既可以从纯粹的计算子系统角度出发,也可以从内存子系统及其相关的内存和I/O接口出发进行划分。这些子系统和模块都可以独立设计,并在封装层级实现集成。
此外,一些先进的封装范式实际上正在提升这些芯粒的性能与能效。以3D封装为例,当不同的晶粒垂直堆叠在一起,无论是计算晶粒、基底晶粒还是内存晶粒,从处理单元到内存的接口距离都会变得非常短,这不仅显著减少了数据的传输路径,还降低了功耗,并提高了整体性能。
最为关键的是,先进封装与芯粒技术的真正价值在于实现真正的标准化。通过标准化,企业可以根据不同的性能需求,快速地组合和配置这些芯粒,从而打造出具有不同性能定位的芯片。这不仅大大缩短了产品上市周期,也有助于在快速迭代的市场竞争中占据先机。
软件与芯片协同发展
“AI发展的未来在于软件与硬件的协同发展。”
软件生态系统仍然是释放新芯片架构潜力的关键。在保障与AI框架无缝兼容的同时,为定制芯片提供优化支持,是实现新型芯片架构普及的关键所在。
以AI框架间的互操作性为例,嵌入式设备和物联网设备开发者常常倾向于采用CPU作为后端,因为CPU的普及性有助于确保更广泛的兼容性。此外,TensorFlow、PyTorch、ONNX等开源项目让开发者能够在不同平台之间实现无缝迁移,加之基于标准的API,都在推动AI开发的标准化,使数据科学家能够专注于模型训练、量化与部署等真正赋能模型创新的工作上。
过去十年间,AI的演进还催生了新的数据类型,经历了从整数表示向浮点数表示的迁移,近年来更是发展到更小位宽的浮点格式。这一演进对硬件构成了挑战,大量设备尤其是智能手机仍然依赖由其NPU所支持的整数类型。要跟上这种变化趋势,硬件必须不断做出调整,这也凸显了软件兼容性与支持能力的重要性。
为此,Arm在报告中建议企业和开发者要善用通用工具、提供预构建后端支持、保持对上游贡献、紧跟框架演进步伐,以培育开发者生态系统。
结语
“计算的未来,尤其是AI的未来,取决于我们能否持续突破芯片技术的极限。”
Kevork Kechichian认为,若想取得成功,我们既要直面复杂性,又要找到高效管理复杂性的方法——这将依赖于全新的工具、方法论,以及生态系统内前所未有的协作。
在这一过程中,Arm深知高效且可扩展的计算架构在释放AI潜能中的关键作用,将全力通过与半导体生态系统中的合作伙伴持续协作,构建起必要的技术基石,共同应对能效、安全性和性能等根本性挑战,定义计算的未来。
