当前,人工智能(AI)正以颠覆性速度重塑科技领域,深度融入人们的日常生活。在此趋势下,AI模型加速向“更智能、更轻量化、能力更强”演进,推动端侧AI计算需求爆发式增长。这一变革不局限于智能手机,更延伸至智能家居、汽车、工业设备等行业,构建起覆盖多元场景的智能计算新生态。
Arm高级副总裁兼终端事业部总经理Chris Bergey日前在北京接受采访时指出,AI发展目前呈现出的两大趋势非常引人关注:一方面,AI智能体在编程辅助、客户服务等领域催生了高增长的商业场景;另一方面,实体AI加速落地,机器狗、配送机器人等设备正从“有限自主”向“类人智能”演进。
“这两个趋势都蕴含着巨大的应用和商业价值。在AI智能体领域,部分初创公司凭借相关技术在员工规模不足百人的情况下,实现了一亿美元的营收。“Bergey说道,而在实体AI领域,未来1-3年内,当上述这些智能设备处于自主模式运行时,其自主运行能力将接近人类水平,释放万亿级市场潜力。
Arm高级副总裁兼终端事业部总经理Chris Bergey
构建AI系统的三大核心支柱
Bergey强调,打造高效AI系统需聚焦三大关键要素:
- 云端到边缘的无缝计算平台:AI工作负载需在端侧与云端灵活调度,因此,高度可移植的计算平台成为技术落地的基础——既能支撑现有设备功能升级,也为前沿技术(如实时协同AI)提供底层架构支持。
- 电力与每瓦性能的极致优化:数据中心能耗已从兆瓦(MW)级跃升至吉瓦(GW)级,其中超50%能耗来自于机架和半导体设备。在AI算力需求激增的背景下,“每瓦性能”成为核心竞争力指标,直接决定了设备续航、数据中心运营成本及绿色算力占比。
- 软件生态的规模效应:虽然为AI构建硬件颇具挑战性,但软件同样至关重要。Arm凭借超2200万开发者的全球最大软件生态,以及累计超3100亿颗基于Arm架构芯片的出货量,形成“硬件普及-软件繁荣-创新反哺”的良性循环。2024年推出的Arm Kleidi 软件库已实现超80亿次安装,并与腾讯混元Angel等主流AI 框架深度集成,显著降低开发者的跨平台适配成本。
从云端到边缘,全面驱动AI
在云端与数据中心方面,Arm正颠覆x86架构的长期主导地位。例如在今年的COMPUTEX 2025展会中,NVIDIA就分享了基于Arm架构的NVIDIA Grace CPU的最新发展势头,该CPU在包括埃克森美孚(ExxonMobil)、Meta等一系列的实际部署中,为要求苛刻的AI工作负载提供了性能和效率的提升。
而全球最大的云服务提供商亚马逊云科技(AWS)在去年秋季就曾分享,其相当一部分工作负载是运行在基于Arm架构的AWS Graviton处理器上。不仅如此,AWS超过90%的重要客户也在使用Arm架构。
随着AWS、Google和Microsoft持续扩展搭载Arm计算平台的自研数据中心芯片,Arm预计在2025年,出货到头部超大规模云服务提供商的算力中,有近50%是基于Arm架构。这股成长动能来自业界对Arm高效节能计算能力的强烈需求,以支持复杂的AI推理与训练工作负载。得益于Arm对于“每瓦性能”的坚持,相较于其他平台,头部云服务提供商所采用的Arm架构芯片可实现高达40%的能效提升。
PC与平板市场同样展现突破态势。在去年的COMPUTEX展会上,Arm发布了专为消费电子设备打造的Arm终端计算子系统(CSS),作为旗舰AI智能手机与新一代AI PC 的计算平台。除了带来两位数的性能提升之外,终端CSS也为用户带来了实质性效益——应用程序启动更快速、AI体验更流畅且更持久。Arm方面预计,2025年Arm架构将有望占据该市场整体出货量的40%以上,打破x86在通用计算领域的垄断格局。
Arm Cortex-X925是Bergey特别提及的一款重量级产品。凭借业内最高的IPC(每时钟周期指令数)性能和“能效优先”策略,Cortex-X925摆脱了传统只依赖提升频率来提升性能的“老路”,实现了性能与功耗的平衡,成为旗舰手机的核心选择。在中国,Arm与联发科技等合作伙伴紧密协作,将前沿CPU/GPU技术导入一线手机厂商供应链,基于Cortex-X925等平台的旗舰机型已成为市场主流。
NVIDIA DGX Spark则是将数据中心级别计算能力带到桌面级的AI桌面计算平台。它搭载了10颗Arm Cortex-X925核心和10颗Cortex-A725核心,配备了可实现高达1 PetaFLOPs(即每秒10^15次浮点运算)AI性能的GPU,具备支持2,000亿参数模型的AI计算能力。在COMPUTEX 2025上,NVIDIA宣布了携手宏碁、华硕、戴尔科技、技嘉、惠普、联想和微星等在内的全球领先系统制造商,打造NVIDIA DGX Spark和DGX Station系统。
Bergey透露,Arm计划于今年晚些时候推出新一代Armv9旗舰CPU(代号Travis),在现有基础上实现两位数的性能提升,并首次引入可伸缩矩阵扩展(Scalable Matrix Extensions, SME)技术,进一步加速处理AI工作负载。
GPU方面,Arm通过精锐超级分辨率技术(Arm ASR),在移动设备上实现了主机级画质渲染,其解决方案已被中国主流手机厂商采用,逐步确立在高性能移动GPU领域的领导地位。而即将发布的下一代GPU(代号Drage)将能为长时间的游戏和更丰富的多媒体内容,提供持续的、更强悍的性能支持。
据Bergey分享,这两款产品的结合将引入即将发布的面向移动端市场的 Arm Lumex CSS 解决方案,为未来消费电子设备上的边缘AI性能奠定基础。
聚焦端侧AI挑战与生态竞争力
在回答关于“端侧AI推理需求激增会给Arm提出什么新挑战?”的提问时,Bergey回应称,当前的很多讨论都集中在模型的构建和训练上。但现实情况是,在构建好模型之后,推理才是实现AI商业价值的唯一方式。
“事实上,训练当今世界上最大规模模型所需的计算量,大约是推理所需的10的11次方倍,这相当于全球10天的搜索量总和。由此可以想象,我们需要运行多少推理,才能让投入训练的计算资源实现商业回报。”Bergey说。
他认为Arm的真正优势在于全球范围内有超过2,200万名的软件开发者,几乎所有重要的软件开发不仅能在Arm架构上运行,而且都针对Arm架构进行了优化。再加上Arm架构本身的设计及商业模式,开发者仅需一次开发,就能在整个半导体生态系统中众多采用Arm CPU的SoC上运行。
而且,根据实际观察,目前,大多数第三方应用实际上都是在CPU上进行AI开发的,甚至有70%会始终运行在CPU上,而不会迁移到GPU或NPU上,当然也有不少应用借助GPU进行加速。NPU较受关注,主要因为它是新兴技术,并且在每瓦特算力方面具有显著优势,但其在软件开发生态和灵活性方面面临不小的挑战。
Bergey表示,Arm始终坚信异构计算是未来的发展方向,因为AI工作负载本身也在持续变化,它们需要多种计算单元的协同。这也是为何Arm会在CPU、GPU、Kleidi、以及可伸缩矩阵扩展(SME)研发上投入如此之多,以确保它们在AI任务中具备强大的性能的原因所在。
当然,在端侧AI中,要在降低功耗的同时更好地平衡算力和能效,绝非易事。Bergey认为在芯片设计中做好以下几方面的准备:
- 内存带宽。内存带宽不仅直接影响数据传输效率和功耗,还能显著提升系统的整体性能,支持未来技术的发展。
- 确保在平台中集成最强大、最具灵活性的硬件。因为AI发展速度非常快,一款产品从开始设计到上市往往需要1-2年时间,而这期间AI模型可能已经发生了巨大变化。正因如此,CPU和GPU有时反而能优于一些专用硬件加速器,因为它们在应对变化需求方面更具灵活性。
- 软件。AI软件开发非常具有挑战性,如果没有成熟的软件及其生态系统,要跟上所有行业标准和各种AI框架,将会是一项非常繁重且具有挑战性的工作。
他同时指出,毋庸置疑,AI今后会越来越多地应用到入门级产品中,主要原因有两点:第一,AI在Arm CPU和GPU上都能很好地运行,而这些硬件覆盖了各个价格区间。第二,AI将为这些用户带来巨大的价值。设想在新兴市场,一部能运行大语言模型(LLM)的手机,将能让从未接触过专家指导的人群获得教育机会。这将带来巨大的经济潜力,不仅有助于抵消本地部署AI的成本,还会激发用户对更强大AI的需求。
结语
在过去的18个月内,有超过150个涵盖语音、图像、文字与视频生成的基础模型面世。原本只存在于云端的AI助理,如今也正优先在边缘设备上开发,推动AI推理作业由云端转向边缘应用。如前文所述,尽管大量资金投入训练,但推理——AI实际运行并创造价值的环节,才是真正驱动未来创新与商业价值的关键。
与此同时,AI智能体也正快速增长,这些系统能够独立执行复杂任务、彼此协作,并在大规模下自动运行。这将成为物理AI(Physical AI)的基础,使AI从数字世界延伸至真实的物理环境,例如机器人。正如今日所见,具可扩展性且高效率的计算,在未来会变得更加重要。从云端到边缘,Arm计算平台正处于这场转型的核心,不只是推动AI无处不在,更将一步步塑造AI的未来。
