根据国际数据公司(IDC)日前发布的2025年V1版IDC《全球人工智能和生成式人工智能支出指南》(IDC Worldwide AI and Generative AI Spending Guide)显示,2024年全球人工智能(AI)IT总投资规模为3,158亿美元,并有望在2028年增至8,159亿美元,五年复合增长率(CAGR)为32.9%。聚焦生成式AI(Generative AI),IDC预测,全球生成式AI市场五年复合增长率或达63.8%,到2028年全球生成式AI市场规模将达2,842亿美元,占AI市场投资总规模的35%。
聚焦中国人工智能支出,IDC数据显示,中国将继续引领亚太地区人工智能市场发展,占亚太地区人工智能总支出超五成,预计到2028年中国人工智能总投资规模将突破1,000亿美元,五年复合增长率为35.2%;中国 AI 大模型(LLM)解决方案市场规模将达 211 亿元人民币,展现出强劲的增长势头和巨大的市场潜力。
基于此趋势,在2025 年全国“两会”上,政府工作报告中明确将 “人工智能 +” 行动列为重点,要求推动大模型广泛应用,并大力发展智能网联新能源汽车、人工智能手机和电脑、智能机器人等新一代智能终端以及智能制造装备扩大5G规模化应用。
当前人工智能技术演进呈现双重趋势,一方面,云端大模型参数规模持续膨胀,如 Llama 3 70B 模型推理算力需求较前代提升超 300%,推动数据中心 AI 服务器数量未来几年增长超 300%;另一方面,端侧智能设备如智能汽车、工业物联网终端对本地化实时处理的需求激增,边缘 AI 市场规模 2025 年预计达 1760 亿美元。
这种 “云端 - 端侧” 算力分化对计算平台的能效、灵活性提出严苛要求。云端需突破功耗墙,端侧需在毫瓦级功耗下实现高效推理,传统算力架构难以兼顾。
能效与场景适配,是大模型落地的核心挑战
生成式 AI 技术推动产业格局重塑,大语言模型等成为技术发展的核心方向。AI从云端向端侧延伸,对高性能、低延迟、本地处理能力的需求日益迫切,也折射出了当前算力产业面临三大痛点:
1、云端能效瓶颈显著,大型数据中心单集群功耗已达千兆瓦级。“高能效”已经成为行业基本要求,因为这直接关乎盈利能力。
2、端侧算力缺口突出,大模型的参数规模不断增加,目前10 亿参数以上模型已经较为常见,智能汽车等设备要求本地化处理延迟低于 100ms,这对端侧CPU带来性能与实时性的双重挑战;
3、大模型的部署向更广泛、深度、高效方向演进,生态碎片化问题导致开发者需针对不同架构重复优化,增加了部署的复杂性和难度,模型部署周期延长 30%-50%。
破局,需要从架构级创新开始。
云边端协同的全栈解决方案,重塑算力版图
1.云端:重新定义能效与性能标杆
早在 AI 时代全面到来之前,Arm Neoverse 计算平台就已经得到了广泛认可,并在 AI 推理方面展现出了独特的优势。Neoverse 的高能效特点使其成为头部云厂商的算力首选。根据Arm官方数据,2025 年出货到头部超大规模云服务提供商的算力中,将有近 50% 是基于 Arm 架构。
AWS、Google Cloud、Microsoft Azure 等超大规模云服务提供商均采用 Arm 计算平台打造通用定制芯片,部分用例显示,基于 Arm 架构的芯片较前代产品实现了高达 60% 的能效提升。典型案例包括:
- AWS Graviton4 :基于 Neoverse V2 核心的 C8g 实例运行 Llama 3 70B 模型时,每秒生成 10 个词元,达到人类可读性上限,提示词编码性能较前代 Graviton3 提升 14%-26%。处理 int4 量化的 Phi-3 模型时,吞吐量提升 2.5 倍,单次推理延迟稳定在 100ms 以内。
在 C8g.16xlarge 实例上运行 Llama 3 70B、Phi-3-mini 3.8B 和 Llama 3 8B 模型时,下个词元生成时间的性能表现,其中批次大小模拟了一个或多个用户同时调用模型的场景
- 阿里云倚天 710:基于 Neoverse N2 架构的倚天 710 服务器,通过 SMMLA 指令优化 int8 GEMM 内核,使 Llama 3 模型词元处理速度提升 2.7 倍,总体拥有成本较同级别 x86 平台降低 60%。在 FunASR 语音识别部署中,结合 BF16 Fast Math 内核,推理性能较 x86 实例提升 2.4 倍,性价比优势显著。
2.边缘侧:Armv9 边缘 AI 计算平台加速物联网智能化
今年2月,Arm 高级副总裁兼物联网事业部总经理 Paul Williamson 曾表示:“AI 的革新已不再局限于云端。随着世界的互联和智能化水平的日益提升,从智慧城市到工业自动化,在边缘侧处理 AI 工作负载不仅带来显著的优势,其必要性更是不可或缺。专为物联网打造的 Armv9 边缘 AI 计算平台的推出,标志着这一发展趋势迈入了重要的里程碑。”
这里所提到的AI计算平台,是全球首个 Armv9 边缘 AI 计算平台,以全新基于 Armv9 架构的超高能效 Cortex-A320 CPU 和 Ethos-U85 NPU 为核心,专为物联网应用优化,ML 性能较前代提升 8 倍,支持运行超 10 亿参数的端侧 AI 模型。
据悉,该平台已获得包括AWS、西门子和瑞萨电子等在内的多家行业领先企业的支持,推动工业自动化、智能摄像头等领域的进步。
3.端侧:Arm 终端 CSS 提升终端性能
Arm 终端 CSS 囊括最新的 Armv9.2 Cortex CPU 集群和 Arm Immortalis 与 Arm Mali GPU、CoreLink 互连系统 IP,以及采用3nm工艺生产就绪的 CPU 和 GPU 物理实现,能在广泛类别的消费电子设备中实现性能、效率和可扩展性的跨越式提升。
资料显示,Arm Cortex-X925 在 AI 性能方面实现了 41% 的性能提升,可显著提高如 LLM 等设备端生成式 AI 的响应能力。例如在 Meta Llama 3.2 3B 模型部署中,Cortex-X925 CPU 通过优化内核,使提示词处理速度提升 5 倍,词元生成速度达每秒 19.92 个,响应延迟较原生实现缩短 50%。
软硬件协同,释放大模型应用潜力
不仅是硬件方面,Arm 在软件领域的投入也在助力大模型性能的提升与加速落地。Arm 在 2024 年推出 KleidiAI,使 AI 框架开发者们在各种设备上轻松获得 Arm CPU 上的最佳性能,并支持 Neon、SVE2 和 SME2 等关键 Arm 架构功能。作为一套面向 AI 框架开发者的计算内核,KleidiAI 可与 PyTorch、Tensorflow、MediaPipe、Angel 等热门 AI 框架集成,旨在加速 Meta Llama 3、Phi-3、混元大模型等关键模型的性能,为生成式 AI 工作负载带来显著的性能提升。
例如,阿里巴巴通义千问模型通过 KleidiAI 与轻量级深度学习框架 MNN 集成,预填充性能提升 57%,解码性能提升 28%。再比如,Arm 与腾讯合作将 KleidiAI 技术融入腾讯混元自研的 Angel 机器学习框架,为跨操作系统的不同基于 Arm 的设备带来显著的性能提升:混元大模型的预填充部分加速了 100%,而解码器的速度提高了 10%。
结语
当大模型成为数字经济的核心生产力,算力分配范式决定着产业智能化的广度与深度。
Arm 以 Neoverse 计算平台构建云端能效标杆,以边缘 AI 计算平台与终端CSS开启端侧智能,通过架构创新与生态协同,打造 “云边端” 无缝衔接的算力基础设施。这种全栈布局不仅解决了大模型落地的能效与场景适配难题,更构建了开放共赢的技术生态,让算力真正成为普惠性资源。
从云端的数据中心到端侧的智能终端,Arm 的角色已远远超越芯片供应商,正成为 AI 时代算力网络的驱动者。随着 AI 落地的加速,其技术布局将持续释放乘数效应,推动千行百业在智能变革中实现 “算力无界,落地有方”—— 这既是 Arm 愿景的践行,更是大模型产业化的必经之路。
