生成式 AI 技术推动产业格局重塑,大语言模型等成为技术发展的核心方向。AI从云端向端侧延伸,对高性能、低延迟、本地处理能力的需求日益迫切,也折射出了当前算力产业面临三大痛点……

根据国际数据公司(IDC)日前发布的2025年V1版IDC《全球人工智能和生成式人工智能支出指南》(IDC Worldwide AI and Generative AI Spending Guide)显示,2024年全球人工智能(AI)IT总投资规模为3,158亿美元,并有望在2028年增至8,159亿美元,五年复合增长率(CAGR)为32.9%。聚焦生成式AI(Generative AI),IDC预测,全球生成式AI市场五年复合增长率或达63.8%,到2028年全球生成式AI市场规模将达2,842亿美元,占AI市场投资总规模的35%。

聚焦中国人工智能支出,IDC数据显示,中国将继续引领亚太地区人工智能市场发展,占亚太地区人工智能总支出超五成,预计到2028年中国人工智能总投资规模将突破1,000亿美元,五年复合增长率为35.2%;中国 AI 大模型(LLM)解决方案市场规模将达 211 亿元人民币,展现出强劲的增长势头和巨大的市场潜力。

基于此趋势,在2025 年全国“两会”上,政府工作报告中明确将 “人工智能 +” 行动列为重点,要求推动大模型广泛应用,并大力发展智能网联新能源汽车、人工智能手机和电脑、智能机器人等新一代智能终端以及智能制造装备扩大5G规模化应用。

当前人工智能技术演进呈现双重趋势,一方面,云端大模型参数规模持续膨胀,如 Llama 3 70B 模型推理算力需求较前代提升超 300%,推动数据中心 AI 服务器数量未来几年增长超 300%;另一方面,端侧智能设备如智能汽车、工业物联网终端对本地化实时处理的需求激增,边缘 AI 市场规模 2025 年预计达 1760 亿美元。

这种 “云端 - 端侧” 算力分化对计算平台的能效、灵活性提出严苛要求。云端需突破功耗墙,端侧需在毫瓦级功耗下实现高效推理,传统算力架构难以兼顾。

能效与场景适配,是大模型落地的核心挑战

生成式 AI 技术推动产业格局重塑,大语言模型等成为技术发展的核心方向。AI从云端向端侧延伸,对高性能、低延迟、本地处理能力的需求日益迫切,也折射出了当前算力产业面临三大痛点:

1、云端能效瓶颈显著,大型数据中心单集群功耗已达千兆瓦级。“高能效”已经成为行业基本要求,因为这直接关乎盈利能力。

2、端侧算力缺口突出,大模型的参数规模不断增加,目前10 亿参数以上模型已经较为常见,智能汽车等设备要求本地化处理延迟低于 100ms,这对端侧CPU带来性能与实时性的双重挑战;

3、大模型的部署向更广泛、深度、高效方向演进,生态碎片化问题导致开发者需针对不同架构重复优化,增加了部署的复杂性和难度,模型部署周期延长 30%-50%。

破局,需要从架构级创新开始。

云边端协同全栈解决方案重塑算力版图

1.云端:重新定义能效与性能标杆

早在 AI 时代全面到来之前,Arm Neoverse 计算平台就已经得到了广泛认可,并在 AI 推理方面展现出了独特的优势。Neoverse 的高能效特点使其成为头部云厂商的算力首选。根据Arm官方数据,2025 年出货到头部超大规模云服务提供商的算力中,将有近 50% 是基于 Arm 架构。

AWS、Google Cloud、Microsoft Azure 等超大规模云服务提供商均采用 Arm 计算平台打造通用定制芯片,部分用例显示,基于 Arm 架构的芯片较前代产品实现了高达 60% 的能效提升。典型案例包括:

  • AWS Graviton4 :基于 Neoverse V2 核心的 C8g 实例运行 Llama 3 70B 模型时,每秒生成 10 个词元,达到人类可读性上限,提示词编码性能较前代 Graviton3 提升 14%-26%。处理 int4 量化的 Phi-3 模型时,吞吐量提升 2.5 倍,单次推理延迟稳定在 100ms 以内。

      在 C8g.16xlarge 实例上运行 Llama 3 70B、Phi-3-mini 3.8B 和 Llama 3 8B 模型时,下个词元生成时间的性能表现,其中批次大小模拟了一个或多个用户同时调用模型的场景

  • 阿里云倚天 710:基于 Neoverse N2 架构的倚天 710 服务器,通过 SMMLA 指令优化 int8 GEMM 内核,使 Llama 3 模型词元处理速度提升 2.7 倍,总体拥有成本较同级别 x86 平台降低 60%。在 FunASR 语音识别部署中,结合 BF16 Fast Math 内核,推理性能较 x86 实例提升 2.4 倍,性价比优势显著。

2.边缘侧:Armv9 边缘 AI 计算平台加速物联网智能化

今年2月,Arm 高级副总裁兼物联网事业部总经理 Paul Williamson 曾表示:“AI 的革新已不再局限于云端。随着世界的互联和智能化水平的日益提升,从智慧城市到工业自动化,在边缘侧处理 AI 工作负载不仅带来显著的优势,其必要性更是不可或缺。专为物联网打造的 Armv9 边缘 AI 计算平台的推出,标志着这一发展趋势迈入了重要的里程碑。”

这里所提到的AI计算平台,是全球首个 Armv9 边缘 AI 计算平台,以全新基于 Armv9 架构的超高能效 Cortex-A320 CPU 和 Ethos-U85 NPU 为核心,专为物联网应用优化,ML 性能较前代提升 8 倍,支持运行超 10 亿参数的端侧 AI 模型。 

据悉,该平台已获得包括AWS、西门子和瑞萨电子等在内的多家行业领先企业的支持,推动工业自动化、智能摄像头等领域的进步。

3.端侧:Arm 终端 CSS 提升终端性能

Arm 终端 CSS 囊括最新的 Armv9.2 Cortex CPU 集群和 Arm Immortalis 与 Arm Mali GPU、CoreLink 互连系统 IP,以及采用3nm工艺生产就绪的 CPU 和 GPU 物理实现,能在广泛类别的消费电子设备中实现性能、效率和可扩展性的跨越式提升。

资料显示,Arm Cortex-X925 在 AI 性能方面实现了 41% 的性能提升,可显著提高如 LLM 等设备端生成式 AI 的响应能力。例如在 Meta Llama 3.2 3B 模型部署中,Cortex-X925 CPU 通过优化内核,使提示词处理速度提升 5 倍,词元生成速度达每秒 19.92 个,响应延迟较原生实现缩短 50%。

软硬件协同,释放大模型应用潜力 

不仅是硬件方面,Arm 在软件领域的投入也在助力大模型性能的提升与加速落地。Arm 在 2024 年推出 KleidiAI,使 AI 框架开发者们在各种设备上轻松获得 Arm CPU 上的最佳性能,并支持 Neon、SVE2 和 SME2 等关键 Arm 架构功能。作为一套面向 AI 框架开发者的计算内核,KleidiAI 可与 PyTorch、Tensorflow、MediaPipe、Angel 等热门 AI 框架集成,旨在加速 Meta Llama 3、Phi-3、混元大模型等关键模型的性能,为生成式 AI 工作负载带来显著的性能提升。

例如,阿里巴巴通义千问模型通过 KleidiAI 与轻量级深度学习框架 MNN 集成,预填充性能提升 57%,解码性能提升 28%。再比如,Arm 与腾讯合作将 KleidiAI 技术融入腾讯混元自研的 Angel 机器学习框架,为跨操作系统的不同基于 Arm 的设备带来显著的性能提升:混元大模型的预填充部分加速了 100%,而解码器的速度提高了 10%。

结语 

当大模型成为数字经济的核心生产力,算力分配范式决定着产业智能化的广度与深度。

Arm 以 Neoverse 计算平台构建云端能效标杆,以边缘 AI 计算平台与终端CSS开启端侧智能,通过架构创新与生态协同,打造 “云边端” 无缝衔接的算力基础设施。这种全栈布局不仅解决了大模型落地的能效与场景适配难题,更构建了开放共赢的技术生态,让算力真正成为普惠性资源。

从云端的数据中心到端侧的智能终端,Arm 的角色已远远超越芯片供应商,正成为 AI 时代算力网络的驱动者。随着 AI 落地的加速,其技术布局将持续释放乘数效应,推动千行百业在智能变革中实现 “算力无界,落地有方”—— 这既是 Arm 愿景的践行,更是大模型产业化的必经之路。

责编:Luffy
本文为EET电子工程专辑原创文章,禁止转载。请尊重知识产权,违者本司保留追究责任的权利。
阅读全文,请先
您可能感兴趣
从“Perception AI”(感知AI)到“Agentic AI”(代理式AI),人工智能发展至今,已完成三次重大技术范式革新。展望未来,物理智能(Physical AI)更将打破数字与物理世界的边界,赋予AI影响现实环境的能力。
整体来看,特朗普政府的AI芯片出口规则调整本质是通过 “技术霸权+贸易保护” 重塑全球贸易秩序。
亚马逊Alexa、谷歌助手和苹果Siri等消费者语音平台的兴起从根本上重塑了人们对语音交互的期望。这些在智能家居和个人设备中无处不在的平台催生了对汽车中对话式直观语音系统的需求,而免提交互已成为新车买家对安全性和便利性的期望。
NVIDIA前不久发布的CPO硅光芯片,今年下半年就要量产了。它对AI数据中心而言,究竟有什么用?
设备端人工智能正在改变消费者与智能手机的互动方式,但要实现这些新的人工智能功能,还需要使能技术的进步。
尽管人工智能发展迅速,但内存仍是其致命弱点。
这是迄今为止联想笔记本电脑最小体积的65W INBOX电源适配器……
在2025年一季度,SK海力士凭借在HBM领域的绝对优势,终结三星长达四十多年的市场统治地位,以36.7%的市场份额首度登顶全球DRAM市场第一。
新型CoolSiC™ JFET产品系列拥有极低的导通损耗、出色的关断能力和高可靠性,使其成为先进固态保护与配电系统的理想之选。
全新PXI与PXIe仿真模块支持高达130,000转/分钟的旋转速度,满足新一代伺服系统测试需求
博主数码闲聊站爆料,2026年苹果将带来屏下摄像头技术,iPhone 18系列和折叠屏iPhone将会首发搭载。他还爆料,折叠屏iPhone也是2026年登场,出货量规划是千万级。需要指出的是,搭载屏
摩尔定律是一件有关人类活动的,是关于眼界的……许多人被他们的知识和信仰所限制,从而不能越雷池一步。当摩尔做出他的预言时,他让我们认识到是什么在前行……摩尔定律的神奇之处在于,它一个静态的定律;它迫使许
编者语:后台回复“入群”,加入「智驾最前沿」微信交流群随着自动驾驶越来越具像化,政府监管机构也出台多项政策,以完善道路测试许可、技术评估和安全事故处理流程,为产业发展提供了明确的制度保障。但在自动驾驶
点击上方名片关注了解更多大家好,我是王工。今天跟大家谈谈硬件工程师升职这件事,有人挤破脑袋想往上爬,有人机会摆在眼前却不屑一顾,究竟该如何选择?咱们公司的硬件跟其它公司可能不太一样,因为公司产品种类多
该款汽车级器件更容易集成到空间受限的设计中,可提供高达0.0026 lx/ct的灵敏度,可放置在深色盖玻片后 威世科技宣布,推出业界首款符合AEC-Q100标准的矩形环境光传感器---VE
2025上海车展前瞻:自主新势力高阶智驾新品密集发布合资逐步布局高端智能产品2025上海车展前瞻报告:创新智联 自主竞逐高端2025年上海车展展前洞察报告2025年上海车展展前指南分析报告2025上海
点击蓝字关注我们随着QLC闪存与混合闪存以及磁盘阵列和存储服务器的成本比较更加接近,全闪存存储阵列(all-flash storage array,简称AFA)领域的新篇章正在开启。现在有14个AFA
报告摘要:三阶段跨越式发展,并购整合驱动全球扩张。均胜电子的发展历程可划分为“内生积累-并购扩张-技术深耕”三大战略阶段,通过精准的资本运作与全球化整合,实现从区域汽零供应商到全球汽车安全与电子龙头的
在半导体制造的早期阶段,芯片制造主要遵循从电路设计到生产制造的单向线性流程。各个关键步骤间的信息传递和交接方法相对简单直接。例如,物理设计、掩膜合成、掩膜板写入、光刻优化、工艺优化、检测与量测以及最终
【摘要】随着汽车工业的快速发展和智能化、网联化的普及,座舱内的音效从最初的广播系统向沉浸式音响发展,其技术已成为提升汽车用户体验的重要因素之一。文章通过回顾汽车内座舱音效系统的发展历程,分析当前市场主