全新边缘AI计算平台最高可支持四核共享集群,支持运行超10亿参数的端侧AI模型,机器学习性能提高了八倍,并受到了包括亚马逊云科技(AWS)、西门子、瑞萨电子、研华科技和Eurotech在内的多家合作伙伴的支持。

在现阶段AI百模大战时代,焦点在云数据中心的集中式训练。但众所周知的是,训练本身不能产生价值,推理才是AI释放价值的关键。尤其是DeepSeek的横空出世,更加速了AI推理从云端下沉到端侧的进程,也不断赋予边缘设备越来越先进的智能性,使边缘设备胜任越来越重要的任务。

对于芯片硬件玩家来说,边缘侧形态各异的设备与丰富用例,虽然将为我们带来更多激动人心的机会,但他们不得不考虑三大现实问题:一是大模型、智能体在边缘侧的落地,需要更高性能和能效的边缘计算平台作为支撑;二是保证边缘设备的安全可靠,将会成为边缘AI大规模部署的必要条件;三是AI模型的持续演进,以及基于本地数据的重训练,加上安全补丁,都需要支持端侧软件在线更新、改进和升级。

为了充分释放AI的巨大价值,并与OEM厂商、软件开发者们联手营建边缘AI推理生态系统,Arm日前发布了以全新基于Armv9架构的超高能效CPU —— Arm Cortex-A320以及对Transformer网络具有原生支持的Arm Ethos-U85 AI加速器为核心的边缘AI计算平台。

相较于去年推出的基于Cortex-M85搭配 Ethos-U85 的平台,全新边缘AI计算平台最高可支持四核共享集群,支持运行超10亿参数的端侧AI模型,机器学习(ML)性能提高了八倍,并受到了包括亚马逊云科技(AWS)、西门子、瑞萨电子、研华科技和Eurotech在内的多家合作伙伴的支持。

充分利用Armv9架构特性与优势的边缘AI计算平台

Arm将全新边缘AI计算平台的推出视作边缘计算发展的重要里程碑。在此之前,Arm已有其他处理器在为多样化的边缘侧设备提供良好支持,为何还要推出Armv9边缘AI计算平台? 

据了解,Arm此前推出的适用于Armv8-M架构的Cortex-M向量扩展技术—Helium,以及Arm Ethos-U AI加速器已在物联网领域广泛应用,将AI和机器学习能力带到了数十亿台边缘设备上。但当今的物联网环境对边缘设备的需求更胜以往,不断变化的需求使得Armv9的先进功能不再只是锦上添花,而是新一代物联网创新的必备条件。

“Armv9边缘AI计算平台不是CPU和AI加速器的简单堆叠,而是实现了深度配合,让CPU和NPU相得益彰,从而将Armv9架构的功能扩展到高能效设备,并提供全面的软件支持。”Arm物联网事业部业务拓展副总裁马健表示。

该平台所包含的全新的基于Armv9架构的Cortex-A320处理器为功耗受限的设备引入了此前仅在尖端移动计算解决方案中使用的先进功能,使其在AI处理、安全性和整体能效方面均实现了显著提升。

Cortex-A320充分发挥了Armv9架构的优势,如针对ML计算性能的可伸缩向量扩展(SVE2) 技术、对BFloat16等新数据类型的支持以及新增矩阵乘法指令。相较于前代产品Cortex-A35,Cortex-A320的ML性能提升了十倍,标量计算性能提升了30%。

该平台所采用的Armv9.2架构还为最小的Cortex-A设备带来了高级的安全功能,例如指针验证(PAC)、分支目标识别(BTI)和内存标记扩展(MTE)。这些功能至关重要,因为边缘设备通常在暴露的环境中运行并处理敏感数据。同时,Cortex-A320支持S-EL2虚拟化,增强了 TrustZone 内部的隔离性,支持更安全地运行软件容器。这在多用户环境中尤为重要,因为在此类环境中,不同的用户或应用共享相同的物理资源。 

Cortex-A320:针对物联网优化的超高效Armv9 CPU

Cortex-A320是一款基于Armv9.2-A架构的AArch64 CPU,其微架构源自Cortex-A520。Cortex-A320的能效相较Cortex-A520提高了50%以上。这一提升是通过多次微架构的更新而实现,其中包括窄取和解码数据路径、密集存储的L1缓存、缩减端口的整数寄存器文件等优化。

得益于高能效的分支预测器和预取器,以及内存系统的提升等微架构上的显著创新,Cortex-A320在SPECINT2K6基准测试中的标量性能相比其前代产品Cortex-A35提升了30%以上。

更重要的是,通过集成增强的Armv9的Neon和SVE2向量处理技术,在INT8通用矩阵乘法(GEMM)中测得Cortex-A320的ML处理能力比Cortex-A35高出至多10 倍。此外,通过对BF16等新的数据类型、新的点积和矩阵乘法指令的支持,Cortex-A320的ML性能比目前全球最受欢迎的Armv8-A CPU Cortex-A53高出至多6倍。

与Arm Cortex-M处理器相比,Cortex-A320的ML性能也提高了数倍,例如,与性能最高的Cortex-M CPU(Cortex-M85)相比,其GEMM性能提高了8倍。这种性能提升不仅归功于Armv9架构在AI处理上的增强,还源于Cortex-A320内存访问性能的大幅提高和频率的增加。

微架构方面的优化和创新,一直是Arm的强项。作为一款单发射、32位指令取指的有序执行CPU,Cortex-A320实现了优化的八级管线,且具有紧凑的转发网络,从而达到比Cortex-A520更高的频点。

此外,Cortex-A320支持从单核到四核的配置,从而在集群内提供可扩展性。它采用DSU-120T,这是一种精简的DynamIQ共享单元(DSU),可支持仅使用Cortex-A320的集群。DSU-120T是最小的DSU实现,能够显著降低复杂性、面积和功耗,进而大幅提升基于Cortex-A的入门系列产品的能效。 

Cortex-A320支持高达64KB的L1缓存和高达512KB的L2缓存,并且具有一个可连接到外部存储器的256位AMBA5 AXI接口。L2缓存和L2 TLB可在Cortex-A320 CPU之间共享,而矢量处理单元可在单核复合体中专用,也可在双核或四核实现中在两个核之间共享。

应用方面,从入门级通用MPU、智能扬声器、软件定义智能摄像头,到工厂车间内的自动驾驶车辆、自动化边缘AI助手、AI人机界面和机器人控制器,Cortex-A320可在广泛的应用中发挥上述优势。除边缘AI应用外,Cortex-A320还可惠及包括智能手表和智能可穿戴设备,以及服务器基板管理控制器(BMC)等基础设施设备在内的众多关键细分市场。

Cortex-A320也非常适合于以往使用高性能Cortex-M的应用,如电池供电的MCU 用例或运行实时操作系统(RTOS)的应用,这些应用需要通过对称多处理来扩展性能,而 Arm的A处理器架构开箱即支持。

此外,它还可用于需要Cortex-A内存管理或地址转换特性的RTOS应用,以增强软件的灵活性。例如,Cortex-A320适合于需要在MCU设备上下载应用的用例,由于其需要内存管理单元(MMU)来跨内存映射进行代码重新定位。

Ethos-U85现可由Cortex-A320直接驱动

与上一代产品相比,Ethos-U85性能提升四倍,能效提高20%,同时,其 MAC 单元可从128个扩展到2048个(在1GHz时,算力实现4 TOPs),能够为诸如工厂自动化和商用或智能家居摄像头等需要更高性能的应用提供有力的支持。

对Transformer架构和DeeplabV3语义分割网络的原生硬件支持,是Ethos-U85的一大亮点。同时,Ethos-U85也支持元素级算子链化。通过链化将元素级运算与先前的运算相结合,使SRAM不必先写入再读取中间张量。由此可凭借NPU和内存之间数据传输量的减少,提高NPU的效率。

目前,Ethos-U85驱动程序已完成更新,该NPU现可直接由Cortex-A320驱动,而无需额外搭载Cortex-M。这一更新降低了延迟,并使 Arm 的合作伙伴可以去掉用于驱动AI加速器的额外控制器,从而降低成本和系统复杂性。

智能手机服务器市场Arm Kleidi扩展到物联网

考虑到当前边缘AI普及面临的最主要障碍之一是软件开发和部署的复杂性,Arm现已将Arm Kleidi扩展到物联网,这是一套面向AI框架开发者的计算库,旨在优化基于Arm CPU的AI和ML工作负载,无需开发者额外操作。

作为Armv9边缘AI计算平台软件生态系统发挥优势的关键所在,KleidiAI已集成到主流AI框架中,如Llama.cpp、ExecuTorch或LiteRT(通过XNNPACK),加速了Meta Llama 3和Phi-3等关键模型的性能。例如,在Llama.cpp上运行微软的Tiny Stories数据集时,KleidiAI为新的Cortex-A320带来了高达70%的性能提升。

这种可扩展性的优势是显而易见的,因为开发者能够借此打造可随需求变化而灵活调整的解决方案。借助庞大的Armv9生态系统,以及与Linux等功能丰富的操作系统和Zephyr等实时操作系统的兼容性,开发者可以充分利用现有的工具和知识,以及软件复用的优势,从而加快产品上市时间,并降低总体拥有成本。

展望未来

显而易见,AI的未来趋势将转向边缘,而此次发布的全新Arm边缘AI计算平台将成为新一轮物联网创新的催化剂。Armv9架构的特性、先进的AI功能和全面软件支持的结合,为OEM厂商和开发者创造了新的可能性。

责编:Lefeng.shao
本文为EET电子工程专辑原创文章,禁止转载。请尊重知识产权,违者本司保留追究责任的权利。
阅读全文,请先
您可能感兴趣
作为国内首款获得正版德国 EtherCAT 从站控制器授权的芯片,HPM6E8Y通过集成双 PHY 收发器与千兆 TSN 交换机,为多关节协同控制提供了微秒级实时通信能力。
具身智能的本质是‘大脑+小脑+感知系统’的协同进化。当前,尽管DeepSeek等大模型已显著提升机器人的认知能力,但物理世界的交互仍受限于感知精度与执行效率。
AX8850 通过‘算子指令集 + 数据流微架构’设计,将能效比提升至传统 GPU 的 10 倍,使 AI 计算成本降至工业级可接受范围,真正实现 “1 元投入换取更多 AI 性能” 的算力经济性目标。
EB100 能够在三维空间中呈现实时互动的面容,可广泛应用于 XR、具身智能、人工智能助手、陪伴机器人和远程替身等领域,极大地增强了这些设备的亲和力和感染力。
2024年,松山湖论坛以“智慧机器人”为主题,在当年的央视春晚上人形机器人一炮而红,让2024年成为了人形机器人元年。今年的论坛趁热打铁,继续以“具身智慧机器人”为主题……
Imagination刚刚发布了E-series GPU IP新品,架构改进开始真正偏向AI计算——但它和市面上现有的解决方案又有所不同…
在本文中,我们将探讨SiC半导体产品如何实现高质量和高可靠性,以及SiC制造商为确保其解决方案能够投放市场所付出的巨大努力,这些努力不仅提升了产品性能,还确保了卓越的可靠性。
随着诸如无人机、智能驾驶汽车、无人农机、各种专用和消费机器人等智能无人设备广泛进入我们的工作和生活,这些设备的功能安全问题成为了一个值得关注的重要话题。
在台北国际电脑展期间,英特尔携手亦心科技及亿道集团旗下亿境虚拟与亿道数码,推出全球首款AI眼镜与AI PC协同解决方案,首次实现AI眼镜与AI PC的深度算力融合,标志着AI眼镜正式进化成为智能终端,智能沉浸交互新纪元已然来临。
5月20日,iQOO Neo10 Pro+新品发布,以“超配双芯战神”的性能旗舰定位,在游戏性能、屏幕显示、续航充电等维度实现全面突破,带来了骁龙8至尊版、自研电竞芯片Q2、2K Q10珠峰屏、6800mAh超大蓝海电池、120W超级闪充等旗舰配置……
大联大控股宣布,凭借卓越的市场表现和强大的品牌影响力,成功跻身英国品牌评估机构Brand Finance 5月9日发布的“2025中国品牌价值500强”榜单并位列第218位,较去年再进一步。品牌价值排
会议推介第三届中国国际Mini/Micro-LED产业生态大会 主办单位:JM Insights 指导单位:合肥市新型显示产业协会      &nbs
近日,索尼、小米、夏普先后推出Mini LED背光电视新品;据行家说Display不完全统计,截止5月,2025年已发布35款Mini LED电视,近12个品牌持续加码。插播:6月10-11日,行家说
国内显示产业依托政策支持与技术迭代,不断向高端领域升级,产能扩张正催生更庞大的上游设备市场。国产厂商从非核心领域出发,逐步向上突破。以中导光电为代表的设备厂在诸如Array AOI等细分市场实现突围,
动动手指,关注公众号并加星标哦最近用ADS的designguide比较多。designguide里面调出来的模板,很多时候,都是有很多公式。看这些公式确实能帮助理解理论,同时也能对这些模板理解更深刻,
点击蓝字 关注我们ENTERPRISE关注公众号,点击公众号主页右上角“ ··· ”,设置星标,实时关注智能汽车电子与软件最新资讯5月21日消息,QuestMobile数据显示,目前中国新能源汽车市场
北京贞光科技有限公司作为紫光同芯授权代理商,深耕电子元器件领域数十载,专为汽车提供车规级安全芯片及配套服务。公司整合硬件供应、软件SDK与技术支持为一体,配备专业团队提供选型咨询与现场指导,助力客户实
来源:长阳科技公告5月19日,长阳科技公告,公司拟使用自有资金2990万元认购宁波惠之星新材料科技股份有限公司发行的92.34万股股份,认购价格为每股32.38元,本次认购投资完成后,公司将持有惠之星
杰西卡 发自 副驾寺智能车参考 | 公众号 AI4AutoRobotaxi的全球决赛圈竞速,到哪一步了?就在这两天,马斯克明确特斯拉Robotaxi蓄势待发即将落地,Waymo联手Uber开启美国多城
2025年5月20日,全球瞩目的科技盛会COMPUTEX 2025台北国际电脑展盛大开幕。本届展会围绕“AI NEXT”主题,对AI驱动下的终端创新展开深入探索。作为中国显示领域的领军企业,天马微电子