Arm将其所有最新CPU设计都转向3nm工艺技术,并对Cortex-X925和Cortex-A725内核进行改进,表明其战略重点是优化现有架构,确保新设备在处理苛刻要求的应用程序的同时,能够大幅改进效率和性能,为更强大、更高效、更智能的设备以及未来的AI时代铺平道路。

作为全面计算解决方案(Total Compute Solutions, TCS)的直接继任者,Arm日前宣布推出包括最新的Armv9 CPU、Arm Immortalis™ GPU、基于3纳米工艺生产就绪的CPU和GPU物理实现、CoreLink™系统互连和系统内存管理单元(SMMU)在内的Arm终端计算子系统(CSS for Client,以下简称“终端CSS”)。此外,同步推出包含KleidiAI和KleidiCV的Arm Kleidi,助力软件开发者无缝取得 Arm CPU 上的最佳性能。

Arm终端事业部产品管理副总裁James McNiven解释说,终端CSS与TCS计算平台的主要不同之处在于,这是Arm首次在终端领域以Arm CPU和GPU的优化设计形式提供3纳米的物理实现解决方案,这一举措让构建和部署基于Arm架构的解决方案变得更加简单,更加万无一失。

Arm终端事业部产品管理副总裁James McNiven

CSS新的TCS

先简单回顾一下Arm TCS平台的发展历程:

TCS是Arm在2019年提出的战略,旨在解决单个IP与碎片化解决方案优化问题时面临的重大挑战。意味着Arm将关注焦点从单一的产品演进,转化为以应用场景与体验为导向的系统解决方案,要对硬件IP、物理IP、软件、工具、以及彼此间的协作进行全面优化。

在该战略的引领下,面向移动计算领域,2021年,Arm一次性推出三款Armv9架构CPU核(旗舰级Cortex-X2/大核CPU Cortex-A710/高效率小核Cortex-A510);面向细分市场的新款Arm Mali GPU套件(Mali-G710/G610/G510/G310);以及提升系统性能的互连技术(CoreLink CI-700一致性互连技术和CoreLink NI-700片上网络互连技术)。

2022年推出的TCS22包括了第二代基于Armv9架构的CPU IP—Arm Cortex-X3、Arm Cortex-A715,并增强了Arm Cortex-A510和改善了DSU-110。此外,在GPU方面,除了发布Mali-G715和Mali-G615以外,Arm还同时推出了全新旗舰级GPU产品Arm Immortalis-G715,这是首款可在移动端支持基于硬件的光线追踪的GPU,可提供更为真实的沉浸式游戏体验。

在TCS23中,我们则看到了采用全新第五代GPU架构的Arm Mali-G720、Mali-G620、Immortalis-G720;全新的Armv9 Cortex CPU计算集群—Cortex-X4、Cortex-A720和Cortex-A520;以及可为数百万Arm 开发者提供更易访问软件的全新增强技术—Arm NN和Arm Compute Library。

但进入2024年,Arm没有继续沿用TCS24,在最强性能内核的命名上也没有按照诸如“Cortex-X5”的规则进行,取而代之的是“Arm终端CSS”和“Cortex-X925”这样的表述。后者的命名改变是Arm方面想以此来清楚呈现其对比前几代产品的同比性能提升达到显著跃升。

终端CSS是一个综合的计算平台,集成了硬件、软件和工具,以优化终端设备的性能和效率。主要特点之一是将CPU和GPU进行物理实现并与Armv9.2架构的AI优势结合在一起。作为面向未来十年计算的基础,2021年推出的Armv9架构在过去几年中得到了显著提升,包括:提高在矢量加速、机器学习(ML)等领域的计算能力;增强的系统安全性和稳健性;增强的AI功能。

强大的可扩展性是终端CSS的第二个特点,可为各种设备提供无缝的计算体验,例如移动设备和笔记本电脑。该平台旨在适应不同的设备外形和性能要求,适合多种任务和应用。无论是高端游戏、专业内容创作还是日常生产力任务,CSS 都可以根据各种用例的需求进行定制。 

Arm终端CSS平台代表着IP设计和架构改进方面迈出了重要一步,在性能和效率方面提供了多项重大改进。随着第二代Armv9.2 Cortex CPU集群的推出,包括新的Cortex-X925、Cortex-A725和更新的Cortex-A520内核,CSS平台旨在为合作伙伴提供极致的移动计算性能。

此外,CSS平台还包括适用于Android的全面参考软件堆栈、由新的Arm Kleidi软件(KleidiAI和KleidiCV)支持的优化AI,以及通过Arm Performance Studio提供的强大工具环境,这种典型的整体方法可确保Arm的物理实现达到3.6GHz以上的速度,并在3nm节点上提供最佳的功率、性能和面积(PPA)指标。

全面转向3纳米工艺技术

作为迄今性能最强、效率最高、功能最广泛的Arm计算平台,Arm终端CSS提升了30%以上的计算和图形性能,以应对要求苛刻的实际用例中的安卓工作负载,同时也提高了59%的AI推理速度,适用于更广泛的AI/机器学习(ML)和计算视觉工作负载。

新的Arm Cortex-X925 实现了Cortex-X系列推出以来最高的同比性能提升。该CPU利用了领先的3纳米工艺节点,在3.8GHz的时钟速率和最大缓存大小的条件下,与2023年旗舰智能手机的4纳米SoC相比,其单线程性能大幅提高36%。而在AI性能方面,Cortex-X925取得了41%的性能提升,可显著提高如大语言模型(LLM)等设备端生成式AI的响应能力。

为了确保内核可以快速获取和解码指令,从而最大限度地减少延迟并最大限度地提高性能,Cortex-X925在微架构方面也做出了较大改变,例如10宽度的解码和调度宽度、L1指令缓存带宽增加了2倍、以及高度先进的分支预测单元等,都大大增加了每个周期处理的指令数量,使内核能够同时执行更多指令,从而提高执行单元的利用率和整体吞吐量。

与 Cortex-A720 相比,新的Arm Cortex-A725 CPU将针对AI和手游用例的性能效率提高了35%。这一改进也得益于更新后的Arm Cortex-A520 CPU和更新后的DSU-120,使得采用最新Armv9 CPU集群的消费电子设备可提升能效和可扩展性。

新的Arm Immortalis-G925 GPU是Arm性能最强、效率最高的GPU,在各款领先的手游应用中实现了37%的性能提升,并在多个AI和ML网络上提升了34%的性能,其光线追踪技术在面对复杂物体时的性能表现提升高达52%。目标市场方面,Immortalis-G925面向旗舰智能手机市场,而包括 Arm Mali™-G725和Mali-G625 GPU在内的全新高可扩展性GPU系列,则面向从高端手机到智能手表和XR可穿戴设备等广泛的消费电子设备市场。

在谈到3nm工艺带来的技术挑战时,James McNiven表示,随着工艺节点变得越来越小,为了达到最佳性能和效率的平衡,IP设计人员需要持续将性能、功耗和面积(PPA)最大化,并关注设计中的关键路径,还要通过底层的基础工艺技术来突破设计极限,这需要大量的工程投入。同时,与代工厂合作伙伴保持密切合作,倾听他们对工艺、设计和基础构建块的反馈意见,并且与之分享Arm在使用其工艺之后的经验,也是至关重要的。

与操作系统实现更大范围的集成

除了通过终端CSS推动性能和效率提升之外,为每一位安卓设备用户提高使用体验也被放在了突出的位置上。例如,在Cortex-X925带来30%性能提升的基础上,Arm对网页浏览器进行了改进,使其性能提高了23%,除了Chrome,中国的手机厂商也将这些改进引入到其浏览器中。

与此同时,Arm继续携手Google推动其安卓动态性能框架(Android Dynamic Performance Framework)发展。测试数据显示,在最新版本的框架中,高端内容的每帧能耗降低了25%,帧速率则提高了35%;针对Google AV1视频编解码器进行软件优化后,安卓设备的视频性能最多可提高40%。此外,通过调整安卓工作负载在不同CPU核心之间的平衡方式,从而为YouTube节省了高达10%的功耗。

安全方面,Arm的内存标记扩展(Memory Tagging Extension, MTE)和机密计算架构 (Confidential Compute Architecture, CCA)是改进后的Armv9.2系列的主要亮点之一。MTE可帮助开发者在无需侵入式检测的情况下查找和修复代码中的错误,也可在实际操作环境下用来减少安全漏洞被利用。目前,vivo X100、X100 Pro以及Google Pixel 8旗舰设备都允许用户启用MTE。

James McNiven特别强调了Windows on Arm(WoA)生态系统近期取得的一系列进展。首先是通过与微软合作,使得Arm面向Windows的Performance Libraries(Arm性能库)得以发布,它们面向Windows系统优化运算例程,进而使开发者能提升WoA应用的性能

其次,除了我们日常熟知的Microsoft Office、Dropbox、Zoom、Adobe套件外,百度、哔哩哔哩、Chrome浏览器、爱奇艺、搜狗、腾讯QQ音乐等都已成为Arm原生应用。尤其是许多针对创作者的开源工具,例如最近新增的Audacity、Blender和OBS Studio(用于流媒体),都整合了大量的开源库和开发者工具,让应用更易于落地为Arm原生应用。

好硬件,更需要好的软件

为了使开发者能够以最高性能快速实现这些创新,尤其是确保高效的AI处理,Arm还推出了Arm Kleidi,其中包括面向AI工作负载的KleidiAI和面向计算机视觉应用的KleidiCV。Kleidi一词来源于希腊语,意为“钥匙”,意为开发者释放更多性能的钥匙。

KleidiAI是一套面向AI框架开发者的计算内核,使他们能够在各种设备上轻松获得 Arm CPU上的最佳性能,并支持Neon、SVE2和SME2等关键Arm架构功能。KleidiAI与PyTorch、Tensorflow、MediaPipe等热门AI框架集成,旨在加速Meta Llama 3、Phi-3等关键模型的性能,并且还可前后兼容,以确保Arm在引入更多技术时依然能适用未来市场的需求。

KleidiCV 则针对计算机视觉工作负载,该库为图像处理、对象检测和场景识别等任务提供了优化的功能。将KleidiCV与Arm架构集成可确保应用程序能够快速高效地处理视觉数据,使其成为增强现实、自动驾驶汽车和智能监控系统的理想选择。通过利用这些优化的软件库,开发人员可以构建在基于Arm架构的硬件上流畅运行的复杂应用程序,充分利用3nm工艺技术带来的性能和能效改进。

除了Kleidi 库之外,Arm还提供了一套强大的开发工具和平台。终端CSS平台包括参考软件堆栈和性能优化工具,如 Arm Performance Studio,它提供有关应用程序性能的详细见解,并帮助开发人员微调其软件以实现最高效率。这个全面的支持系统确保开发人员能够快速有效地将创新应用程序推向市场,充分利用Arm最新的架构进步。

结语

Arm将其所有最新CPU设计都转向3nm工艺技术,并对Cortex-X925和Cortex-A725内核进行改进,表明其战略重点是优化现有架构,确保新设备在处理苛刻要求的应用程序的同时,能够大幅改进效率和性能,为更强大、更高效、更智能的设备以及未来的AI时代铺平道路。

vivo首席芯片规划专家夏晓菲也表示,2023年vivo X100手机上发布了蓝晶芯片技术栈,和合作伙伴MediaTek一起探索了全大核架构的使用,这个背后也把Arm在CPU上面针对实际应用提升部分的性能充分地发挥出来,这是Arm微架构提升带来的价值。相信大家会看到Arm CSS里面集成更多更强大的AI能力,同时提供一个更加广泛的针对开发者的开发环境,能够让所有的开发者基于通用平台开发出自己基于端侧的生成式AI应用和体验。也会看到越来越多vivo和Arm的合作成果!

责编:Lefeng.shao
本文为EET电子工程专辑原创文章,禁止转载。请尊重知识产权,违者本司保留追究责任的权利。
阅读全文,请先
您可能感兴趣
在手机芯片架构上,Arm可以说卡着全球科技巨头的“脖子”,但要想在PC市场复制这样的垄断优势似乎很难实现。对于Arm计划在未来五年内占据超过50%的Windows PC市场份额,我们还是持谨慎乐观的态度。
有苹果M4、骁龙X Elite这样的高手在PC处理器市场晃荡,酷睿Ultra的确压力山大。Intel公开了今年末、明年初要上市的Lunar Lake处理器的更多架构细节,一起来看看...
黄仁勋强调,他不认为最好的工作是那些始终能带来快乐的工作模式。他相信,伟大的事情往往不易实现,因此,致力于解决困难的问题才更有价值和意义。这种理念在英伟达的公司文化中占据了核心地位,鼓励员工面对挑战,追求卓越。
今年5月,CSA联盟发布了最新的Matter 1.3版本,为Matter生态圈带来了更多参与者。从CSA联盟官方数据来看,目前已有超过675家公司加入,将近1800个各式各样的智能家居平台、产品以及应用程序获得了Matter的认证资质。
近日,AMD、英特尔、谷歌、微软、博通、思科、Meta、惠普企业等八家科技巨头联合组建了一个新的行业联盟——UALink Promoter Group(简称UALink),直接对抗NVIDIA的NVLink技术
ASML在imec的ITF World 2024大会上宣布,其首台High-NA EUV光刻机已成功印刷出8nm密集线条,超越了此前10nm的记录。
从排名来看,前五大Foundry第一季排行出现明显变动,SMIC受惠消费性库存回补订单及国产化趋势加乘,第一季排行超过GlobalFoundries与UMC跃升至第三名……
本文根据完整的基准测试,将Achronix Semiconductor公司推出的Speedster7t FPGA与GPU解决方案进行比较,在运行同一个Llama2 70B参数模型时,该项基于FPGA的解决方案实现了超越性的LLM推理处理。
全新的XENSIV™ TLE49SR角度传感器系列兼具出色的抗杂散场能力和高精度,适用于电动助力转向、车辆高度调平等安全关键型汽车底盘系统应用。
锐成芯微的模拟及数模混合 IP 排名挺进全球第二、继续保持中国第一的位置,无线射频通信IP继续保持中国第一。
一凡 发自 副驾寺智能车参考 | 公众号 AI4Auto61.7亿,Cruise等来救命钱。母公司通用再次出手,给Cruise输血。从通用近期对外的发声来看,此次注资,很可能是为Cruise寻找外部融
AI司机 发自 副驾寺智能车参考 | 公众号 AI4Auto喝咖啡,看News,各种出差体验最新的车,见各种有意思的人获取最酷的认知。这大概就是智能车参考编辑部的日常,现在这样的工作和生活方式,正式向
芯片滞销,找货的客户寥寥无几,少数客户下的订单,是大家打骨折、亏本卖的结果,在市场上主营TI(德州仪器)的芯片分销商,仍然活在几年前泡沫破灭的阴影中。原厂TI在中国的竞争不同往日,价格战也难以换回的市
近日,极氪汽车宣布成立光辉事业部,致力于向中国市场的高端消费群体提供新能源、智能化和安全的出行解决方案。据悉,光辉事业部将负责产品线的策略运营、圈层营销、销售和用户运营,确保高品质的交付和售后服务。此
据路透社报道,三位知情人士透露,芯片设计巨头联发科正在开发一款基于 Arm 架构的个人电脑芯片,该芯片将用于 Windows AI 笔记本电脑。上个月,微软发布了新一代笔记本电脑,其搭载了基于 Arm
苹果在 WWDC 2024 上发布了iOS 18和macOS 15系统,其中一项重要的新功能是“Apple Intelligence”—— 一套基于人工智能的工具集。该功能将于今年晚些时候正式上线,苹
  10万级和30万级净化车间在现代工业生产中占据着至关重要的地位。这两个级别的净化车间虽然都致力于提供洁净的生产环境,但在洁净度标准、应用场景以及具体的技术要求上却存在显著的差异
芯片超人现有1600平米芯片智能仓储基地,现货库存型号1000+,品牌高达100种,5000万颗现货库存芯片,总重量10吨,库存价值高达1亿+。同时,芯片超人在深圳设有独立实验室,每颗物料均安排QC质
信号与系统2024(春季)作业要求以及参考答案汇总[1]信号与系统2024(春季)作业要求 - 第十三次作业[2]01 参考答案一、系统的频率特性1、根据系统函数绘制系统频率特性  □ 解答:  (1