广告

如果没有英伟达,Arm在数据中心市场能混出头吗?

时间:2021-04-22 作者:黄烨锋 阅读:
虽然去年到今年是Arm在各行各业大获全胜的两年,数据中心也频繁出现Arm的身影,但英伟达在数据中心的分量,几乎将Arm推到了最前线,多少有点儿很快就能把根植于该市场的x86拉下马的意思。前不久的GTC 2021之上,老黄宣布英伟达很快将推出应用于HPC AI的中央处理器Grace——基于Arm架构……
广告

前不久的GTC 2021之上,老黄宣布英伟达很快将推出应用于HPC AI的中央处理器Grace——基于Arm架构。这在数据中心/服务器/基础设施行业是个大新闻。

虽然去年到今年是Arm在各行各业大获全胜的两年,数据中心也频繁出现Arm的身影——比如亚马逊自研的Graviton2处理器基于Arm,富士通面向HPC的A64FX处理器基于Arm——这些在《Arm的十年PC征程,和微软的“暧昧”》一文中就有所提及。

但英伟达在数据中心的分量,几乎将Arm推到了最前线,多少有点儿很快就能把根植于该市场的x86拉下马的意思。有关英伟达的Grace,很快我们会发表另一篇文章做单独评论,即便个人认为Grace着力的市场具有相当强的针对性。本文尝试呈现,抛开Grace不谈,Arm如今在服务器市场,究竟已经发展到了何种程度。

Arm第一次认真对待服务器市场

Arm一直以来就有突破移动与嵌入式市场的野心,只不过就像Arm在PC之上的10年征程那样,这个过程是需要不断试错的。英伟达探索高性能CPU/SoC也不是今天才开始的,在10多年前英伟达就曾宣布过一个叫做Project Denver的项目,旨在与Arm合作面向HPC(高性能计算)市场推CPU产品。

不止是英伟达,高通也曾推出基于Arm架构的Centriq处理器,面向企业和服务器市场;Cavium的ThunderX此前也算是知名的Arm服务器芯片;还有博通的Vulcan,AMD的Opteron A1100......虽然它们中的大部分都失败了。感觉从这些项目初期展示的PPT来看,Intel早就应该缩在墙角颤抖了。但事实上,Arm在这一领域始终没能真正走入主流视野(虽然Arm一直宣称自己是“基础设施(infrastructure)”设备中市场份额最高的,包含路由器、交换机、基站、服务器等)。

到近代鲲鹏920这类服务器芯片面世,以及如今相当活跃的Ampere Computing也在推基于Arm的服务器处理器,Arm才真正在这一领域逐渐像样起来。今年的GTC主题演讲上,黄仁勋也宣布,英伟达的GPU开始和Ampere Computing、亚马逊、联发科等合作伙伴的CPU/SoC搭配,从云到边缘到消费终端。虽然在接受采访时,黄仁勋说Grace并不会多大程度影响到现有客户,但这明摆着就有拆AMD/Intel墙角的意思。

Arm在服务器、基础设施,或者说数据中心产品的试错历史就不多做回顾了。事实上,Arm过去虽然也一直有试探服务器市场的意思,但他们始终都没有面向这些数据中心的基础设施,推过专门的IP——Arm在该市场的IP,基本与面向消费市场的IP共享。

这一点其实是无可厚非的,大部分芯片制造商的同代核心IP,面向不同市场都会做较大程度的共享。但这也表现出Arm此前针对基础设施设备并没有明晰、像样的市场规划,这对生态构建本来就是不利的。

转机出现在2018年,这一年10月份的TechCon上,Arm正式宣布推出Neoverse系列IP,面向服务器市场,从云到边缘。与此同时还公开了未来3年的产品路线图,如上图所示。Arm Neoverse可以理解为服务器版的Arm Cortex。

这张图列出了一年一迭代的Neoverse版本,比如2019年代号为Ares的处理器核心IP,也就是Neoverse N1。Arm最早的时候宣布,未来每年迭代都将实现30%的性能提升——听起来比旁边的Cortex系列平均增速要快些,也比竞争对手更快。后来的发布会上,Arm又宣布N1性能提升,实际相比2018年的Cosmos高出了60%(不过Cosmos据说并不指代一个专门的架构),是原目标的2倍提升——基于SPEC2017整形测试(SPECspeed2017_int_base)。到今年发布的N2,提升速度似乎又超预期了,后文还将探讨更具体的微架构变化。

2019年2月份,Arm正式宣布推出Neoverse N1与E1平台——这应该是Arm对服务器市场改朝换代的开始。

当然光换个名字肯定是没用的,此前多篇探讨Arm发展史的文章中,我们都谈到了近代Arm的核心IP,在保持低功耗特性的前提下,在高性能方面也有了突破。即便一般的芯片制造商无法做到苹果M1那种程度,高通骁龙8cx也已经有了应用于PC的可行性。起码如今这个时代,和10年前英伟达Project Denver时代(Cortex-A15时代)还是有根本差别的。

2018年这一年,Arm向市场推出Cortex A76核心IP,这应该是众所周知的了——高通面向PC所推的骁龙8cx就应用了Cortex A76微架构。次年问世的Neoverse N1实际上就属于Cortex A76微架构的变体,或者说基于Cortex A76。

Austin家族微架构(选读)

这两者都来自Arm奥斯汀设计中心,都属于Austin家族微架构,基于ARMv8指令集。事实上Cortex与Neoverse后续更新版本,包括Cortex A78、Neoverse V1应当都属于Austin家族,今年预计要推向市场的新一代Neoverse Poseidon才会采用全新的微架构。

Neoverse V1和Cortex A76一样都采用4-wide取指/解码,11级管线深度,可在需要时缩减至9级。前端、后端的区别都不大。

两者区别比较大的部分主要在存储、连接方面——作为服务器处理器,这也是必然的。L1-I cache做到硬件级别的完全一致性(coherency),这属于面向虚拟环境性能的改进。L2新增1MB可选大小(A76是512KB),针对存储敏感型应用。

存储层级结构发生了比较大的变化。N1 CPU是连接到mesh网络之上的,即CMN-600(CMN-600是Arm最早于2016年发布的SoC互联IP,全称叫coherent mesh network;如上图所示,连接中间经过了CAL以及mesh网络的XP交叉点;每个CAL层至多连接2个N1——即两核为一簇)。在Arm的参考设计中,后续再连接到系统级缓存——SLC(system level cache)slice,每簇2MB,参考设计64核N1总共64MB SLC。

 

这张图来自Wikichip,结构描绘上更为清晰

N1去掉了L3和DSU(DynamIQ Shared Unit)的监听过滤(snoop-filter)逻辑,CPU核心直接连接到CMN的CHI接口。这样一来内存控制器和CPU核心之间的通讯,只需要经过mesh网络。这好像也属于服务器CPU的标配。

7nm工艺也是与上述设计内容配套的,核心面积整体上还是很小。另外,Neoverse N1一个比较大的变化是最高频率往上提了,发布时是说达到3.1GHz,电压也需相应提高,提供更高的单线程性能——频率提高19%,实际上需要44%的功耗为代价,这也很能表现Arm在频率与功耗的关系上,并没有什么魔法。亚马逊Graviton2就是基于Neoverse N1的芯片,CPU核心频率只选择了2.5GHz。

基于消费级产品提升频率,和Intel、AMD这种传统服务器CPU供应商的思路就不同了:x86市场的这两名玩家,其服务器CPU微架构也与消费CPU共享,但服务器CPU却是拉低核心频率的。这与双方在消费市场的定位还是有很大关系的。

不过即便是这样,功耗还是有优势,Arm此前宣称64核的N1参考设计总功耗大约为105W;Arm公开其64核参考设计SPECint_rate2006吞吐测试得分1310分,整数延迟得分(SPECint2006)37分,还是能够表现Arm能效方面的优势的。

对于networking和存储服务器,Arm推荐8-32核N1设计,TDP 25-65W;类似5G基站边缘端侧设备,16-64核目标设计,TDP 35-105W;对于超大规模数据中心而言,N1目标设计64-128核,TDP >150W。

Arm的Neoverse N1平台参考设计64核心,外加前面提到的CMN-600 mesh网络和64MB SLC缓存。台积电7nm工艺制造64核N1参考设计的die size已经快要接近400mm²了,Arm也因此推荐chiplet那样的设计,chiplet die之间通过CCIX互联来通讯。

另外Neoverse N1平台设计中,可集成SmartNIC——加速网络连接还是如今实现数据中心高吞吐的重要因素(看看英伟达现在都在宣传些啥)。CMN-600可连一些固定功能加速IP。通过CCIX连接第三方IP,可实现存储一致性。更多特性不再列举,属于服务器RAS、安全等相关的。 

Arm服务器CPU效率现在怎么样?

早前的Arm服务器处理器IP核心不够主流,很大程度上在于性能和效率都不怎么样。硬件层面的性能和功耗表现,是争夺这块市场的基本要求。

能了解服务器CPU性能的渠道不多,像亚马逊Graviton2这种芯片都还是亚马逊自用的。不过随Arm这两年在服务器市场的活跃,像AnandTech这样的外媒也开始把性能测试触及到了服务器、基础设施处理器产品之上。

事实上,2018年Cavium的ThunderX2被AnandTech认为是这一领域,Arm平台首次可与Intel、AMD相提并论的处理器产品。此后亚马逊Graviton处理器的出现也表明,Arm处理器是可以成为服务器领域的主流的。

除了亚马逊Graviton2,在Neoverse N1实施方案中,比较具有代表性的应该是Ampere Computing最新的 Altra产品线。去年的Altra Q80-33就是用来对标Intel、AMD在服务器市场的高端产品的。

Altra Q80-33主频最高3.3GHz,80核心;CMN-600 mesh互联,每核心L2选配1MB,以及32MB SLC——每核心分配到的SLC可能少了点。I/O以及更高的系统层面就不做介绍了,Ampere打造的Mount Jade,2-socket 2U机架服务器,有兴趣的可以去查一查外围的配置。

值得一提的是,这颗处理器的TDP标250W,实际上它并不是指常规负载的平均功耗,而是峰值状态下的平均功耗。其实际功耗大部分情况下低于250W,AnandTech认为按照Intel、AMD的标法,Altra Q80-33的TDP应该在200W左右。

与之对应,Intel前不久刚刚发布的Ice Lake-SP至强处理器,高配型号的TDP 270W(最高配8380为40核心,十代酷睿的Sunny Cove架构);AMD上个月推代号Milan的EPYC处理器,TDP 280W(最高配64核心,Zen 3架构)。如果光从高配版处理器的售价来看,Ampere Altra的性价比还是高出了一大截的。

 

AnandTech最近刚刚测试了Ice Lake-SP,参测的还包括AMD Milan、Ampere Altra,以及亚马逊Graviton2。测试项分成多线程性能(SPECint2017/SPECfp2017 Base Rate-N)、单线程性能(SPEC2017 Rate-1)、每核心性能(针对per core licensing)、JAVA性能(SPECjbb MultiJVM)、LLVM编译、NAMD性能。有兴趣的可前往了解,这里就不列出具体的成绩了(因为篇幅原因,上图只列出了整数多线程性能/单线程性能)。

单看x86平台,自从AMD Zen 2问世以来,Intel至强处理器在性能上表现出了全方位的乏力。上一代AMD EPYC和Intel至强,在性能上拉开了比较大的差距。这一代Intel稍稍赶上了一些,但在旗舰产品上,整体仍然存在差距。Intel现在愈发强调系统性能,从自身包括存储、软件优化等方面的优势,弥补CPU本身的弱势,所以AnandTech的测试可能仍然是比较片面的。而且今年下半年规划中的Sapphire Rapids会很快上线。这是题外话了。

基于Arm Neoverse N1的Ampere Altra是能够和AMD上一代Rome架构64核的EPYC打得有来有回的。Neoverse在每核性能上还是与x86平台有差距;此外Altra在存储敏感型测试中的表现并不怎么样,与其cache配置相关(以及可能与mesh互联有关);另外Ampere在整体系统方案上,双socket扩展还是不能和Intel/AMD比。不过偏算力的负载场景下,Altra更多的核心则有优势;能效方面,如前所述相比x86平台有功耗方面的显著优势。 

特别值得一提的是,Arm平台的服务器处理器还存在价格上的显著优势。与此同时,Ampere今年还计划推一款Altra-Max,采用128个Neoverse-N1核心,属于Arm设计目标顶配。

虽说以Ampere Altra为代表的Arm处理器仍在性能表现的某些方面不及x86(主要是AMD),但已经真正意义上对x86的服务器市场构成相当严肃的威胁了。

需要指出的是,加强生态构建是Arm的当务之急,不管是与软硬件合作伙伴加强合作,还是制定规范。在前两年发布Neoverse之时,Arm还发布了ServerReady合规认证计划,帮助用户做Arm服务器系统的安全、合规部署。

Neoverse N2与V1的发布

GTC大会上,英伟达表示Grace CPU会采用新一代的Neoverse架构,但没说具体是什么架构。按照计划表,去年9月份,Arm发布了新一代的Neoverse架构。除了N1迭代N2,这次新加了一个V系列:代号Zeus的Neoverse V1。

Neoverse V1是基于Cortex X1的性能向微架构。和Cortex X1一样,在PPA三者的指针上,Neoverse V1也更偏向性能,部分牺牲了功耗和面积。所以其设计方向和N系列是存在差别的。因此V1有着更大的cache、核心结构。Arm的数据提到,V1相比N1有着50%的IPC提升,在这个时代下还是相当巨量的,实际产品提频过后要在每核性能上击败x86应该已经不是问题了。

另外V1会成为首个支持SVE(ScalableVectorExtension)的Arm核心。此前富士通的A64FX已经率先做出这方面的支持,V1的SIMD单元宽度是A64FX的一半。除此之外,V1也引入了Bfloat16格式支持。

而N1迭代款的N2则持续专注于PPA均衡发展,与Neoverse N2对应的Cortex家族微架构还未发布,N2代号为Perseus。据说去年年底Arm就开始做N2架构的授权了。N2的目标设计最高核心数已经达到了192个,且TDP增至350W。这应该是也是堆料的突破,英伟达的Grace CPU是极有可能应用N2这个方案的。

AnandTech猜测,Neoverse N2可能会应用ARMv9指令集+SVE2支持。另外,原本规划中今年要推出的代号为Poseidon的5nm芯片预计会延后至明年。如今Neoverse的规划已经在有序推进了。即便没有英伟达,Arm玩转数据中心市场似乎也是早有预谋的,而英伟达显然会成为这一行动的助推器。

责编:Luffy Liu

本文为EET电子工程专辑 原创文章,禁止转载。请尊重知识产权,违者本司保留追究责任的权利。
黄烨锋
欧阳洋葱,编辑、上海记者,专注成像、移动与半导体,热爱理论技术研究。
  • 2021年全球智能视频监控市场规模将达242亿美金 据Omdia最新研究数据显示,全球智能视频监控及相关基础设施市场规模将在2021年达到242亿美金。随着因2020年新冠疫情影响的需求回升,智能视频监控市场将在2021年快速恢复。
  • 详解12代Intel酷睿处理器的两种核心,是大招还是牙膏? 有关Intel Architecutre Day的报道,我们将分成两篇。本篇要详细阐述的是Intel的新版CPU架构Golden Cove和Gracemont,产品层面会主要谈这两种核心架构构成的Alder Lake处理器,以及混合架构核心调度策略Intel Thread Director,并顺便稍微带到Sapphire Rapids。
  • 超越SD-WAN:uCPE作为3个关键垂直领域的边缘基础 鉴于最近对安全和勒索软件的关注,另一个强有力的用例是 uCPE 作为本地安全功能的东道主,包括访问控制、网络监控和高级威胁预防,以确保公司本地免受本地攻击。接下来,让我们探索更多针对垂直的用例。
  • Strategy Analytics:华为能否生存取决于本土市场和研发 8月初,华为发布的2021年上半年业绩报告显示,上半年营收达到3204亿元,净利润率为9.8%,业务稳步增长。唯一下降的是消费者业务,理由也是大家都知道的美国打压,今年一季度,华为手机出货量便跌出了全球前五,第二季持续下跌。但企业业务和运营商业务表现不错……
  • 前AMD全球副总裁李新荣先生加入壁仞科技 据介绍,李新荣在GPU领域拥有超过30年的丰富经验,加入壁仞科技之前在AMD就职15年,担任全球副总裁、中国研发中心总经理,负责AMD大中华区的研发建设和管理工作。在任期间,他一手构建了一个规模达数千人的研发团队,并实现了团队研发能力从单项目到覆盖“端到端”完整项目流程的重大突破……
  • x86依旧制霸服务器市场,2021年底前Ice Lake市场渗透率 观察Intel下一世代平台Eagle Stream的量产进程,产品较为多元,加上有内嵌式高频宽存储器(HBM)的CPU解决方案,预估将于2022年第二季开始进入大量供给阶段。ARM架构芯片在2021年也开始逐渐渗透市场,尤以AWS自研芯片Graviton最具市场规模……
  • 新款iPad Pro 2021成最受欢迎的 由于采用性能相对强大的M1处理器和mini-LED屏幕以及更多的创新,新款iPad Pro 2021已经成为消费者心目中最受欢迎。然而,iPad 2却已经在全球范围内被列入“复古和过时”的名单中。
  • 三星折叠屏手机Galaxy Z Fold 3 目前来看,折叠屏新机作为一种新的生产力工具,逐渐成为高端/平板的一种趋势,有报料称三星的Galaxy Z Fold 3发布时间或为7月,并且会引入新手势操控。

  • ​快人一步,一触即发|芯海科技信号 视频来源:iQOO手机官方微博8月17日晚,iQOO8系列未来电竞旗舰重磅发布,通过屏下双控压感实现更多样的操控体验,双指变四指手速度倍增,在保持机身简洁的同时助你成为自带BUFF的竞技
  • 泰艺电子推出小型化恒温控制晶体振 泰艺电子,频率控制解决方案的领先供货商,推出全新 NN 系列恒温控制晶体振荡器(OCXO),能够满足严格的频率稳定度要求,同时具备优越的相位噪声性能。
  • 均衡的秘密之CTLE 黄刚 | 文CTLE是什么?上篇文章也提到了,直白的翻译为连续时间线性均衡。它是在接收端芯片上的一种技术。之前也提到了,它的作用可以在传输损耗较大的链路,有效的改善接收端眼图的性能。对于有过高速串行信
  • 友恩开关电源芯片U65113E为你打开新天地 手机品牌几分天下的大局似乎已尘埃落定,TCL却借助旗下子品牌雷鸟在发布会上推出了雷鸟旗下的首款智能手机--雷鸟FF1手机。不得不说,平静的湖面下,永远有波涛在流动。竞争从未停止过。譬如这颗5W的开关电
  • 最强国产自研CPU公司表态:没人可以“卡我们的脖子” 在国内多家研发处理器的公司中,龙芯中科选择的路线有所不同,现在已经全面转向自己的指令集。龙芯高管表示这条路很难走,但好处也是最大的,那就是没人可以“卡我们的脖子。8月26日,在成都举行的2021成都新
  • IPC CARES | IPC心系河南地区暴雨灾害重建 IPC心系河南暴雨,驰援受灾地区重建2021年7月河南遭遇千年一遇特大暴雨袭击,导致郑州、新乡、开封、周口、焦作等地发生严重内涝,造成了重大人员伤亡和财产损失。灾情牵动着亿万中国人民的心,所有同胞为之
  • 欧盟将对英伟达收购ARM案展开正式调查 | ​我国已成为6G专利申请的主要来源国 点击上方蓝字关注我们1 欧盟将对英伟达收购ARM案展开正式调查 8月27日消息,据媒体报道,在监管机构与美国芯片公司进行了数月的非正式讨论后,欧盟将于九月初对英伟达计划收购英国芯片设计商ARM的交易展
  • 闻泰科技半导体业务净利润13.10亿元,同比增长234.52% 点击上方图片直接报名会议8月27日,闻泰科技发布2021年半年报,2021年上半年实现营业收入247.69亿元,同比增长3.91%;归母净利润12.32亿元,同比下降27.56%。其中半导体业务营业收
  • 三星也要涨价了!  中国半导体论坛 振兴国产半导体产业!    老大哥台积电喊涨,引发业界震撼,预料三星电子也会在近期内调升晶圆代工价格,外界猜测时间点可能是今年第四季。韩国经济日报26日
  • 谁在操控中国电信股价? 8月26日,中国电信A股收盘时股价下跌了2.5%,这是回归A股以来第五个交易日,股价两次一字跌停,市值从5500多亿跌到现在的4300多亿,损失至少1200亿市值。现在中国电信股价4.71元,盘中一度
  • 台积电涨价,iPhone13将提价!  中国半导体论坛 振兴国产半导体产业!    8月27日消息,据报道,苹果计划提高iPhone 13系列的价格,以弥补其主要芯片代工厂台积电涨价所带来的成本上升,从而“减
  • 蹲点拼手速?Python秒杀神器赶紧收下 “朋友最近跟师兄学了个黑科技,每天鼓捣一下,俩月挣了几万块。”他还趁着挖矿热潮,倒卖了一波原价显卡,4张华硕 RTX 3080Ti,挣了8k。这玩意我抢了一个月都没抢到,他居然抢到了4张?“
广告
热门推荐
广告
广告
广告
EE直播间
在线研讨会
广告
广告
广告
向右滑动:上一篇 向左滑动:下一篇 我知道了