广告

如果没有英伟达,Arm在数据中心市场能混出头吗?

时间:2021-04-22 11:35:43 作者:黄烨锋 阅读:
虽然去年到今年是Arm在各行各业大获全胜的两年,数据中心也频繁出现Arm的身影,但英伟达在数据中心的分量,几乎将Arm推到了最前线,多少有点儿很快就能把根植于该市场的x86拉下马的意思。前不久的GTC 2021之上,老黄宣布英伟达很快将推出应用于HPC AI的中央处理器Grace——基于Arm架构……
广告

前不久的GTC 2021之上,老黄宣布英伟达很快将推出应用于HPC AI的中央处理器Grace——基于Arm架构。这在数据中心/服务器/基础设施行业是个大新闻。

虽然去年到今年是Arm在各行各业大获全胜的两年,数据中心也频繁出现Arm的身影——比如亚马逊自研的Graviton2处理器基于Arm,富士通面向HPC的A64FX处理器基于Arm——这些在《Arm的十年PC征程,和微软的“暧昧”》一文中就有所提及。

但英伟达在数据中心的分量,几乎将Arm推到了最前线,多少有点儿很快就能把根植于该市场的x86拉下马的意思。有关英伟达的Grace,很快我们会发表另一篇文章做单独评论,即便个人认为Grace着力的市场具有相当强的针对性。本文尝试呈现,抛开Grace不谈,Arm如今在服务器市场,究竟已经发展到了何种程度。

Arm第一次认真对待服务器市场

Arm一直以来就有突破移动与嵌入式市场的野心,只不过就像Arm在PC之上的10年征程那样,这个过程是需要不断试错的。英伟达探索高性能CPU/SoC也不是今天才开始的,在10多年前英伟达就曾宣布过一个叫做Project Denver的项目,旨在与Arm合作面向HPC(高性能计算)市场推CPU产品。

不止是英伟达,高通也曾推出基于Arm架构的Centriq处理器,面向企业和服务器市场;Cavium的ThunderX此前也算是知名的Arm服务器芯片;还有博通的Vulcan,AMD的Opteron A1100......虽然它们中的大部分都失败了。感觉从这些项目初期展示的PPT来看,Intel早就应该缩在墙角颤抖了。但事实上,Arm在这一领域始终没能真正走入主流视野(虽然Arm一直宣称自己是“基础设施(infrastructure)”设备中市场份额最高的,包含路由器、交换机、基站、服务器等)。

到近代鲲鹏920这类服务器芯片面世,以及如今相当活跃的Ampere Computing也在推基于Arm的服务器处理器,Arm才真正在这一领域逐渐像样起来。今年的GTC主题演讲上,黄仁勋也宣布,英伟达的GPU开始和Ampere Computing、亚马逊、联发科等合作伙伴的CPU/SoC搭配,从云到边缘到消费终端。虽然在接受采访时,黄仁勋说Grace并不会多大程度影响到现有客户,但这明摆着就有拆AMD/Intel墙角的意思。

Arm在服务器、基础设施,或者说数据中心产品的试错历史就不多做回顾了。事实上,Arm过去虽然也一直有试探服务器市场的意思,但他们始终都没有面向这些数据中心的基础设施,推过专门的IP——Arm在该市场的IP,基本与面向消费市场的IP共享。

这一点其实是无可厚非的,大部分芯片制造商的同代核心IP,面向不同市场都会做较大程度的共享。但这也表现出Arm此前针对基础设施设备并没有明晰、像样的市场规划,这对生态构建本来就是不利的。

转机出现在2018年,这一年10月份的TechCon上,Arm正式宣布推出Neoverse系列IP,面向服务器市场,从云到边缘。与此同时还公开了未来3年的产品路线图,如上图所示。Arm Neoverse可以理解为服务器版的Arm Cortex。

这张图列出了一年一迭代的Neoverse版本,比如2019年代号为Ares的处理器核心IP,也就是Neoverse N1。Arm最早的时候宣布,未来每年迭代都将实现30%的性能提升——听起来比旁边的Cortex系列平均增速要快些,也比竞争对手更快。后来的发布会上,Arm又宣布N1性能提升,实际相比2018年的Cosmos高出了60%(不过Cosmos据说并不指代一个专门的架构),是原目标的2倍提升——基于SPEC2017整形测试(SPECspeed2017_int_base)。到今年发布的N2,提升速度似乎又超预期了,后文还将探讨更具体的微架构变化。

2019年2月份,Arm正式宣布推出Neoverse N1与E1平台——这应该是Arm对服务器市场改朝换代的开始。

当然光换个名字肯定是没用的,此前多篇探讨Arm发展史的文章中,我们都谈到了近代Arm的核心IP,在保持低功耗特性的前提下,在高性能方面也有了突破。即便一般的芯片制造商无法做到苹果M1那种程度,高通骁龙8cx也已经有了应用于PC的可行性。起码如今这个时代,和10年前英伟达Project Denver时代(Cortex-A15时代)还是有根本差别的。

2018年这一年,Arm向市场推出Cortex A76核心IP,这应该是众所周知的了——高通面向PC所推的骁龙8cx就应用了Cortex A76微架构。次年问世的Neoverse N1实际上就属于Cortex A76微架构的变体,或者说基于Cortex A76。

Austin家族微架构(选读)

这两者都来自Arm奥斯汀设计中心,都属于Austin家族微架构,基于ARMv8指令集。事实上Cortex与Neoverse后续更新版本,包括Cortex A78、Neoverse V1应当都属于Austin家族,今年预计要推向市场的新一代Neoverse Poseidon才会采用全新的微架构。

Neoverse V1和Cortex A76一样都采用4-wide取指/解码,11级管线深度,可在需要时缩减至9级。前端、后端的区别都不大。

两者区别比较大的部分主要在存储、连接方面——作为服务器处理器,这也是必然的。L1-I cache做到硬件级别的完全一致性(coherency),这属于面向虚拟环境性能的改进。L2新增1MB可选大小(A76是512KB),针对存储敏感型应用。

存储层级结构发生了比较大的变化。N1 CPU是连接到mesh网络之上的,即CMN-600(CMN-600是Arm最早于2016年发布的SoC互联IP,全称叫coherent mesh network;如上图所示,连接中间经过了CAL以及mesh网络的XP交叉点;每个CAL层至多连接2个N1——即两核为一簇)。在Arm的参考设计中,后续再连接到系统级缓存——SLC(system level cache)slice,每簇2MB,参考设计64核N1总共64MB SLC。

 

这张图来自Wikichip,结构描绘上更为清晰

N1去掉了L3和DSU(DynamIQ Shared Unit)的监听过滤(snoop-filter)逻辑,CPU核心直接连接到CMN的CHI接口。这样一来内存控制器和CPU核心之间的通讯,只需要经过mesh网络。这好像也属于服务器CPU的标配。

7nm工艺也是与上述设计内容配套的,核心面积整体上还是很小。另外,Neoverse N1一个比较大的变化是最高频率往上提了,发布时是说达到3.1GHz,电压也需相应提高,提供更高的单线程性能——频率提高19%,实际上需要44%的功耗为代价,这也很能表现Arm在频率与功耗的关系上,并没有什么魔法。亚马逊Graviton2就是基于Neoverse N1的芯片,CPU核心频率只选择了2.5GHz。

基于消费级产品提升频率,和Intel、AMD这种传统服务器CPU供应商的思路就不同了:x86市场的这两名玩家,其服务器CPU微架构也与消费CPU共享,但服务器CPU却是拉低核心频率的。这与双方在消费市场的定位还是有很大关系的。

不过即便是这样,功耗还是有优势,Arm此前宣称64核的N1参考设计总功耗大约为105W;Arm公开其64核参考设计SPECint_rate2006吞吐测试得分1310分,整数延迟得分(SPECint2006)37分,还是能够表现Arm能效方面的优势的。

对于networking和存储服务器,Arm推荐8-32核N1设计,TDP 25-65W;类似5G基站边缘端侧设备,16-64核目标设计,TDP 35-105W;对于超大规模数据中心而言,N1目标设计64-128核,TDP >150W。

Arm的Neoverse N1平台参考设计64核心,外加前面提到的CMN-600 mesh网络和64MB SLC缓存。台积电7nm工艺制造64核N1参考设计的die size已经快要接近400mm²了,Arm也因此推荐chiplet那样的设计,chiplet die之间通过CCIX互联来通讯。

另外Neoverse N1平台设计中,可集成SmartNIC——加速网络连接还是如今实现数据中心高吞吐的重要因素(看看英伟达现在都在宣传些啥)。CMN-600可连一些固定功能加速IP。通过CCIX连接第三方IP,可实现存储一致性。更多特性不再列举,属于服务器RAS、安全等相关的。 

Arm服务器CPU效率现在怎么样?

早前的Arm服务器处理器IP核心不够主流,很大程度上在于性能和效率都不怎么样。硬件层面的性能和功耗表现,是争夺这块市场的基本要求。

能了解服务器CPU性能的渠道不多,像亚马逊Graviton2这种芯片都还是亚马逊自用的。不过随Arm这两年在服务器市场的活跃,像AnandTech这样的外媒也开始把性能测试触及到了服务器、基础设施处理器产品之上。

事实上,2018年Cavium的ThunderX2被AnandTech认为是这一领域,Arm平台首次可与Intel、AMD相提并论的处理器产品。此后亚马逊Graviton处理器的出现也表明,Arm处理器是可以成为服务器领域的主流的。

除了亚马逊Graviton2,在Neoverse N1实施方案中,比较具有代表性的应该是Ampere Computing最新的 Altra产品线。去年的Altra Q80-33就是用来对标Intel、AMD在服务器市场的高端产品的。

Altra Q80-33主频最高3.3GHz,80核心;CMN-600 mesh互联,每核心L2选配1MB,以及32MB SLC——每核心分配到的SLC可能少了点。I/O以及更高的系统层面就不做介绍了,Ampere打造的Mount Jade,2-socket 2U机架服务器,有兴趣的可以去查一查外围的配置。

值得一提的是,这颗处理器的TDP标250W,实际上它并不是指常规负载的平均功耗,而是峰值状态下的平均功耗。其实际功耗大部分情况下低于250W,AnandTech认为按照Intel、AMD的标法,Altra Q80-33的TDP应该在200W左右。

与之对应,Intel前不久刚刚发布的Ice Lake-SP至强处理器,高配型号的TDP 270W(最高配8380为40核心,十代酷睿的Sunny Cove架构);AMD上个月推代号Milan的EPYC处理器,TDP 280W(最高配64核心,Zen 3架构)。如果光从高配版处理器的售价来看,Ampere Altra的性价比还是高出了一大截的。

 

AnandTech最近刚刚测试了Ice Lake-SP,参测的还包括AMD Milan、Ampere Altra,以及亚马逊Graviton2。测试项分成多线程性能(SPECint2017/SPECfp2017 Base Rate-N)、单线程性能(SPEC2017 Rate-1)、每核心性能(针对per core licensing)、JAVA性能(SPECjbb MultiJVM)、LLVM编译、NAMD性能。有兴趣的可前往了解,这里就不列出具体的成绩了(因为篇幅原因,上图只列出了整数多线程性能/单线程性能)。

单看x86平台,自从AMD Zen 2问世以来,Intel至强处理器在性能上表现出了全方位的乏力。上一代AMD EPYC和Intel至强,在性能上拉开了比较大的差距。这一代Intel稍稍赶上了一些,但在旗舰产品上,整体仍然存在差距。Intel现在愈发强调系统性能,从自身包括存储、软件优化等方面的优势,弥补CPU本身的弱势,所以AnandTech的测试可能仍然是比较片面的。而且今年下半年规划中的Sapphire Rapids会很快上线。这是题外话了。

基于Arm Neoverse N1的Ampere Altra是能够和AMD上一代Rome架构64核的EPYC打得有来有回的。Neoverse在每核性能上还是与x86平台有差距;此外Altra在存储敏感型测试中的表现并不怎么样,与其cache配置相关(以及可能与mesh互联有关);另外Ampere在整体系统方案上,双socket扩展还是不能和Intel/AMD比。不过偏算力的负载场景下,Altra更多的核心则有优势;能效方面,如前所述相比x86平台有功耗方面的显著优势。 

特别值得一提的是,Arm平台的服务器处理器还存在价格上的显著优势。与此同时,Ampere今年还计划推一款Altra-Max,采用128个Neoverse-N1核心,属于Arm设计目标顶配。

虽说以Ampere Altra为代表的Arm处理器仍在性能表现的某些方面不及x86(主要是AMD),但已经真正意义上对x86的服务器市场构成相当严肃的威胁了。

需要指出的是,加强生态构建是Arm的当务之急,不管是与软硬件合作伙伴加强合作,还是制定规范。在前两年发布Neoverse之时,Arm还发布了ServerReady合规认证计划,帮助用户做Arm服务器系统的安全、合规部署。

Neoverse N2与V1的发布

GTC大会上,英伟达表示Grace CPU会采用新一代的Neoverse架构,但没说具体是什么架构。按照计划表,去年9月份,Arm发布了新一代的Neoverse架构。除了N1迭代N2,这次新加了一个V系列:代号Zeus的Neoverse V1。

Neoverse V1是基于Cortex X1的性能向微架构。和Cortex X1一样,在PPA三者的指针上,Neoverse V1也更偏向性能,部分牺牲了功耗和面积。所以其设计方向和N系列是存在差别的。因此V1有着更大的cache、核心结构。Arm的数据提到,V1相比N1有着50%的IPC提升,在这个时代下还是相当巨量的,实际产品提频过后要在每核性能上击败x86应该已经不是问题了。

另外V1会成为首个支持SVE(ScalableVectorExtension)的Arm核心。此前富士通的A64FX已经率先做出这方面的支持,V1的SIMD单元宽度是A64FX的一半。除此之外,V1也引入了Bfloat16格式支持。

而N1迭代款的N2则持续专注于PPA均衡发展,与Neoverse N2对应的Cortex家族微架构还未发布,N2代号为Perseus。据说去年年底Arm就开始做N2架构的授权了。N2的目标设计最高核心数已经达到了192个,且TDP增至350W。这应该是也是堆料的突破,英伟达的Grace CPU是极有可能应用N2这个方案的。

AnandTech猜测,Neoverse N2可能会应用ARMv9指令集+SVE2支持。另外,原本规划中今年要推出的代号为Poseidon的5nm芯片预计会延后至明年。如今Neoverse的规划已经在有序推进了。即便没有英伟达,Arm玩转数据中心市场似乎也是早有预谋的,而英伟达显然会成为这一行动的助推器。

责编:Luffy Liu

本文为EET电子工程专辑 原创文章,禁止转载。请尊重知识产权,违者本司保留追究责任的权利。
黄烨锋
欧阳洋葱,编辑、上海记者,专注成像、移动与半导体,热爱理论技术研究。
  • “零信任”大势下,谈谈云权限管理(CPM)基础知识 "永远不要相信任何人和任何事。"是一句我们常在电影里听到的名言,其实这句话也同样适用于云端安全管理。疫情之后,随着云计算在世界上的进一步普及,保护云端环境下企业资产安全的需求日益增加,人们对预防性方法越来越感兴趣。先验的云安全立场背后的理念称为“零信任”……
  • “元宇宙”进展情况了解一下:谈谈今年的GTC 这篇文章来谈谈今年GTC上,Nvidia Omniverse的一些新发布——虽然叫它“元宇宙”其实并不准确,但Omniverse现阶段在做的事本身就是未来元宇宙成型的基础。总结起来,现阶段的Omniverse主要实现的是设计协作、模拟仿真。设计协作体现在,从不同位置、用不同的工具,在设计、建筑等领域内,就像……
  • 疫情导致云服务需求暴增,企业纷纷延长服务器使用年限 新冠疫情的出现,让人类社会原本很多需要在线下完成的活动,搬到了线上。由此带来的是数字化进程十倍速的加快,以及网络带宽、云上存储的需求暴增。无论八大云服务提供商,还是其他自有服务器的大中型企业,出于不同目的均选择了延长服务器使用年限来应对……
  • 美光眼中的未来数据中心 2022年,数据中心将会因为新的内存和存储体系而经历一场革命。在数据中心基础设施面临压力的情况下,各类不断创新的内存将是减轻数据密集型工作负载的关键。最激动人心的转变是……
  • 传统防火墙正被细分IT安全硬件取代,中国市场厂商市占一 IDC定义下的网络安全硬件市场分别由统一威胁管理(UTM)、基于UTM平台的防火墙(UTM Firewall)、安全内容管理(SCM)、入侵检测与防御(IDP)、虚拟专用网(VPN)、传统防火墙(Traditional Firewall) 构成。本文以图表形式归纳总结了2021年中国网络安全硬件市场的关键厂商表现……
  • 中国电信20万台服务器集采国产芯片占比27%,华为终端退 本次集采是迄今为止国内三大运营商最大规模服务器集采项目之一,总金额达131亿元,此外还有三大看点:一、以往的大供应商华为没有出现在名单中;二、国产芯片的占比;三、年轻的服务器品牌开始涌现……
  • 新款iPad Pro 2021成最受欢迎的 由于采用性能相对强大的M1处理器和mini-LED屏幕以及更多的创新,新款iPad Pro 2021已经成为消费者心目中最受欢迎。然而,iPad 2却已经在全球范围内被列入“复古和过时”的名单中。
  • 三星折叠屏手机Galaxy Z Fold 3 目前来看,折叠屏新机作为一种新的生产力工具,逐渐成为高端/平板的一种趋势,有报料称三星的Galaxy Z Fold 3发布时间或为7月,并且会引入新手势操控。
  • 类脑芯片与智能座舱深度融合,时识科 类脑智能与应用解决方案提供商SynSense时识科技宣布与宝马展开技术探索,推进类脑芯片与智能座舱应用场景的深度融合。双方将主要围绕SynSense时识科技基于类脑技术的“感算一体”动态视觉智能SoC——Speck,探索汽车内外相关车载智能应用创新。
  • 美光:智能边缘应用的供应链和汽车架 随着数十亿台设备产生的数据和洞察力不断激增,智能边缘也随之崛起
  • 手机出货量暴跌00后4年没换手机引热议 全球通胀,原材料越来越贵,手机厂商跟随涨价也是情理之中的事情,但是真正阻碍消费者换新的原动力,还是厂商在创新上的减速。有媒体调查显示,手机出货量暴跌三成,00后4年没换手机,还有从业者表示,幸运自己转
  • 俄罗斯第一芯片制造商被美国封杀! 最新消息,刚刚美国财政部外国资产控制办公室 (OFAC) 宣布对俄罗斯21家实体企业和13个个人实施制裁,其中包括俄罗斯第一芯片制造商、微电子制造商和出口商Mikron。美国财政部的声明指出,今天制裁
  • 模拟IC设计精品课程:《模拟CMOS集成电路设计理论与电路》【根据拉扎维《模拟CMOS集成电路设计》录制】 《模拟CMOS集成电路设计理论与电路》本课程根据  拉扎维《模拟CMOS集成电路设计》录制扫描下方二维码免费试看或者购买课程关于购课特别提示微信扫描二维码后会弹出如下类似提醒该提醒为网易云课堂用来“诱
  • 半导体精品公众号推荐!  中国半导体论坛 振兴国产半导体产业!    信息爆炸的时代更需要断舍离如何更加高效的获取高质量的信息在碎片化的时代里收获满满?2022年,半导体人只需关注5个公众号半导体技术天地ID:ic2018i
  • 能讯高能半导体:中国芯在昆山的突围 这是一个5G集大成的时代万物互联如果说射频芯片为5G基站提供了动力源泉那么氮化镓就是芯片中的“最强心脏”它在极大提升效率增强带宽的同时又能实现能源节约氮化镓在5G通信时代至关重要一座24小时运转的5G
  • 2月中国智能手机SoC前五:联发科、高通、苹果、海思、展锐 昨日晚间,CINNO Research 发布报告,带来了 2 月中国智能机 SoC 排名。其中,联发科、高通、苹果、海思、紫光展锐位列前五位。CINNO Research 最新数据显示,2 月中国智能
  • 柔宇科技已6个月发不出工资!  中国半导体论坛 振兴国产半导体产业!   点击链接:2022春季半导体线上招聘会开始啦!4月1日消息,曾经估值超过500亿的独角兽柔宇科技被曝出已拖欠员工6个月工资!据报道,柔宇科技一员工称,从去年
  • 持续助力AI创新,高通创投再次加持三家AI垂直创新企业 近日,高通创投宣布再次加持高精度工业视觉检测服务商深度视觉、C-V2X和计算机视觉方案提供商卓视智通,以及高端制造质量管控解决方案提供商感图科技。作为其早期投资人,高通创投陪伴并见证了这三家AI垂直应
  • 大基金二期:入股杭州富芯半导体 3月29日消息,爱企查显示,杭州富芯半导体发生工商变更,新增股东国家集成电路产业投资基金二期股份有限公司、杭州富远企业管理合伙企业(有限合伙)。投资金额和持股比例未透露。公开资料显示,杭州富芯半导体有
  • 亚化咨询推出《中国半导体大硅片年度报告2022》,欢迎索取目录! 来源:《中国半导体大硅片年度报告2022》亚化咨询数据显示,2021年全球半导体硅片市场快速增长,整体销售额达157.44亿元,过滤掉交叉部分仅计算销售到IDM/Fab部分的话(过滤部分为销售给纯外延
广告
热门推荐
广告
广告
广告
EE直播间
在线研讨会
广告
广告
广告
向右滑动:上一篇 向左滑动:下一篇 我知道了