Intel最新发布的至强6处理器分成了P-core和E-core两个版本,而且核心数总算是堆到了领先的288个。所以这次的至强6能应战隔壁Epyc和Neoverse吗?

电子工程专辑此前虽然从未深入分析过至强处理器的架构,但借助酷睿/酷睿Ultra处理器的核心微架构及其先进封装的解读,多少也能看清楚至强的虚实。

实际在过去几年至强Ice Lake和Sapphire Rapids时代,Intel服务器CPU产品是相当被动的,尤其在追求高核心数的应用场景中。所以过去几年Intel数据中心业务的成绩单也的确不够好看——即便Intel在服务器CPU市场仍然是绝对的份额大头,压力来自AMD和Arm阵营两方面。

此前Intel公布至强的路线图之时,我们普遍认为采用Intel 3制造工艺的Sierra Forest和Granite Rapids会成为新的转折点。不仅因为制造工艺跟上了主流,也是P-core(性能核)与E-core(能效核)分开的设计明确了不同的市场需求,性能和能效方面预期实现飞跃。

从去年Intel Innovation活动开始,Intel就陆续公布了不少有关这代至强处理器的信息,包括今年4月Intel Vision活动上宣布至强6处理器的问世。最近,至强6处理器产品正式发布,更多细节信息也浮出水面。

Ryan Tabrah(英特尔数据中心与人工智能事业部副总裁兼至强能效核产品线总经理)展示至强6700E

要知道第五代至强(Emeralds Rapids)是去年12月份同酷睿Ultra(Meteor Lake)一起发布的,转眼半年至强6(Xeon 6)和下一代酷睿Ultra(Lunar Lake)就都准备要来了。可见无论是PC市场还是服务器市场,Intel的应战都非常积极。

借着这篇文章,我们来谈谈可能成为新转折点的至强6处理器究竟如何,以及它的存在逻辑怎样。这也将有助于我们深入理解数据中心处理器市场。

 

至强6分成了两个版本

此前Intel就已经预告过新一代至强6会有仅采用E-core和仅采用P-core的两个不同系列——前者代号Sierra Forest,后者代号Granite Rapids,用以满足不同的市场需求。之前不少外媒认为,Sierra Forest的存在主要是为了与Arm阵营——典型如Ampere Computing的产品和亚马逊自研的Graviton等处理器展开竞争,表现在其大量核心数上。

我们认为至强6的产品规划大约有这方面的成分,但也不是这么简单。梁雅莉(英特尔市场营销集团副总裁兼中国区行业解决方案和数据中心销售部总经理)在发布会上的发言很好地总结了这两类采用不同核心的至强处理器的目标应用场景:

“以云原生微服务为代表的分布式通用计算,交给能效核(E-core)处理器来处理;而以AI和高性能计算等为代表的重度计算任务,则会交给性能核(P-core)进行处理。”

这其中有一个更高层级的逻辑:单一的架构不能解决客户所有的问题,或者完美覆盖所有业务场景。在摩尔定律迟滞的当下,基于应用场景做芯片设计已经是行业共识了。所以“面向不同业务负载”更具“针对性”的架构,是非常符合时代潮流的思路。

而且不单是CPU的不同架构,还包括GPU、ASIC、FPGA之类的加速器。在我们看来,至强6的两种核心版本更像是Intel XPU策略在CPU这类产品上的具体体现。这种思路也符合时下“绿色”“高能效”计算的主流趋势。

陈葆立(英特尔数据中心与人工智能集团副总裁兼中国区总经理)表示过去几年从数据中心客户那里看到的需求增长点,一是AI,一是微服务(microservices)。AI的特点是对核心性能、内存带宽与延迟等有较高要求;

而云上的微服务对单核性能并没有那么敏感,但对“服务的量”有较高要求——对核心密度更敏感——这一点从AWS针对Graviton的应用实例也能看出来。高核心数或核心密度对微服务、容器工作负载而言很重要。

所以Intel为至强6设计了两条产品线,满足不同工作负载对于性能和能效的要求,两个版本共享底层平台和软件栈。具体P-core和E-core分别满足怎样的负载需求,可见下图:

“一些客户两边的业务都需要,就会导入两个产品;还有一些则非常专注某一个领域。”Intel给出了这两种核心的至强6,相较第二代至强在不同负载下的性能(与每瓦性能)提升(基于数据中心技术设施4-5年一换的常规)如下图:

即便E-core被称为所谓的“能效核”,处理器的整体性能表现,在web与微服务、networking、媒体编解码、数据服务等负载方面,相较第二代至强也有3倍左右的每瓦性能提升。

Intel这次也终于大方给出了至强6相较隔壁Epyc在部分维度的性能对比:P-core版至强6在AI推理性能方面强3.7倍,E-core版至强6则在媒体转码的每瓦性能上强1.3倍。虽说这两个数字不算全面,但我们认为这的确扭转了过往两代产品上,至强处理器的不利局面。

 

首次采用E-core:性能可以吗?

虽说在近代的边缘和嵌入市场,我们也见过完全采用E-core的Intel处理器,如Snow Ridge、Parker Ridge。但在服务器CPU上采用E-core还是头一回。这次发布的型号是至强6700E——基于型号后缀可知这是个采用E-core核心的CPU。后续还会有新型号上市,包括下个季度要发布的至强6900P(基于P-core),以及2025年Q1的更多型号:6900E、6700P/6500P/6 SoC/6300P

尺寸明显更大的至强6900P

从数字型号角度出发,6700和6900是两个大的系列,或者从Intel设计芯片的角度来说是两个平台。其中采用E-core的6700最多144个核心,P-core版最多86个核心;采用E-core的6900系列至多288核,P-core版128核。

光看这核心数,也的确是让至强处理器瞬间主流了起来,尤其Sierra Forest这边;即便单看采用P-core的至强,86个核心也已经比第五代至强多了30%的核心数——更何况后续还会有128核版。

包括socket插槽支持、TDP、内存通道、PCIe/CXL、UPI互联的具体配置信息见下图:

6700系列单CPU的TDP为350W,6900系列则为500W。值得一提的是,至强6平台有MCR技术支持,可实现内存频率进一步提升——6700系列支持将内存频率提至8000MT/s,6900系列则可提至8800MT/s——内存总带宽是上代的2.36倍。另外6700P系列在插槽方面支持1路、2路、4路、8路扩展。

产品层面当然还是要具体到SKU型号:如前所述,这次发布的仅为至强6700E系列。不同产品SKU如下图,覆盖64核的6710E,到最高端144核的6780E;此系处理器产品TDP功耗从205W-330W。不同核心版不光是靠binning process划分的,后文封装架构部分会细谈。

“云原生分布式应用,不需要向上扩展的服务器硬件架构,而更倾向于对应用程序不断进行解构,采用微服务、多线程、分布式、横向扩展的方式,来更有效地使用CPU的计算资源。”“平衡的高性能恰恰是英特尔至强6能效核处理器的一个重要特性。”这是梁雅莉针对至强6 E-core处理器的目标场景阐释。

Intel方面给出更细致的数据是,采用E-core的至强6处理器,相较第二代至强在媒体转码负载中的性能高4.2倍,表现效率的每瓦性能高2.6倍。

还有个更加宏观的、在能耗与核心密度方面的对比:基于机架供电限制,按照15kW/机架的标准配置,以第二代至强配200个机架所能达成的性能为基准,采用至强6700E就只需要66个机架——达成了所谓3:1的机架整合率。而且据说后续采用P-core的至强6可以将这个数字再提到6:1。

则对应的至强6实现了显著更高的运算密度——可惜这里Intel没有给出很直观的TCO对比数据。实则基于系统减少及数据中心空间节约,和在能源、散热等方面开销的变化,另外加上算力密度提升在业务上的帮助,一定区间内的TCO应该是有显著降低的。

不过相对直观的数据还是有:上述两代方案,4年用下来后者可节约80k MWh(兆瓦时)能耗,减少3.4万吨二氧化碳排量。

从数据中心基础设施构建逻辑和第二代至强比过以后,还应当看一看至强6700E和上代——即第五代至强CPU(Emerald Rapids)比较的详实数据:

基于Crestmont核心(至强6的E-core)与Raptor Cove(第五代至强的P-core)核心规模上的差异,这个对比结果还是比较令人意外的。这张柱状图的实心柱子比的是性能,点状柱子比的是每瓦性能。在绝对性能有提升的情况下,体现的主要还是在不同类型的负载中,至强6700E在效率方面的显著提升。

基于服务器资源利用率画个能耗曲线会发现,尤其在服务器利用率40-60%区间内,至强6700E(2路)相比第五代至强有着接近40%的功耗下降。Intel表示大部分客户的数据中心日常负载利用率就在40-60%之间,所以这张图是非常能反映效率实际提升水平的:

这部分的最后留一个比较有趣的思考题。Redwood Cove性能核(至强6的P-core)仍然是支持超线程的,所以采用P-core的至强6也支持超线程;而E-core就不支持超线程了,一个核心一个线程。隔壁Arm前两年推广Neoverse就已经在吐槽超线程技术了。

浪潮信息服务器产品线总经理刘涛在发言时说,对云来说超线程在预测性能需求和动态变化时会遭遇挑战。比如负载过半时,物理核占满;再往上加负载,超线程发挥作用,性能提升不再呈线性(或线程与实际性能关系曲线越来越平缓);甚至越往高占有率,负载稍有增加就可能导致可用资源耗尽。

而不带超线程就相对简单和可预期了,E-core减少了资源争抢和性能抖动,“确保业务负载有确定性的线性预期。”而且采用E-core至强6本身也有足够多的核心资源来满足大规模分布式总并发需求。

这可能与P-core、E-core所擅长负载方面的差异仍有关。不过Lunar Lake已经公开的最新一代P-core,即Lion Cove也已经不支持超线程了。或许基于Intel现在的设计方法,做个超线程版的Lion Cove也不是难事,但下一代至强P-core还会以超线程的面貌问世吗?

 

封装与核心架构:最多288个核心

说了这么久P-core和E-core,究竟是什么样的核心架构?前文多少也提到了,具体到核心架构层面,至强6的P-core是指Redwood Cove,而E-core则是指Crestmont。也就是酷睿Ultra 1代(Meteor Lake)处理器上的那两核心——不同平台共用主要的核心架构设计也是半导体行业的传统了。

上面这张图给出了这两种核心的部分配置信息:之前对Meteor Lake了解的读者应该不会陌生,包括指令支持,cache大小,解码宽度、乱序度等...两种核心的指令支持是不对等的,则在完全同构核心的情况下能做到各取所需。

值得一提的是,从Crestmont对于AVX2和矢量操作相比以往的强化来看,用E-core版至强6来做更传统的机器学习和深度学习AI加速应该也是可行的。

不过和PC处理器上的配置仍有些许差异,比如Crestmont能效核同样是每4核心共享L2 cache,但L2 cache容量扩大到了4MB(Meteor Lake上的Crestmont为2MB L2 cache)。基于对Meteor Lake的认知,可想见采用E-core的至强6,在die size上会比采用P-core的至强6低很多。

封装层面,至强6700是长下面这样的——左边的就是本次发布基于E-core的至强6700,右边则是Q3要发布将采用P-core、不同核心数的至强6700。

中间那片是计算die,左右两边的是I/O die——基于chiplet方案的I/O die是高度可复用的设计。I/O die基于Intel 7工艺制造,而计算die基于Intel 3工艺制造。Die与die之间主要借助EMIB硅桥连接,粗粒度的数据是die与die之间“达到1TB/s的速度”。

常规基于先进封装和chiplet的堆核方式,很容易理解后续要采用P-core的至强6700,16核与48核都是单颗计算die,86核就要堆两片计算die了。两侧的I/O die保持不变。

而尚未发布的6900系列也是同理,采用E-core的至强6900总共至多288个核心,也需要用到两片计算die;采用P-core的至强6900要堆128个核心,则需要3片计算die。所以至强6比以前的至强有着更好的灵活性。

Intel解释说,实现这种灵活性主要有3大要素。其一是Fabric技术,将计算die与I/O die有机结合; “每个芯片内部都拥有纵横交错的通路网络,当这些芯片通过集成多个die架构相互连接时,它们的通路不仅得以延续,还能相互融合,相互构建起规模更大、更为强大的通路系统”。

其二是多die架构;其三为多die互联——具体到至强处理器是EMIB硅桥,这种2.5D先进封装方案我们过去也介绍过不止一次了。

计算die内除了核心(core)和cache以外,还包括CHA(cache home agent,一个CHA相关于mesh的一个stop,管理一个LLC切片,并且能够发送请求到内存控制器)、LLC,以及实现核心互联的mesh fabric;另外每颗计算die左右两边都有DDR5/MCR内存控制器。

据说这种设计实现了较低的访存延迟及设计的灵活性。“无论多少个核心做成一个虚机,整体性能可扩展性、一致性都非常好。”技术专家说即便对于3片计算die的方案,相距I/O die更远的中间那片计算die的I/O性能也不会有太大影响。

I/O die内部架构则是上图这样的:和计算die之间也通过I/O Fabric,物理上借助EMIB连接;I/O接口支持包括PCIe, CXL, UPI;有QAT(Quick Assist Technology Accelerator), DSA(Data Streaming Accelerator)等加速单元;还有其他一些功能,如RDT(Resource Director Technology)资源调度等。

这里多提一点有关CXL 2.0支持。CXL本身是一种为高性能数据中心设计,实现高速CPU-to-device和CPU-to-memory连接的开放标准,Intel是这项标准的发起者。此前两代的至强处理器已经开始支持CXL,而至强6则引入了CXL 2.0的功能。

CXL 2.0定义了3种类型的设备。Intel这次主要提到了Type 3 Devices,即内存扩展——主内存之外的CXL内存。CXL内存扩展有3种不同的模式(如下图),Intel特别提到flat memory mode模式(一种类似于将CXL内存作为DRAM下一级存储的机制;另外P-core版至强6似乎是支持CXL Interleaved交织模式的)。

“让CXL和原生DRAM做硬件辅助分层(HW-assisted tiering),在1:1的情况下(CXL与DRAM的near/far memory ratio),尽量把CXL常用数据放在DRAM中;虽然一部分数据放在CXL中,但有硬件分层管理,就非常接近完全(原生仅)DRAM的性能表现。”

一般我们说八成左右的负载中,flat memory mode带来的性能损失不会超过5%;但在跨租户访问方式出现冲突时,内存敏感负载的性能降级还是会比较严重。不过Intel特别就CXL 2.0的这一模式实现做了数据库业务的吞吐性能(IOPS)对比,DRAM+CXL内存相较仅用DRAM方案的性能损失较小——具体数字就不做展示了。不过基于CXL标准做现有DDR4内存的复用,就带来了内存容量扩充,也实现了TCO的进一步节省。

 

系统与生态支持:标准化与产业化

总结上述内容,大致两方面。其一Intel至强6基于“适应多样化算力”同时兼顾通用性需求,将至强6切分成性能核与能效核两条线;其二,这次新发布采用E-core的至强6实现了更高的核心密度、更优的性能、能效与TCO,并且匹配当前可持续、绿色数据中心的理念。

我们非常期望看到这一代至强处理器,与竞争对手的Epyc和Neoverse之间的性能与效率比较。看看Intel的这场翻身仗究竟打得如何。

不过Intel在数据中心领域的一部分优势还是在于生态。从系统生态角度,此前我们曾撰文探讨过Intel的开放生态系统策略,是自下而上、自硬件到软件的开放:对企业客户的一大价值在于显著更优的成本。这部分本文就不再赘述了。

发布会当天,数据中心上下游链条中包括金山云、浪潮、南大通用、记忆科技、Dell、联想等不同角色都为至强6的发布站了台;国际企业宣布部署至强6或者参与早期测试提到至强6实现性能与能效提升的的诸如ebay、SAP、爱立信、Cineca等…

比如金山云第九代高效型云服务器SE9是国内首款基于至强6对外发布的云服务器;基于至强实现更高性能和效率的南大通用数据库解决方案;以及ODM厂商记忆科技还专门推出了类似Green PC那样贯穿整个生命周期的“低碳节能服务器”…

最后值得一提的是,发布会采访环节“液冷”及更多高效系统设计受关注度还是挺高的,毕竟随芯片规模扩大及数据中心能源消耗越来越成为全球负担之时,绿色数据中心、PUE <1.25之类都是当代热门话题。

有关散热方案与系统设计,陈葆立透露说今年Q3官宣至强6900性能核平台之际,“我们也会公布与硬件合作伙伴推出的配套技术支持”。这也凸显了如今这个时代很流行芯片厂商亲自下场做系统设计的趋势,本身也作为生态的一部分。

比如Intel此前在冷板式、浸没式液冷方面都通过合作的方式推出过参考设计方案。浪潮信息服务器产品线总经理赵帅在采访中介绍说,今年冷板价格比三年前降低了70-80%;所以和Intel共同做标准——从团标“推成国标”,最终成为国际标准,以及形成产业化才是有效的解决方案。

规模化是推进一众新设计的关键。这些也正成为芯片之外,数据中心发展的重要组成部分。也是Intel近一年开始反复强调“系统”的关键构成。

没拍到芯片的高清图,将就看官方图吧…

责编:Illumi
本文为EET电子工程专辑原创文章,禁止转载。请尊重知识产权,违者本司保留追究责任的权利。
阅读全文,请先
您可能感兴趣
英伟达在AI领域具有垄断地位,拥有全球人工智能芯片市场的90%以上的份额,堪比“当年PC时代的英特尔”。因此,美国司法部也对英伟达进行了反垄断调查,这表明其在AI行业中的主导地位受到了监管层的关注。
基于五年多GDDR6X成功的大规模量产的成熟的技术、设计和测试经验,美光科技将加速GDDR7的普及。比如,美光科技在GDDR6X上引入了PAM4信号传输技术,相实现了比GDDR6提升20%以上的领先性能。
有苹果M4、骁龙X Elite这样的高手在PC处理器市场晃荡,酷睿Ultra的确压力山大。Intel公开了今年末、明年初要上市的Lunar Lake处理器的更多架构细节,一起来看看...
台积电新任董事长魏哲家透露,公司正在考虑在日本熊本县增设第三家晶圆厂。不过,关于台积电第三家工厂落户的地区,此外也有传闻日本各个地方政府也在争取尚未敲定的第三座台积电厂。目前传出除了熊本县当地外,同在九州的福冈县,甚至关西大阪地区也是可能选中的地点之一。
AMD 公布了一个为期多年的、扩展的 AMD Instinct 加速器路线图,该路线图在人工智能性能和内存功能上将一年更新一次。AMD的“一年一更”则对标英伟达,来满足当下对 AI 应用需求的不断增长。AMD Instinct MI325X加速器开始,该产品将于2024年第四季度上市。
黄仁勋强调,他不认为最好的工作是那些始终能带来快乐的工作模式。他相信,伟大的事情往往不易实现,因此,致力于解决困难的问题才更有价值和意义。这种理念在英伟达的公司文化中占据了核心地位,鼓励员工面对挑战,追求卓越。
从排名来看,前五大Foundry第一季排行出现明显变动,SMIC受惠消费性库存回补订单及国产化趋势加乘,第一季排行超过GlobalFoundries与UMC跃升至第三名……
本文根据完整的基准测试,将Achronix Semiconductor公司推出的Speedster7t FPGA与GPU解决方案进行比较,在运行同一个Llama2 70B参数模型时,该项基于FPGA的解决方案实现了超越性的LLM推理处理。
全新的XENSIV™ TLE49SR角度传感器系列兼具出色的抗杂散场能力和高精度,适用于电动助力转向、车辆高度调平等安全关键型汽车底盘系统应用。
锐成芯微的模拟及数模混合 IP 排名挺进全球第二、继续保持中国第一的位置,无线射频通信IP继续保持中国第一。
2024年电动智能汽车行业报告汇总(点击进入)据国外媒体报道,特斯拉面临前所未有的库存积压问题,其生产出的汽车数量远超销售量,导致大量新车堆积在停车场。这一现象甚至严重到,从太空中都能通过卫星图像观察
芯片滞销,找货的客户寥寥无几,少数客户下的订单,是大家打骨折、亏本卖的结果,在市场上主营TI(德州仪器)的芯片分销商,仍然活在几年前泡沫破灭的阴影中。原厂TI在中国的竞争不同往日,价格战也难以换回的市
AI司机 发自 副驾寺智能车参考 | 公众号 AI4Auto喝咖啡,看News,各种出差体验最新的车,见各种有意思的人获取最酷的认知。这大概就是智能车参考编辑部的日常,现在这样的工作和生活方式,正式向
苹果在 WWDC 2024 上发布了iOS 18和macOS 15系统,其中一项重要的新功能是“Apple Intelligence”—— 一套基于人工智能的工具集。该功能将于今年晚些时候正式上线,苹
  10万级和30万级净化车间在现代工业生产中占据着至关重要的地位。这两个级别的净化车间虽然都致力于提供洁净的生产环境,但在洁净度标准、应用场景以及具体的技术要求上却存在显著的差异
当地时间6月11日,彭博社援引知情人士消息称,拜登政府正考虑进一步限制中国获取用于人工智能的芯片技术。所谓知情人士透露,讨论中的措施将限制中国使用一种名为“全环绕栅极技术”(GAA)的尖端芯片架构的能
信号与系统2024(春季)作业要求以及参考答案汇总[1]信号与系统2024(春季)作业要求 - 第十三次作业[2]01 参考答案一、系统的频率特性1、根据系统函数绘制系统频率特性  □ 解答:  (1
2024年电动智能汽车行业报告汇总(点击进入)零售:5月全国乘用车市场零售171.0万辆,同比下降1.9%,环比增长11.4%。今年以来累计零售807.3万辆,同比增长5.7%。其中5月常规燃油车零售
6月11日晚,赛力斯集团股份有限公司发布《关于重庆赛力斯电动汽车有限公司的进展公告》。           公告称,2024年6月11日,赛力斯集团召开第五届董事会第十二次会议,审议并通过了《关于重庆