一直听说x86指令集天生做不了低功耗,真的是这样吗?这篇文章着重谈谈酷睿Ultra二代是怎么考量低功耗的,有没有可能做到低功耗...

早年乃至现在,都一直有个传言:x86做不了低功耗,Arm做不了高性能。此间强调的是指令集差异。最老掉牙的依据是CISC复杂指令集和RISC精简指令集之争,或者延伸到Arm定长指令、x86变长指令导致后者有着更高的解码功耗,以及还有说x86的历史包袱更重的。

两年前,我们在《x86做不了低功耗CPU的传言,Arm笑而不语》一文中对此做了详细的解释。如果将“低功耗”和“高性能”窄化到PC和工作站平台,那么低功耗大约是指轻薄本上的低压/超低压处理器,高性能当然也就是台式机或工作站的处理器了。

苹果M系列芯片,乃至超过千亿晶体管的Mx Ultra工作站芯片发布,破除了Arm不能做高性能的偏见。不过x86这边,单纯就PC平台来看,Intel和AMD的处理器似乎的确总在设备续航上输苹果和高通一头。

前不久的IFA柏林电子展上,Intel正式发布Lunar Lake也就是酷睿Ultra 200V系列处理器,锚定9W-33W功耗区间内的轻薄本。我们在参观诸多OEM厂商的新品笔记本展示时,发现不少都将续航的数字标到了25小时以上。某些同系笔记本的酷睿Ultra版和骁龙版,前者比后者标称的续航数字还略多一点。

标称26小时续航的Acer Swift 14 AI

Intel在宣传中,更是把大量篇幅放在了Lunar Lake笔记本续航和能效上,而且直接拉来此前被大赞续航出色的骁龙X Elite直接比较。发布会上,Intel发言人更是数度提到Lunar Lake的问世,破除了此前很多人说x86不能做低功耗的错误言论。

那么我们就来谈谈,x86处理器究竟是怎么做低功耗的。

 

x86低功耗成果一览

再次重申,本文的“低功耗”限定在了PC处理器范围内,而非下探至手机与嵌入式应用的低功耗。Lunar Lake作为面向轻薄本的处理器,CPU部分延续了Intel过去几代性能核(P-core)+能效核(E-core)的异构方案。有所不同的是,这一代的P-core去掉了超线程设计。

加上统一4个性能核+4个能效核的设计,Lunar Lake大概是Intel近些年来面向笔记本的CPU中,核心数和线程数最少的产品了。只不过选配的Xe2核显,以及第四代NPU这两个关键加速器,在算力上倒是增加了不少。

纸面上CPU的核心与线程数配置,基本决定了Lunar Lake就是面向轻薄本的——目标对手是形如骁龙X Elite、苹果M3之类的处理器。而且严格意义上,高配骁龙X Elite的TDP功耗设定普遍还比Lunar Lake高一截。

Intel大概也是头一次这么认真地特别针对低功耗轻薄本做处理器宣传,应该也是看到了这个市场竞争的白热化。媒体会上,Intel格外强调“Lunar Lake的一切都是有关能效的”。

那么效果怎么样呢?目前只有Intel第一方公布的部分数据。首先是UL Procyon办公生产力测试,就是微软Office四件套的测试。酷睿Ultra 9 288V(Lunar Lake)性能比骁龙X1E-80-100(骁龙X Elite)略高7%左右,封装功耗相比上一代(酷睿Ultra 7 165H)低了50%+,也低于骁龙X Elite。

也就是说Lunar Lake用一半的功耗,在Office办公时就换来比Meteor Lake略高的性能。从每瓦性能的角度来看,Lunar Lake是Meteor Lake的2.29倍,比骁龙X1E-80-100也高出约20%。

另外就是直接比续航数据,同样是进行UL Procyon办公生产力测试,Lunar Lake比骁龙X Elite多出2小时续航(20.1小时 vs 18.4小时);如果是纯粹用于Teams会议,前者则比后者少2小时续航(10.7小时 vs 12.7小时)。这算是互有胜负。

Intel还特别强调,这是基于相同笔记本品牌和模具设计,极尽可能地让系统设计保持一致。值得一提的是,Intel官方宣传提到Lunar Lake能让笔记本续航达到20小时,数据出处应该就是这里。毕竟Lunar Lake轻薄本的一大受众就是用Office办公的白领。

综合与高通骁龙X Elite与AMD Ryzen AI笔记本做比,Intel得出的办公测试与Teams会议测试续航结果如上图。

据说这项比较中,Intel还略吃了点亏,因为对比选择的AMD Ryzen机型配了78Whr容量的电池,而酷睿Ultra 9 288V这边的笔记本电池容量仅有70Whr。我们认为,这组数据可能是更有参考价值的,即用户到手以后笔记本真正可能达成的续航时间。

总体数据是,在办公、网页浏览、视频会议、流媒体4K视频播放等应用场景下,Lunar Lake比上代Meteor Lake有着至多50%的整体功耗降低。而且这里的功耗是指Lunar Lake包含了片内DRAM的封装功耗,而上代的封装内是没有包含DRAM的。

另外还有一组数据是游戏功耗对比。这组对比主要考察的是iGPU核显功耗情况。Intel选择与上代Meteor Lake进行比较,在《刺客信条:英灵殿》《赛博朋克2077》《模拟农场22》三款游戏中,Lunar Lake达成的游戏帧率最多能够高出68%,而GPU功耗则至多降低了35%。

这项对比没有拉来高通骁龙的原因,应该是骁龙X的核显实际性能实在不值一提,而且一大半Windows生态下的游戏是跑不了的。我们在IFA活动现场,看到Lunar Lake基于1080p中画质跑《赛博朋克2077》和《古墓丽影:暗影》,加上AI超分以后,竟然也能跑60-70fps的帧率。

 

相比上代,为什么能做到低功耗?

如果说选择Windows on Arm的核心是续航,那么在骁龙X Elite作为Arm阵营的代表,笔记本续航已经不及x86阵营的新品,而且还要考虑Windows on Arm生态至今为止的贫瘠状态,普通用户选择Arm指令集处理器的Windows笔记本又为哪般呢?

本文还有一些数据没有给出,比如说Intel列举了在9-23W功耗段,CPU多线程性能测试中,Lunar Lake的每线程平均性能较上代Meteor Lake高出2-3倍(多线程性能÷总线程数),体现出CPU的能效大幅跃升;甚至提到这一代的8线程就干掉上一代的22线程。虽然我们认为这种比法有失偏颇,毕竟多线程发挥全力势必得在功耗给足的情况下。

据Intel自己所说,Lunar Lake相比骁龙X Elite少了4个核心,但后者达到50W封装功耗的SPEC2017性能,是前者在大约30W时就能达到的。所以Intel称Lunar Lake是“8核魔法”(8-Core Magic)。更详尽的数据,建议移步上周Lunar Lake发布报道文章

那么Lunar Lake究竟是怎么做低功耗的呢?

首先我们还是要不厌其烦地重申一次,低功耗与高性能与否的关键绝对不在指令集本身。Jim Keller在公开场合不止一次说过,“指令集关系真的没那么大”。这10+年来,也陆续有不少研究paper得出相同的结论,表明Arm和x86处理器在功耗和性能方面的差异源自设计目标差异,指令集本身不是决定因素;“implementation”最终实施方案才是最重要的。

IFA期间的媒体采访中,从冯大为(英特尔客户端计算事业部副总裁兼客户端细分市场部总经理)那儿得到了一些有关Intel在Lunar Lake之上达成低功耗的总结性信息,我们认为是颇有价值的:

“在Meteor Lake跑起来之后,两个LP E-core加上cache可以解决很多问题。但在很多应用上,尤其生产力应用或非性能指标应用,我们发现有一部分可以跑在Meteor Lake的两个LP E-core上,但要全部塞进去还是有困难。”

上代Meteor Lake的CPU设计包含了3个核心集群,分别是P-core, E-core, LP E-core。最后一个低功耗能效核位于低功耗岛,原本是为实现低功耗准备的。

Chip and Cheese此前撰文分析过,Meteor Lake一定程度未能如愿让LP E-core达成低功耗目标,一方面在于LP E-core性能过于孱弱(频率低);另一方面则是LP E-core缺失L3 cache,以及L2 cache过小,也很大程度影响到了LP E-core的IPC;导致在很多时候,让负载跑在LP E-core上就会极大影响性能和体验。

Meteor Lake的LP Ecore(低功耗能效核)和另外两个核心集群不在同一片die上

Robert Hallock(英特尔客户端计算事业部副总裁兼AI技术营销总经理)在媒体会上也略提了几句,“生产力、电话会议、网页浏览等负载是很常见的,如果不注意管理,这些负载会浪费很多功耗。我们发现Meter Lake的LP E-core集群要达到足够的性能目标还是不够的。”

“比如说10个人的视频会议,我们发现塞进去好像有困难。”冯大为在采访中说,“但Lunar Lake有两倍的能效核,加上两倍的存储资源之后,就完全可以塞进去了。”“很多生产力应用,比如Outlook, 浏览器是背景性的应用,用的时候才会打开。那就可以塞进去。”

“日常应用过程中就会发现,功耗降低感受特别明显。”当然还有像是“Memory on package(片内DRAM)也有贡献,整个封装比以前单独的CPU降低了很多,CPU本身的功耗降低了更多。”“每个部分都有贡献。我自己的感受是,两倍的LP E-core加上增大的cache贡献是更大的。”

上面那两片die stack就是和处理器封装在一起的DRAM内存

 

Lunar Lake达成低功耗的几个原因

从高层级架构设计来看,我们认为冯大为所说的大概的确是Lunar Lake达成低功耗的最重要因素——即低功耗岛理念的延续与优化。不过这不是全部。我们自己总结Lunar Lake做到低功耗和高能效的原因有以下几点。

其一,Intel未曾言明的,Lunar Lake的Compute Tile是基于台积电3nm工艺。也就是CPU, GPU, NPU所在那片die的制造工艺为3nm。维基百科明确这片tile/die的具体工艺节点为TSMC N3B。而上述对比中,Intel选的竞品普遍还在用4nm工艺,差着代。

虽然苹果身体力行地证明了,似乎3nm也没比4nm好太多,但工艺节点更新对酷睿Ultra处理器而言应当还是至关重要的。前两年Lisa Su在发布会上总结过提升芯片性能与能效的几个关键因素,制造工艺是其中大头。设计方法技术在此,不及制造工艺影响大。这一说法可能还是要具体问题具体分析,但制造工艺无疑是重要因素。

其二,就在于冯大为提到的,基于低功耗岛的设计理念,Lunar Lake追求对于E-core更积极的调用,也因此中低负载能够少唤醒高能耗部件。基于Lunar Lake的E-core所在位置及其与P-core的关系,令其角色定位更像Meteor Lake的LP E-core。这一点,至少还绑定了3个小点:

(a)本代E-core(Skymont)性能跃升,不仅大幅超过上代的LP E-core(Crestmont,据说是2倍单核性能,多核4倍),而且比前代Raptor Cove大核的IPC还要高;L2 cache增加至4MB;更重要的是compute tile上新增了全局8MB的Memory Side Cache——我们认为,这一全局cache为低功耗岛设计增色不少。

当然Skymont本身的微架构设计,对于达成跑在其上的负载做到低功耗,也是密不可分的。

(b)更细致的供电与电源管理方案。这应该算是个常规思路。供电部分,Lunar Lake共4个PMIC电源管理控制器,为不同组件实现尽可能丰富的电源轨,让P-core集群、E-core集群、图形和内存控制相关组成部分能够“独立运行”。

今年年中的Lunar Lake架构解析会上,Intel提到,在实现“细粒度电压轨道拓扑结构”的同时,“实现增强的遥测,更好地分辨电的使用状态,进行好的控制。”

顺带一提,电源管理引入的重要变化包括ITD(Intel Thread Director)线程调度辅助机制效率优化,如加强sleep状态功耗与延迟表现,基于机器学习进行负载分配和频率控制等...ITD作为低功耗实现的重点,实则也是此前Intel强调的一环,我们在架构解析文章中已经谈过,此处不做赘述。

这次媒体会上,Intel总结新版ITD的4大特性是:动态的调度策略;只要合适,仅使用单一的E-core;扩展到其他E-core,实现多线程;根据需求调度到性能核。简单来看,就是“E-core优先”的总体策略。这还是要依托于(a)列出的改进。

(c)核间通信低延迟。不知道是不是为了特意嘲讽高通和AMD,IFA期间的媒体会上,Intel还特意公布了Lunar Lake CPU核间通信延迟,以及访存延迟数据,尤其E-core到P-core的延迟为55ns——关注Ryzen和骁龙的读者应该知道,竞品CPU不同集群的核间通信延迟达到了这个数字的3-4倍,也是后两者被吐槽最多的问题。

将这一点列出来作为E-core调用更积极实现低功耗的一部分,是因为集群间通信的高延迟同样会影响“E-core优先”的基本设计策略。

其三,其他因素。包括P-core去掉了超线程设计、片内DRAM减少访存延迟与功耗、Xe2核显能效显著提升,还有诸如P-core基于AI的self-tuning controller作为加强的电源管理技术,核心频率以16.67MHz为步进实现更细粒度的频率调节大概都能算作实现低功耗的技术。

其中,Intel对于将内存封装到片内,给出的数据是“PHY功耗降低至多40%”;Xe2核显能效提升,在上述三款游戏的实测对比中也能看得出来...

而P-core去掉超线程设计,是我们在了解到Lunar Lake的微架构设计时就颇为赞许的。超线程在我们看来是更有时代特性的技术产物。冯大为在采访中虽然没有透露Intel是否有全面抛弃超线程技术的打算,不过他提到:“在十几二十年前台式机为主的时代,我们最重要的目的是将性能推到极致。”

而“搭载Lunar Lake的笔记本电脑,看重的是性能、功耗和其他所有能力的平衡”。“我们在引入能效核与混合架构之后,逐渐意识到用混合架构时,更多能效核其实是多线程性能功耗比的最优解。”

Robert在媒体会上提到,去掉超线程设计总体相较超线程,也能带来perf/power/area综合提升15%,关键是考虑这种设计可能带来功耗效益、面积效益的部分牺牲,换得整体更好的单位面积内单位功耗内的性能综合收益。“换句话说,相比于超线程设计,在达成CPU核心更小、更低功耗的前提下,获得更多的性能。”

不过他在演讲中还提到了这样一句话:“We're not always going to make this same decision, but it makes a ton of sense when you're fanatical about power like we were in Lunar Lake.”即Lunar Lake考虑到功耗上的要求,做去除超线程的决定是很合理的。但“我们并不总是做这样的决定”,或许意味着超线程会在未来的核心中再见。

 

接下来的轻薄本市场又有的看了

Intel自己总结Lunar Lake在功耗方面的关键创新如下图:

本文基本涵盖了其中的所有组成部分。这些改进就系统层面会为笔记本带来明显更长的续航时间,降低续航焦虑。不过Intel这次并未将Lunar Lake直接和苹果M系列芯片对比,还是略感遗憾的。

所以诸多OEM厂商在IFA上发布的笔记本新品,标注的续航时间都达到了25小时以上——虽然这些数字实际上并不具备日常使用的参考价值,但它也比Meteor Lake笔记本标称的续航时间至少多了8小时。有长续航、且确保了兼容性的Windows笔记本总算是要来了。

抛开Intel近两个月面临的一堆负面新闻,以及用以补足Lunar Lake市场覆盖的Arrow Lake的不确定性不谈,我们认为Lunar Lake颇有点儿当年Intel从Pentium 4转向Pentium M架构以及后续酷睿平台的魄力。

只要Lunar Lake不出什么幺蛾子,今年后续要推向市场的酷睿Ultra二代轻薄本的确是相当值得期待的;也在这样的市场环境下,开了个好头。

预计要采用酷睿Ultra 200V系列处理器的微星游戏掌机展示

LG Gram似乎也在Lunar Lake的首发名单里

华硕灵耀系列也是这次发布的关键产品

责编:Illumi
本文为EET电子工程专辑原创文章,禁止转载。请尊重知识产权,违者本司保留追究责任的权利。
  • 全篇的E core其实都讲的是LPE core。LPE和E的区别在于和P有没有挂在一个ring上
阅读全文,请先
您可能感兴趣
智能嵌入式视觉和机器学习等实时计算密集型应用对能效、硬件级安全性和高可靠性的需求日益增长。同时,不断扩大的航天市场对计算的需求也在不断增加。
目前AI芯片设计人员通常会在系统CPU旁边集成单独的IP模块,以满足AI日益增长的需求。这种方法导致了AI芯片的配置不够理想,因为通常需要依赖三家不同的IP供应商和三套工具链,这不仅使得功率、性能和面积(PPA)指标较差,也增加了适应新算法的难度。
SoC的创建者通常希望从他们的系统中榨取最大的性能。为了达到这一目的,使用高性能的IP内核,包括CPU内核,是一个常见的策略。但是,使用最新的高端CPU内核会带来较高的成本,这可能比中档内核高出5到10倍。
尽管在生态系统建设、软件支持和安全性问题等方面,RISC-V仍需不断努力和完善,但凭借简洁高效、灵活多样的特点,RISC-V目前已经在嵌入式系统、云计算与大数据、人工智能与机器学习、物联网与边缘计算等领域展现出了强大的生命力和广阔的发展前景。
随着黑客技术的不断精进,如何避免底层芯片漏洞,甚至硬件木马植入,已经成为更关键的信息安全底线。这一点,在信息安全已成为国家安全重要组成部分的时代大背景下,尤为重要,更需要国内处理器芯片厂商苦练内功。
英特尔于上周在俄勒冈州波特兰市举行的 Enterprise Tech Tour 活动中,首次展示了其代号为Clearwater Forest的Xeon芯片,这也是英特尔首款最新的Intel 18A制程芯片,英特尔CEO帕特·基辛格曾表示,18A节点对于公司至关重要,他甚至把整个公司的未来押在了这个节点上。
所有智能出行系统产品都需要新的计算、通信和连接芯片的支撑,但是随之而来的是这些芯片的系统级故障或意外行为可能引起的危险。
受全球经济衰退影响,高端显示面板需求下滑,导致大尺寸OLED出货量在2023年同比下降了 25.7%。唯一的例外是OLED显示器……
香港应用科技研究院(应科院)将于10月13至16日参与由香港贸易发展局(香港贸发局)主办的「香港秋季电子产品展」,向全球数以万计的专业买家和业界代表,展示一系列崭新智能出行科技。
启发式排程、模拟排程和优化排程都可以帮助您改善工厂 KPI,每种方法都有其优点和缺点。您应该充分了解这些排程方法的适用性和能力,以确保在您的工厂成功实施。
  在静电纺丝时,需要使用交流电源与直流单元结合辅助,采用高电压波形直接写入来实现高分辨率蛇形图案。外加电压是一个重要的参数,只有当电压超过临界值时,液滴才能被拉伸成为纤维。当电压
会议推介2024深圳国际MLED直显产业高峰论坛暨COB显示屏调研白皮书启动仪式 主办单位:JM Insights 联合主办单位:DISCIEN(迪显咨询) 论坛时间:2024年10月31日 论坛地点
来源:猛兽财经   作者:猛兽财经 猛兽财经核心观点: (1)小米集团的股价已经上涨到了2022年以来的最高点。 (
 智能汽车网络与数据安全新媒体 (谈思汽车讯)欧盟成员国4日表决未能阻止对华关税提案,欧盟委员会将对中国进口电动汽车加征所谓反补贴关税。不过,欧委会同时声称,将继续与中方谈判,探索“替代解决方案”。当
受汽车电子化、自动驾驶技术、电动汽车和智能网联汽车(V2X)的推动,汽车系统级芯片(SoC)正处于快速发展阶段,现代汽车SoC正向多核高性能处理器方向发展,集成了CPU、GPU、DSP、AI加速器等多
 智能汽车网络与数据安全新媒体 (谈思汽车讯)据汽车制造AP 10月7日消息,德国百年家族企业,汽车座椅、车门和小型电机制造商博泽集团首席执行官Philipp Schramm已于10月2日辞去相关职务
  功率放大器是电子设备中一种关键的元件,其主要作用是将弱信号放大到足够大的幅度,以驱动负载,例如扬声器、电动机或其他高功率设备。下面将详细介绍功率放大器的用途以及它在各个领域中的
致远电子GXF222-4G网关,专为工业及特种车辆数据监测设计,采用RISC-V架构,无缝连接IOT云平台,CAN/485通信强,高效4G传输,DIDO精准远控,实现远程数据即时透传与高效管理。面对工
▼关注微信公众号:硬件那点事儿▼Part 01前言前两篇文章我们讲述了运算放大器输入偏置电流,输入失调电流,输入失调电压作为运放输入特性参数中比较重要的特性参数之一,当然也是需要重点关注的,我们今天会