PC领域chiplet方案的近代应用并不新鲜,为普罗大众所知的是苹果M1 Ultra——用在了Mac Studio上。AMD则是在PC市场上更早应用chiplet方案的先锋,比如Ryzen 3000系列CPU。Intel Meteor Lake这代芯片也采用了chiplet方案,借着14代酷睿的chiplet方案,我们也有机会了解应用于PC处理器的chiplet结构设计未来会向怎样的方向发展。

似乎PC处理器这两年竞争的焦点,除了性能、能效这些常规指数,还包括期货水平......Intel和AMD现在都热衷于轮番预告未来产品多么彪悍。尤其是Intel,12代酷睿刚发几天,13代酷睿和14代酷睿的消息就不绝于耳了。

最近的Technology Tour 2022上,Intel又分享了有关13代酷睿(Raptor Lake)CPU最高频率可上达6GHz,以及超频记录达8GHz的消息——这应该是明摆着针对即将上市AMD Ryzen 7000的5.7GHz吧。这也算是市场“信息战”了。

不过毕竟过不了多久13代酷睿就要发布了,真正“展望”作品应该是14代酷睿(Meteor Lake)。今年年中的Intel Vision大会上,Intel就展示了14代酷睿处理器的真容:让人们知道了其chiplet方案怎么做的,以及Intel 4工艺的正式提枪上马。

这些未来产品的消息放出,更多的应该还是为了稳住市场和投资者,尤其是Intel着眼于战未来技术的现状。上个月的Hot Chips 34上,Intel详述了Meteor Lake的部分细节信息:尤其是这代芯片采用的chiplet方案。借着14代酷睿的chiplet方案,我们也有机会了解应用于PC处理器的chiplet结构设计未来会向怎样的方向发展。

AMD、苹果已经在用chiplet

PC领域chiplet方案的近代应用并不新鲜,为普罗大众所知的是苹果M1 Ultra——用在了Mac Studio上。这颗芯片差不多是把两颗M1 Max加在一起,属于比较典型的基于chiplet的芯片。所谓的chiplet结构,也就是把几颗die封装到一起构成一颗芯片的方案。这种芯片的每一片die,就是一个chiplet。Chiplet的本质也就是一种多die解决方案。

Chiplet出现的原因莫过于(1)单die越来越大,大到lithography设备即将无法处理(超过reticle limit限制);(2)尺寸缩减的多die有利于提升产品良率,缩减成本;(3)应用端的算力需求仍在不断增加,chiplet式的设计也有利于堆算力,在产品组合上也更为灵活。

AMD则是在PC市场上更早应用chiplet方案的先锋,比如在Ryzen 3000系列CPU上,每4个CPU核心组成一个CCX,两个CCX构成一个CCD——也就是一片die/chiplet。多个CCD,外加I/O die,就构成了完整的芯片。这算是近些年PC处理器核心数飙升的某一个原因,毕竟藉由增加CCD来增加处理器核心比以前容易多了。这年头,16核处理器已经不罕见了。

其实基于前文chiplet技术很不严谨的定义,当年的Intel奔腾D胶水双核处理器(2005年)似乎也可以被叫做chiplet。严谨一点,如果我们说chiplet要求先进封装(或至少不是PCB级别的电路连接),那么近代Intel在自家处理器上采用chiplet方案的处理器应该是Kaby Lake-G,8代酷睿产品中的某一个偏门系列,将AMD的iGPU(核显)与Intel的CPU藉由2.5D先进封装工艺,放到同一颗芯片上。

Meteor Lakechiplet

不过像Kaby Lake-G这样的产品,怎么说都只是试验和先进封装工艺的练手。Intel始终也没有像AMD那样,通过chiplet来堆CPU核心。似乎从直觉来看,随着当代PC处理器核心数增多、I/O能力增强、核显性能内卷,眼见着die size越来越大,还不得不给更多的算力,再不用chiplet是真的不行了。

此前14代酷睿的die shot公布时,我们也都知道了这代产品终于要开始用chiplet方案了。但很显然,Meteor Lake基于chiplet的芯片架构与AMD仍然大相径庭。

Meteor Lake总共4片die,Intel称其为tile,分别是CPU Tile、SoC Tile、Graphics Tile和IOE Tile(IO extender)。

CPU Tile里面主要就是CPU核心与cache,而Graphics Tile自然就是核显部分了,SoC Tile包含此前SA(System Agent)的绝大部分功能,IOE Tile则连接到SoC Tile。所有的tile都放到一片base die上。这种chiplet式的方案自然就极大提升了处理器产品面向不同市场的灵活性。

比如说要是很看重PCIe连接数量,那么SoC Tile可以做扩展;面向笔记本设备时,SoC Tile还可以加上图像处理单元之类的部分;而CPU Tile则能够根据场景需要来设计不同的核心数组合;GPU die则面向不同的图形算力需求。

很容易发现,Meteor Lake的chiplet“切分”方式,和AMD Ryzen的chiplet相当不一样。可能很多人会认为,AMD的CCD + I/O die的设计更灵活,但AMD在移动平台上受制于功耗仍然采用单die方案;而且从die间通信和封装的角度来看,AMD所用的chiplet方案并不能算先进封装——而是直接从PCB基板走线——这种方案成本更低,但对通信效率和功耗而言都不是什么好事。

前不久我们详细探讨过先进封装技术,及主流的一些方案。Intel虽未详谈Meteor Lake封装,但大致也不离文章里谈到的主流技术。基于2.5D/3D封装,则Meteor Lake的封装成本自然就会高于AMD现阶段的方案,更靠近苹果M1 Ultra(虽然还是不同的)。从扩展灵活性的角度来看,如果CPU要增加更多核心,那么CPU Tile需要更大的die size,则base die的这种硅中介或硅桥也要跟着变大。

不过2.5D/3D先进封装能够获得更高的IO密度、功耗也会更低。这对小尺寸封装,以及电池驱动的功耗敏感型设备来说会很有价值。

Die间互联与通信

AMD此前提到Zen架构的die-to-die Infinity Fabric链接功耗水平为2 pJ/bit(皮焦/比特);Zen 2的Infinity Fabric这一数值降低了大约27%。Chips and Cheese在近期的技术文章中提到,有理由认为AMD的die间传输功耗应该和Intel Haswell(4代酷睿)的OPIO(一般是片上处理器die和PCH die的连接)类似。

上面这张来自Intel的PPT也基本能阐明这一点。Intel将Meteor Lake的die-to-die link称作FDI(Foveros Die Interconnect)。而FDI的die间通信功耗水平为0.2-0.3 pJ/bit。这张图中的延迟数据比较模糊,只说是小于10ns。AMD那种相对简单粗暴的连接方式,此前公布的延迟数据也是差不多的水平。

AMD说Zen 2架构的这种die间连接延迟为13个FCLK(Infinity Fabric)时钟周期,即不到9ns;如果推升DDR内存频率和FLCK的频率,则Ryzen 3000系列处理器的13个FCLK周期可低至7.22ns。所以Intel这边的延迟数据就显得并不算多好。

另外表中的带宽数据也不算明朗,2 GT/s(每秒20亿次传输)没有指明每次传输的宽度。Chips and Cheese评论说,有可能带宽也就是OPIO或IFOP(Infinity Fabric On Package)的水平。

通信协议方面,Intel表示CPU与SoC Tile采用IDI(In-Die Interface)协议,Graphics Tile到SoC Tile则采用iCXL协议(对于现在很火的CXL的一个内部实施方案,和IDI应该有诸多相似之处),SoC与IOE Tile连接是通过IOSF(Integrated On-chip System Fabric)和DisplayPort——可见IOE Tile上估计是有PCIe控制器和DisplayPort PHY的。

这里的IDI,最早出现于Intel Nehalem架构(2008年,初代酷睿i5/i7),用于把CPU核心连接到uncore的Global Queue和L3;后续IDI就成为Intel处理器ring bus总线的主要协议了,当然后续有不断更新。总的来说,IDI是一种处理mesh和ring总线通信的内部协议。

值得一提的是,此前Intel处理器的核显也采用IDI协议与L3 cache连接。去年我们撰写的《苹果M1统一内存架构真的很厉害吗?稀松平常的UMA(下)》一文曾经提到过,酷睿处理器从Sandy Bridge(6代酷睿)开始就把核显挂在环形总线上,LLC(也就是L3 cache)也与核显共享(如下图)。换句话说,核显和CPU一样都能用L3资源。

不过从Meteor Lake的die shot来看,Graphics Tile和CPU Tile离得比较远,所以过去的这种设计应当也就不复存在了,也就是说核显可能就不再共享L3 cache了。这么做对核显效率会有影响吗?Chips and Cheese评论说或许也未必,因为一方面总线上的stop变少,这利于降低延迟、提升数据传输的能效;另外这可能也有机会让ring频率变高,达成CPU核心更高的L3性能;还有就是核显和CPU隔开,便于将整个CPU Tile设定在低功耗状态,降低功耗。

Chips and Cheese对此还特别提到了一点,就是一般核显的LLC命中率极低。比如Arm架构普遍会用到的SLC(System Level Cache)也为GPU服务,8MB SLC就只有28%的命中率。AMD的GPU Infinity Cache命中率也很低。Intel这边的情况也没好到哪里去。所以有没有必要再共享L3,原本就很值得怀疑。

与此同时,Intel处理器现在的Xe核显配备了更大的专用cache,相比AMD这边的Vega和RDNA 2核显都更大。若这种设计持续,则Meteor Lake的核显应该就有足够的cache资源,不需要多依赖L3。那么当前的这种设计也就比较好理解了。

来源:Lecomptoir via Chips and Cheese

虽然单纯从物理层面的die shot来观察,我们普遍都觉得Meteor Lake即便用了chiplet的方案,耦合度依然比较高,但Chips and Cheese认为其灵活度相比AMD的方案更高,更为分散化(disaggregation)。而且FDI连接在达成与AMD IFOP相似性能的同时,功耗更低。

所以这种连接并不用于性能敏感路径。SoC到IOE Tile链接处理DisplayPort和PCIe数据;核显内存访问则主要由核显的专用cache进行——核显到SoC链接用于处理GPU的cache未命中请求;CPU的L3主要获取内存访问,即藉由CPU到SoC Tile。

Chips and Cheese认为SoC很可能在CPU Tile上有挂一个ring stop,跨die链接只留意发往SoC的IDI packets,而“热”数据则仅在CPU Tile内部ring stop上传递。从die shot来看,在CPU Tile的效率核(E-core)ring stop和这片die的边缘之间有这么一个部分,猜测“这个位于CPU Tile的部分会有不少发往SoC Tile请求的队列和仲裁逻辑。”

明年电脑全面走向chiplet

Intel在Hot Chips上再次明确了14代酷睿Meteor Lake明年发布——上个月有传言说台积电N3工艺遭遇不确定性,可能对Meteor Lake的发布产生影响,不过最近的消息说Meteor Lake的Graphics Tile实际上用的是台积电N5工艺。另外除了CPU Tile基于Intel 4工艺外,传言IOE Tile和SoC Tile都基于台积电N6工艺(还有个base die是基于Intel的22FFL工艺)。

无论面向台式机还是笔记本的Meteor Lake处理器,预计都会采用这种chiplet方案。毕竟像Intel这种方案的特色就是面向不同场景的弹性化选择。未来AMD也有概率会采用类似的方案,因为此前AMD就提到以后15-45W TDP的处理器也将应用chiplet结构,这对其现有IFOP而言在功耗上是个挑战。

这算是个新的技术战场,我们也很期待看到在PC处理器具备相当的性能与功耗弹性扩展空间以后,又会赋予PC设备怎样的体验提升。

责编:Luffy
本文为EET电子工程专辑原创文章,禁止转载。请尊重知识产权,违者本司保留追究责任的权利。
  • 我觉得很有可能14代酷睿 会像你amd7nm一样积热严重。单die时代终究还是结束了
  • 3D 封装的散热似乎的确是个挺热的讨论和研究领域,比如什么流体通道(fluidic channels)之类的,有兴趣的可以去查一查。
  • 请问这样下去散热会成为巨大的挑战对吗?该如何发展?能否展开讨论!。
阅读全文,请先
您可能感兴趣
对于普通消费者,人工智能、机器学习、数字孪生、元宇宙这类科技名词简直让人目不暇给,其实这些都预示数字化大潮的来临。然而,如果没有好的大芯片,恐怕一切都是空谈。本文提出大芯片的设计之路,就是从架构到FPGA,再移植到ASIC。但这并非是平坦路,转换过程中存在各式各样的挑战。各团队必须清晰理解意图,牢记设计初衷。
尽管黄仁勋重申将重视中国市场,且继续推出特供版AI芯片,但性能无疑会再次“阉割”。据悉,H20等全新特供芯片的研发、设计、生产,将通过后道点断生产工艺,来满足美国新的AI禁令要求。
据WSTS最新公布的预测报告显示,因生成式AI普及、带动相关半导体产品需求急增,且存储需求预估将呈现大幅复苏,因此将2024年全球半导体销售额预估值自前次(6月6日)预估的5,759.97亿美元上修至5,883.64亿美元、将年增13.1%,超越2022年的5,740.84亿美元、创历史新高。WSTS预测,2024年全球半导体市场可望复苏,存储芯片营收将激增44.8%,是推升半导体营收成长主要动能。
对于一颗车规级大芯片而言,为了确保设计的正确性,必须在生产制造前进行大规模的仿真和验证,而芯片的算力规模越大、集成度越高,仿真验证的过程就会越复杂,设计人员需要更快地实现收敛和验证,来降低成本并提高结果质量。同时,传统的随机/自动测试模式生成(ATPG)方案在故障覆盖率方面已经不能满足实际需求。因此,将 AI 和 EDA 融合是大势所趋。
对Graphcore而言,时间是非常重要的。2022年5月,Graphcore宣称新一代芯片将在2024年的某个时候上市。届时,Graphcore需要向市场和资本证明自己的发展潜力。这很重要,也很紧迫。
联发科技(MediaTek)近日在加利福尼亚州拉古纳尼盖尔(Laguna Niguel)举行了年度高管峰会。峰会上强调了其以人工智能(AI)为驱动的高端定制 SoC(ASIC)战略;从 Wi-Fi 7 芯片到 5G 和 5G RedCap 瘦调制解调器的全新连接解决方案,凸显了其物联网战略和发展势头。
根据TrendForce集邦咨询最新OLED技术及市场发展分析报告统计,在近期发表的摺叠新机中,UTG的市场渗透率已逾九成,随着摺叠手机规模持续成长,预估2023年UTG产值将达3.6亿美元;2024年可望挑战6亿美元。
随着终端及IC客户库存陆续消化至较为健康的水位,及下半年iPhone、Android阵营推出新机等有利因素,带动第三季智能手机、笔电相关零部件急单涌现,但高通胀风险仍在,短期市况依旧不明朗,故此波备货仅以急单方式进行。此外,台积电(TSMC)、三星(Samsung)3nm高价制程贡献营收亦对产值带来正面效益,带动2023年第三季前十大晶圆代工业者产值为282.9亿美元,环比增长7.9%。
治精微推出具过压保护OVP、低功耗、高精度运放ZJA3018
无线技术每天都在拯救生命,有些非常方式是人们意想不到的。在美国加利福尼亚州Scotts Valley,一名路过的慢跑者发现一处住宅冒出火焰后,按响了门铃,试图通知屋主。屋主不在家中,但无线门铃连接到了智能家居中枢,提醒屋主慢跑者试图联系。屋主立即向他提供了安全密码,让他跑进房子,从火场中救出了宠物。
英伟达(Nvidia)CEO黄仁勋11日表示,将扩大与越南高科技业者的伙伴关系,支持在当地训练研发人工智能(AI)与数字化基础建设领域的人才。黄仁勋还透露在越南设立芯片中心的构想。根据白宫今年9月提升
近日,Wi-Fi联盟宣布Wi-Fi 7规范将于第一季度末最终确定,为企业采用标准化硬件打开大门。 “基于 IEEE 802.11be 技术的 Wi-Fi CERTIFIED 7 将于 2024 年第一
自从集成电路发明以后,人类的电子信息技术开始腾飞,60年多年来,在摩尔定律的指导下,半导体集成电路的高速发展彻底改变了电子产品。以计算机为例,1946年诞生的世界第一台数字计算机重30吨,占地约140
为加强智慧应急能力建设,以新安全格局服务新发展格局,由中国科学院大学、全国安全职业教育教学指导委员会共同主办的“2023智慧应急发展论坛”于2023年12月10日在京召开。本次论坛主题是“加强智慧应急
本文来源:物联传媒本文作者:市大妈前几年,对大部分人来说,FWA是一个比较陌生的领域,尽管早在3G和4G时代就已经得到一定的发展。后来,随着5G的发展,FWA作为当前5G应用量级最大的场景之一,被更多
点击左上角“锂电联盟会长”,即可关注!文 章 信 息干法改性工艺新认识,助力锂离子电池高镍正极材料实现高结构稳定和热稳定性能第一作者:吴锋通讯作者:苏岳锋*,陈来*通讯单位:北京理工大学,北京理工大学
点击左上方蓝色“一口Linux”,选择“设为星标”第一时间看干货文章 ☞【干货】嵌入式驱动工程师学习路线☞【干货】一个可以写到简历的基于Linux物联网综合项目☞【干货】Linux嵌入式知识点-思维导
芝能汽车出品11月,我国动力和储能电池合计产量为87.7GWh,实际拆解估算动力电池约为70.7GWh,同比上升11.5%,环比上升8.4%装车量44.9GWh,同比增长31.0%,环比增长14.5%
巨头动向腾讯今年回购金额已超过去10年总额12月11日,腾讯公告称,当日耗资约4.03亿港元,回购133万股股份。年初至今,腾讯已经出手113次,累计回购数量约1.28亿股,累计回购金额超过422亿港
近日,懂车帝在漠河举办2023年“懂车帝冬测”活动,问界、小鹏、理想、比亚迪、特斯拉等主流19款新能源车型,进行冬季性能测试。其中,发布的关于在严寒情况下的插电混动车型纯电续航达成率测试结果,其中华为