随着平面扩展优势的减弱,晶圆代工厂在3D 技术领域和新技术方面的竞争日趋白热化。
英特尔、三星和台积电这三家领先的芯片代工厂已经开始填补其路线图中的一些关键部分,为未来几代芯片技术增加了积极的交付日期,并为大幅提高性能和缩短定制设计的交付时间创造了条件。
与过去由单一行业路线图决定如何进入下一个工艺节点不同,这三家最大的代工厂正越来越多地开辟自己的道路。它们都朝着同一个大方向前进,即采用三维晶体管和封装、一系列使能技术和扩展技术,以及规模更大、更多样化的生态系统。但是,它们在方法、架构和第三方支持方面出现了一些关键性的差异。
三者的路线图都显示,晶体管的扩展将至少持续到 18/16/14 埃的范围,并可能从纳米片和岔片 FET 开始,在未来的某个时间点出现互补 FET(CFET)。主要的驱动因素是人工智能/ML 以及需要处理的数据量激增,在大多数情况下,这将涉及处理元件阵列,通常具有较高的冗余度和同质性,以实现更高的产量。
在其他情况下,这些设计可能包含数十个或数百个芯片,其中一些用于特定数据类型,而另一些则用于更通用的处理。这些芯片可以以 2.5D 配置安装在基板上,这种方法因简化了高带宽内存(HBM)的集成而在数据中心和移动设备中获得了广泛应用,移动设备还包括其他功能,如图像传感器、电源和用于非关键功能的附加数字逻辑。这三家代工厂也都在开发全 3D-IC 产品。此外,还将提供混合选项,即逻辑堆叠在逻辑上并安装在基板上,但与其他功能分开,以最大限度地减少热量等物理影响--这种异构配置被称为 3.5D 和 5.5D。
快速和大规模定制
与过去相比,最大的变化之一就是能更快地将特定领域的设计推向市场。虽然这听起来很平凡,但对于许多尖端芯片来说,这是竞争的需要,它要求从根本上改变芯片的设计、制造和封装方式。要使这一方案奏效,需要标准、创新连接方案和工程学科的组合,而在过去,这些学科之间的互动即使有,也很有限。
有时也被称为 “大规模定制”,它包括通常的功率、性能和面积/成本(PPA/C)权衡,以及快速组装选项。这就是异构芯片组的前景,从扩展的角度来看,它标志着摩尔定律的下一阶段。十多年来,整个半导体生态系统一直在为这一转变逐步奠定基础。
但是,如何让异构芯片(基本上是来自多个供应商和代工厂的加固 IP)协同工作,既是一项必要的工程挑战,也是一项艰巨的工程挑战。第一步是以一致的方式将芯片连接在一起,以实现可预测的结果,而这正是代工厂花费大量精力的地方,特别是通用芯片互连快车(UCIe)和Bunch of Wires(BoW)标准。虽然这种连接性是三者的关键要求,但也是分歧的主要领域之一。
在全面集成 3D-IC 之前,英特尔代工厂目前的解决方案是开发业内人士所称的芯片 “插座”。英特尔代工厂不是为商业市场确定每个芯片的特性,而是定义规格和接口,这样芯片供应商就可以开发这些功能有限的微型芯片,以满足这些规格要求。这解决了商业芯片市场的一大绊脚石。从数据速度到散热和噪音管理,所有部件都需要协同工作。
英特尔的方案在很大程度上依赖于 2014 年首次推出的嵌入式多芯片互连桥(EMIB)。“英特尔技术开发副总裁拉利塔-伊曼尼(Lalitha Immaneni)说:"EMIB底座真正酷的地方在于,你可以添加任意数量的芯片组。“我们在设计中使用的 IP 数量没有限制,也不会增加中间件的尺寸,因此它的成本效益很高,而且与工艺无关。我们提供了一个封装装配设计工具包,它就像传统的装配 PDK。我们向他们提供设计规则、参考流程,并告诉他们允许的结构。它还会向他们提供我们在装配过程中需要的任何辅助材料。
根据不同的设计,封装中可能会有多个 EMIB,并辅以热接口材料 (TIM),以散发可能滞留在封装内的热量。随着封装内计算量的增加,以及基板变薄以缩短信号传输距离,热接口材料变得越来越常见。
但是,基板越薄,散热效果就越差,这可能导致热梯度随工作负荷而变化,因此难以预测。要消除这些热量,可能需要 TIM、额外的散热器,甚至可能需要微流体等更奇特的冷却方法。
台积电和三星也提供电桥。三星在 RDL 内部嵌入了桥接器,并将其称为 2.3D 或 I-Cube ETM。部分集成工作将预先在已知的良好模块中完成,而不是依赖插座方法。
“Arm 首席执行官 Rene Haas 在最近的三星代工厂活动上发表主题演讲时说:"将两个、四个或八个 CPU 集成到一个系统中,是非常成熟的客户知道如何去做的事情。“但是,如果你想构建一个拥有 128 个 CPU 的 SoC,并将其连接到神经网络、内存结构、与 NPU 接口的中断控制器、连接到另一个芯片组的片外总线,这将是一项艰巨的工作。在过去的一年半时间里,我们看到很多人都在建造这些复杂的 SoC,希望从我们这里获得更多。”
三星还一直在针对特定市场,建立芯片组供应商的小型财团[1]。最初的概念是由一家公司制造 I/O 芯片,另一家公司制造互连芯片,第三家公司制造逻辑芯片,当这种做法被证明可行时,再加入其他公司,为客户提供更多选择。
台积电已经尝试了许多不同的方案,包括 RDL 和非 RDL 桥接、扇出、2.5D 基片上晶片(CoWoS)和系统集成芯片(SoIC),这是一种 3D-IC 概念,使用非常短的互连线将芯片小片包装并堆叠在基片内。事实上,台积电几乎为每种应用都提供了工艺设计套件,并一直积极为高级封装开发组装设计套件,包括与之配套的参考设计。
面临的挑战是,愿意投资这些复杂封装的代工客户越来越需要非常定制化的解决方案。为了解决这个问题,台积电推出了一种名为 3Dblox 的新语言,这是一种自上而下的设计方案,融合了物理和连接构造,允许在两者之间应用断言。这种沙盒方法允许客户利用任何一种封装方法--InFO、CoWoS 和 SoIC。这对台积电的商业模式也至关重要,因为该公司是三家代工厂中唯一一家纯粹的代工厂[2]--尽管英特尔和三星在最近几个月都疏远了它们的代工业务。
“台积电先进技术与光罩工程副总裁 Jim Chang 在 2023 年 3Dblox 首次推出时的演讲中说:"我们从模块化的概念出发。“我们可以用这种语言语法加上断言来构建完整的 3D-IC 堆叠。”
Chang说,这种方法的起源是物理和连接性设计工具之间缺乏一致性。但他补充说,一旦开发出这种方法,还可以在不同的设计中重复使用芯片,因为大部分特征描述已经明确定义,而且设计是模块化的。
图 1:台积电的 3Dblox 方法。资料来源:台积电
三星随后于 2023 年 12 月推出了自己的系统描述语言 3DCODE。三星和台积电都声称自己的语言是标准,但它们更像是新的代工规则,因为这些语言不太可能在自己的生态系统之外使用。英特尔的 2.5D 方法不需要新的语言,因为其规则是由插座规范决定的,这就为芯片开发人员缩短了上市时间,并提供了一种更简单的方法,从而牺牲了一些定制化。
芯片组的挑战
芯片组的优势显而易见。它们可以在任何合理的工艺节点上独立设计,这对模拟功能尤为重要。但是,如何将这些元件组合在一起并获得可预测的结果,一直是一个重大挑战。事实证明,DARPA 最初提出的类似乐高积木的架构方案比最初设想的要复杂得多,需要广泛的生态系统不断做出巨大的努力才能使其发挥作用。
芯片组需要精确同步,以便及时处理、存储和检索关键数据。否则,就会出现时序问题,即一项计算延迟或与其他计算不同步,从而导致延迟和潜在的死锁。在对任务或安全至关重要的应用中,一秒钟的损失都可能造成严重后果。
简化设计流程是一项极其复杂的工作,尤其是在特定领域的设计中,不能一刀切。这三家代工厂的目标都是为开发高性能、低功耗芯片的公司提供更多选择。据估计,目前 30% 至 35% 的尖端设计启动都掌握在谷歌、Meta、微软和特斯拉等大型系统公司手中,尖端芯片和封装设计的经济性已发生重大变化,PPA/C 计算公式和权衡也是如此。
为这些系统公司开发的芯片可能不会进行商业销售。因此,如果它们能实现更高的每瓦特性能,那么设计和制造成本就能被更低的冷却功率和更高的利用率所抵消,从而可能减少服务器数量。反之,在移动设备和商品服务器中销售的芯片则相反,高昂的开发成本可以通过巨大的销量来摊销。采用先进封装的定制设计的经济性对两者都有效,但原因却截然不同。
向下、向上和向外扩展
我们假定,在这些复杂的芯片系统中,会有多种类型的处理器,其中一些高度专业化,而另一些则更具通用性。由于功率预算有限,其中至少有一部分处理器可能会在最先进的工艺节点上开发。先进的节点仍然可以提供更高的能效,从而在相同的面积上容纳更多的晶体管,以提高性能。这对于人工智能/ML 应用至关重要,因为要更快地处理更多数据,就需要在高度并行配置中进行更多的乘法/累加运算。更小的晶体管可提供更高的能效,从而在每平方毫米硅片上实现更多的处理,但需要改变栅极结构以防止漏电,这就是为什么岔片式 FET 和 CFET 即将问世。
简而言之,流程领先仍然具有价值。率先将领先工艺推向市场对企业有利,但这只是更大难题中的一块。所有三家代工厂都已宣布了向埃级工艺推进的计划。英特尔计划今年推出 18A 工艺,几年后再推出 14A 工艺。
图 2:英特尔的工艺路线图。资料来源:英特尔晶圆厂
台积电则将在 2027 年推出 A16(见下图 3)。
图 3:台积电进入埃时代的扩展路线图。来源:台积电
而三星公司将在 2027 年的某个时候通过其 SF1.4 产品达到 14 埃,显然将跳过 18/16 埃。(见图 4)