芯粒(Chiplet)的概念简单明了:根据所需要的功能选择最适当的工艺技术,开发最佳半导体后,再将各种Chiplet组合到多裸片封装中,就算大功告成了!这是一种实现先进半导体的低成本途径。
这个概念也意味着利用现有的半导体组件来实现标准功能,并将新的设计任务专注于目标市场或应用所需的特定功能上。由于设计团队可针对特定功能选择最合适的工艺技术,因而可以降低封装成本。例如,许多I/O功能并不需要也无法受益于先进工艺节点,因此可以使用较旧或成本较低的几何结构制造。
本文将探讨两项近期推出的技术:楷登电子(Cadence)和Arm共同开发的系统Chiplet,以及英特尔(Intel)的新型互连技术,这两项技术如同提供了一种必要的“粘合剂”,成功将Chiplet组合成更具吸引力的解决方案。我们还将探讨基于Chiplet的设计优势,以及它们可能不适用的情况。例如,英伟达(NVIDIA)目前并未使用Chiplet——至少现在如此,我们将深究其因。
为什么选择使用Chiplet?
芯片设计人员不断微调“性能、功率、面积”(PPA)组合,以满足项目的商业目标。Chiplet和3D制造都提供了一种全新典范以满足这些需求,但同时也增加了从设计、制造到封装的复杂性,深入了解并有效管理这些复杂性至关重要。支持者会大肆鼓吹基于Chiplet的设计优点。
传统的单片硅片实现需要一支团队在单芯片上设计完整逻辑,并将其提交给台积电(TSMC)等芯片制造商。假设这是一个高价值的芯片,例如用于加速人工智能(AI)计算或驱动自动驾驶汽车的芯片,那么先进的高性能工艺节点所需成本将会对不适合昂贵工艺的功能造成负担。使用Chiplet,工程团队可以专注于独特的增值功能,同时将其他逻辑组件外包或重复使用,从而加速产品上市时程并降低成本。
Chiplet可以让系统开发结合可重复使用的组件与定制IP,实现从低端到高端的可扩展解决方案。此外,它还能构建更大规模的多芯片解决方案,通过Chiplet之间的通信技术(如UCIe),将设计扩展到裸片之外(图1)。
此外,Chiplet也让设计团队使用或重复使用当前和下一代产品的功能,并促进新的Chiplet供应商生态系统发展,让这些供应商可将其IP作为完整的Chiplet进行授权,或将作为现成可用的产品销售。
图1:为什么使用Chiplet?它有助于设计团队加速开发并降低工程成本。(来源:Cadence)
基于Arm的系统Chiplet
意识到这一商机,Cadence与Arm共同设计并推出了系统Chiplet,还为此提供了参考设计,结合Arm CPU和逻辑,以管理多Chiplet SoC的资源。
该设计包含两个UCIe控制器和PHY(用于与其他Chiplet互连)、一个片上网络(NOC)(用于Chiplet上通信)、一个LPDDR5/5X控制器以及系统控制和管理功能(图2)。该架构具有灵活性,客户可以根据需求添加I/O、所需的Arm内核数等,打造符合需求的定制系统Chiplet解决方案。
图2:首款基于Arm的系统Chiplet架构。(来源:Cadence)
Cadence最初将这款系统Chiplet锁定于汽车领域,以满足OEM寻求为信息娱乐和控制等功能添加特定品牌半导体的需求。然而,此Chiplet及其概念也适用于各种SoC,例如机器人与无人机等。
为什么锁定于汽车?Cadence分享对于汽车电子市场的看法,他们认为汽车电子市场正随着创新速度而展现爆发式成长。预计到2030年,这一市场营收将达到3,860亿美元,届时每辆汽车平均将配备超过200个传感器(图3)。对于汽车公司而言,使用预先存在且经过测试的Chiplet更有助于加快产品上市速度。
图3:汽车电子市场正随创新而展现爆发成长,并将在2030年达到3,860亿美元的市场规模。(来源:Cadence)
以高级驾驶辅助系统(ADAS)为例,设想使用一款SoC支持一系列的汽车解决方案(图4)。CPU、GPU、Neo AI和Cadence Tensilica DSP Chiplet连接至系统Chiplet,以提供内存、控制和I/O子系统。可以想象这种方法将多么有助于延长组件的使用寿命、加快产品上市时间,以及通过可扩展的架构为不同的解决方案最大化组件重复使用。
图4:基于系统Chiplet的可扩展ADAS架构支持一系列汽车解决方案。(来源:Cadence)
Intel Foundry的Chiplet技术
Intel Foundry的研究人员在2024年IEEE国际电子组件会议(IEDM 2024)发表了七篇论文,其中一篇论文的关键在于如何为互连Chiplet的SoC开发先进的封装技术。此外,Intel发布了“准单片多Chiplet”中介层,以及更小间距的下一代嵌入式多芯片互连桥接(EMIB)技术,这些创新有望提高Chiplet之间的带宽密度(图5)。
图5:英特尔希望通过EMIB和准单片多Chiplet中介层等技术创新提高Chiplet之间的带宽密度。(来源:Intel)
英特尔还发布了一项名为“选择性层转移”(SLT)技术的全新异构集成解决方案(图6)。该公司表示,这项解决方案能够实现“超快速”地组装,并支持小于1μm线宽的Chiplet——这一线宽甚至比人类的头发小17倍。英特尔宣称该技术有助于提升更高100倍的芯片间带宽。
图6:通过选择性层转移(SLT)异构集成技术,可实现小于1μm线宽的Chiplet——比人类的头发小17倍。(来源:Intel)
那么,英伟达为何不使用Chiplet?
当被问及对于Chiplet的看法时,英伟达CEO黄仁勋在2024年GTC活动上表示,较大的单片芯片速度更快,他认为目前还没有理由要将GPU分解成Chiplet。
他指出,UCIe会占用更多逻辑或SRAM所需的裸片面积。虽然UCIe速度很快,但会带来更多延迟,使得性能比单片裸片的实现更慢。对于一家以生产最快AI GPU而闻名的公司来说,这种权衡显然并不划算。当然,随着技术的进步,英伟达的计划可能在未来有所改变,尤其是在突破光罩极限之后。
可以肯定的是,我们确实看到了一些糟糕的Chiplet失败案例。最知名的莫过于英特尔的Ponte Vecchio GPU,该GPU被用于美国阿贡国家实验室(ANL)的Aurora超级计算机,在其中的47个Chiplet中总共使用了三种工艺技术:Intel 7、TSMC N5和N7(图7)。尽管这是一项技术上的奇迹,但其复杂性可能造成生产延误和良率问题。尤其是相较于美国能源部(DoE)橡树岭国家实验室(ORNL)的37,888个GPU组成前沿(Frontier)超级计算机所使用的AMD Instinct MI250 GPU,该芯片的性能令人失望。当Ponte Vecchio在2023年1月出货时,它已经必须面对像英伟达H100 GPU等更先进的竞争产品了。
Intel如今已不再开发Ponte Vecchio,并将焦点转向了Gaudi 3,以及下一代Falcon Shores GPU,这些产品将融入一些适用于AI的Gaudi架构特性。
图7:Ponte Vecchio处理器在单处理器中集成了47个Chiplet。(来源:Intel)
几点综合思考
无疑,Chiplet提供了极具吸引力的优点,但也必须为此在复杂性、裸片面积和延迟等代价之间进行权衡。最有趣的发展可能是新兴的商业机会和模式。系统Chiplet可以为设计团队提供几乎所有SoC所需的核心功能,让团队能专注于其独特的附加价值。
另一个例子是Tenstorrent RISC-V Chiplet,该初创公司已将其出货给多家客户,包括LG Electronics和现代汽车(Hyundai)。Jeff Bezos已宣布参与Tenstorrent最新一轮6.93亿美元融资,公司估值约为26亿美元。其他Chiplet公司还包括专注于光子架构的Celestial AI、提供更灵活内存控制器的Elyian、专注于I/O的Credo Semiconductor以及提供有线连接的Alphawave Semi。
根据IDTechEx预测,Chiplet市场规模将在2035年达到4,110亿美元,其增长动力主要来自于AI、汽车和高性能运算(HPC)等领域(图8)。面对如此庞大的商机,半导体制造商应该评估何时、何处尽快部署基于Chiplet的设计,而非“是否”该选择Chiplet了!
图8:预计在未来几年,服务器、PC、汽车、手机、5G/通信以及物联网等多种应用有望受益于Chiplet设计。(来源:IDTechEx)
(原文刊登于EE Times美国版,参考链接:The Age of Chiplets is Upon Us,由Franklin Zhao编译。)
本文为《电子工程专辑》2025年2月刊杂志文章,版权所有,禁止转载。免费杂志订阅申请点击这里。
