之前我们常说,NVIDIA在AI技术上的优势绝不单在GPU芯片上,也不只在CUDA生态。这一点在电子工程专辑《Blackwell GPU性能暴涨30倍怎么做到的?》《英伟达为什么要造交换机?》两篇文章里都有相对具体的阐释。
这两篇文章体现的,实则也正是今年GTC开发者大会上,黄仁勋提到的在GPU芯片die之外的“scale up”和“scale out”两个性能扩展方面。因为AI HPC的诸多问题,并不是一颗GPU芯片能解决的——也不是几颗GPU芯片可以解决的,而可能需要一个计算集群。尤其在生成式AI、Agentic AI来袭的当下,算力扩展变得更加重要。
这也体现了半导体领域的摩尔定律对于当代AI计算需求的无能为力:可以说,单靠Blackwell架构和半导体制造新工艺的提升,应对当代AI算力需求仍旧捉襟见肘;或者说,单就芯片层面Blackwell相比Hopper不可能实现30倍性能提升。
所以NVIDIA才基于NVLink推了类似GB200 NVL72这样的完整系统,加上Dynamo软件层面的优化,才达成了30-40倍的性能提升;甚至还准备在未来推更大规模的NVL576,让NVLink域覆盖更多的GPU芯片,实现系统性能的持续飙升...
如果说扩大NVLink域是scale up,那么当数据中心、计算集群寻求更进一步的算力扩展,自然就涉及到scale out了。而所谓的scale out,主要相关的就是NVIDIA的networking产品,无论是DPU, NIC,还是Spectrum或Quantum交换机——他们要做的,就是把更多芯片、服务器连起来。
一个说了很多次的故事:2011年Bill Dally(NVIDIA首席科学家)去找老黄聊希望面向HPC开发networking技术。老黄很困惑:我们为什么要做networking,我们不是家GPU公司吗?最后黄仁勋还是给了大力支持的。我们现在当然知道,跨GPU、跨板、跨机架、跨节点做AI计算集群的大规模运算已经是常态,以及NVIDIA在scale up和scale out两个方向上做技术投入的正确性。
今年GTC上有关networking的技术亮点,毫无疑问就是NVIDIA Photonics硅光芯片,以及很快就要上市的采用硅光芯片的Spectrum-X Ethernet与Quantum-X InfiniBand交换机。实际到目前为止,我们对NVIDIA Photonics的技术细节依旧知之甚少,但这显然也不妨碍它成为今年AI数据中心领域的焦点。
NVIDIA官网说CPO技术这是为Agentic AI准备的networking解决方案,为什么这么说?
为什么要搞NVIDIA Photonics?
假定一个数据中心内铺设了100000个服务器,总计400000颗GPU,那么基于现有的光传输解决方案,需要搭载240万个光transceiver(收发器)。一般来说,现在常见的可插拔光transceiver由激光器、光电路、DSP和其他电子器件构成——末端电连接到交换机,并且会在电信号和光信号之间做转换,光信号在光纤中传输。
这些transceiver的耗电可以达到40MW(兆瓦)。每个transceiver都配有8个独立的激光器(laser,激光光源)——单是这些激光器的功耗就能到24MW。
换句话说,对于一个配有40万GPU的计算集群及采用可插拔光模块的方案而言,有24MW的功耗必须用在激光器上。这占到了总计算功耗的大约10%。
黄仁勋在GTC主题演讲中手拿传统的光transceiver,并且特别提到了里面的Mach-Zehnder modulator(调制器)。“这一个功耗就得30W,如果大量购入的话那么价格可能在1000美元左右。”黄仁勋说,“一端是电、一端转成光,光信号再通过黄色线缆传输。”基于AI大量数据交换的高带宽需求,“每个GPU需要搭配6个光transceiver,也就增加了180W功耗,6000美元成本。”
“它们不参与任何计算,而只是将信号搬来搬去。”黄仁勋甚至用2027年才要发布的Rubin Ultra系统举例,“要知道6MW就相当于10个Rubin Ultra机架的功耗了”,“60MW就是100个——这些功耗原本是可以给Rubin芯片计算用的。”
所以总的来说,成本和功耗是妨碍传统方案继续在现代AI数据中心做networking的关键。这是推NVIDIA Photonics技术的背景。
具体会达成什么样的效果?
老黄在主题演讲中展示NVIDIA Photonics这一页PPT提到了这是全球首款1.6Tb/s硅光CPO芯片,且基于MRM。所以我们首先就有必要搞清楚,什么是CPO——如果要翻译成中文,CPO大概可以译作共封硅光系统(或合封硅光系统?)。
考虑传统光transceiver的痛点,CPO着眼解决的就是提升带宽、降低功耗,具体方法是将光电转换组件,尽可能地和交换芯片靠近。如此一来,减少所需独立组件的数量,以及电信号传输的距离,自然就能简化配置、节省功耗。NVIDIA官网介绍中简单提到这种CPO交换,是基于集成的硅光(silicon photonics),“用同封装内的硅光,以ASIC的方式,替换可插拔transceiver”。
基于先进封装技术,可以围绕网络芯片,做多片硅光transceiver的chiplet;而光纤也就可以直接连接到封装上。IEEE Spectrum在上个月的报道文章中说,除了激光器之外,其他组成部分基本都可以放到单片封装内。激光器外置的原因主要是其材料是非硅的。“即便如此,CPO每8条数据连接通道也仅需一个激光器。”
这么做带来的具体收益,就在于NVIDIA宣传的3.5倍的能效提升,更高10倍的网络弹性(network resiliency)——这个弹性应该是指抗干扰、打断能力更强,以及更快1.3倍的部署速度——毕竟简化了部署流程、降低了网络的复杂度。另外资料中还提到,采用CPO技术的AI数据中心,只需要用到过去1/4的激光器,信号从一台设备到另一台设备的准时可靠性提升63倍。
什么是CPO(Co-packaged Optics)和MRM(Micro Ring Modulators)?
在CPO具体是怎么封装的问题上,我们只能基于老黄的PPT大致谈一谈:对于整个CPO的Quantum-X Photonics Switch交换芯片而言,看起来各组成部分是通过interposer中介实现互联的。除了中间的交换芯片die(Quantum-X800 ASIC),周围的chiplet(硅光引擎)为3D垂直堆叠:如我们以往对硅光芯片的理解,这些chiplet上层是EIC——电芯片,下层是PIC(Photonic IC)——基于台积电的封装技术。换句话说,整颗芯片是2.5D, 3D封装联用的。
PPT中出现了台积电的COUPE(Compact Universal Photonic Engine),这就是一种专用于硅光芯片的封装方案,基于SoIC、CoWoS先进封装技术,实现光和电组件的集成;另外这种技术平台也可以集成μLens微镜——μLens的作用应当是在光纤和PIC之间做光信号的聚焦和对齐的,减少耦合损耗。
芯片外围有光纤连接器;而激光光源模组也的确是外置的——从上面这张PPT能看得出来(后文也有对应的技术细节截图)。
从技术、组件、装配整个供应链角度来看,NVIDIA Photonics集合了诸多企业的共同努力。除了台积电和NVIDIA以外,还有Lumentum, Sumitomo(住友)的laser optics,以及Browave(波若威科技)、Coherent、Corning(康宁)、Fabrinet、Foxconn(富士康)、Senko、CFC等,构成包括光纤连接器、微镜及相关光学系统,确保可靠的信号路径和最低损耗。
Ian Buck(NVIDIA超大规模与高性能计算副总裁)在媒体会上说,这颗芯片背后有“数百专利、出色的生态系统技术合作伙伴支持”,目标就是要在AI时代充分利用CPO技术,提供出色的性能、效率和规模。
这部分的最后再谈一谈所谓的MRM(Micro Ring Modulators)——这是一种光调制技术,也就是把电信号转为光的方法。硅光领域主要有两类调制器:分别是MRM(微环谐振器),和前面老黄提到的Mach-Zehnder(MZM)。
可插拔光transceiver常见Mach-Zehnder方案:IEEE Spectrum在文章中说,基于这种方案的光通过波导,切分成两个并行的部分,再应用电场去做调制,改变光的相位,然后再结合构成单波导。而MRM则基于环形波导:如果光在环内谐振构成驻波(standing wave),则会提取出来——过滤出来的波长用于后续处理分析。
MRM具备更紧凑的特点,相比Mach-Zehnder的损失也更低;不过通常MRM对温度较为敏感,所以还需要配合更精准的温度控制电路。IEEE Fellow Clint Schow评价NVIDIA实现MRM硅光引擎量产是“工程壮举”。显然其技术和工程难度是相当大的。
Spectrum和Quantum交换机会变成什么样?
NVIDIA Photonics硅光共封芯片最终的产品化落脚点,自然就是Spectrum-X和Quantum-X交换机了,实现所谓scale out的性能扩展和效率最大化,并且为潜在需求更高算力的AI应用做好准备。
对NVIDIA的networking产品熟悉的读者应该很清楚,Quantum-X基于InfiniBand网络技术——其上市时间在今年下半年。Quantum-X Photonics交换机144端口,每个端口800Gb/s的速率(基于200Gb/s SerDes);两颗CPO芯片专门配了液冷。相比Quantum家族的上代产品,速度快2倍,扩展性提升5倍。
就Quantum-X系统来看,每颗CPO芯片都配有18个硅光chiplet(也就是前文提到3D堆叠的硅光引擎),每个硅光引擎采用TSMC N6工艺,2.2亿晶体管、1000个集成的光器件;每个硅光引擎连接2个激光器以及16条光纤(一颗CPO芯片也就要连36个激光器、288条数据连接)。
NVIDIA虽然没有针对这套芯片和系统提供太多文字资料,不过有个短视频给出了部分数字信息,我们对其中的关键内容做了截图,呈现如下——对技术感兴趣的同学可做深究:
NVIDIA光互联产品总监Ashkan Seyedi此前就说,CPO芯片的创新和节能并不仅相关于光组件构成,还在于“以高良率、可测试方法做封装,才能实现出色的成本管理”。据说仅是测试相关的工作,就要求团队“开发多种全新的测试流程”,确保不会发生错误。
对应的,Spectrum-X Photonics则显然是基于以太网的交换设备,配置可选800Gb/s 128端口或200Gb/s 512端口,总带宽100Tb/s;也有800Gb/s 512端口和200Gb/s 2048端口,总带宽400Tb/s。相比传统Ethernet networking方案的带宽密度有1.6倍的优势。Spectrum-X Photonics交换机的上市时间预计为2026年。
就NVIDIA Photonics的芯片和设备落地,也能看出硅光生态系统很快会走向成熟。这里也给出Yole总结的CPO产业格局图:
待未来NVIDIA公布更多有关硅光芯片的技术信息,我们会再做追踪。最后再分享个有趣的信息:实则在去年GTC期间,我们曾经听Bill谈到过NVIDIA所做硅光方面的研究——提及NVIDIA在这个领域也深入了好些年。
只不过他谈的研究方向是芯片与芯片(封装与封装)之间的光通信——这应该属于scale up方向的光互联,而非这次发布的用于scale out的networking产品。可能受限于成本,我们暂时还看不到这样的产品。但显然在不远的将来,硅光技术就会有更为广泛的应用——目标自然都在于数据传输效率的提升,达成对AI技术更进一步的推动。
