NVIDIA前不久发布的CPO硅光芯片,今年下半年就要量产了。它对AI数据中心而言,究竟有什么用?

之前我们常说,NVIDIA在AI技术上的优势绝不单在GPU芯片上,也不只在CUDA生态。这一点在电子工程专辑《Blackwell GPU性能暴涨30倍怎么做到的?》《英伟达为什么要造交换机?》两篇文章里都有相对具体的阐释。

这两篇文章体现的,实则也正是今年GTC开发者大会上,黄仁勋提到的在GPU芯片die之外的“scale up”和“scale out”两个性能扩展方面。因为AI HPC的诸多问题,并不是一颗GPU芯片能解决的——也不是几颗GPU芯片可以解决的,而可能需要一个计算集群。尤其在生成式AI、Agentic AI来袭的当下,算力扩展变得更加重要。

这也体现了半导体领域的摩尔定律对于当代AI计算需求的无能为力:可以说,单靠Blackwell架构和半导体制造新工艺的提升,应对当代AI算力需求仍旧捉襟见肘;或者说,单就芯片层面Blackwell相比Hopper不可能实现30倍性能提升。

所以NVIDIA才基于NVLink推了类似GB200 NVL72这样的完整系统,加上Dynamo软件层面的优化,才达成了30-40倍的性能提升;甚至还准备在未来推更大规模的NVL576,让NVLink域覆盖更多的GPU芯片,实现系统性能的持续飙升...

如果说扩大NVLink域是scale up,那么当数据中心、计算集群寻求更进一步的算力扩展,自然就涉及到scale out了。而所谓的scale out,主要相关的就是NVIDIA的networking产品,无论是DPU, NIC,还是Spectrum或Quantum交换机——他们要做的,就是把更多芯片、服务器连起来。

一个说了很多次的故事:2011年Bill Dally(NVIDIA首席科学家)去找老黄聊希望面向HPC开发networking技术。老黄很困惑:我们为什么要做networking,我们不是家GPU公司吗?最后黄仁勋还是给了大力支持的。我们现在当然知道,跨GPU、跨板、跨机架、跨节点做AI计算集群的大规模运算已经是常态,以及NVIDIA在scale up和scale out两个方向上做技术投入的正确性。

今年GTC上有关networking的技术亮点,毫无疑问就是NVIDIA Photonics硅光芯片,以及很快就要上市的采用硅光芯片的Spectrum-X Ethernet与Quantum-X InfiniBand交换机。实际到目前为止,我们对NVIDIA Photonics的技术细节依旧知之甚少,但这显然也不妨碍它成为今年AI数据中心领域的焦点。

NVIDIA官网说CPO技术这是为Agentic AI准备的networking解决方案,为什么这么说?

 

为什么要搞NVIDIA Photonics?

假定一个数据中心内铺设了100000个服务器,总计400000颗GPU,那么基于现有的光传输解决方案,需要搭载240万个光transceiver(收发器)。一般来说,现在常见的可插拔光transceiver由激光器、光电路、DSP和其他电子器件构成——末端电连接到交换机,并且会在电信号和光信号之间做转换,光信号在光纤中传输。

这些transceiver的耗电可以达到40MW(兆瓦)。每个transceiver都配有8个独立的激光器(laser,激光光源)——单是这些激光器的功耗就能到24MW。

换句话说,对于一个配有40万GPU的计算集群及采用可插拔光模块的方案而言,有24MW的功耗必须用在激光器上。这占到了总计算功耗的大约10%。

黄仁勋在GTC主题演讲中手拿传统的光transceiver,并且特别提到了里面的Mach-Zehnder modulator(调制器)。“这一个功耗就得30W,如果大量购入的话那么价格可能在1000美元左右。”黄仁勋说,“一端是电、一端转成光,光信号再通过黄色线缆传输。”基于AI大量数据交换的高带宽需求,“每个GPU需要搭配6个光transceiver,也就增加了180W功耗,6000美元成本。”

“它们不参与任何计算,而只是将信号搬来搬去。”黄仁勋甚至用2027年才要发布的Rubin Ultra系统举例,“要知道6MW就相当于10个Rubin Ultra机架的功耗了”,“60MW就是100个——这些功耗原本是可以给Rubin芯片计算用的。”

所以总的来说,成本和功耗是妨碍传统方案继续在现代AI数据中心做networking的关键。这是推NVIDIA Photonics技术的背景。

 

具体会达成什么样的效果?

老黄在主题演讲中展示NVIDIA Photonics这一页PPT提到了这是全球首款1.6Tb/s硅光CPO芯片,且基于MRM。所以我们首先就有必要搞清楚,什么是CPO——如果要翻译成中文,CPO大概可以译作共封硅光系统(或合封硅光系统?)。

考虑传统光transceiver的痛点,CPO着眼解决的就是提升带宽、降低功耗,具体方法是将光电转换组件,尽可能地和交换芯片靠近。如此一来,减少所需独立组件的数量,以及电信号传输的距离,自然就能简化配置、节省功耗。NVIDIA官网介绍中简单提到这种CPO交换,是基于集成的硅光(silicon photonics),“用同封装内的硅光,以ASIC的方式,替换可插拔transceiver”。

基于先进封装技术,可以围绕网络芯片,做多片硅光transceiver的chiplet;而光纤也就可以直接连接到封装上。IEEE Spectrum在上个月的报道文章中说,除了激光器之外,其他组成部分基本都可以放到单片封装内。激光器外置的原因主要是其材料是非硅的。“即便如此,CPO每8条数据连接通道也仅需一个激光器。”

这么做带来的具体收益,就在于NVIDIA宣传的3.5倍的能效提升,更高10倍的网络弹性(network resiliency)——这个弹性应该是指抗干扰、打断能力更强,以及更快1.3倍的部署速度——毕竟简化了部署流程、降低了网络的复杂度。另外资料中还提到,采用CPO技术的AI数据中心,只需要用到过去1/4的激光器,信号从一台设备到另一台设备的准时可靠性提升63倍。

 

什么是CPO(Co-packaged Optics)和MRM(Micro Ring Modulators)?

在CPO具体是怎么封装的问题上,我们只能基于老黄的PPT大致谈一谈:对于整个CPO的Quantum-X Photonics Switch交换芯片而言,看起来各组成部分是通过interposer中介实现互联的。除了中间的交换芯片die(Quantum-X800 ASIC),周围的chiplet(硅光引擎)为3D垂直堆叠:如我们以往对硅光芯片的理解,这些chiplet上层是EIC——电芯片,下层是PIC(Photonic IC)——基于台积电的封装技术。换句话说,整颗芯片是2.5D, 3D封装联用的。

PPT中出现了台积电的COUPE(Compact Universal Photonic Engine),这就是一种专用于硅光芯片的封装方案,基于SoIC、CoWoS先进封装技术,实现光和电组件的集成;另外这种技术平台也可以集成μLens微镜——μLens的作用应当是在光纤和PIC之间做光信号的聚焦和对齐的,减少耦合损耗。

芯片外围有光纤连接器;而激光光源模组也的确是外置的——从上面这张PPT能看得出来(后文也有对应的技术细节截图)。

从技术、组件、装配整个供应链角度来看,NVIDIA Photonics集合了诸多企业的共同努力。除了台积电和NVIDIA以外,还有Lumentum, Sumitomo(住友)的laser optics,以及Browave(波若威科技)、Coherent、Corning(康宁)、Fabrinet、Foxconn(富士康)、Senko、CFC等,构成包括光纤连接器、微镜及相关光学系统,确保可靠的信号路径和最低损耗。

Ian Buck(NVIDIA超大规模与高性能计算副总裁)在媒体会上说,这颗芯片背后有“数百专利、出色的生态系统技术合作伙伴支持”,目标就是要在AI时代充分利用CPO技术,提供出色的性能、效率和规模。

这部分的最后再谈一谈所谓的MRM(Micro Ring Modulators)——这是一种光调制技术,也就是把电信号转为光的方法。硅光领域主要有两类调制器:分别是MRM(微环谐振器),和前面老黄提到的Mach-Zehnder(MZM)。

可插拔光transceiver常见Mach-Zehnder方案:IEEE Spectrum在文章中说,基于这种方案的光通过波导,切分成两个并行的部分,再应用电场去做调制,改变光的相位,然后再结合构成单波导。而MRM则基于环形波导:如果光在环内谐振构成驻波(standing wave),则会提取出来——过滤出来的波长用于后续处理分析。

MRM具备更紧凑的特点,相比Mach-Zehnder的损失也更低;不过通常MRM对温度较为敏感,所以还需要配合更精准的温度控制电路。IEEE Fellow Clint Schow评价NVIDIA实现MRM硅光引擎量产是“工程壮举”。显然其技术和工程难度是相当大的。

 

Spectrum和Quantum交换机会变成什么样?

NVIDIA Photonics硅光共封芯片最终的产品化落脚点,自然就是Spectrum-X和Quantum-X交换机了,实现所谓scale out的性能扩展和效率最大化,并且为潜在需求更高算力的AI应用做好准备。

对NVIDIA的networking产品熟悉的读者应该很清楚,Quantum-X基于InfiniBand网络技术——其上市时间在今年下半年。Quantum-X Photonics交换机144端口,每个端口800Gb/s的速率(基于200Gb/s SerDes);两颗CPO芯片专门配了液冷。相比Quantum家族的上代产品,速度快2倍,扩展性提升5倍。

就Quantum-X系统来看,每颗CPO芯片都配有18个硅光chiplet(也就是前文提到3D堆叠的硅光引擎),每个硅光引擎采用TSMC N6工艺,2.2亿晶体管、1000个集成的光器件;每个硅光引擎连接2个激光器以及16条光纤(一颗CPO芯片也就要连36个激光器、288条数据连接)。

NVIDIA虽然没有针对这套芯片和系统提供太多文字资料,不过有个短视频给出了部分数字信息,我们对其中的关键内容做了截图,呈现如下——对技术感兴趣的同学可做深究:


NVIDIA光互联产品总监Ashkan Seyedi此前就说,CPO芯片的创新和节能并不仅相关于光组件构成,还在于“以高良率、可测试方法做封装,才能实现出色的成本管理”。据说仅是测试相关的工作,就要求团队“开发多种全新的测试流程”,确保不会发生错误。

对应的,Spectrum-X Photonics则显然是基于以太网的交换设备,配置可选800Gb/s 128端口或200Gb/s 512端口,总带宽100Tb/s;也有800Gb/s 512端口和200Gb/s 2048端口,总带宽400Tb/s。相比传统Ethernet networking方案的带宽密度有1.6倍的优势。Spectrum-X Photonics交换机的上市时间预计为2026年。

就NVIDIA Photonics的芯片和设备落地,也能看出硅光生态系统很快会走向成熟。这里也给出Yole总结CPO产业格局图

待未来NVIDIA公布更多有关硅光芯片的技术信息,我们会再做追踪。最后再分享个有趣的信息:实则在去年GTC期间,我们曾经听Bill谈到过NVIDIA所做硅光方面的研究——提及NVIDIA在这个领域也深入了好些年。

只不过他谈的研究方向是芯片与芯片(封装与封装)之间的光通信——这应该属于scale up方向的光互联,而非这次发布的用于scale out的networking产品。可能受限于成本,我们暂时还看不到这样的产品。但显然在不远的将来,硅光技术就会有更为广泛的应用——目标自然都在于数据传输效率的提升,达成对AI技术更进一步的推动。

责编:Illumi
阅读全文,请先
您可能感兴趣
英伟达已正式通知中国显卡厂商,原计划于第二季度上市的 RTX 5090 D 将全面暂停供货,已下单的未交付芯片也被取消。
根据 TrendForce 最新报告,AMD 此次调整主要基于三星 SF4X 工艺的良率问题。
面对美国商务部设定的 “算力阈值”(单精度浮点算力≤1.12 PFLOPS),英伟达陷入两难困境。是继续沿用 GPU 架构,还是向 ASIC路线?
此次收购将帮助 OpenAI 在竞争激烈的 AI 编程助手市场中进一步巩固其地位,并整合技术资产以应对市场竞争。
从“Perception AI”(感知AI)到“Agentic AI”(代理式AI),人工智能发展至今,已完成三次重大技术范式革新。展望未来,物理智能(Physical AI)更将打破数字与物理世界的边界,赋予AI影响现实环境的能力。
当前,国内已形成涵盖训练、推理、图形渲染的全栈 GPU 产品矩阵,主要厂商及技术突破如下……
这是迄今为止联想笔记本电脑最小体积的65W INBOX电源适配器……
在2025年一季度,SK海力士凭借在HBM领域的绝对优势,终结三星长达四十多年的市场统治地位,以36.7%的市场份额首度登顶全球DRAM市场第一。
新型CoolSiC™ JFET产品系列拥有极低的导通损耗、出色的关断能力和高可靠性,使其成为先进固态保护与配电系统的理想之选。
全新PXI与PXIe仿真模块支持高达130,000转/分钟的旋转速度,满足新一代伺服系统测试需求
博主数码闲聊站爆料,2026年苹果将带来屏下摄像头技术,iPhone 18系列和折叠屏iPhone将会首发搭载。他还爆料,折叠屏iPhone也是2026年登场,出货量规划是千万级。需要指出的是,搭载屏
点击上方名片关注了解更多大家好,我是王工。今天跟大家谈谈硬件工程师升职这件事,有人挤破脑袋想往上爬,有人机会摆在眼前却不屑一顾,究竟该如何选择?咱们公司的硬件跟其它公司可能不太一样,因为公司产品种类多
  实验名称:集成滤波电容器的滤波性能   测试设备:ATA-2031高压放大器、函数发生器、示波器、集成电容器等。  &em
核心观点2024 年公司营收101.6 亿元,同比增长43%。公司2024 年实现营收101.6亿元,同比增加42.3%,归母净利润6.5 亿元,同比增加40.1%。公司2024Q4 实现营收33.2
近日,一位客户在咨询电路板抄板服务时引发了一场关于行业收费标准的激烈讨论。客户表示需要将一块电路板"抄出来",询问收费标准,随即有同行好友给出报价:反推原理图按每个引脚(pin)2.5元收费,若需同时
最近,ARM重大安全漏洞不断被发现。由于国内ARM阵营IC设计厂商普遍从ARM公司购买技术授权,核心技术和源代码源自ARM,导致ARM自身携带的大量先天硬件漏洞后门无法通过软件修复,从而让国产ARM 
颠覆性创新永远诞生于跨界处,特斯拉超级工厂+Google具身AI算法顶尖团队联合,重塑制造业底层逻辑,一场由算法驱动的工业革命已拉开帷幕 导语 全球工业智能化浪潮中,由前特斯拉
▲ 点击上方蓝字关注我们,不错过任何一篇干货文章!据外媒报道,近日,一名美国议员计划在未来几周内提出一项立法提案,旨在建立机制以核实英伟达等公司生产的人工智能芯片销售后的实际位置。这一旨在监控芯片流向
1.软件环境 嘉立创 EDA 专业版(或者网页端)。 2.实操 2.1 工程创建 登录账号、创建工程,工程命名
在半导体制造的早期阶段,芯片制造主要遵循从电路设计到生产制造的单向线性流程。各个关键步骤间的信息传递和交接方法相对简单直接。例如,物理设计、掩膜合成、掩膜板写入、光刻优化、工艺优化、检测与量测以及最终