在最近的Computex上,英伟达发布的可不光是DGX GH200、MGX这样的系统设计,还有个名为Spectrum-4的交换系统。英伟达为什么要做交换机的生意?和AI又有什么关系?

最近的Computex上,大部分人关注的都是英伟达新发布的DGX GH200和MGX——这俩都算是英伟达的系统级AI产品,甭管是参考设计,还是完整的服务器了。CPU和GPU相关的芯片、板卡、系统,始终是如今英伟达的大热门,毕竟AI与HPC就是这么热。

但实际上,在AI HPC,尤其是生成式AI、或者现在很多人说“大模型”计算的背景下,还有个东西也很重要,就是networking。也就是说,需要很多服务器一起算,需要一个大规模集群才能搞定,算力扩展跨系统、跨节点,那么性能问题就不光是一个节点内的CPU、GPU、AI芯片算力那么简单了。

此前谷歌就提到过,整体AI基础设施里,系统级架构的重要程度甚至要高于TPU芯片微架构——当然这个“系统级”未必涵盖了跨节点的networking,但显然当一大堆芯片一起做计算的时候,系统、网络都成为性能发挥的短板。

这其实也是DPU变得重要的原因所在——之前我在专栏文章里就提过,英伟达的DPU和其他networking产品,都更像是针对自家产品所做的短板补足,主观上都不像是为了单卖,或者和市场上的现有产品做竞争的。从这个角度来说,英伟达的硬件产品是横向构成了完整生态的:如DPU主观上并不是要跟谁竞争,而是自家现有产品的一环。

这次的Computex上,英伟达发布networking相关的产品主要是Spectrum-X Ethernet以太网平台——英伟达宣称这是全球首个专为AI设计的高性能以太网产品,尤其“生成式AI负载需要新型Ethernet”。我们过去很少谈英伟达的networking产品,包括DPU其实谈得也不算多。借着Spectrum-X的机会,本文尝试谈一谈这款Ethernet产品,以及英伟达networking产品的存在逻辑。

 

英伟达为什么要造“交换机”?

Spectrum-X平台内部的两个核心组件是Spectrum-4 Ethernet Switch交换机,和BlueField-3 DPU。有关DPU的部分就不多解释了;另一部分Spectrum交换相关的,实际去年GTC上英伟达就发布了Spectrum-4 400Gbps交换机。芯片层面是基于Spectrum ASIC——黄仁勋在Computex主题演讲展示了这颗芯片(应当就是下面这颗ASIC,虽然黄仁勋只是说了句“this is the chip”),这是个囊括1000亿晶体管、90x90mm、芯片封装底部800个焊球、功耗500W的大家伙。

这次宣布这个专为AI准备的“首个高性能Ethernet架构”Spectrum-4 Ethernet Switch系统准备就绪(available),这里的“准备就绪”应该是说面向CSP准备就绪了。

具体的配置可以看图,Spectrum-4总共128个端口,可达成的总带宽是51.2TB/s,和传统的Ethernet交换机相比高出2倍的有效带宽。“能让网络工程师,AI数据科学家,云服务提供商以更快的速度产出结果、做出决策”,“使能生成式AI云”。高带宽和低延迟,是确保GPU规模化扩展时,跨节点连接缓解性能瓶颈的关键。整个交换机的功耗是2800W。

一听“交换机”,是要和市场面上的网络交换机产品抢市场啊?去年GTC上,英伟达就专门解释过这东西不是为了和市面上那些网络交换机竞争,不是为了处理常规的“mouse flow”流量,而重在处理“elephant flow”流量,充分发挥大规模AI、数字孪生、模拟等应用的硬件产品。

“连接的传统交换机对于处理现在的生成式AI负载太慢。而且我们现在还处在AI革命的开端。传统的交换机对于普通的商品云可能是够用的,但对于生成式AI的AI云负载而言,就无法提供规模化所需的性能了。”英伟达Networking SVP Gilad Shainer在主题演讲中说。

会前Pre-briefing上,有记者还特别问到了英伟达Spectrum是否与Arista之类的交换机直接构成竞争关系。Shainer的回答是没有竞争关系:“市场上的其他Ethernet交换机是用来构建普通商品云的,或者包括用户访问和云控制的南北向流量(north-south traffic);但对于生成式AI云,市场上还没有解决方案,没有Ethernet能够满足生成式AI的需求。而Spectrum-4作为全球首个用于生成式AI东西向流量(east-west traffic)的Ethernet网络,则针对这个目标打造了全新的Ethernet解决方案。”

似乎在答记者时,Shainer还提到了包括博通现有交换产品,与Spectrum-4也并不构成竞争关系。介绍中,英伟达强调Spectrum-X打造的是无损(lossless)Ethernet网络,这一点可能在解释Spectrum-X平台时也尤为紧要。

 

Ethernet与InfiniBand之争

学过网络工程的同学,对于Ethernet——以太网应该非常熟悉。Ethernet也是个挺有年头的网络标准了,随时代发展也一直在进化。

之所以特别说无损lossless,是因为最初Ethernet设计就是个为有损lossy网络环境准备的。换句话说这种网络是允许丢包的。为了确保可靠性,IP网络上层需要TCP协议参与,即在数据包传输过程中如果发生了丢包,则TCP协议能够让发送方重新传输丢失的数据包。

因为这些错误修正机制,延迟即相应增加,对于某些类型的应用而言也就会有问题。而且为了应对网络中瞬时流量激增,交换需要付出额外的cache资源来临时存储信息,所以之前我们会说Ethernet交换芯片尺寸和成本会高于同等定位的InfiniBand芯片。

但“超算数据中心无法承受lossy网络。”黄仁勋说:“整个超算跑的负载成本都很高,网络中的任意损失都会很难承受。”再加上性能隔离之类的需求,lossy网络的确难以承载。关注英伟达和我们此前相关英伟达AI超算构建架构文章的同学,应该知道英伟达一直在用一种叫InfiniBand的networking通讯标准。InfiniBand常见于需求高吞吐、低延迟的HPC应用。和Ethernet更加通用的属性不同的是,InfiniBand更适用于数据密集型应用。

它其实也不是英伟达的专属,最早是包括Intel、IBM、微软等在内的不少企业都参与进来的——还有个专门的联盟叫IBTA。Mellanox是大约2000年前后开始推InfiniBand产品的。维基百科的介绍中提到,InfiniBand最初的目标是要在I/O方面替代PCI,在机房、集群互联替代Ethernet的。

很可惜InfiniBand赶上了互联网泡沫破裂的年代,其发展一度受到了抑制。Intel、微软之类的参与者都相继有了新选择。但据说2009年的超算TOP 500列表里,内部互联基于InfiniBand的已经有181个(其余的都是Ethernet),2014年这个数量过半——虽然很快万兆Ethernet在后续2年又后来居上。2019年英伟达收购Mellanox之时,Mellanox就已经是市面上仅剩的InfiniBand通讯产品主要供应商了。

其实单从设计初衷来看,80年代就诞生的Ethernet仅是追求多系统的信息互通。而InfiniBand的诞生,最初就是为了消除HPC场景下集群数据传输的瓶颈,比如延迟层面,其2层交换处理的设计就相当直接,可大幅降低转发延迟。所以它天然地适配HPC、数据中心、超算集群:高吞吐、低延迟、高可靠性都如此。

从可靠性的角度来看,InfiniBand本身有网络1-4层的完整协议定义:它藉由端到端流控机制来防止丢包,本身就达成了lossless无损属性。另外两者一个比较大的区别是,InfiniBand基于交换fabric网络设计,而Ethernet是基于shared medium共享通道。理论上来说,前者更能避免网络冲突问题。

既然InfiniBand这么好,英伟达为什么要搞Ethernet呢?从直觉来思考,Ethernet的市场基础、通用性和灵活性应该是个重要因素。黄仁勋在主题演讲中就谈到“我们想把生成式AI带到每个数据中心”,那么就要求向前兼容;“许多企业部署的都是Ethernet”,“要获得InfiniBand的能力对他们而言很难,所以我们将这样的能力带到了Ethernet市场”。这是Spectrum-4推广的业务逻辑。不过我们认为这绝对不是全部。

英伟达同时在搞Ethernet和InfiniBand产品,前者就是Spectrum Ethernet平台,而后者名为Quantum InfiniBand。如果去看英伟达的官方页,会发现InfiniBand解决方案“以更低的成本和复杂性,在HPC、AI和超级集群云基础设施之上,达成无以比拟的性能”;而Spectrum是为AI和云加速Ethernet交换。显然这两者是发生了某种程度的竞争的。

 

为什么是Ethernet?

黄仁勋在主题演讲中科普了一下不同类型的数据中心——实际上去年GTC上英伟达曾明确将数据中心分成六大类。而在我们今天讨论的AI场景下,数据中心可以分成两大类。其中一类是需要负责一大堆不同应用负载的,租户可能很多,负载之间的依赖关系也很弱。

但还有一类典型如超算或者现在流行的AI超算,其上租户非常少(裸金属少到1个),负载紧密耦合——针对大型计算问题需求高吞吐。这两种数据中心需求的基础设施差别是很大的。从直觉来判断,最原始的lossy环境的Ethernet就不适合后一种需求。原因前文已经谈到了。

最近SemiAnalysis写了一篇文章,特别谈到了InfiniBand存在的诸多问题——主要是技术层面的,可作为英伟达同时发展Ethernet的参考。这里提取其中的一些——虽然这些固有缺陷很难说有什么新鲜的,毕竟任何标准、协议或技术总是有利有弊的;姑且仅作参考。实际无论InfiniBand还是Ethernet,自身也都在不停进化。

InfiniBand的流控用的是credit-based flow control机制,翻译过来叫基于信用/积分的流控。每个链接会预分配一些特定的积分——反映链接带宽之类的属性。当某个数据包被接收、处理之后,接收端会向发送端返回积分(credit)。理想情况下,这样的系统能够确保网络不会过载,因为发送端在发出更多数据包之前,需要等待返回积分。

但这样的机制也存在不少问题。比如说某个发送端节点,给接收端节点发数据,如果发送数据的速度,快于接收端处理数据的速度,则接收端的buffer就可能被填满,接收端无法给发送端返回积分,那么因为积分耗尽,发送端也就无法发出更多的数据包;再比如接收端无法返回积分,若发送端也是其他节点的接收端,在带宽超载的情况下也就无法返回积分,导致背压扩散到更大范围;还有deadlock、不同组件产生的错误率导致的问题等等。

InfiniBand固有的一些问题,会随着整个系统的规模、复杂性增加而变得更严重。目前最大规模的InfiniBand商用实施方案应该来自Meta,某研究集群总共部署了16000个NIC和16000张A100 GPU。

这个规模当然不可谓不庞大,不过SemiAnalysis表示GPT-4的训练就需要更大规模,且未来“大模型”发展应当还有集群扩充的需求。理论上InfiniBand还能继续扩大整体容量,但它将遭遇固有问题的影响会越来越显著。从推理(inference)的角度来看,延迟和性能仍可受惠于InfiniBand,但对于推理负载而言,不同请求会以各种速度做持续性的传输;而且未来的架构,是需要在同一个大型集群内,以各种batch size囊括多个大型模型,这就要求持续不断的credit-based flow control变化。

积分流控机制很难快速响应网络环境的变化,网络内如果存在大量多样化的流量,接收端buffer状态快速变化;若网络出现拥塞,则发送端还在处理更早的积分信息,问题会变得更加复杂。而且如果发送端本身不停地在等待积分,以及数据传输两种状态间切换,也很容易造成性能颠簸。

再说点儿实际的:英伟达目前的Quantum-2达成的带宽在25.6TB/s,起码就数字来看是不及Spectrum-4的51.2TB/s的。更快的Quantum芯片和基础设施要等到明年,这在步调上就不大一样。另外从成本的角度来看,达成相同规模(8000+ GPU)的GPU常规部署,Quantum-2需要多一层交换,以及多得多的线缆——而且是成本比较高的光缆。则典型规模的InfiniBand网络部署成本是明显高于Ethernet的。(此处似乎没有考虑DPU、NIC的成本)

从客户的角度来看,Ethernet的市场还是比InfiniBand要大出许多的——这对于降低部署成本也是一部分。还有一些更具体的可对比项,比如说传统服务前端系统都是基于Ethernet的,以及InfiniBand对客户而言存在供应商绑定的问题,而Ethernet显然是给出了更多的选择的,在部署的弹性和扩展性上可能也会更好;技术层面,Ethernet似乎还存在一些光传输基础设施未来部署的潜在价值,有兴趣的读者还是可以去看一看SemiAnalysis的文章。

这些可能都是英伟达着力Ethernet的理论依据,或者英伟达在生成式AI云上选择了Ethernet的部分原因。但部分依据仅供参考的原因是,InfiniBand在英伟达手上实际也是多有进化的,很多固有问题都有缓解方案。

最后还是要谈一下文章最初提到的一个问题,即Ethernet原本是个lossy有损的网络。但实际上随着RoCE(RDMA over Converged Ethernet)之类技术的发展,原本InfiniBand的一些优势项也带到了Ethernet上。实际上技术扩展某种程度上就是集合不同技术的优点的,包括InfiniBand的高性能和lossless,Ethernet的通用性、成本和弹性等。

Spectrum-X平台特性中提到的RoCE就达成Ethernet网络的lossless,基于PFC(priority-based flow control)优先级流控来达成——这项机制仅依托于端点侧的NIC,而不是交换机设备。

另外RoCE++有一些新的优化扩展,比如说ASCK——处理丢包和抵达顺序问题的,接收端告知发送端只需要重传丢失或损坏的数据包,达成更高的带宽利用率;还有像是ECN、流控机制与错误优化,都有利于提升效率和可靠性。除此之外,为了缓解端点NIC在标准Ethernet with RoCE网络上的规模扩展问题,Bluefield NIC模式可以发挥作用;DPU的总体成本还是可以被Ethernet和一些新技术摊薄的。

黄仁勋在主题演讲里还特别提到Spectrum-X,主要为Ethernet带来了adaptive routing和congestion control两项重要特性。此外英伟达此前有特别和IDC合作,出过一篇Ethernet交换解决方案商业价值的白皮书报告,有兴趣的同学可以下载查看

在大规模AI应用里,或许Ethernet未来会是个必然选择。所以在Spectrum-X的宣传上,英伟达的口径是特别为生成式AI云所准备,“首个”针对生成式AI东西向流量的解决方案。但或许不止是Ethernet的通用性强这一个缘由,在AI HPC负载下,有一定概率全面转向Ethernet的可能性。

还是那句话,不同标准的发展本身就是在不停查漏补缺、汲取精华的过程,就像InfiniBand解决固有缺陷也存在各种缓解方案,InfiniBand的部分扩展属性亦对其应用于AI很有帮助。这就是选择和技术本身发展的比较问题了。我们可以等等看,后续英伟达是否会在InfiniBand和Ethernet的发展上有所倾斜,即便当前这两者有其各自的应用场景。

责编:Illumi
阅读全文,请先
您可能感兴趣
尽管作为调制解调器及射频系统,骁龙X75的性能已经足够震撼,但“一枝独秀不是春,百花齐放春满园”,尤其是随着第三代骁龙8、骁龙X Elite等产品的发布,具备强大边缘侧AI能力的终端,正与云端AI一道,为消费者带来比以往任何时候都更加真实的连接和数字化体验。
苹果官网最近又出现了一个非常具体的招聘信息:“作为蜂窝平台架构师,你将推动和协调6G参考架构的设计和建模。需要开发一套合适的原型实施和参考架构模型,以便对候选技术和用例进行评估。在这个岗位上,您将计划、推动并积极参与这些建模和原型设计活动。您将与研发团队进行跨职能合作,提出、规划并实施模拟和实验,以评估6G候选技术!”
韩国网站Naver称,苹果公司在多次尝试完善自研5G调制解调器(Modem)芯片失败后,决定停止开发该芯片。对此分析师Dylan Patel表示,苹果实际上并未取消5G基带研发项目,但相关项目推进困难,因此遭遇多次延迟……
不少人对小米还有很多误解。误解什么呢?总有人说,“小米就是组装厂,小米研发投入少,小米没有核心技术。”从整体来看,小米的确跟全球最顶尖的那几家科技公司相比,还有一定差距。但作为一家13年的公司,小米在研发上的投入和实力,还是挺强的。
针对撤裁旗下量子实验室传闻,阿里达摩院26日回应表示,为了进一步推动量子科技协同发展,达摩院联合浙江大学发展量子科技,将量子实验室及可移交的量子实验仪器设备捐赠予浙江大学,并向其他高校和科研机构进行开放。
信息技术将与人工智能技术、新型材料工程等一起携手前行,将信息技术推向全新的高度,实现人类大脑能力的延伸和放大。依靠工艺技术进步几乎无法实现更高性能的计算,特别是从现有计算芯片的主流路线推演,已难以满足Z级超算的性能、功耗和成本需求,需要研发新的计算芯片架构来应对智能化、大算力的新挑战。
根据TrendForce集邦咨询最新OLED技术及市场发展分析报告统计,在近期发表的摺叠新机中,UTG的市场渗透率已逾九成,随着摺叠手机规模持续成长,预估2023年UTG产值将达3.6亿美元;2024年可望挑战6亿美元。
随着终端及IC客户库存陆续消化至较为健康的水位,及下半年iPhone、Android阵营推出新机等有利因素,带动第三季智能手机、笔电相关零部件急单涌现,但高通胀风险仍在,短期市况依旧不明朗,故此波备货仅以急单方式进行。此外,台积电(TSMC)、三星(Samsung)3nm高价制程贡献营收亦对产值带来正面效益,带动2023年第三季前十大晶圆代工业者产值为282.9亿美元,环比增长7.9%。
治精微推出具过压保护OVP、低功耗、高精度运放ZJA3018
无线技术每天都在拯救生命,有些非常方式是人们意想不到的。在美国加利福尼亚州Scotts Valley,一名路过的慢跑者发现一处住宅冒出火焰后,按响了门铃,试图通知屋主。屋主不在家中,但无线门铃连接到了智能家居中枢,提醒屋主慢跑者试图联系。屋主立即向他提供了安全密码,让他跑进房子,从火场中救出了宠物。
注:各大公司财政年度的起始时间不同于自然年,因此会出现财政季度、年度等与自然年不一致的情况。软件微软(Microsoft)公布截至2023年9月30日的2024财年第一财季业绩。第一财季营收为565.
EETOP编译自electronicdesign1.任何计算引擎,无论是CPU、GPU、FPGA还是定制ASIC,都可以加速GenAI不对。CPU 不具备完成任务的性能。GPU 具有标称性能,但效率较
广告分割线12月11日,臻鼎科技集团与协成昌集团(Saha Group)达成了战略合作协议。当晚还举办了“2023庆祝战略合作签约暨鹏晟科技动土典礼晚宴”。本次战略合作协议的签订将进一步促进双方的合作
AMD Vitis™ 高层次综合 ( HLS ) 已成为自适应 SoC 及 FPGA 产品设计领域的一项颠覆性技术,可在创建定制硬件设计时实现更高层次的抽象并提高生产力。Vitis HLS 通过将 C
广告分割线12月11日,据台媒报道,群创(3481.TW)竹南T1厂员工向媒体爆料,群创竹南T1厂将裁员50%!据报道,群创竹南厂工程师预计将减少一半,在线作业员也预计砍一半。群创今天表示,已于第一时
点击左上角“锂电联盟会长”,即可关注!有需要联系,王经理:18058289318相关阅读:锂离子电池制备材料/压力测试!锂电池自放电测量方法:静态与动态测量法!软包电池关键工艺问题!一文搞懂锂离子电池
为加强智慧应急能力建设,以新安全格局服务新发展格局,由中国科学院大学、全国安全职业教育教学指导委员会共同主办的“2023智慧应急发展论坛”于2023年12月10日在京召开。本次论坛主题是“加强智慧应急
点击左上角“锂电联盟会长”,即可关注!文 章 信 息干法改性工艺新认识,助力锂离子电池高镍正极材料实现高结构稳定和热稳定性能第一作者:吴锋通讯作者:苏岳锋*,陈来*通讯单位:北京理工大学,北京理工大学
点击左上角“锂电联盟会长”,即可关注!粉尘、水分和毛刺是锂离子电池生产过程中需要严格控制的关键因素。严格控制电池生产环境的粉尘对锂离子电池的安全和性能至关重要。生产环境粉尘控制不足会导致涂层表面产生大
曹原 发自 副驾寺智能车参考 | 公众号 AI4Auto全球第一的 Tier 1,官宣裁员了。博世刚刚证实,准备裁员1500人,以适应汽车行业不断变化的技术和需求。博世发言人表示:我们面临了比年初预期