在最近的Computex上,英伟达发布的可不光是DGX GH200、MGX这样的系统设计,还有个名为Spectrum-4的交换系统。英伟达为什么要做交换机的生意?和AI又有什么关系?

最近的Computex上,大部分人关注的都是英伟达新发布的DGX GH200和MGX——这俩都算是英伟达的系统级AI产品,甭管是参考设计,还是完整的服务器了。CPU和GPU相关的芯片、板卡、系统,始终是如今英伟达的大热门,毕竟AI与HPC就是这么热。

但实际上,在AI HPC,尤其是生成式AI、或者现在很多人说“大模型”计算的背景下,还有个东西也很重要,就是networking。也就是说,需要很多服务器一起算,需要一个大规模集群才能搞定,算力扩展跨系统、跨节点,那么性能问题就不光是一个节点内的CPU、GPU、AI芯片算力那么简单了。

此前谷歌就提到过,整体AI基础设施里,系统级架构的重要程度甚至要高于TPU芯片微架构——当然这个“系统级”未必涵盖了跨节点的networking,但显然当一大堆芯片一起做计算的时候,系统、网络都成为性能发挥的短板。

这其实也是DPU变得重要的原因所在——之前我在专栏文章里就提过,英伟达的DPU和其他networking产品,都更像是针对自家产品所做的短板补足,主观上都不像是为了单卖,或者和市场上的现有产品做竞争的。从这个角度来说,英伟达的硬件产品是横向构成了完整生态的:如DPU主观上并不是要跟谁竞争,而是自家现有产品的一环。

这次的Computex上,英伟达发布networking相关的产品主要是Spectrum-X Ethernet以太网平台——英伟达宣称这是全球首个专为AI设计的高性能以太网产品,尤其“生成式AI负载需要新型Ethernet”。我们过去很少谈英伟达的networking产品,包括DPU其实谈得也不算多。借着Spectrum-X的机会,本文尝试谈一谈这款Ethernet产品,以及英伟达networking产品的存在逻辑。

 

英伟达为什么要造“交换机”?

Spectrum-X平台内部的两个核心组件是Spectrum-4 Ethernet Switch交换机,和BlueField-3 DPU。有关DPU的部分就不多解释了;另一部分Spectrum交换相关的,实际去年GTC上英伟达就发布了Spectrum-4 400Gbps交换机。芯片层面是基于Spectrum ASIC——黄仁勋在Computex主题演讲展示了这颗芯片(应当就是下面这颗ASIC,虽然黄仁勋只是说了句“this is the chip”),这是个囊括1000亿晶体管、90x90mm、芯片封装底部800个焊球、功耗500W的大家伙。

这次宣布这个专为AI准备的“首个高性能Ethernet架构”Spectrum-4 Ethernet Switch系统准备就绪(available),这里的“准备就绪”应该是说面向CSP准备就绪了。

具体的配置可以看图,Spectrum-4总共128个端口,可达成的总带宽是51.2TB/s,和传统的Ethernet交换机相比高出2倍的有效带宽。“能让网络工程师,AI数据科学家,云服务提供商以更快的速度产出结果、做出决策”,“使能生成式AI云”。高带宽和低延迟,是确保GPU规模化扩展时,跨节点连接缓解性能瓶颈的关键。整个交换机的功耗是2800W。

一听“交换机”,是要和市场面上的网络交换机产品抢市场啊?去年GTC上,英伟达就专门解释过这东西不是为了和市面上那些网络交换机竞争,不是为了处理常规的“mouse flow”流量,而重在处理“elephant flow”流量,充分发挥大规模AI、数字孪生、模拟等应用的硬件产品。

“连接的传统交换机对于处理现在的生成式AI负载太慢。而且我们现在还处在AI革命的开端。传统的交换机对于普通的商品云可能是够用的,但对于生成式AI的AI云负载而言,就无法提供规模化所需的性能了。”英伟达Networking SVP Gilad Shainer在主题演讲中说。

会前Pre-briefing上,有记者还特别问到了英伟达Spectrum是否与Arista之类的交换机直接构成竞争关系。Shainer的回答是没有竞争关系:“市场上的其他Ethernet交换机是用来构建普通商品云的,或者包括用户访问和云控制的南北向流量(north-south traffic);但对于生成式AI云,市场上还没有解决方案,没有Ethernet能够满足生成式AI的需求。而Spectrum-4作为全球首个用于生成式AI东西向流量(east-west traffic)的Ethernet网络,则针对这个目标打造了全新的Ethernet解决方案。”

似乎在答记者时,Shainer还提到了包括博通现有交换产品,与Spectrum-4也并不构成竞争关系。介绍中,英伟达强调Spectrum-X打造的是无损(lossless)Ethernet网络,这一点可能在解释Spectrum-X平台时也尤为紧要。

 

Ethernet与InfiniBand之争

学过网络工程的同学,对于Ethernet——以太网应该非常熟悉。Ethernet也是个挺有年头的网络标准了,随时代发展也一直在进化。

之所以特别说无损lossless,是因为最初Ethernet设计就是个为有损lossy网络环境准备的。换句话说这种网络是允许丢包的。为了确保可靠性,IP网络上层需要TCP协议参与,即在数据包传输过程中如果发生了丢包,则TCP协议能够让发送方重新传输丢失的数据包。

因为这些错误修正机制,延迟即相应增加,对于某些类型的应用而言也就会有问题。而且为了应对网络中瞬时流量激增,交换需要付出额外的cache资源来临时存储信息,所以之前我们会说Ethernet交换芯片尺寸和成本会高于同等定位的InfiniBand芯片。

但“超算数据中心无法承受lossy网络。”黄仁勋说:“整个超算跑的负载成本都很高,网络中的任意损失都会很难承受。”再加上性能隔离之类的需求,lossy网络的确难以承载。关注英伟达和我们此前相关英伟达AI超算构建架构文章的同学,应该知道英伟达一直在用一种叫InfiniBand的networking通讯标准。InfiniBand常见于需求高吞吐、低延迟的HPC应用。和Ethernet更加通用的属性不同的是,InfiniBand更适用于数据密集型应用。

它其实也不是英伟达的专属,最早是包括Intel、IBM、微软等在内的不少企业都参与进来的——还有个专门的联盟叫IBTA。Mellanox是大约2000年前后开始推InfiniBand产品的。维基百科的介绍中提到,InfiniBand最初的目标是要在I/O方面替代PCI,在机房、集群互联替代Ethernet的。

很可惜InfiniBand赶上了互联网泡沫破裂的年代,其发展一度受到了抑制。Intel、微软之类的参与者都相继有了新选择。但据说2009年的超算TOP 500列表里,内部互联基于InfiniBand的已经有181个(其余的都是Ethernet),2014年这个数量过半——虽然很快万兆Ethernet在后续2年又后来居上。2019年英伟达收购Mellanox之时,Mellanox就已经是市面上仅剩的InfiniBand通讯产品主要供应商了。

其实单从设计初衷来看,80年代就诞生的Ethernet仅是追求多系统的信息互通。而InfiniBand的诞生,最初就是为了消除HPC场景下集群数据传输的瓶颈,比如延迟层面,其2层交换处理的设计就相当直接,可大幅降低转发延迟。所以它天然地适配HPC、数据中心、超算集群:高吞吐、低延迟、高可靠性都如此。

从可靠性的角度来看,InfiniBand本身有网络1-4层的完整协议定义:它藉由端到端流控机制来防止丢包,本身就达成了lossless无损属性。另外两者一个比较大的区别是,InfiniBand基于交换fabric网络设计,而Ethernet是基于shared medium共享通道。理论上来说,前者更能避免网络冲突问题。

既然InfiniBand这么好,英伟达为什么要搞Ethernet呢?从直觉来思考,Ethernet的市场基础、通用性和灵活性应该是个重要因素。黄仁勋在主题演讲中就谈到“我们想把生成式AI带到每个数据中心”,那么就要求向前兼容;“许多企业部署的都是Ethernet”,“要获得InfiniBand的能力对他们而言很难,所以我们将这样的能力带到了Ethernet市场”。这是Spectrum-4推广的业务逻辑。不过我们认为这绝对不是全部。

英伟达同时在搞Ethernet和InfiniBand产品,前者就是Spectrum Ethernet平台,而后者名为Quantum InfiniBand。如果去看英伟达的官方页,会发现InfiniBand解决方案“以更低的成本和复杂性,在HPC、AI和超级集群云基础设施之上,达成无以比拟的性能”;而Spectrum是为AI和云加速Ethernet交换。显然这两者是发生了某种程度的竞争的。

 

为什么是Ethernet?

黄仁勋在主题演讲中科普了一下不同类型的数据中心——实际上去年GTC上英伟达曾明确将数据中心分成六大类。而在我们今天讨论的AI场景下,数据中心可以分成两大类。其中一类是需要负责一大堆不同应用负载的,租户可能很多,负载之间的依赖关系也很弱。

但还有一类典型如超算或者现在流行的AI超算,其上租户非常少(裸金属少到1个),负载紧密耦合——针对大型计算问题需求高吞吐。这两种数据中心需求的基础设施差别是很大的。从直觉来判断,最原始的lossy环境的Ethernet就不适合后一种需求。原因前文已经谈到了。

最近SemiAnalysis写了一篇文章,特别谈到了InfiniBand存在的诸多问题——主要是技术层面的,可作为英伟达同时发展Ethernet的参考。这里提取其中的一些——虽然这些固有缺陷很难说有什么新鲜的,毕竟任何标准、协议或技术总是有利有弊的;姑且仅作参考。实际无论InfiniBand还是Ethernet,自身也都在不停进化。

InfiniBand的流控用的是credit-based flow control机制,翻译过来叫基于信用/积分的流控。每个链接会预分配一些特定的积分——反映链接带宽之类的属性。当某个数据包被接收、处理之后,接收端会向发送端返回积分(credit)。理想情况下,这样的系统能够确保网络不会过载,因为发送端在发出更多数据包之前,需要等待返回积分。

但这样的机制也存在不少问题。比如说某个发送端节点,给接收端节点发数据,如果发送数据的速度,快于接收端处理数据的速度,则接收端的buffer就可能被填满,接收端无法给发送端返回积分,那么因为积分耗尽,发送端也就无法发出更多的数据包;再比如接收端无法返回积分,若发送端也是其他节点的接收端,在带宽超载的情况下也就无法返回积分,导致背压扩散到更大范围;还有deadlock、不同组件产生的错误率导致的问题等等。

InfiniBand固有的一些问题,会随着整个系统的规模、复杂性增加而变得更严重。目前最大规模的InfiniBand商用实施方案应该来自Meta,某研究集群总共部署了16000个NIC和16000张A100 GPU。

这个规模当然不可谓不庞大,不过SemiAnalysis表示GPT-4的训练就需要更大规模,且未来“大模型”发展应当还有集群扩充的需求。理论上InfiniBand还能继续扩大整体容量,但它将遭遇固有问题的影响会越来越显著。从推理(inference)的角度来看,延迟和性能仍可受惠于InfiniBand,但对于推理负载而言,不同请求会以各种速度做持续性的传输;而且未来的架构,是需要在同一个大型集群内,以各种batch size囊括多个大型模型,这就要求持续不断的credit-based flow control变化。

积分流控机制很难快速响应网络环境的变化,网络内如果存在大量多样化的流量,接收端buffer状态快速变化;若网络出现拥塞,则发送端还在处理更早的积分信息,问题会变得更加复杂。而且如果发送端本身不停地在等待积分,以及数据传输两种状态间切换,也很容易造成性能颠簸。

再说点儿实际的:英伟达目前的Quantum-2达成的带宽在25.6TB/s,起码就数字来看是不及Spectrum-4的51.2TB/s的。更快的Quantum芯片和基础设施要等到明年,这在步调上就不大一样。另外从成本的角度来看,达成相同规模(8000+ GPU)的GPU常规部署,Quantum-2需要多一层交换,以及多得多的线缆——而且是成本比较高的光缆。则典型规模的InfiniBand网络部署成本是明显高于Ethernet的。(此处似乎没有考虑DPU、NIC的成本)

从客户的角度来看,Ethernet的市场还是比InfiniBand要大出许多的——这对于降低部署成本也是一部分。还有一些更具体的可对比项,比如说传统服务前端系统都是基于Ethernet的,以及InfiniBand对客户而言存在供应商绑定的问题,而Ethernet显然是给出了更多的选择的,在部署的弹性和扩展性上可能也会更好;技术层面,Ethernet似乎还存在一些光传输基础设施未来部署的潜在价值,有兴趣的读者还是可以去看一看SemiAnalysis的文章。

这些可能都是英伟达着力Ethernet的理论依据,或者英伟达在生成式AI云上选择了Ethernet的部分原因。但部分依据仅供参考的原因是,InfiniBand在英伟达手上实际也是多有进化的,很多固有问题都有缓解方案。

最后还是要谈一下文章最初提到的一个问题,即Ethernet原本是个lossy有损的网络。但实际上随着RoCE(RDMA over Converged Ethernet)之类技术的发展,原本InfiniBand的一些优势项也带到了Ethernet上。实际上技术扩展某种程度上就是集合不同技术的优点的,包括InfiniBand的高性能和lossless,Ethernet的通用性、成本和弹性等。

Spectrum-X平台特性中提到的RoCE就达成Ethernet网络的lossless,基于PFC(priority-based flow control)优先级流控来达成——这项机制仅依托于端点侧的NIC,而不是交换机设备。

另外RoCE++有一些新的优化扩展,比如说ASCK——处理丢包和抵达顺序问题的,接收端告知发送端只需要重传丢失或损坏的数据包,达成更高的带宽利用率;还有像是ECN、流控机制与错误优化,都有利于提升效率和可靠性。除此之外,为了缓解端点NIC在标准Ethernet with RoCE网络上的规模扩展问题,Bluefield NIC模式可以发挥作用;DPU的总体成本还是可以被Ethernet和一些新技术摊薄的。

黄仁勋在主题演讲里还特别提到Spectrum-X,主要为Ethernet带来了adaptive routing和congestion control两项重要特性。此外英伟达此前有特别和IDC合作,出过一篇Ethernet交换解决方案商业价值的白皮书报告,有兴趣的同学可以下载查看

在大规模AI应用里,或许Ethernet未来会是个必然选择。所以在Spectrum-X的宣传上,英伟达的口径是特别为生成式AI云所准备,“首个”针对生成式AI东西向流量的解决方案。但或许不止是Ethernet的通用性强这一个缘由,在AI HPC负载下,有一定概率全面转向Ethernet的可能性。

还是那句话,不同标准的发展本身就是在不停查漏补缺、汲取精华的过程,就像InfiniBand解决固有缺陷也存在各种缓解方案,InfiniBand的部分扩展属性亦对其应用于AI很有帮助。这就是选择和技术本身发展的比较问题了。我们可以等等看,后续英伟达是否会在InfiniBand和Ethernet的发展上有所倾斜,即便当前这两者有其各自的应用场景。

责编:Illumi
阅读全文,请先
您可能感兴趣
2023年到2024年,手机直连卫星的高潮即将到来,但由于卫星带宽资源和技术的限制,主要以卫星短消息为主。然而,我们可以期待,一张无所不在的“卫星互联天网”正在形成,彼时无论我们身处沙漠,还是海洋,都能利用卫星发短信、打电话,永不失联!
工信部将6425-7125MHz全部或部分频段划分用于IMT(含5G/6G)系统。这一政策风向不但决定了我国6G的研发进程,也会深刻地影响全球各国的部署“站队”,也算是给国内、国际的通信行业相关参与方做了一个技术指引。直接地说,在5G建设的同时,各个国家或地区都在抢占未来6G先机。
近日,中国移动通信集团发布了首颗纯自研RISC-V架构的LTE-Cat.1芯片,和首颗自研量产的蜂窝物联网通信芯片,并发布首个针对物联网泛智能硬件的全场景智能连接协议。
面对当前移动通信市场整体的需求疲软,紫光展锐既需要立足长远的战略定力,又要审时度势的市场应变能力。屡创成功的实战派帅才马道杰的到来,有望助力紫光展锐把握关键战略发展机遇期,借助紫光集团的战略资源优势实现进一步飞跃。
6月27日,紫光集团发布公告称,委派集团执行副总裁马道杰任紫光展锐董事,并选派其为紫光展锐董事长。原本由紫光集团委任的紫光展锐董事吴胜武不再担任紫光展锐董事、董事长。吴胜武作为紫光集团执行副总裁,集团将另有任用。
整体来看,NFC无线充电技术发展方向是朝着降低干扰、增大通信距离、小型化的方向发展。特别是未来随着越来越多的物联网设备加入,尤其是越来越多的微型低功耗物联网设备的产生,出于小型化、终端设备外形等因素考量,NFC无线充电技术将成为一个重要的趋势。NFC论坛和行业分析师甚至预测,2023年采用NFC无线充电技术的产品大放异彩。
实现“万物互联”是整个物联网行业的终极目标,据IoT Analytic统计,全球活跃的物联网终端数量预计2025年增长至270亿台,但距离业界期待的千亿级市场仍有较大差距。随着物联网场景的深度拓展,终端成本的刚性制约和应用场景带来的供能限制问题凸显。从物联网连接发展的趋势看,未来千亿级的“万物互联”必将建立在无源物联网的基础之上。
7月13日,以“应用引领集成电路产业高质量发展”为主题的第三届中国集成电路设计创新大会暨IC应用博览会(ICDIA 2023)举行。
每一次升级,都代表着品牌的蜕变;每一次蜕变,都源于品牌不断的进步;每一次进步,都将激发品牌的创新;每一次创新,都是品牌更好服务的开始。2023年7月,武汉芯源半导体CW品牌VI全面升
104HT系列适用于需要耐受高温的各种应用,包括电动车辆、太阳能、高压仪器、IC测试仪等。
中国半导体论坛 振兴国产半导体产业!   不拘中国、放眼世界!关注世界半导体论坛↓↓↓中国半导体行业协会关于维护半导体产业全球化发展的声明。近日,我协会注意到媒体广泛报道了一些美国芯片企业的领导人正试
“未来可能不是百模大战,而是万模群舞。”自ChatGPT掀起大模型的发展热潮之后,层出不穷的大模型已然蜂拥而入,风雷激荡。但在经历了最初的惊艳之后,行业已转移到对商业化落地的冷静观察,一方面业界认可垂
一、研究背景:近年来,睡眠障碍患病人群的数量和年龄范围正在不断增大,为了更好的帮助医生了解患者病情,往往需要利用传感器协助监测患者的睡眠情况,最常见的方式是通过人体的呼吸监测来观察。当人体呼气/吸气时
英国斯特拉思克莱德大学近期宣布开发 MicroLED 新型巨量转移技术,透过连续滚轮转移技术,可精准转移超 7.5 万颗 MicroLED,团队也对转移数量、良率开发自动量测系统。团队指出,滚轮转移制
今年初,Intel发布了12代酷睿的特殊版本Alder Lake-N系列,只有E核也就是小核,也就是当初的Atom系列的延续。首批包括i3-N305、i3-N300、N200、N100四款型号,4个或
今年上半年,在面板龙头厂商动态控产的背景下,LCD TV面板供需偏紧,加之整机厂商备货需求走强,带动TV面板价格持续稳步上升,而京东方、彩虹股份等厂商盈利能力也逐季改善。不过,在中小尺寸显示领域,由于
7月19日,聚灿光电发布半年报称,2023年上半年,公司实现营业收入为11.99亿元,同比增长19.21%;归母净利润2507.25万元,同比下降41.59%;扣非净利润-3061.24万元,亏损幅度
Micro LED 厂镎创董事长李允立表示,虽然景气市况波动,但对市场仍维持乐观态度,现在主要问题反而是产能不够,有车厂询问产能规划,但扩产会使损益平衡时间点往后移,因此会结合台湾公司,由他们出资产能
市场预估,偏光片厂明基材第2季获利将可期,因面板急单涌入,明基材第2季偏光板满载生产,医疗事业合并卫普后今年开始认列营收加上消费性医疗需求恢复,营收有望翻倍成长。此外,明基材将于未来3年投入50亿元台
中国半导体论坛 振兴国产半导体产业!   不拘中国、放眼世界!关注世界半导体论坛↓↓↓7月19日消息,据外媒报道,日本经济产业省信息产业科科长金指寿在回应台积电日本第二座工厂补贴问题时表示,“从持续性