随着人工智能(AI)模型规模越来越大,训练模型所需的硬件也必须同步升级。然而,目前缺乏一种开放的互连标准,用于支持AI加速器之间的通信。
AI对于内存的需求造成越来越大的压力,因为多个加速器之间需要共享内存,单一加速器的内存已无法容纳整个模型。虽然NVMe通信协议已针对储存处理进行微调,CXL也迅速崛起,以便能更好地优化内存资源,但目前加速器之间的连接仍依赖于专用技术,例如NVIDIA的NVLink。
近期发布的Ultra Accelerator Link (UALink)是一种开放解决方案,由多家交换机与加速器供货商共同开发。UALink联盟主席Kurtis Bowman在接受笔者采访时表示:“有了开放标准,企业就可以采购一套交换机,并真正能够用于多种类型的加速器中。”
Bowman表示,云计算公司对于开放标准的需求非常迫切,因为在数据中心为市场上的每一款加速器配置专属的互连架构并不符合经济效益。“我们也知道,那些大型推理模型需要数十甚至数百个加速器组成的集群,而训练模型的需求将会更加庞大。
他补充说,UALink 1.0将支持两种接口类型:基于IEEE 802.3dj物理层(PHY)每通道高达200Gbps的扩展连接,最多可连接1,024个AI加速器;以及基于PCIe Gen7物理层的每通道128Gbps扩展连接。
Bowman表示,UALink创造了一个开放的生态系统,可将加速器连接至交换机——交换机的数量取决于所需的加速器数量(图1)。“这样的架构让我们能够有效地扩展规模。“他说。当每个加速器连接时,它们会组成一个看似单一的大型加速器集群,而连接在该加速器上的内存可供应用程序使用。
图1:UALink为许多AI加速器的扩展连接创造了一个开放生态系统。(来源:UALink联盟)
虽然UALink旨在成为一种开放标准,但Bowman表示,它利用的是AMD的Infinity Fabric协议,该协议已在数据中心使用超过十年了。Bowman说:“我们使用的这是一个经过充分验证的接口,它有助于让人们能够轻易上手,并确保其可用性。”
Bowman表示,Infinity Fabric包含硬件一致性,这对于连接数百个GPU的数据中心环境至关重要。但如果将这些功能放入互连接口中,将会导致性能下降,因此软件一致性能更高效地处理这些需求。“UALink使用软件一致性来维持小规模的一致性,并避免因硬件一致性造成的所有拥塞情况”。
UALink Consortium于2024年10月正式成立,目前已有超过50家成员,包括英特尔(Intel)等半导体公司,以及亚马逊(Amazon)、谷歌和微软等主要云计算公司。Bowman表示,UALink的标准现在是0.7版,预计将在2025年第一季度末推出1.0版。“我们正快速朝1.0规格迈进。”他补充说,这个发布日期与Ultra Ethernet第1版的发布日期一致。
Bowman强调,目前的重点是建立管道基础设施,并与NVIDIA和AMD等公司每年推出新产品的节奏保持一致(图2)。他说:“这既是一个挑战,也是一个机会,因为它需要投入大量快速的资金。我们所要做的就是让这一规范符合产业进展的节奏。”
图2:UALink可创建扩展的加速器集群。(来源:UALink联盟)
他补充说,该UALink联盟希望避免像CXL规范那样的过渡版本,因为这可能减缓对技术的投资。“CXL的早期版本在产品推出前面临了一些挑战,直到2.0版本出现后,才开始实现更广泛的应用。”
Bowman指出,鉴于CXL所遇到的挑战,它并不适合UALink正进行的工作。首先,它采用以主机为中心的设计——所有的东西都以CPU为核心。他补充说,该规格的临时修订更新速度也较缓慢。“CXL是一种很棒的接口,它是一种非常通用的接口。”
Bowman表示,UALink是一种高度针对性的接口方案。“拥有自己的团队是确保我们快速站稳脚跟的一种方式。”他说,“我们认为UALink的独立设计有助于快速起步,并为扩大通信规模创造了一个开放的生态系统。因为它提供了低延迟、高带宽的特性,并能够连接数百台加速器,所以我们认为它是目前最有效率的接口标准之一。”
(原文刊登于EE Times美国版,参考链接:Open Standard Aims to Connect AI Accelerators,由Franklin Zhao编译。)
本文为《电子工程专辑》2025年2月刊杂志文章,版权所有,禁止转载。免费杂志订阅申请点击这里。
