随着AI模型规模越来越大,所需的训练硬件也需同步升级。然而,目前缺乏一种开放的互连标准来支持AI加速器间的高效通信。

随着人工智能(AI)模型规模越来越大,训练模型所需的硬件也必须同步升级。然而,目前缺乏一种开放的互连标准,用于支持AI加速器之间的通信。

AI对于内存的需求造成越来越大的压力,因为多个加速器之间需要共享内存,单一加速器的内存已无法容纳整个模型。虽然NVMe通信协议已针对储存处理进行微调,CXL也迅速崛起,以便能更好地优化内存资源,但目前加速器之间的连接仍依赖于专用技术,例如NVIDIA的NVLink。

近期发布的Ultra Accelerator Link (UALink)是一种开放解决方案,由多家交换机与加速器供货商共同开发。UALink联盟主席Kurtis Bowman在接受笔者采访时表示:“有了开放标准,企业就可以采购一套交换机,并真正能够用于多种类型的加速器中。”

Bowman表示,云计算公司对于开放标准的需求非常迫切,因为在数据中心为市场上的每一款加速器配置专属的互连架构并不符合经济效益。“我们也知道,那些大型推理模型需要数十甚至数百个加速器组成的集群,而训练模型的需求将会更加庞大。

他补充说,UALink 1.0将支持两种接口类型:基于IEEE 802.3dj物理层(PHY)每通道高达200Gbps的扩展连接,最多可连接1,024个AI加速器;以及基于PCIe Gen7物理层的每通道128Gbps扩展连接。

Bowman表示,UALink创造了一个开放的生态系统,可将加速器连接至交换机——交换机的数量取决于所需的加速器数量(1)。“这样的架构让我们能够有效地扩展规模。“他说。当每个加速器连接时,它们会组成一个看似单一的大型加速器集群,而连接在该加速器上的内存可供应用程序使用。

图1:UALink为许多AI加速器的扩展连接创造了一个开放生态系统。(来源:UALink联盟)

虽然UALink旨在成为一种开放标准,但Bowman表示,它利用的是AMD的Infinity Fabric协议,该协议已在数据中心使用超过十年了。Bowman说:“我们使用的这是一个经过充分验证的接口,它有助于让人们能够轻易上手,并确保其可用性。”

Bowman表示,Infinity Fabric包含硬件一致性,这对于连接数百个GPU的数据中心环境至关重要。但如果将这些功能放入互连接口中,将会导致性能下降,因此软件一致性能更高效地处理这些需求。“UALink使用软件一致性来维持小规模的一致性,并避免因硬件一致性造成的所有拥塞情况”。

UALink Consortium于2024年10月正式成立,目前已有超过50家成员,包括英特尔(Intel)等半导体公司,以及亚马逊(Amazon)、谷歌和微软等主要云计算公司。Bowman表示,UALink的标准现在是0.7版,预计将在2025年第一季度末推出1.0版。“我们正快速朝1.0规格迈进。”他补充说,这个发布日期与Ultra Ethernet第1版的发布日期一致。

Bowman强调,目前的重点是建立管道基础设施,并与NVIDIA和AMD等公司每年推出新产品的节奏保持一致(2)。他说:“这既是一个挑战,也是一个机会,因为它需要投入大量快速的资金。我们所要做的就是让这一规范符合产业进展的节奏。”

图2:UALink可创建扩展的加速器集群。(来源:UALink联盟)

他补充说,该UALink联盟希望避免像CXL规范那样的过渡版本,因为这可能减缓对技术的投资。“CXL的早期版本在产品推出前面临了一些挑战,直到2.0版本出现后,才开始实现更广泛的应用。”

Bowman指出,鉴于CXL所遇到的挑战,它并不适合UALink正进行的工作。首先,它采用以主机为中心的设计——所有的东西都以CPU为核心。他补充说,该规格的临时修订更新速度也较缓慢。“CXL是一种很棒的接口,它是一种非常通用的接口。”

Bowman表示,UALink是一种高度针对性的接口方案。“拥有自己的团队是确保我们快速站稳脚跟的一种方式。”他说,“我们认为UALink的独立设计有助于快速起步,并为扩大通信规模创造了一个开放的生态系统。因为它提供了低延迟、高带宽的特性,并能够连接数百台加速器,所以我们认为它是目前最有效率的接口标准之一。”

(原文刊登于EE Times美国版,参考链接:Open Standard Aims to Connect AI Accelerators,由Franklin Zhao编译。)

本文为《电子工程专辑》2025年2月刊杂志文章,版权所有,禁止转载。免费杂志订阅申请点击这里

责编:Franklin
本文为EET电子工程专辑原创文章,禁止转载。请尊重知识产权,违者本司保留追究责任的权利。
阅读全文,请先
您可能感兴趣
韩国公平贸易委员会宣布了一项重要决定,对美国半导体巨头博通提起诉讼。博通被指控利用其在有线电视机顶盒SoC市场的垄断地位,迫使韩国机顶盒制造商在采购竞标中排除其他竞争对手的产品方案。通迅速提出一系列纠正方案以规避更严厉的制裁。KFTC虽决定提起诉讼,但倾向于接受博通的提议......
龚诚表示,“该技术体现了光电融合的巨大优势,是微波光子学领域的新尝试。利用该技术,未来我们可以用光来实现对任意电磁波(微波、太赫兹、红外等)的高速探测、调制甚至计算。”
电视信号主要分为模拟信号和数字信号,不同类型的信号在传输和接收上都有特定的要求 ……
Philip Brace接任Skyworks CEO后,辞去了在Lantronix Inc.的董事会职务。他目前还担任Inseego和Blackberry Limited董事会成员。
这一成绩不仅显示出华为在复杂多变的市场环境中保持了强劲的增长势头,也标志着其消费者业务重回增长轨道,智能汽车解决方案业务快速发展。
u-blox计划在2025年逐步淘汰其蜂窝物联网业务,这一决定主要基于蜂窝物联网业务的盈利能力不足以及市场竞争加剧等因素......
全球人形机器人领域上市公司的百强名单将人形机器人产业链区分为大脑、身体以及集成三大核心环节,覆盖全球共计100家上市公司。中国共37家企业上榜(中国大陆32家,台湾5家),其中深圳7家,占中国大陆上榜企业近四分之一,包括比亚迪、腾讯、优必选、速腾聚创、雷赛智能、兆威机电、汇川技术等......
DeepSeek模型虽降低AI训练成本,但AI模型的低成本化可望扩大应用场景,进而增加全球数据中心建置量。光收发模块作为数据中心互连的关键组件,将受惠于高速数据传输的需求。未来AI服务器之间的数据传输,都需要大量的高速光收发模块......
凭借新一代3nm制程工艺与全新架构,骁龙® 8至尊版的单核和GPU 性能提升均超过 40%,使得Find N5在性能上实现质的飞跃……
简化物联网连接:应用就绪型软件构建模块
2月10日,市场调查机构 IDC 发文称,2024 年全年中国平板电脑市场出货量为 2985 万台,同比增长 4.3%,市场迎来回暖。报道称, 2024 年第 4 季度市场出货量为 786 万台,受库
在当今竞争激烈的商业环境中,企业运营效率的高低往往决定了其在市场中的地位和生存能力。而信息化系统的应用,正逐渐成为企业提升运营效率的关键因素。众所周知,信息化系统能够实时监控企业生产、销售等各个环节的
2月11日,特斯拉上海储能超级工厂投产仪式今日在上海临港举行,这一重要项目的投产标志着特斯拉在华业务的进一步拓展。特斯拉上海储能超级工厂于 2024 年 5 月正式在上海临港新片区开工建设。从开工到产
我是芯片超人花姐,入行20年,有40W+芯片行业粉丝。有很多不方便公开发公众号的,关于芯片买卖、关于资源链接等,我会分享在朋友圈。扫码加我本人微信👇1.  信越化学(Shin-Etsu Chemica
恩智浦 NXP 荷兰当地时间昨日宣布已同边缘 NPU 企业 Kinara 达成最终协议,计划以 3.07 亿美元现金收购后者。这笔交易预计将于 2025 上半年完成,但须满足包括监管部门批准在内的惯例
  电子无尘车间在设计时需要重视多个问题,以确保生产环境的洁净度、生产效率和安全性。以下是需要重视的设计问题,具体随合洁科技电子洁净工程公司一起来了解下吧! &emsp
近日,工业和信息化部公布了国家首批卓越级智能工厂名单,传音控股旗下重庆传音科技有限公司(以下简称“重庆传音科技”)凭借先进的智能制造水平获评“卓越级智能工厂”。智能工厂梯度培育分基础级、先进级、卓越级
近年来,贵港市港北区深入实施产业转型升级三年攻坚行动,紧盯全国产业链布局和东部产业转移趋势,确立PCB(印制电路板)产业作为重点产业发展,加大招商引资力度,推动PCB产业“从无到有”,聚链成势。目前,
新春伊始,苏州工业园区企业以新促兴,开启新一年奋进之旅。2月10日上午,哈曼汽车电子系统(苏州)有限公司车载显示智能制造工厂开业。哈曼集团在该事业领域全球布局的第一条生产线将在这里投入使用,未来满产后
据路透社报道,宁德时代计划本周提交港股上市申请,筹资至少 50 亿美元(当前约 365.4 亿元人民币)。2024年12月,宁德时代表示,经公司股东大会审议通过后,最快在 18 个月内完成在港上市,并