详解NVLink架构和技术演进

智能计算芯世界 2025-05-10 07:54
图片

本文来自“ ZOMI”,为了克服传统 PCIe 通信带宽的限制,英伟达开创性地推出了一种名为 NVLink 的高速互连架构。这项技术首次亮相于 P100 GPU 中,标志着高性能计算通信技术的一大飞跃。NVLink 的设计初衷是为了超越传统的 PCIe 通道,实现 GPU 间以及 GPU 与 CPU 之间更高效率、更高带宽的数据传输。

NVLink 的引入不仅仅是技术上的创新,它还代表了英伟达对未来计算架构的深远考量。与 PCIe 相比,NVLink 提供了显著更高的通信带宽和更低的延迟,这对于数据密集型的应用,如深度学习、科学计算和大规模模拟等领域,意味着巨大的性能提升。

更多GPU技术请参考“《100+份AI芯片技术修炼合集》”,本文来自"GPU原理详解:NVLink基础与结构",“GPU原理详解:Tensor Core原理”,“GPU原理详解:Tensor Core架构演进”,“GPU原理详解:Tensor Core深度剖析”,“GPU原理详解:分布式训练与NVLink发展”和“GPU原理详解:NVSwitch基础和原理”。

值得一提的是,NVLink 的设计也考虑到了 CPU 与 GPU 之间的高带宽通信需求。这一点尤其重要,因为它为异构计算提供了更加紧密和高效的集成方式。虽然基于 x86 架构的 AMD 和 Intel 可能不会直接采用 NVLink,但英伟达与 IBM 的合作展现了 NVLink 技术在非 x86 架构中的巨大潜力。通过在 IBM 的 POWER 微处理器上实现 NVLink,展示了一种全新的、去除 PCIe 瓶颈的通信方式,为高性能计算系统提供了更加高效的数据交换路径。

初代 NVLink 结构

第一代 NVLink 技术采用了一种精巧的设计,每条 NVLink 是由一对双工双路信道组成,通过巧妙地将 32 条配线组合起来,形成了 8 对不同的配对。这种独特的结构使得每个方向上能够实现高效的数据传输,具体来说,就是通过 2 位双向传输(2bi)乘以 8 对配对(8pair)再乘以 2 条线(2wire),最终形成了 32 条线(32wire)的配置。

如上图所示,在 P100 GPU 上,英伟达搭载了 4 条这样的 NVLink 通道,每条通道能够提供双向总共 40GB/s 的带宽。这意味着,整个 P100 芯片能够达到惊人的 160GB/s 的总带宽,为数据密集型的应用提供了强大的数据处理能力。

通过这种技术,不仅解决了传统 PCIe 通信带宽瓶颈的问题,而且还为 GPU 之间以及 GPU 与 CPU 之间的通信提供了一条更快、更高效的数据传输路径。为处理更加复杂的计算任务,构建更加强大的计算系统铺平了道路。

NVLink 实现细节

下面我们来解析下 NVLink 连接的技术细节:

首先,英伟达的 P100 GPU 在其设计中融入了四条 NVLink 通道,这一创新不仅提升了数据传输的速度,还极大地增强了系统的整体性能。P100 通过这些高速通道,实现了高达 94%的带宽效率,这一数字在当时是非常令人印象深刻的,它意味着几乎所有的数据传输都能以极高的效率完成,极大地减少了数据在传输过程中的损耗。

其次,更为重要的是,NVLink 不仅支持 GPU 之间的数据读写操作,还支持原子操作到对等 GPU,这为复杂的计算任务和数据处理提供了更加灵活和强大的支持。此外,P100 还能够通过 NVLink 与支持 NVLink 的 CPU 进行数据读写操作,这一特性极大地提升了 CPU 与 GPU 之间的协同工作效率,为异构计算环境中的数据共享和任务协调提供了更加高效的解决方案。

最后,NVLink 的另一个显著特点是其链接可以被“捆绑”起来以实现更高的带宽。通过将多条 NVLink 通道组合使用,可以进一步提升数据传输速度,满足那些对数据传输速度有极高要求的应用场景。这种灵活的配置方式,使得 P100 能够根据具体的应用需求和工作负载,动态调整数据传输策略,从而优化性能表现。

NVLink 互联拓扑

为了实现 GPU 间的高效链接和协作计算,就需要基于 NVLink 系统配置和性能成本要求,来合理的配置 GPU 之间的 NVLink 通道的物理布局和连接方式。

初代 DGX-1 通常采用了一种类似于图的互联形式。不过,IBM 在基于 Power8+微架构的 Power 处理器上引入了 NVLink 1.0 技术,这使得英伟达的 P100 GPU 可以直接通过 NVLink 与 CPU 相连,而无需经过 PCIe 总线。这一举措实现了 GPU 与 CPU 之间的高速、低延迟的直接通信,为深度学习和高性能计算提供了更强大的性能和效率。
通过与最近的 Power8+ CPU 相连,每个节点的 4 个 GPU 可以配置成一种全连接的 mesh 结构。这种结构使得 GPU 之间可以直接交换数据,并在深度学习和计算密集型任务中实现更高效的数据传输和协作计算。

此外,由于 GPU 所需的 PCIe 通道数量超过了芯片组所能提供的数量,因此每一对 GPU 将连接到一组 PCIe 交换机上,然后再与志强处理器相连,如上图所示。随后,两块 Intel 处理器通过 QPI 总线相连。

这种配置确保了每个 GPU 都能获得足够的 PCIe 带宽,以便在深度学习和高性能计算任务中能够高效地进行数据传输和处理。同时,通过 QPI 总线连接的两块 Intel 处理器也为系统提供了高速的 CPU 之间通信通道,进一步提升了整个系统的性能和效率。

第五代 NVLink

在 2024 年的 Blackwell 架构中英伟达继续对其服务器带宽和可扩展性方面进行迭代。

总体上看,英伟达将 NVLink 的带宽从每 GPU 900GB/s 增加了一倍,达到每 GPU 1800GB/s。与上一代产品相比,这是过去几年来 NVLink 带宽的最大跃升,因为 2022 Hopper 架构的 NVLink 带宽仅比上代提高了 50%。

值得注意的是,尽管英伟达将 GPU 芯片数量翻倍,互连带宽也翻了一倍,因此每个芯片接收的数据量并没有改变。然而,由于两个芯片需要作为单个处理器一起工作,因此需要传输和重新排列的数据总量显着增加。

另一个有趣的方面是,每个 GPU 的 NVLink 数量没有改变,GH100 Hopper 的 NVLink 容量为 18 个链接,Blackwell GPU 的 NVLink 容量也是 18 个链接。因此,NVLink 5 带来的所有带宽增益都来自于链路内每个高速对的 200Gbps 更高信号传输速率。这与前几代 NVLink 的模式是一致的,每次迭代都会使信号传输速率翻倍。

除此之外,由于 NVLink 4 的链路数量保持不变,本地芯片拓扑选项基本上也保持不变。英伟达的 HGX H100 设计结合了 4 路和 8 路设置,HGX B200/B100 设置也将相同。这并不意味着英伟达没有增加 NVLink 域中 GPU 数量的雄心,但这将在机架级别而不是节点级别实现。

小结与思考

  • NVLink 技术的重要性:随着神经网络模型参数量的激增,传统的 PCIe 总线已无法满足 GPU 间及 GPU 与 CPU 间的高速数据传输需求,NVLink 技术通过提供远超 PCIe 的传输速度和低延迟,有效解决了这一瓶颈问题。

  • NVLink 的技术细节:NVLink 通过创新的通道设计和高效的数据包结构,实现了高带宽利用率和错误检测能力,其灵活的拓扑结构和对等通信支持,为大规模 GPU 集群的高效协作计算提供了可能。

  • NVLink 的发展与演进:自 P100 GPU 首次引入 NVLink 以来,该技术已经历了多代发展,最新一代的 NVLink 在 Blackwell 架构中实现了每 GPU 1800GB/s 的惊人带宽,进一步推动了高性能计算和神经网络模型训练的能力。

本文所有资料都已上传至智能计算芯知识”星球。如《60+份AI Agent技术报告合集》”,“《清华大学:DeepSeek报告13部曲合集》”,“浙江大学:DeepSeek技术20篇(合集)”,“《300+份DeepSeek技术报告合集》”,“《100+份AI芯片技术修炼合集》”,“800+份重磅ChatGPT专业报告,加入星球获取严选精华技术报告。

下载链接:

重磅合集
1、《70+篇半导体行业“研究框架”合集》
2、《56+份智能网卡和DPU合集
3、《14份半导体“AI的iPhone时刻”系列合集》
4、《21份走进“芯”时代系列深度报告合集》
5、800+份重磅ChatGPT专业报告
6、《92份GPU技术及白皮书汇总》
7、《11+份AI的裂变时刻系列报告》

8、《3+份技术系列基础知识详解(星球版)》

9、《12+份Manus技术报告合集》

10、《100+份AI芯片修炼合集》

11、《60+份AI Agent技术报告合集》 

《100+份AI芯片技术修炼合集》

《300+份DeepSeek技术报告合集》

《42篇半导体行业深度报告&图谱(合集)

亚太芯谷科技研究院:2024年AI大算力芯片技术发展与产业趋势

SSD闪存技术基础知识全解(知识星球版)
服务器基础知识全解(知识星球版)
存储系统基础知识全解(知识星球版)
2025新技术前瞻专题系列合集
《科技龙头巡礼专题:华为技术合集》
1、科技龙头巡礼专题(一):如何看待华为盘古大模型5.0? 
2、科技龙头巡礼专题(二):华为欧拉五问五答 
3、科技龙头巡礼专题(三):国产算力AI芯片专题,一文读懂华为昇腾310芯片

本号资料全部上传至知识星球,更多内容请登录智能计算芯知识(知识星球)星球下载全部资料。


图片

免责申明:本号聚焦相关技术分享,内容观点不代表本号立场,可追溯内容均注明来源,发布文章若存在版权等问题,请留言联系删除,谢谢。



温馨提示:

请搜索AI_Architect”或“扫码关注公众号实时掌握深度技术分享,点击阅读原文获取更多原创技术干货


图片
图片

智能计算芯世界 聚焦人工智能、芯片设计、异构计算、高性能计算等领域专业知识分享.
评论
  • 随着智慧居家中与智能家电快速发展,各类产品纷纷透过无线技术和行动软件(APP)实现更智能的服务,让原本单一功能的产品,逐步进化变身为多功能且提供人性化功能的智能家电。本篇的主角-智慧居家门铃(Doorbell),正是其中具代表的应用之一。智能门铃整合了传统门铃与对讲机功能,再加上摄影机的功能,进而成为新世代的智能产品!用户可以透过镜头,立即看到来访者并进行对话。更进阶的应用则是结合高分辨率的摄影机、无线连线与APP整合,让用户不再经由传统有线线路,即可远程实时了解门外的一切状况。实测案例本次案例
    百佳泰测试实验室 2025-06-19 13:42 419浏览
  • 一、项目背景与应用场景文件重命名在日常办公与设计领域极为常见:批量图片重命名(IMG001 → 产品01)批量 Word、PDF 改名(合同_张三 → 合同_2024张三)视频、音频素材整理命名规范化手工处理耗时、容易出错,而 Python 可助力一键处理,还能提供可视化界面!因此本篇文章将手把手带你使用 Python 的 Tkinter 模块开发一个功能完整的“批量重命名”桌面工具,附图演示界面效果。二、项目准备1. 安装环境Tkinter 是 Python 标准库,无需单独安装:bash复制
    小菜菜编程 2025-06-18 05:58 14898浏览
  • Micro-OLED显示技术具有高刷新率、高亮度低功耗、小体积等特点,是微显示领域的优选方案。针对Micro-OLED CVBS显示驱动需求,上海冠显(TDO)设计的驱动方案,实现CVBS信号到Micro-OLED显示屏的稳定转换和显示控制,将满足行业对高质量、高性能显示解决方案的迫切需求,为XR、军工、工业及医疗等应用领域提供更优质的视觉体验。方案架构 显示屏驱动板TV103F1CSFS01 是TDO自主开发的单目硅基 OLED 显示屏驱动板,以 SH1.0连接器为 CVB
    冠显光电MicroOLED代理视涯 2025-06-18 16:32 937浏览
  • 在竞争白热化的智能汽车赛道,深蓝汽车近期因一系列“迷之操作”,被舆论的熊熊烈火炙烤得焦头烂额。事情起因是,大量深蓝汽车老车主公开吐槽称,深蓝汽车在没经过车主同意的情况下在车机大屏幕投放广告。为此,深蓝汽车及其CEO邓承浩发文道歉,并表示:内部已进行了流程优化,未来将不再通过车机通道给用户推送权益提醒。不过,道歉后深蓝汽车对用户隐私条例进行了更新,主要新增了用户数据采集,如果用户不同意更新,则只能以游客身份访问App。所以又有网友辣评,“这是要强行让大家同意看广告?”对此,深蓝汽车法务部发文回应:
    用户1742991715177 2025-06-17 18:21 638浏览
  • 概述在工业自动化领域,PLC(可编程逻辑控制器)是生产过程的核心,其性能直接影响系统的稳定性和效率。然而,在多主站应用场景下,传统PLC往往面临诸多挑战,如协议兼容性不足、扩展性受限以及高昂的License费用,这些都增加了系统部署的复杂性和成本。宏集Berghof PLC基于CODESYS平台,凭借其强大的多主站支持能力和灵活的License选项,为工业控制提供了高效、灵活且经济的解决方案,助力企业优化自动化系统架构。传统PLC多主站应用的挑战在许多自动化应用中,设备需要同时支持多个通信主站,
    宏集科技 2025-06-19 10:58 357浏览
  • 一、应用背景:为什么需要图像批量加水印?在电商、媒体和内容创作领域,加水印是保护图片版权的基本手段。防止盗图、转载、抄袭给公司 logo、作者信息、网址打标识批量图片一次性处理,提升效率如果每天需要对几十、上百张图片加水印,使用 PS 或手工拖拽会非常繁琐。Python 可以:✅ 一键批量加水印✅ 支持透明度、字体、颜色设置✅ 自定义水印位置与旋转角度✅ 批量输出为 JPEG、PNG 等格式二、准备工作与开发环境1. 安装核心图像处理库 Pillowbash复制编辑pip install pil
    小菜菜编程 2025-06-19 07:26 942浏览
  • 概述相关API函数举例:定时发送一个事件总结概述ESP32有一组外设--定时器组。它可以选择不同的时钟源和分配系数。该定时器应用灵活,超时报警可以自动更新计数值。相关API函数1.定时器配置结构体typedefstruct { gptimer_clock_source_tclk_src; /* 定时器时钟源,在clk_tree_defs.h中有个枚举soc_periph_gptimer_clk_src_t */ gptimer_count_direction_tdirection;
    二月半 2025-06-17 16:39 14443浏览
  • 文/Leon编辑/cc孙聪颖6月9日,美团在北京美团总部恒电大厦举行股东周年大会,美团创始人、CEO王兴携一众高管出席。在回答股东问题的环节,王兴谈及与京东、淘宝闪购的竞争时表示:“第一,我们非常欢迎更多参与者入场的;第二,再次重申美团是坚决反对内卷的;第三,我们对长期是很有信心的。”然而,据自媒体《划重点》公开报道称,有参会股东透露,疑似提前安排好的问题和管理层全程读稿式的回答令部分现场股东感到不满。在会议结束后,现场股东将负责市场和投资的副总裁徐思嘉围了起来,在小会议室继续沟通了半个小时。不
    华尔街科技眼 2025-06-17 19:11 707浏览
  • 作为自然界最敏锐的“通用语言”之一,从破土而出的植物新芽到钢铁熔炉中的炽热火焰,温度一直都在无声地影响着万物运行的节奏,它不仅是农业播种与收获、牧业养殖与繁育、工业材料加工与产品制造等领域的关键生产因素之一,更是所有地球生物赖以生存的重要气候参数。因此,如何更好地“读懂”温度已成为各行各业实现提质增效的重要突破点之一,而数字温度传感器就是人类通过发展物联网技术让温度实现快速“说话”的重要途径。数字温度传感器是一种能直接输出数字信号的传感器,具有微型化、易集成、低功耗与高精度等优势,已被广泛应用于
    华普微HOPERF 2025-06-19 09:39 1063浏览
  • 中国汽车市场以年均超 3000 万辆的销量规模(占全球 1/3以上),正推动安全标准从被动防护向主动预防转型。2024 年 7 月实施的 C-NCAP ( China New Car Assessment Program)修订版首次将驾驶员监控系统(DMS)、道路特征识别(RFR)纳入评分体系,其中 DMS 占主动安全分值 40%(总分 2 分),检测准确率需≥90%。这一变革不仅响应工信部 GB/T 41796-2022 等三项国家标准要求,更标志着中国
    康谋 2025-06-18 10:25 308浏览
  • 当数千伏工业电机快速启停时、当高速充电桩断电恢复时、当光伏逆变器遭遇雷击时,高压侧电路可能会因电感电流突变或浪涌耦合,产生幅值达母线电压数倍的电压尖峰。而在缺乏有效电气隔离措施或在寄生电容耦合作用的情况下,这些电压尖峰会迅速传导至低压侧电路,瞬间击穿MCU、传感器等敏感元器件,严重时还会威胁到操作人员的生命安全。因此,在现代电力电子系统的高低压电路之间引入隔离芯片,建立安全可靠的电气隔离屏障,已成多项安全标准与通用规范中的明确要求与刚性规定。其不仅能防止高压浪涌、短路漏电等不良现象损坏敏感元器件
    华普微HOPERF 2025-06-18 15:52 989浏览
  • 在RoCE v2协议中,RoCE v2队列是数据传输的最底层控制机制,其由工作队列(WQ)和完成队列(CQ)共同组成。其中工作队列采用双向通道设计,包含用于存储即将发送数据的发送队列(SQ)和用于存储已接收到的数据的接收队列(RQ),二者共同组成了端到端的数据传输管道(Pipeline)每一个SQ与RQ绑定起来称为队列对(QP),每个队列对中包含有若干个工作队列元素(WQE)和一些其他元素如本地接收队列指针、本地发送队列指针、远程接收队列指针、远程发送队列指针等。同样的,每一个CQ中也存在着若干
    zzbwx_326664406 2025-06-18 11:49 185浏览
我要评论
0
点击右上角,分享到朋友圈 我知道啦
请使用浏览器分享功能 我知道啦