MoE大模型迎来“原生战友”:昇腾超节点重构AI基础设施

原创 Alter聊科技 2025-05-18 09:04

训练系统的可用性,决定着智能化的速度。无法解决资源利用率低、系统稳定性差、通信带宽瓶颈的传统AI集群,已经不符合大模型的创新趋势,亲和MoE的昇腾超节点给出了新解法。

撰文张贺飞
编辑沈菲菲

对AI比较关注的话,大概率会听到下面两个“时髦”的概念:

一个是Scaling Law,通常被翻译为“规模定律”,得出了一个通俗易懂的结论——“模型越大,性能越好。”

另一个是MoE架构,中文名称是混合专家模型,相对应的概念是稠密(Dense)模型。如果说稠密模型一个“通才”,由一个“专家”处理多种不同的任务,MoE则是将任务分门别类,分给多个“专家”进行解决。

Scaling Law和MoE的出镜率越来越高,意味着大模型的参数量将越来越大,同时开始提升“能力密度”。直接相关的就是大模型的训练和推理,正在从粗放烧钱到精细调优,从堆算力转向算力利用率最大化。

站在大模型工程化创新的十字路口,恰逢鲲鹏昇腾开发者大会2025前夕,“昇腾超节点”迅速成为技术圈的热门话题。

由此产生的一个问题是:MoE架构大模型的训练都遇到了哪些挑战,昇腾给出了什么新解法?

01.
MoE架构成主流,
大模型训练遇到“三座大山”

Mixtral、DeepSeek R1、Llama 4、Qwen3……近一年现象级刷屏的大模型,清一色地采用了MoE架构。

原因离不开MoE的架构创新。

每个专家负责任务的一部分,极大地提升了模型的可扩展性;每个专家都能针对整个问题的特定方面进行微调,进一步提升了模型的专业化和准确性;每次请求只激活部分专家,显著减少了每次推理的计算负荷……


当MoE架构演变为大模型的主流范式,由服务器、存储、网络等设备堆叠而成的传统集群,在大模型训练上遇到了“三座大山”。

一是资源利用率低。

MoE架构对负载均衡非常敏感,路由机制如果分布不均,某些专家会频繁被调用,而其他专家几乎闲置。

传统AI集群部署MoE模型时,每台服务器只部署部分专家,缺乏全局调度能力。由于路由机制无法感知底层资源状态,可能导致部分服务器的使用率大于90%,部分服务器几乎不参与计算。结果就是,GPU的利用率远低于理论峰值,直接拉长了模型的训练周期,提升了能耗与成本。

二是系统稳定性差。

MoE架构依赖动态路由+专家选择,对系统的持续稳定性要求远高于传统Dense模型,让工程的复杂度陡升。

在传统AI集群上训练MoE模型,任何一个节点的故障,都可能导致整个训练任务失败。比如某MoE大模型的训练过程,由于集群规模超过1000张加速卡,平均无故障运行时间不足6小时,每24小时需重新调度两次以上,单次训练需要数天乃至数周,运维人员长期处于高强度监控状态。

三是通信带宽瓶颈。

MoE架构的“小专家”,理论上可以节省计算资源,前提是能灵活高效地选择和调度,对通信带宽提出了极高要求。

在传统AI集群中,GPU之间通过PCle或InfiniBand通信,激活路由涉及大量跨卡、跨节点访问,导致在All-to-All通信模式下,MoE架构的通信压力远大于Dense架构,训练速度甚至比Dense更慢。当GPU资源被通信“拖死”,哪怕是业界主流的高带宽GPU,训练效率也难以线性提升。

以上还只是大模型训练时的常见痛点。

倘若推理阶段依然部署在传统AI集群上,在不支持高频动态路由和异构推理请求的环境下,用户请求要触发不同专家组合,再加上请求跳转至跨节点专家时时延大,有些请求的延迟高达200ms以上。

训练系统的可用性,决定着智能化的速度。无法解决资源利用率低、系统稳定性差、通信带宽瓶颈的传统AI集群,已经不符合大模型的创新趋势。

02.
更亲和MoE架构,
“昇腾超节点”有何不同?

传统AI集群的本质是做加法,即通过硬件堆叠的方式提升算力,在大模型早期确实奏效,短板也很明显。

被技术圈追捧的昇腾超节点,可以看作是算力集群走向“乘法”式增长的标志,不仅仅是计算,进一步结合了存储、通信等能力,计算性能倍增的同时,实现了时延、吞吐、负载均衡等能力的整体跃迁。


用一句话总结的话,昇腾超节点实现了让384张卡像一台计算机一样工作,更亲和MoE架构。

根源是昇腾的四个针对性创新。

第一个是自研高速互联协议,能够将成百上千个NPU以TB级带宽超高速互联,大幅提升了并行计算的通信效率。

相较于传统集群,实现超低延迟、高带宽通信的昇腾超节点,大模型训练的All-to-All通信性能可提升5倍,send/recv集合通信性能可提升7倍,进而大幅降低了整体通信占比,让计算少等待、不等待。打破了通信上存在的瓶颈,整体训练效率提升了3倍、推理吞吐提升了6倍。

第二个是软硬件协同调度,通过异构计算平台CANN的协同,支持专家调度感知训练负载与NPU负载实时状态。

针对MoE模型训练中专家热点分布造成部分计算节点过载的问题,昇腾“超节点架构”能够依据MoE结构中专家分布以及每层的计算需求,精细地将个模型切分至不同节点,更合理分配资源,提高整体资源利用率,同时可运行多种并行策略并动态调整,针对实时的负载情况精准分配计算资源。

第三个是全局内存统一编址,所有的节点共享一套全局内存体系,数据无需频繁搬移,以此来提高训练的效率。

DeepSeek R1已经有288个专家,不排除大模型专家数量越来越多的可能。支持全局内存统一编址的昇腾超节点,具备更高效的内存语义通信能力,通过更低时延指令级内存语义通信,可满足大模型训练/推理中的小包通信需求,提升专家网络小包数据传输及离散随机访存通信效率。

第四个是系统稳定性的提升,保证训练不中断、推理更可靠,大幅降低了MoE大模型的部署和运维门槛。

比如MoE训练过程一旦某专家节点异常,可能导致全局失败的问题。昇腾超节点采用了7平面的链路设计、链路故障秒级切换、算子级重传等可靠性能力,确保大模型训练不中断,平均无故障运行时长从几小时提升到几天。同时支持更敏捷的断点续训,故障恢复时长从小时级降低至15分钟。

可以佐证的是,基于超节点设计的AI集群Atlas 900 A3 SuperCluster,在测试中突破了Scale Up物理节点计算瓶颈,平均无故障运行时长达到数天,训练效率提升了2.7倍;由于所有专家集中部署在一个超节点,在推理过程中实现了15ms超低延迟和高吞吐能力,对推荐系统、搜索排序、智能客服等对延迟极敏感的应用场景更加友好。

03.
算力创新蝶变:
从“硬件堆叠”到“系统级协同”

除了性能上的提升,MoE架构创新的另一个深远影响,在于降低了推理阶段的综合成本。

过去,大模型的强大性能往往伴随着极高的算力消耗,导致部署门槛极高。MoE通过“按需激活”的专家机制,在保证精度的同时大幅节省了计算资源,为企业级、行业级AI应用的落地打通了路径。

昇腾在算力底层架构上的实干式创新,向外界揭示了一个新的趋势:当大模型走出实验室,走向生产一线,走向规模化应用,为AI提供源动力的基础设施,不再是“硬件堆叠”,而是计算、存储、网络的“系统级协同”。

不单单是亲和MoE模型,搬走了大模型训练的“三座大山”,还预示着AI基础设施的“工程可控性”和“业务适配性”,更好地支持大模型在工业、能源、交通、金融等领域的规模化部署。

如果你也对昇腾超节点感兴趣,想要了解更多技术细节和创新方案,推荐关注5月19日的鲲鹏昇腾创享周直播活动,技术直播的第一场就将深度讲解基于昇腾的超节点架构,如何助力MoE模型的训练和推理,带来15ms超低时延和高吞吐量。



主理人 | 张贺飞(Alter)


前媒体人、公关,现专职科技自媒体


钛媒体、36kr、创业邦、福布斯中国等专栏作者


转载、商务、开白以及读者交流,请联系个人微信「imhefei」

Alter聊科技 探究产业兴衰,专注商业解读。
评论
  •   再次拆开来,干脆放上电池看看,呵呵,转呀!  嘀嗒嘀嗒声好听,小齿轮转啊转尊,挺有活力啊!  莫非是活动关节受阻?  仔细,用放大镜观察,真是的!轴承与转杆接触位有污垢。  拆解下来,用酒精仔细清洗干净,看看纸上是刷子擦下来的污迹。  顺便把PCB、其他可能的零部件,也用酒精擦一擦  清洗清洁后的的各个零部件。  再看看电极接触点,有磨损,露出了底下的铜金属。  想想,用焊锡填补吧!  金属表面不太接受,总算有了一点焊锡,试试看吧!  再组装回去,装上电池,不转动!  再拆开来,到底是那个零
    自做自受 2025-06-21 12:19 2320浏览
  • 文/Leon编辑/cc孙聪颖6月9日,美团在北京美团总部恒电大厦举行股东周年大会,美团创始人、CEO王兴携一众高管出席。在回答股东问题的环节,王兴谈及与京东、淘宝闪购的竞争时表示:“第一,我们非常欢迎更多参与者入场的;第二,再次重申美团是坚决反对内卷的;第三,我们对长期是很有信心的。”然而,据自媒体《划重点》公开报道称,有参会股东透露,疑似提前安排好的问题和管理层全程读稿式的回答令部分现场股东感到不满。在会议结束后,现场股东将负责市场和投资的副总裁徐思嘉围了起来,在小会议室继续沟通了半个小时。不
    华尔街科技眼 2025-06-17 19:11 1770浏览
  • Micro-OLED显示技术具有高刷新率、高亮度低功耗、小体积等特点,是微显示领域的优选方案。针对Micro-OLED CVBS显示驱动需求,上海冠显(TDO)设计的驱动方案,实现CVBS信号到Micro-OLED显示屏的稳定转换和显示控制,将满足行业对高质量、高性能显示解决方案的迫切需求,为XR、军工、工业及医疗等应用领域提供更优质的视觉体验。方案架构 显示屏驱动板TV103F1CSFS01 是TDO自主开发的单目硅基 OLED 显示屏驱动板,以 SH1.0连接器为 CVB
    冠显光电MicroOLED代理视涯 2025-06-18 16:32 4024浏览
  • 概述相关API函数举例:定时发送一个事件总结概述ESP32有一组外设--定时器组。它可以选择不同的时钟源和分配系数。该定时器应用灵活,超时报警可以自动更新计数值。相关API函数1.定时器配置结构体typedefstruct { gptimer_clock_source_tclk_src; /* 定时器时钟源,在clk_tree_defs.h中有个枚举soc_periph_gptimer_clk_src_t */ gptimer_count_direction_tdirection;
    二月半 2025-06-17 16:39 15434浏览
  • 中国汽车市场以年均超 3000 万辆的销量规模(占全球 1/3以上),正推动安全标准从被动防护向主动预防转型。2024 年 7 月实施的 C-NCAP ( China New Car Assessment Program)修订版首次将驾驶员监控系统(DMS)、道路特征识别(RFR)纳入评分体系,其中 DMS 占主动安全分值 40%(总分 2 分),检测准确率需≥90%。这一变革不仅响应工信部 GB/T 41796-2022 等三项国家标准要求,更标志着中国
    康谋 2025-06-18 10:25 2100浏览
  • 概述在工业自动化领域,PLC(可编程逻辑控制器)是生产过程的核心,其性能直接影响系统的稳定性和效率。然而,在多主站应用场景下,传统PLC往往面临诸多挑战,如协议兼容性不足、扩展性受限以及高昂的License费用,这些都增加了系统部署的复杂性和成本。宏集Berghof PLC基于CODESYS平台,凭借其强大的多主站支持能力和灵活的License选项,为工业控制提供了高效、灵活且经济的解决方案,助力企业优化自动化系统架构。传统PLC多主站应用的挑战在许多自动化应用中,设备需要同时支持多个通信主站,
    宏集科技 2025-06-19 10:58 3768浏览
  • 在户外作业和复杂环境监测场景中,目标追踪需求、环境干扰因素和多变光线条件不断增加,传统光学观测设备面对画面模糊、响应延迟、信息缺失等问题时常难以应对。此时,显示技术的升级成为突破口——它不再只是单纯的“图像载体”,而逐步演变为“决策中枢”,成为设备智能化的核心支撑。其中,Fast LCD 通过其高速响应、高清显示、低功耗和优秀的环境适应性,成为瞄准镜、热成像等设备理想的显示方案,极大地提升设备性能和用户体验。上海冠显光电推出的Fast LCD 1.25" HDMI单目驱动方案,小巧紧凑,采用HD
    冠显光电MicroOLED代理视涯 2025-06-17 14:51 957浏览
  • 随着智慧居家中与智能家电快速发展,各类产品纷纷透过无线技术和行动软件(APP)实现更智能的服务,让原本单一功能的产品,逐步进化变身为多功能且提供人性化功能的智能家电。本篇的主角-智慧居家门铃(Doorbell),正是其中具代表的应用之一。智能门铃整合了传统门铃与对讲机功能,再加上摄影机的功能,进而成为新世代的智能产品!用户可以透过镜头,立即看到来访者并进行对话。更进阶的应用则是结合高分辨率的摄影机、无线连线与APP整合,让用户不再经由传统有线线路,即可远程实时了解门外的一切状况。实测案例本次案例
    百佳泰测试实验室 2025-06-19 13:42 4117浏览
  • 当数千伏工业电机快速启停时、当高速充电桩断电恢复时、当光伏逆变器遭遇雷击时,高压侧电路可能会因电感电流突变或浪涌耦合,产生幅值达母线电压数倍的电压尖峰。而在缺乏有效电气隔离措施或在寄生电容耦合作用的情况下,这些电压尖峰会迅速传导至低压侧电路,瞬间击穿MCU、传感器等敏感元器件,严重时还会威胁到操作人员的生命安全。因此,在现代电力电子系统的高低压电路之间引入隔离芯片,建立安全可靠的电气隔离屏障,已成多项安全标准与通用规范中的明确要求与刚性规定。其不仅能防止高压浪涌、短路漏电等不良现象损坏敏感元器件
    华普微HOPERF 2025-06-18 15:52 4076浏览
  • 在竞争白热化的智能汽车赛道,深蓝汽车近期因一系列“迷之操作”,被舆论的熊熊烈火炙烤得焦头烂额。事情起因是,大量深蓝汽车老车主公开吐槽称,深蓝汽车在没经过车主同意的情况下在车机大屏幕投放广告。为此,深蓝汽车及其CEO邓承浩发文道歉,并表示:内部已进行了流程优化,未来将不再通过车机通道给用户推送权益提醒。不过,道歉后深蓝汽车对用户隐私条例进行了更新,主要新增了用户数据采集,如果用户不同意更新,则只能以游客身份访问App。所以又有网友辣评,“这是要强行让大家同意看广告?”对此,深蓝汽车法务部发文回应:
    用户1742991715177 2025-06-17 18:21 1564浏览
  • 作为自然界最敏锐的“通用语言”之一,从破土而出的植物新芽到钢铁熔炉中的炽热火焰,温度一直都在无声地影响着万物运行的节奏,它不仅是农业播种与收获、牧业养殖与繁育、工业材料加工与产品制造等领域的关键生产因素之一,更是所有地球生物赖以生存的重要气候参数。因此,如何更好地“读懂”温度已成为各行各业实现提质增效的重要突破点之一,而数字温度传感器就是人类通过发展物联网技术让温度实现快速“说话”的重要途径。数字温度传感器是一种能直接输出数字信号的传感器,具有微型化、易集成、低功耗与高精度等优势,已被广泛应用于
    华普微HOPERF 2025-06-19 09:39 4636浏览
  • 在RoCE v2协议中,RoCE v2队列是数据传输的最底层控制机制,其由工作队列(WQ)和完成队列(CQ)共同组成。其中工作队列采用双向通道设计,包含用于存储即将发送数据的发送队列(SQ)和用于存储已接收到的数据的接收队列(RQ),二者共同组成了端到端的数据传输管道(Pipeline)每一个SQ与RQ绑定起来称为队列对(QP),每个队列对中包含有若干个工作队列元素(WQE)和一些其他元素如本地接收队列指针、本地发送队列指针、远程接收队列指针、远程发送队列指针等。同样的,每一个CQ中也存在着若干
    zzbwx_326664406 2025-06-18 11:49 2412浏览
我要评论
0
点击右上角,分享到朋友圈 我知道啦
请使用浏览器分享功能 我知道啦