昇腾AI云服务,中国AI的翼翼长城

原创 脑极体 2025-05-19 19:19


过去几天,中美经贸关系发生着极速变化。而变化的主基调是,美国希望从贸易战的短期冲撞,重新回到长期进行,同时也更加残酷的科技绞杀上。


5月12日中美双方发布联合声明,决定大幅下降关税。紧随其后的5月14日,美国政府亮出了瞄准中国AI的“獠牙”,美国商务部工业与安全局(BIS)突然宣布,即日起在全球范围内禁用中国先进集成电路。


美国出招绝非无的放矢,就在一个月前,华为发布了CloudMatrix384 超节点,该技术通过384张卡构建超节点集群,超级云服务器,最高提供300Pflops的算力规模。这意味着,美国通过N卡禁售来限制中国AI算力发展的技术围堵,或将被彻底打破。


从DeepSeek的算法层突破,到CloudMatrix384的算力层突围,中国AI正以系统性创新,弥补单芯片制程差距,美国发现其“卡脖子”逻辑正在失效。


接下来,美国必然会进一步打压中国AI的任何生存空间,更证明了模型自主与算力自强的重要性。昇腾云算力就是出路,就是防线。



5月16日,华为云AI峰会中,华为云副总裁黄瑾又进一步披露了更多CloudMatrix 384 超节点的创新技术细节。CloudMatrix 384 超节点持续壮大,把“杀不死你的必会让你更强大”写进现实。



过去的8年里,单卡硬件的算力增长了40倍,但是节点内的总线带宽只增长了9倍,跨节点的网络带宽只增长了4倍。集群网络通信成为当前大模型训练和推理的最大挑战,也是科技竞逐的焦点之一。


514美国禁令的恐惧根源,或许就在于昇腾的架构创新,破解了网络带宽拓展比单卡算力增长更滞后的技术难题,使CloudMatrix384 实现了集群稳定性,中国AI的算力长城,正在CloudMatrix384的基石上崛起。


具体来说,CloudMatrix 384 超节点实现了MatrixLink超节点网络服务。这项技术能够通过扩展训练集群实现大模型的训推性能提升20%,从而在网络侧满足最为苛刻的模型推训需求。


突破了内外部通信瓶颈的CloudMatrix 384,实现了AI算力资源的集约式高效利用,以及超大规模AI训练集群可云上获取,支撑昇腾AI云服务以更高的算力利用率、更高的算力可用度、更高的吞吐率以及更低的成本,为千行百业智能化提供充沛且普惠的云上AI算力服务,从而为中国AI算力争取到了长足的领先空间与发展窗口。


更值得一提的是,当产业从万卡向十万卡集群演进,超节点修筑AI算力长城的脚步也并未停下。华为云AI峰会上,华为云公布了CloudMatrix 384 超节点的创新技术优势。



昇腾云和CloudMatrix 384 超节点,实现了MoE亲和、以网强算、以存强算、长稳可靠、朝推夜训、即开即用六大科技创新,这些创新如同“技术砖石”,稳固支撑AI 产业发展更进一步,成为AI时代理想的基础设施。


为什么这么说?这就要提到各行各业的AI训推需求,要求云上算力,竖起三道重要的防线:


一是算力充沛的性能防线。


正如杰文斯悖论所说的,Deepseek虽然降低了单个模型对算力的需求,但随着应用AI的用户越来越多,算力资源的总需求量非但没有减少,反而进一步增加了。这一背景下,国产AI算力面临双重困境,一是单卡性能落后英伟达最新产品,二是多卡集群会“打群架”,堆卡但不增效。而提升算力集群的资源利用率,需要存储(存力)、网络(运力)的共同做功,来适配最新的计算架构。


简单来说,在DeepSeek的推动下,MoE已经成为主流大模型共同追求的实践路径,所谓MoE架构,就是从GPT4这样的少量大专家的超大规模参数模型,变成了大量小专家的模式,在每张卡上都部署多个小专家。但传统架构下,MoE模型容易因为专家负载不均、AllToAll通信延迟等,导致算力浪费,降低资源利用率。


CloudMatrix 384 超节点的分布式推理平台可以说是专为MoE大模型而生,具有MoE亲和的技术特性。对比一卡多专家的“小作坊模式”,超节点通过高速互联总线,降低跨机通信损耗,从而实现一卡一专家高效分布式推理,单卡的MoE计算和通信效率都大幅提升。通过联接力打破单点算力的性能制约,最大限度地释放算力共振的能力,也体现了超节点以网强算的技术优势。


除了网络通讯,显存容量不高也会制约MoE模型的开发。大模型推理的不同阶段,对计算/访存的资源需求其实并不一致,比如prefill阶段需要高算力,而decode阶段需要高防存,但传统“存算绑定”的模式不够灵活,就限制了资源利用和性能吞吐。



解决MoE模型的“存力”难题,华为云首创了EMS弹性内存存储,通过内存池化技术,实现显存和算力解绑。一方面,用EMS替代NPU中的显存,可使得首Token时延降低,最高降幅可达80%;另一方面,当NPU的显存不足时,EMS独立扩容,不必再通过堆NPU以获得更多内存。同时,EMS还支持算力卸载,这也使得系统吞吐量提升100%。


提高运力以网强算、提高存力以存强算,合力提高综合计算性能,从而为各行各业应用Deepseek等MoE模型,提供澎湃算力,正是CloudMatrix 384 所筑起的性能防线。


二是算力可靠的稳定防线。


解决了性能问题,接下来还解决多卡集群“打群架”的可靠性问题。千卡乃至万卡级算力集群的运维挑战,已经成为算力的关键瓶颈。集群规模增大,故障频发,导致训练中断,模型开发团队不得不频繁执行检查点checkpoint保存操作,这不仅延长了大模型训练周期,还会导致计算资源浪费,开发成本增高。


构建高可靠性的智能运维体系,已成为云上算力长城的必要职责。对此,华为开发了昇腾云脑运维“1-3-10”标准,即1分钟感知、3分钟定界、10分钟内恢复,从而具备了保障长稳大模型训练的能力。


也意味着,中国AI有了更具韧性的算力基础设施。



三是算力普惠的成本防线。


DeepSeek到来之后,AI推理侧的任务激增,而训练侧的算力需求则在下降。对于云服务商来说,针对用户访问的潮汐特征(日间推理峰值远远大于夜间),做好算力资源的动态平衡,可以进一步优化资源利用效率,避免算力闲置,这样能够实现综合成本最优,最终让成本优势变成价格优势、普惠能力,为行业和用户提供像“水电”一样实时、普惠、灵活的算力。


目前,华为云已经在全国三大枢纽数据中心——乌兰察布、贵安和芜湖完成了超节点规模布局,支持百TB级的带宽互联,10毫秒时延圈覆盖全国19个城市群,让行业用户不需要自建数据中心,可以像水电气一样,第一时间享受到即开即用的AI算力资源。


同时,华为云通过“训推共池”“灵活调度”两大技术,实现朝推夜训,白天进行模型推理,晚上闲时进行模型训练,实现了全国超节点算力资源的“错峰用电”,算力资源利用率可提升30%以上。


通过性能、稳定、普惠的三道防线,华为云CloudMatrix 384 超节点可以更好地守护各行各业的智能化需求,成为中国AI巍然挺立的坚实基础设施。


正如长城的出现,守护了古代中国的国土安全。超节点通过多项技术特征的加持,让以卡为单位的分散式AI算力,走向了集中式AI计算底座,成为真正意义上的下一代AI基础设施,一座坚固的云上算力长城。



更宏观的角度来看,超节点技术不仅仅是一项工程性创新,它还彻底改变了芯片制造领域的技术对垒格局。


英伟达最新推出了基于第五代NVLink技术的NVL72,并且将其局限在自身生态当中,客观上构成了对中国AI算力的发展制约。但实际上,我们真正需要的不是芯片本身,而是算力。通过重新定义AI基础设施,超节点技术为AI算力的供给提供了前所未有的澎湃动力,进而突破了被芯片制程锁死的AI进程。


在当前国际博弈的大背景下,超节点的出现,正是中国应对挑战、把握AI机遇的有力证明。



除了超节点之外,华为云还在大模型、AI生态等领域进行了持续升级,持续迭代的盘古大模型,已经在30多个行业、400多个场景中应用,在制造、金融、政务、医疗、制药、汽车、气象等七个行业保持市场规模领先。


在算力底座、资源调度、推理服务及集群可靠四个方面,华为云全面升级昇腾AI云服务,协助客户进行模型的开发、训练、托管和应用。目前,昇腾AI云服务已适配包含DeepSeek在内的160多个第三方大模型,并面向政府、金融、互联网、零售等行业服务600多家创新先锋企业。


就像美国的贸易冲击,掀不翻中国经济的汪洋大海,美国的一纸禁令,也禁不了昇腾这座云上AI算力长城。


当山姆·奥特曼在国会参议院建议要加大AI基础设施投入的时候,昇腾AI云服务已经通过超节点的建设,以及更多技术、产品、资源的汇集,为接下来的中国AI应用大爆发做好了准备——下一代AI基础设施,就是中国AI走向强大的内因。



2025年5月16日,被制裁整整六年的华为依旧在茁壮生长,并且在这些年里拿出了MetaERP、数据库、软硬件工具链等等核心技术突破。如今超节点的加入,让这六年中所有的故事都更加熠熠生辉。


华为的故事在反复提醒着一件事:我们除了强大,无路可走。


曾几何时,先进AI算力必然来自西方,被认为是一个“铁律”。但CloudMatrix 384 超节点的突破,不仅证明了中国可以有自主化的可靠AI算力基础设施,更证明了中国AI算力可以实现系统性领先,甚至可以改变企业用户的AI算力获取方式,给全球AI一个更好的算力选择。


近几个月,所有国际新闻都在提醒我们,只有当自身足够强大,能够给自己和他人提供选择,我们才有话语权,才有交流和谈判的空间,才能为多元、开放与平等添加一份保障。



从这个意义来说,CloudMatrix 384 超节点就如同AI世界中的长城。它伫立在那里,确保了全球AI的自由勃发与平等成长。


巍巍昆仑,翼翼长城。一些源于中国文化的智慧,一些来自中国科技的态度,此刻正无言流淌在奔腾的AI算力中,相信它们很快会被世界读懂。



·

·

脑极体 从技术协同到产业革命,从智能密钥到已知尽头
评论
  • 一、项目背景与应用场景文件重命名在日常办公与设计领域极为常见:批量图片重命名(IMG001 → 产品01)批量 Word、PDF 改名(合同_张三 → 合同_2024张三)视频、音频素材整理命名规范化手工处理耗时、容易出错,而 Python 可助力一键处理,还能提供可视化界面!因此本篇文章将手把手带你使用 Python 的 Tkinter 模块开发一个功能完整的“批量重命名”桌面工具,附图演示界面效果。二、项目准备1. 安装环境Tkinter 是 Python 标准库,无需单独安装:bash复制
    小菜菜编程 2025-06-18 05:58 15371浏览
  • 随着智慧居家中与智能家电快速发展,各类产品纷纷透过无线技术和行动软件(APP)实现更智能的服务,让原本单一功能的产品,逐步进化变身为多功能且提供人性化功能的智能家电。本篇的主角-智慧居家门铃(Doorbell),正是其中具代表的应用之一。智能门铃整合了传统门铃与对讲机功能,再加上摄影机的功能,进而成为新世代的智能产品!用户可以透过镜头,立即看到来访者并进行对话。更进阶的应用则是结合高分辨率的摄影机、无线连线与APP整合,让用户不再经由传统有线线路,即可远程实时了解门外的一切状况。实测案例本次案例
    百佳泰测试实验室 2025-06-19 13:42 992浏览
  • Micro-OLED显示技术具有高刷新率、高亮度低功耗、小体积等特点,是微显示领域的优选方案。针对Micro-OLED CVBS显示驱动需求,上海冠显(TDO)设计的驱动方案,实现CVBS信号到Micro-OLED显示屏的稳定转换和显示控制,将满足行业对高质量、高性能显示解决方案的迫切需求,为XR、军工、工业及医疗等应用领域提供更优质的视觉体验。方案架构 显示屏驱动板TV103F1CSFS01 是TDO自主开发的单目硅基 OLED 显示屏驱动板,以 SH1.0连接器为 CVB
    冠显光电MicroOLED代理视涯 2025-06-18 16:32 2045浏览
  • 中国汽车市场以年均超 3000 万辆的销量规模(占全球 1/3以上),正推动安全标准从被动防护向主动预防转型。2024 年 7 月实施的 C-NCAP ( China New Car Assessment Program)修订版首次将驾驶员监控系统(DMS)、道路特征识别(RFR)纳入评分体系,其中 DMS 占主动安全分值 40%(总分 2 分),检测准确率需≥90%。这一变革不仅响应工信部 GB/T 41796-2022 等三项国家标准要求,更标志着中国
    康谋 2025-06-18 10:25 593浏览
  • 一、应用背景:为什么需要图像批量加水印?在电商、媒体和内容创作领域,加水印是保护图片版权的基本手段。防止盗图、转载、抄袭给公司 logo、作者信息、网址打标识批量图片一次性处理,提升效率如果每天需要对几十、上百张图片加水印,使用 PS 或手工拖拽会非常繁琐。Python 可以:✅ 一键批量加水印✅ 支持透明度、字体、颜色设置✅ 自定义水印位置与旋转角度✅ 批量输出为 JPEG、PNG 等格式二、准备工作与开发环境1. 安装核心图像处理库 Pillowbash复制编辑pip install pil
    小菜菜编程 2025-06-19 07:26 2066浏览
  • 文/Leon编辑/cc孙聪颖6月9日,美团在北京美团总部恒电大厦举行股东周年大会,美团创始人、CEO王兴携一众高管出席。在回答股东问题的环节,王兴谈及与京东、淘宝闪购的竞争时表示:“第一,我们非常欢迎更多参与者入场的;第二,再次重申美团是坚决反对内卷的;第三,我们对长期是很有信心的。”然而,据自媒体《划重点》公开报道称,有参会股东透露,疑似提前安排好的问题和管理层全程读稿式的回答令部分现场股东感到不满。在会议结束后,现场股东将负责市场和投资的副总裁徐思嘉围了起来,在小会议室继续沟通了半个小时。不
    华尔街科技眼 2025-06-17 19:11 850浏览
  • 作为自然界最敏锐的“通用语言”之一,从破土而出的植物新芽到钢铁熔炉中的炽热火焰,温度一直都在无声地影响着万物运行的节奏,它不仅是农业播种与收获、牧业养殖与繁育、工业材料加工与产品制造等领域的关键生产因素之一,更是所有地球生物赖以生存的重要气候参数。因此,如何更好地“读懂”温度已成为各行各业实现提质增效的重要突破点之一,而数字温度传感器就是人类通过发展物联网技术让温度实现快速“说话”的重要途径。数字温度传感器是一种能直接输出数字信号的传感器,具有微型化、易集成、低功耗与高精度等优势,已被广泛应用于
    华普微HOPERF 2025-06-19 09:39 2393浏览
  • 当数千伏工业电机快速启停时、当高速充电桩断电恢复时、当光伏逆变器遭遇雷击时,高压侧电路可能会因电感电流突变或浪涌耦合,产生幅值达母线电压数倍的电压尖峰。而在缺乏有效电气隔离措施或在寄生电容耦合作用的情况下,这些电压尖峰会迅速传导至低压侧电路,瞬间击穿MCU、传感器等敏感元器件,严重时还会威胁到操作人员的生命安全。因此,在现代电力电子系统的高低压电路之间引入隔离芯片,建立安全可靠的电气隔离屏障,已成多项安全标准与通用规范中的明确要求与刚性规定。其不仅能防止高压浪涌、短路漏电等不良现象损坏敏感元器件
    华普微HOPERF 2025-06-18 15:52 2113浏览
  • 概述在工业自动化领域,PLC(可编程逻辑控制器)是生产过程的核心,其性能直接影响系统的稳定性和效率。然而,在多主站应用场景下,传统PLC往往面临诸多挑战,如协议兼容性不足、扩展性受限以及高昂的License费用,这些都增加了系统部署的复杂性和成本。宏集Berghof PLC基于CODESYS平台,凭借其强大的多主站支持能力和灵活的License选项,为工业控制提供了高效、灵活且经济的解决方案,助力企业优化自动化系统架构。传统PLC多主站应用的挑战在许多自动化应用中,设备需要同时支持多个通信主站,
    宏集科技 2025-06-19 10:58 834浏览
  • 在RoCE v2协议中,RoCE v2队列是数据传输的最底层控制机制,其由工作队列(WQ)和完成队列(CQ)共同组成。其中工作队列采用双向通道设计,包含用于存储即将发送数据的发送队列(SQ)和用于存储已接收到的数据的接收队列(RQ),二者共同组成了端到端的数据传输管道(Pipeline)每一个SQ与RQ绑定起来称为队列对(QP),每个队列对中包含有若干个工作队列元素(WQE)和一些其他元素如本地接收队列指针、本地发送队列指针、远程接收队列指针、远程发送队列指针等。同样的,每一个CQ中也存在着若干
    zzbwx_326664406 2025-06-18 11:49 449浏览
  • 在户外作业和复杂环境监测场景中,目标追踪需求、环境干扰因素和多变光线条件不断增加,传统光学观测设备面对画面模糊、响应延迟、信息缺失等问题时常难以应对。此时,显示技术的升级成为突破口——它不再只是单纯的“图像载体”,而逐步演变为“决策中枢”,成为设备智能化的核心支撑。其中,Fast LCD 通过其高速响应、高清显示、低功耗和优秀的环境适应性,成为瞄准镜、热成像等设备理想的显示方案,极大地提升设备性能和用户体验。上海冠显光电推出的Fast LCD 1.25" HDMI单目驱动方案,小巧紧凑,采用HD
    冠显光电MicroOLED代理视涯 2025-06-17 14:51 524浏览
  • 在竞争白热化的智能汽车赛道,深蓝汽车近期因一系列“迷之操作”,被舆论的熊熊烈火炙烤得焦头烂额。事情起因是,大量深蓝汽车老车主公开吐槽称,深蓝汽车在没经过车主同意的情况下在车机大屏幕投放广告。为此,深蓝汽车及其CEO邓承浩发文道歉,并表示:内部已进行了流程优化,未来将不再通过车机通道给用户推送权益提醒。不过,道歉后深蓝汽车对用户隐私条例进行了更新,主要新增了用户数据采集,如果用户不同意更新,则只能以游客身份访问App。所以又有网友辣评,“这是要强行让大家同意看广告?”对此,深蓝汽车法务部发文回应:
    用户1742991715177 2025-06-17 18:21 759浏览
  • 概述相关API函数举例:定时发送一个事件总结概述ESP32有一组外设--定时器组。它可以选择不同的时钟源和分配系数。该定时器应用灵活,超时报警可以自动更新计数值。相关API函数1.定时器配置结构体typedefstruct { gptimer_clock_source_tclk_src; /* 定时器时钟源,在clk_tree_defs.h中有个枚举soc_periph_gptimer_clk_src_t */ gptimer_count_direction_tdirection;
    二月半 2025-06-17 16:39 14802浏览
我要评论
0
点击右上角,分享到朋友圈 我知道啦
请使用浏览器分享功能 我知道啦