同质化的GPU云市场,谁能逃离内卷?

原创 脑极体 2025-06-20 20:56


“一个聪明人从敌人那里得到的东西,比从一个傻瓜朋友那里得到的东西更多。”


——哲学家格拉西安


这句格言,正在AI领域被现实验证。美国的限制政策总会告诉我们,哪些东西是发展AI至关重要的。


2024年10月,美国商务部再次升级制裁,限制中国实体访问美国的云服务,理由是“防止利用美国基础设施训练AI模型”。这标志着美国对华算力基础设施的“双管齐下”:先断GPU芯片,再封云服务,最终目标是让中国AI陷入算力断崖。


有读者会问,DeepSeek降低了单模型算力需求,把英伟达股价都打下来了,怎么AI算力仍然短缺呢?



一方面是总量在增长。正如杰文斯悖论所说,技术进步降低了使用成本时,资源的总消耗量反而会增加。比如燃油效率提高了更省油,但随着开车变得便宜,人们就会更多选择开车,结果导致汽油的总消耗量增加。AI也是如此,模型门槛下降导致智能化应用多了,总算力需求也就更大了。


此外,还跟算力集群的利用率有关。一位银行总工程师分享到,自家搭建的混合异构算力平台,高峰期算力集群利用率能达到60%就算优秀了,花大价钱采购的算卡资源,很多都被浪费或闲置了,加上配套系统与运维成本,整个资金投入非常大。


既然自建算力集群买不到卡、成本高,从云端获取算力的GPU云服务,就成了绝大多数企业用好、用活大模型的最佳选择。


那么,GPU云服务作为AI算力的另一根支柱,中国准备好了吗?



从云端获取算力,理想很丰满,但现实很骨感。GPU云服务还没有被企业普遍接受。一位金融从业者就告诉我们,整个金融行业对GPU 云的认知还比较模糊,大家习惯了传统的硬件采购模式,对云服务的接受度并不高。


为什么不高?这有两个原因:


一是同质化严重。对比市面上的GPU云解决方案,会发现算力层、平台层都高度同质化,采用的GPU芯片大同小异,平台功能也差不多。以至于有人觉得GPU云服务商提供的软件没什么太大价值。结果就是GPU云市场,目前的竞争主要是卷低价。


二是创新不足。同质化并不意味着GPU云服务的痛点和挑战都已经被解决了,实际上,同质化正是创新不足的表现。比如说,随着大模型的参数规模扩大,一个千卡集群的百P算力,训一个类Sora大模型就被占满了,其他客户需要算力,就得扩大集群规模,但AI芯片是很敏感的,从千卡到万卡、超万卡,故障率和运维难度也快速上升,怎么保证集群的稳定性,不能动不动就中断重写checkpoint?



花了大价钱买的GPU卡,结果有一半都在“摸鱼”,怎么让资源管理更精益,投资不浪费?


算卡供应链的不稳定,很多集群的架构不同、批次不同,无法合池训练,存在资源墙怎么打破?


国产芯片的适配难,新模型的训练时长比英伟达方案多出好几倍,一直沿用的训练推理一体化流程,在异构算力环境下漏洞百出,又该怎么办?


不难看到,不是行业用户不想用GPU云服务,而是市面上的解决方案都趋于同质化,过早开始卷价格。这种情况,与内卷化的定义异常契合。就像农业发展到一个确定形式之后,便停滞不前或无法向更高级转化。


GPU云市场,还处于方兴未艾的发展初期,各行各业都需要上云用算来进行AI训推,有巨大的市场空间等待打开,不应过早跌入同质化、内卷化的泥潭。



但要打破内卷,就得拿出有壁垒的差异化解决方案,让GPU云算力真正降本增效,从而带动企业用户的增长,以及整个GPU云的产业升级,就像一块耕地,通过优化种植技术和精耕细作,进一步提高粮食亩产量,从而避免卷入“谷贱伤农”的价格战内卷。


向技术要答案,一直是百度的特点。AI时代,百度智能云也凭借AI基础设施和技术能力在云市场异军突起,率先点亮了国产三万卡GPU集群,并且实现了几乎无损的混合训练能力,集群利用率高达95%以上。凭借GPU云领域的突出能力,百度智能云成为超半数央企的选择。


我们就以百度智能云为例,拆解一下GPU云逃离内卷的技术密码。



破解GPU云市场的内卷难题,必然要改变传统集群规模拓展难、故障率高、资源利用率低等问题,那就要从基础设施下功夫。


具体来说,百度智能云以技术为工具,对GPU集群进行了三重改造。让GPU集群从小农经济式的粗放经营,变成现代农场一样的规模化、集约化、精益化生产模式。


第一重改造:规模化,释放超万卡集群的澎湃算力。


“深度思考的大模型,业务用着不错,下面要全集团推广,你们尽快给算力扩容吧”,进入2025年,大模型上量成了IT人的一大挑战。因为集群规模扩大一倍,故障率能飙升好几倍,而实际运算效率却出现了边际递减。如果集群是由不同城市的小规模集群互联来构建的,那资源性能损耗就更严重了,数据时延也会让在线推理服务的体验大打折扣。如果AI思考一次就得十几分钟,员工用起来不耐烦,CTO怎么能不着急上火。


所以,百度智能云在构建规模化GPU算力集群,面临的首要技术挑战,就是如何提高集群的稳定性,降低故障率,给性能调优。



解题思路,就是软硬协同。有点类似于NVlink+ CUDA联手,充分释放N卡算力。那百度智能云靠的就是百舸。百度百舸是专为AI计算设计的高性能算力平台,让多个芯片、多个集群都用“普通话”,实现跨芯片“交流”。


硬件资源层,百舸设计了一套新的物理网络架构,就像是城市里精心规划的高效路线,新一代的HPN网络规模上支持10万卡,可同时容纳十万卡并行训练,这就为计算资源的高效运行提供了有力保障,让AI模型训起来更快更稳定。


集群组件层,百舸自研的集合通信库BCCL,可以实现GPU、昆仑芯等标准RDMA设备的互联互通,使得通信效果达到最优。以前没有统一沟通方式的时候,不同芯片互不打通,常常出现混乱,那协同工作效率自然就很低了。BCC制定了一套统一的通行规则,就可以让芯片高效协作,加上自适应并行策略搜索,自动规划出最佳方案,就能让各种硬件充分发挥作用,提升多芯混合训练任务的整体效能。


训推加速层,百舸在AI加速套件AIAK-LLM中构建了Accelerator抽象层,屏蔽硬件差异,相当于为多个集群开辟高速路,快速通信,让各种硬件都能充分发挥作用,高效协作,由此来构建极致规模、极致高密和极致互联的GPU集群。



想象一下,当企业使用万卡、超万卡集群时,就像一个源源不断供给养分的算力土壤,无论是金融机构处理海量交易数据,还是运行复杂的科学计算模型,或者是AI智能体实时响应客户需求,都能游刃有余。


目前,百舸已经具备了成熟的10万卡集群部署和管理能力,在横跨几十公里的集群上,百舸可以把单一训练任务的性能折损控制在4%以内,也让百度智能云成为GPU云厂商中纳管超大规模集群的一个标杆。


第二重改造:精益化,PD分离让AI应用随时在线。


如今,企业对算力的需求发生了巨大转变,从过去侧重于模型训练,逐渐转向更注重实时性的推理和后训练阶段,有点像城市交通发展到了一定阶段,新路(训练)就建得少了,取而代之的是防止车流拥堵(推理优化)。


无论是B端用户还是C端用户,如果大模型思考十几秒才给回应,用户都会不耐烦直接退出,这就是“首token延迟”。为了尽可能满足用户“即时反馈”的严苛要求,就迫使模型厂商绞尽脑汁。不能忽略的是,算力基础设施的优化,就像是把路铺平、修上护栏,提升系统的处理能力和并发效率,从而让在线服务像上高速一样顺畅运行,大大降低延迟率。



PD分离加速技术成为云厂商们竞相展示的“王牌”,而百度智能云的PD分离式推理基础设施,凭借全局优化能力脱颖而出。


物理网络层面,百度智能云打造了HPN(High-Performance Network)高性能网络集群,拥有自适应路由算法,像智能导航一样,避免了大规模数据传输时(如Alltoall)的流量集中问题。全新的拓扑结构,如同重新规划的城市路网,降低通信瓶颈,使带宽有效性达到90%以上,让交换机转发延迟大大降低,集群传输又快又稳。


流量管理层面,百度智能云自研的高性能KV Cache传输库,为高优先级队列预留带宽,相当于“特殊车辆优先通行通道”;分层传输设计支持多层KV Cache复用,相当于潮汐车道,根据数据流量灵活调整传输通道,提升通行效率,并且训推任务互不干扰,货车轿车“各走各道”,实现了DCN弹性RDMA满带宽传输,让数据高效流通。



通信组件层面,百度智能通过Alltoall算子优化和动态冗余专家编排,优化计算流与通信流,确保集群中所有GPU通信时间一致,显著提升吞吐量和性能。


以往企业使用大模型时,常因算力瓶颈、数据传输慢等问题受限,如同灌溉管道不畅影响了养分输送。而百度智能云将网络基础设施、通信组件与上层业务深度融合,精心修建了一套高效的“算力管网”,可以让数据、算力在不同业务场景间快速流动,能够助力各行各业快速应用大模型,解决企业智能化转型的当务之急。


第三重改造:多元化,一云多芯筑起算力可靠围墙。


限卡又限云,已经是美国遏制中国AI发展的明牌。完全依赖英伟达风险太大了,国际形势变化频繁,供应链随时可能被卡脖子,企业构建算力集群,不能押注在单一芯片,会考虑一云多芯。但采购国产芯片分散风险,异构芯片纳管与并行计算效率低,不同类型芯片之间协同工作困难重重,算力资源浪费严重。


在国内算卡供应紧张的当下,让多样化芯片能够协同训练,意义不用多说。“一云多芯混训”的能力,也让百度智能云成为多数企业GPU云的选择,比如长安汽车。


走进长安汽车智算中心,就像是一座算力工厂,依靠百舸平台与长安汽车自研的 “星环平台”,将算力资源发挥到极致。过去,服务器像低效运转的老旧生产线,大量算力被闲置浪费。如今,百舸升级的智能调度系统,集群平均算力使用率飙升至90%,综合资源利用率提升50%。



再比如某个头部城商行。对银行来说,业务可持续性至关重要,如果用户访问不了系统、办不了业务是重大事故。既要自主可控的异构算力集群,又要稳定可靠的服务保障,对城商行的基础设施提出了巨大挑战。该城商行与百度智能云合作,通过异构平台在算力感知的情况下,进行统一调度,让不同芯片不再“打群架”,可以被混合管理、混合使用,从而兼顾了算力安全与业务稳定。


再到百度自建的国产昆仑芯 P800 大型单一集群里一看,资源利用率更是高达 98%,让每一张GPU都物尽其用。


原来,单一服务器最多容纳8张计算卡,而昆仑芯超节点技术可以将64张昆仑芯P800集中于单机柜,并且通信效率堪比单一机型。跨集群层面,百度百舸打通集群内的网络墙,实现异构芯片互联互通。通过accelerator 抽象层,屏蔽底层芯片差异,通过统一接口实现异构芯片的“即插即用”;采用自适应并行工具,找到最优的切分策略,根据芯片性能自动分配任务,减少性能损失。最终实现了近乎无损的“万卡级多芯混训”能力。



在万卡规模上,百舸可将两种芯片混合训练,目前一共支持 18 种以上芯片类型,彻底解决了一云多芯混训的复杂难题。


如今,经过规模化、精益化、多元化的三重技术改造,GPU云已从零散低效的“算力作坊”,升级为高效精益的“现代农场”。百度智能云也凭借在GPU云服务领域的卓越表现,成为头部厂商中增速最快的云服务厂商。IDC最新发布的《中国智算专业服务市场报告》中,百度智能云凭借AI解决方案实施服务,成为行业第一,领跑市场。


这说明,依靠技术创新,GPU云厂商可以逃离内卷,为行业和客户创造差异化价值,让GPU云服务在企业级市场焕发出充沛的价值。



坚持“技术精耕”,百度智能云走了一条向技术要效益、向技术要价值的良性发展之路。不仅让其在GPU云市场建立差异化竞争的壁垒,也为整个行业从粗放走向精益,从内卷走向高质量发展,提供了一个很好的参考样本。


那我们不禁要问,为什么百度智能云能摆脱内卷的漩涡?是什么让百度智能云有所不同?


一方面,是百度的技术基因,经过多年在AI领域的发展,百度及百度智能云已经打造了一系列高度适配AI业务、具有独特创新能力的“尖刀型”技术,有力地解决GPU云集群建设中的痛点与难点。



另一方面,是百度智能云的发展路径清晰,向技术要答案、不走内卷化之路的战略选择是明确的,这也决定了百度智能云必须在技术上下苦功、登天梯。面对需求侧的企业客户,以供给侧的高质量GPU云服务,回应AI规模应用的复杂算力需求;面对云市场的竞争对手,以技术领导力带动GPU云产业的高质量发展,避免裸金属的红海价格战,以百舸为核心的能力与服务,开拓更大的价值空间。


GPU云的未来,不是卷“谁更便宜”,而是看“谁敢创新”。真正的技术领导者,将赢下这场AI算力革命的主导权。



·

·

脑极体 从技术协同到产业革命,从智能密钥到已知尽头
评论
  • 本文主要针对分立方案高速输出电路,由于MOS管、稳压管、PCB布局布线都存在一些寄生电容,这些寄生电容都会影响高速输出电路的占空比,所以本文对这些寄生电容的影响进行简单说明。测试工况:电压:24V,负载类型:阻性负载2K,输出频率:200Khz,要求占空比45%~55%;电路拓扑如下图所示:图1寄生电容分布情况:如下图所示,MOS管寄生电容为Cgd、Cgs、Cds,稳压管寄生电容为Cd;图2而MOS管手册常见的参数如下图所示为Ciss、Coss、Crss(为啥是这些参数,而不改成Cgs、Cgd、
    用户1751282873645 2025-07-08 23:58 181浏览
  •   去年底,整理旧物,扔的扔了,留的留了,这不,十四个几十年前留下来的工业级小型排风扇,下图左上角处,又拿出来,下决心把它们再利用发挥余热。  呵呵,这回不是拆而是装了。怎么装呢?组装、固定、机架、接线,简单,也不简单,原则是一切都用手头现有废旧材料,争取做到一个不买!DIY,废物利用,如今时髦的话,以旧换新!摆上台面,找来木条,策划怎么做?  比一比,看一看,觉得合适,按尺寸锯开木条。  咋走线?想到了,在有限空间内弯转,从一个螺丝孔穿出来,整体拼凑整齐。   咋固定风扇呢?找来木片条,锯断,
    自做自受 2025-07-06 21:37 514浏览
  • 现代人对于影音效果的追求持续增加,在多数影音产品中,HDMI是最为重要的接口,而HDMI 2.1中有一新增功能eARC可以透过HDMI线材来传输数字Audio,除了支持Dolby TrueHD、Atoms等声音格式外,也可以支持8声道喇叭,满足消费者对于声音的追求。新时代的高阶电视都具备支援eARC的功能,然而却有些号称支持的电视产品,因为在设计上的疏忽,造成eARC无法输出8声道Audio,以致eARC的功能大打折扣,对于花大钱欲享受高规格电视的消费者来说自然难以接受,对于该电视品牌也会产生负
    百佳泰测试实验室 2025-07-04 14:42 2017浏览
  • 在数字化、自动化高速发展的今天,光电耦合器正以一种低调却不可或缺的方式,悄然改变着我们的生活。它不仅是电子电路中的“安全卫士”,更是连接信号世界的“桥梁”,凭借出色的电气隔离能力,为各类设备提供稳定可靠的信号传输保障。电气隔离——让系统更安全在工业控制系统中,安全始终是重中之重。光电耦合器通过光信号进行电气隔离,能够有效防止高压电流侵入低压控制电路。例如,在智能电网系统中,它广泛应用于电表与通信模块之间,确保数据传输的安全性,防止电网高压对低压设备造成冲击。在电动汽车的电池管理系统(BMS)中,
    腾恩科技-彭工 2025-07-05 13:56 444浏览
  • 工业物联网时代,作为一种普遍应用在汽车电子、工业控制与医疗器械等领域中的串行总线通信技术——CAN(Controller Area Network)总线基于消息广播模式,通过双绞线传输差分信号,是一种多主控(Multi-Master)的总线系统,具备极强的抗干扰能力、极低的传输延迟和高速数据传输性能。一种典型的CAN总线网络示意图在CAN总线通信过程中,CAN收发器作为物理层上的接口芯片,位于CAN控制器(MCU)和CAN总线之间,主要负责将来自CAN控制器(MCU)的数字信号与总线上的差分信号
    华普微HOPERF 2025-07-04 14:44 1956浏览
  • SPI概述ESP IDF中SPI LCD的相关API简单使用LVGL完整代码总结SPI概述当进入嵌入式行业开始,SPI总线是最需要且基础的知识了,它是高速全双工串行总线,可做到同时收发数据。时序和控制根据各家的芯片或者屏幕等设备的数据手册进行阅读和进行编程,比如总线模式就有四种,通过寄存器CPOL和CPHA配置模式CPOLCPHA数据采样时刻适用场景000SCK下降沿,第1个跳变沿采样多数传感器(如BME280)101SCK下降沿,第2个跳变沿采样部分ADC芯片210SCK上升沿,第1个跳变沿采
    二月半 2025-06-29 20:40 1467浏览
  • 在全球广泛倡导绿色低碳与可持续发展的时代浪潮中,新能源汽车作为实现节能减排的重要载体之一,正受到各国政府与企业的加速培育。在此背景下,为提升新能源汽车的市场渗透率,我国已率先进入充电基础设施建设的加速期,从私人专用充电桩到社区公用充电桩,从高速路网补能节点到城市公用充电桩,汽车补能网络正在急速膨胀中。图源:摄图网(已授权)据中国充电联盟(EVCIPA)最新统计数据显示,截止2025年5月份,我国充电基础设施累计数量为1440万台,同比上升45.1%。其中,在2025年1月~5月期间,我国充电基础
    华普微HOPERF 2025-07-09 16:13 257浏览
  • 据知名市场研究机构Counterpoint Research发布的数据概览,2025年第二季度,中国智能手机销量预计将迎来小幅回暖,增长率约为1%。在这场销量微增的背后,华为与苹果两大品牌成为了推动市场前行的核心力量。其中华为手机的表现最为亮眼,数据显示,华为在中国市场的智能手机销量份额实现了12%的同比增长,这一成绩不仅使其成为了当季增长最快的品牌,更助力华为重新夺回销量榜首的位置。相比之下,vivo的表现就有些尴尬了。虽然还是位列第二,但vivo在第二季度的智能手机销量份额同比下降了9%,下
    用户1742991715177 2025-07-09 08:19 207浏览
  • 在万物互联浪潮席卷全球的时代背景下,数字气压传感器作为物联网环境感知层的核心硬件之一,正凭借精准、实时的数字化气压测量能力,快速消融着现实世界与数字世界之间的沟通壁垒,其不仅能为物联网终端提供与环境进行对话的“媒介语言”,还能与其他环境感知技术形成协同效应,是物联网社会实现高效沟通的基石之一。数字气压传感器主要通过检测压敏元件在不同环境气压下的电信号变化,实现对气压的测量,并能直接输出数字信号以满足物联网终端对气压数据的传输、储存与记录等需求。现阶段,由于数字气压传感器具备着低功耗、高精度、快速
    华普微HOPERF 2025-07-01 09:20 1634浏览
  • 什么是LoRaWAN? LoRaWAN技术及应用LoRaWAN(Long Range Wide Area Network)是一种低功耗、长距离、广域网络通信协议,特别设计用于连接物联网(IoT)设备。LoRaWAN采用无线通信技术,能够覆盖数十公里的范围,提供长时间的电池寿命,适用于智能城市、农业、工业自动化、环境监测,与健康医疗等领域应用。来源: LoRa Alliance一探究竟:LoRaWAN物联网应用优势营运商采用 LoRaWAN 具有多方面的优势,除了长距离覆盖范围及低功耗的特点外,还
    百佳泰测试实验室 2025-07-10 14:51 263浏览
  • 在物联网无线通信领域,随着行业应用场景的不断拓宽,同一频段下的设备通信需求正呈指数级增长,然而这一增长趋势却与频谱资源的有限性形成了鲜明对立,信道拥挤、信号串扰与非线性失真等不良现象所造成的“通信压力”正在持续放大。从智能家居的设备互联到工业物联网的实时控制,从智慧楼宇的广域组网到智慧城市的海量数据传输,有限的频谱资源不仅需要满足不断增长的设备通信需求,还需要适配不同场景对速率、时延与可靠性等差异化要求。在此背景下,如何在有限的频谱资源中实现更为稳定的无线通信质量,已成为物联网行业发展路径中的核
    华普微HOPERF 2025-07-07 16:13 544浏览
  • 提要:采用LOXIM的微孔雾化专用芯片LX8201,能突破压电陶瓷驱动电压超标(24伏)的技术难题,满足全球市场对喷雾玩具的电压安规认证要求。玩具行业尤其是喷雾玩具行业内人士都知道,喷雾玩具的压电陶瓷驱动电压超标(常需60-100V)与强制安规标准(中国,日本,欧美,都一样)对玩具电压的限制(≤24V)存在根本性冲突,如果采用“多层压电堆叠(MPA)技术“(比如日本TDK公司),成本将增加至现有微孔雾化片的10倍以上,这个矛盾一直没有得到好的解决。喷雾玩具在国内热销(淘宝/抖音),能卖的原因,无
    Loximonline 2025-07-08 10:55 256浏览
  •   几个月前,一个老旧的大风扇的散风圈(俺不知其专业名称)的开关按钮不起作用,就是锁不住了,散风圈也就不转了。今天,有空,就拿到工作台,开始拆解分析故障原因,能修好更好。  看看,用的时间够长了吧!皮肤都变颜色了。看标签,合格品2005年的。  底部四个螺丝固定,很容易拆开了。  看到掉下一个标签圆纸片,拿起来看看,是那个横向摇头的电机的。  找到那个按钮开关位置  应该是开关内部的有缺陷了。把它拆下来,一看就是正规合格品。  拿出我日积月累的分类藏宝盒,呵呵,找到一款螺丝孔位正好合适的。   
    自做自受 2025-07-10 11:16 290浏览
  • 曾经靠“砍一刀”撕裂传统电商格局的拼多多,如今疲态尽显。数据显示,拼多多今年第一季度实现营收957亿元,同比增长10%,市场预估1016亿元,相比预期低了近60亿元;经营利润为161亿元,相比去年同期下降38%;归属于普通股股东的净利润为147亿元,同比下降47%。与此同时,拼多多市值也坐上了“过山车”。去年市值一度突破 2180 亿美元,力压国内电商巨头阿里,今年(7月1日收盘)市值仅余 1497.59 亿美元,已不足阿里(市值2718.63亿美元)一半
    用户1742991715177 2025-07-05 14:24 410浏览
我要评论
0
点击右上角,分享到朋友圈 我知道啦
请使用浏览器分享功能 我知道啦