Deepseek进入业务深水区,为什么需要昇腾大EP?

原创 脑极体 2025-03-16 21:41



DeepSeek让各行业引入AI大模型的意识和积极性明显提高,已推动AI在政务、能源、制造等领域广泛铺展开来。


很多政企用户接入DeepSeek之后,感受到了AI大模型给业务带来了“旦用难回”的体验,很快就从试用的第一阶段,进入第二阶段——大模型推理集群的扩容升级。


当“有没有Deepseek用”不再成为问题,那么“Deepseek好不好用”的挑战就迎面而来。


一来,人多了,大量访问请求带来的高并发,就像春运高峰期涌入巨大的人流量,会出现请求积压,模型推理思考时间变长,token吞吐速度下降,用户的等待时延达到50-100毫秒,服务器繁忙和排队让人恼火。


二来,机器多了,增加更多服务器会遇到物理天花板,机器扩容并不会线性提升在线推理服务的体验,就像即使增加了更多车厢,但铁轨承载能力有限,也无法运送更多旅客(AI任务)了。


当行业智能化进入深度应用DeepSeek的第二阶段,不得不面临高并发推理的技术挑战。在堆算力的同时,也要同步优化性能体验,相当于想要运送更多乘客,不仅要增加车厢数量,还要同步改造轨道、站台和管理机制,将老式火车升级为高铁,才能综合提高运输效率。



以DeepSeek为例,前不久公布了其利润率,高达545%,其中就涉及大量工程化能力,比如引入大EP推理集群,实现高并发推理吞吐量指数级增长。


对于更多行业和企业来说,没有DeepSeek那样的极客天才和顶尖技术团队,怎样用大EP来解决高并发推理挑战呢?当AI大模型开始进入千行万业的深水区,亟需一场大EP的“运力革命”。



很多政企客户在接入了Deepseek之后,使用量进一步增加,有了扩展推理集群规模的需求,推理资源需要从2台扩展到10台,从16卡扩展到千卡,但扩容升级并不是往机房一放、网络一连,就能高枕无忧了。


就像印度仍在使用的老式火车,仅靠增加车厢,还是无法提高运力,每个乘客能占用的火车空间极小,体验很差,火车不堪重负,延误晚点成了家常便饭。类似问题,在Deepseek和各种大模型与业务的结合中,高并发推理卡住了用户的体验瓶颈。



面对上述问题,大EP大规模专家并行的技术架构,成为趋势。


简单来说,大EP就是将MoE(混合专家)模型中数千个专家,分配到更多的卡(算力)上去。原本一张卡只能拉10个人,有了大EP,可以同时拉100个(高并发);原本只能跑一趟车,现在可以同时跑八趟车(提高专家计算路数batch size),那么乘客就不用长时间等待了。


所以,通过大EP可以提高高并发推理场景下的计算效率,实现更大的吞吐和更低的时延。用户体感上,比如一家银行的工作人员同时访问Deepseek,不会遇到排队、延迟、过长等待等情况。


大EP这么好,怎么才能部署到自己的一体机或推理资源池呢?不经过一番努力,确实很难吃到大EP的蛋糕。



一方面,推理场景的算力需求指数级扩展,而海外厂商的推理芯片如H20,虽然显存高,但算力不足,处理大EP场景时吞吐骤降。Deepseek公开的论文来看,仍然使用H800来进行推理。更强算力且供应链稳定的推理硬件,是大EP必不可少的。


另一方面,当请求总量猛增之后,会带来多种多样的负载,且极不均衡,相当于有的车厢坐的人多,有的车厢坐的人少,负载不均一样会导致体验不佳。


此外,大EP场景的All-to-All通信,导致卡间通信占比时间高,相当于每个车厢的专家都要通知到,这就会耽误进出站的效率。NVLink在大EP场景中,实际有效带宽利用率就不足。


由此可见,当行业使用Deepseek进入深水区,面对高并发推理场景,不能抱有“头疼医头脚疼医脚”的侥幸心理,而需要通盘思考和系统攻坚。



今天来看,各行各业拥抱Deepseek不是追逐一时风口,而是对智能化发展趋势的长期价值判断。普惠LLM进入千行万业,已经是大势所趋。


而大EP无法顺利被行业用起来,就意味着接入Deepseek始终存在时延高、体验差、成本难优化的问题,那么行业智能化也就无法顺利达成。


不过也不必过于担心,Deepseek、科大讯飞等模厂,与昇腾等算力厂商,以及政企行业用户,一直保持着紧密协作与沟通,自开年Deepseek热潮以来,从部署实践中沉淀了大量技术创新。


近期,昇腾推出了大EP解决方案,面向高并发推理场景,一站式升级为智能化“高铁”。



具体来说,昇腾大EP解决方案借助五大关键技术,与昇腾算力深度协同优化,成功突破了“专家负载均衡+通信优化”两大难题。


针对专家负载不均的难题:


昇腾大EP解决方案提出了MoE负载均衡技术,可以自动寻优,根据业务情况、集群规模,找到最优的专家,自动预测哪个专家更忙,自动配比,当一个专家负载过多时自动讲解,从而实现了备份节点和副本专家灵活可扩展、高可用和极致均衡,性能得到极大提升。


采用多种创新技术,做到自适应的autoPD分离部署。根据Prefill和Decode的动态负载,进行P、D实例的自动伸缩,无需人工介入,从而减少计算访存资源竞争。结合多级缓存内存资源池化,对冷热温数据进行区分,可以让系统的有效吞吐提升50%以上。


针对All-to-All通信优化的难题:


昇腾大EP解决方案提出了双流/多维混合并行,其中Prefill micro-batch双流并行,可以实现计算和通信的相互掩盖;MoE expert专家双流并行,实现两条数据流Stream的并行计算;Weight权重预取双流并行,可以把访存和通信并行起来,降低权重加载时间,提升效率。



MLA预处理阶段,昇腾大EP解决方案把大量的小算子,合成为大的融合算子,将计算耗时降低70%,让算力能力充分发挥出来。


如果你觉得上述技术创新多、不好记,那么只需要,借助昇腾大EP解决方案,行业应用Deepseek时,可以做到:


快。访问Deepseek无需等待。昇腾大EP可以将单卡并发提升3倍,Decode阶段响应速度稳定在50ms以内,支撑600+并发请求。


省。业务使用Deepseek上量之后,推理集群扩展的同时,性能也保持线性度,扩容综合成本更优。


正如高铁改变了中国人的出行,昇腾大EP为高并发推理铺设了一条“高速铁路”,改变了Deepseek上量扩容阶段的体验,为行业智能化提速增效。



仅用两个多月的时间,Deepseek就完成了从试用阶段到扩容阶段的进阶。高并发推理场景和大EP技术架构,成为应用Deepseek的新挑战。这也提醒我们,行业智能化是一个循序渐进的过程,不可能一蹴而就。


自主创新算力与国产模型如同高铁的双轨,成为支撑起智能中国的“新基建”。昇腾生态之所以与Deepseek等大模型更加适配,答案逐步清晰明确。


首先,昇腾有硬件,为行业智能化提供“永不沉降”的算力路基。昇腾硬件的FP16和INT8算力,可达到H20的2倍以上,且功耗更低,足以支撑各行业智能化的平稳前进。



此外,昇腾有软硬件的协同优化能力。随着行业智能化的不断深入,AI模型对算力需求不断扩张,但硬件的物理天花板和企业的投入产出比,都要求计算性能持续优化。昇腾的AI软硬件,提供从预训练到微调到强化学习,到推理集群、一体机,全流程全覆盖的方案,可以快速响应客户需求,高效支撑技术创新。目前,昇腾与DeepSeek最新技术已经实现了“day0”级别同步,确保企业智能化在昇腾软硬件基座上,始终行驶在技术最前沿。


更重要的是,昇腾有伙伴。行业智能化是一个体系化工程,不是单一硬件或软件厂商就能独自完成的。在自主创新算力生态中,昇腾一方面兼容主流生态与PyTorch等国内外框架,同时与ISV伙伴、各大模厂都保持着紧密共生与合作。这意味着,当行业用户基于昇腾底座开发AI应用,能得到生态的全方位助力,减少智能化升级的阻力,降低综合成本。


今天,智能化已经成为全球经济发展的主航道。在自主算力与国产模型所铸就的双轨上,行业智能化也将走深向远,向着智能时代飞驰。





·
·

·

脑极体 从技术协同到产业革命,从智能密钥到已知尽头
评论
  •   无人机部件仿真与模型验证平台系统解析   北京华盛恒辉无人机部件仿真与模型验证平台系统是无人机研发的核心工具,通过多元功能、创新架构和广泛应用,推动无人机技术发展。以下从核心功能、技术架构、应用场景、优势及发展趋势展开解析。   应用案例   目前,已有多个无人机部件仿真与模型验证平台在实际应用中取得了显著成效。例如,北京华盛恒辉和北京五木恒润无人机部件仿真与模型验证平台。这些成功案例为无人机部件仿真与模型验证平台的推广和应用提供了有力支持。   一、核心功能   三维建模与可视化
    华盛恒辉l58ll334744 2025-04-26 16:39 242浏览
  • 一、智能家居的痛点与创新机遇随着城市化进程加速,现代家庭正面临两大核心挑战:情感陪伴缺失:超60%的双职工家庭存在“亲子陪伴真空期”,儿童独自居家场景增加;操作复杂度攀升:智能设备功能迭代导致用户学习成本陡增,超40%用户因操作困难放弃高阶功能。而WTR096-16S录音语音芯片方案,通过“语音交互+智能录音”双核驱动,不仅解决设备易用性问题,更构建起家庭成员间的全天候情感纽带。二、WTR096-16S方案的核心技术突破1. 高保真语音交互系统动态情绪语音库:支持8种语气模板(温柔提醒/紧急告警
    广州唯创电子 2025-04-28 09:24 106浏览
  • 探针台作为半导体制造与测试的核心设备,通过精密定位与多环境适配能力,支撑芯片研发、生产及验证全流程。以下是其关键应用领域与技术特性:一、核心功能支撑1.‌电性能测试与分析‌l 在晶圆切割前,探针台直接接触芯片电极,测量阈值电压、漏电流、跨导等200余项参数,用于评估良品率及优化工艺设计。l 支持单晶体管I-V曲线测量,定位栅极氧化层厚度偏差(精度达0.2nm),为器件性能分析提供数据基础。2.‌纳米级定位与测量‌l 定位精度达±0.1μm,满足5nm及以下制程芯片的
    锦正茂科技 2025-04-27 13:09 140浏览
  • 探针台作为高精度测试设备,在光电行业的关键器件研发、性能测试及量产质量控制中发挥核心作用,主要涵盖以下应用场景与技术特性:一、光电元件性能测试1.‌光电器件基础参数测量‌l 用于LED、光电探测器、激光器等元件的电流-电压(I-V)特性、光功率、响应速度等参数测试,支撑光通信、显示技术的器件选型与性能优化。l 支持高频信号测试(如40GHz以上射频参数),满足高速光调制器、光子集成电路(PIC)的带宽与信号完整性验证需求。2.‌光响应特性分析‌l 通过电光转换效率测
    锦正茂科技 2025-04-27 13:19 113浏览
  • 2025年全球人形机器人产业迎来爆发式增长,政策与资本双重推力下,谷歌旗下波士顿动力、比亚迪等跨国企业与本土龙头争相入局,产业基金与风险投资持续加码。仅2025年上半年,中国机器人领域就完成42笔战略融资,累计金额突破45亿元,沪深两市机器人指数年内涨幅达68%,印证了资本市场对智能终端革命的强烈预期。值得关注的是,国家发展改革委联合工信部发布《人形机器人创新发展行动计划》,明确将仿生感知系统、AI决策中枢等十大核心技术纳入"十四五"国家重大专项,并设立500亿元产业引导基金。技术突破方面,本土
    电子资讯报 2025-04-27 17:08 220浏览
  •   北京华盛恒辉电磁环境适应性测试系统是针对复杂电磁环境进行仿真、测试与评估的关键设备,以下从系统功能、技术架构、应用场景、核心优势、发展趋势五个维度展开全面解析:   应用案例   目前,已有多个电磁环境适应性测试系统在实际应用中取得了显著成效。例如,北京华盛恒辉和北京五木恒润电磁环境适应性测试系统。这些成功案例为电磁环境适应性测试系统的推广和应用提供了有力支持。   一、系统功能   复杂电磁环境构建   全生命周期测试能力   实时监测与反馈   二、技术架构   模块化设
    华盛恒辉l58ll334744 2025-04-26 17:21 195浏览
  •     今天,纯电动汽车大跃进牵引着对汽车电气低压的需求,新需求是48V。车要更轻,料要堆满。车身电子系统(电子座舱)从分布改成集中(域控),电气上就是要把“比12V系统更多的能量,送到比12V系统数量更少的ECU去”,所以,电源必须提高电压,缩小线径。另一方面,用比传统12V,24V更高的电压,有利于让电感类元件(螺线管,电机)用更细的铜线,缩小体积去替代传统机械,扩大整车电气化的边界。在电缆、认证行业60V标准之下,48V是一个合理的电压。有关汽车电气低压,另见协议标准第
    电子知识打边炉 2025-04-27 16:24 165浏览
  •  集成电路封装测试是确保芯片性能与可靠性的核心环节,主要包括‌晶圆级测试(CP测试)‌和‌封装后测试(FT测试)‌两大阶段,流程如下:一、晶圆级测试(CP测试)1.‌测试目的‌:在晶圆切割前筛选出功能缺陷或性能不达标的晶粒(Die),避免后续封装环节的资源浪费,显著降低制造成本。2.‌核心设备与操作‌l ‌探针台(Prober)‌:通过高精度移动平台将探针与晶粒的Pad jing准接触,实现电气连接。l ‌ATE测试机‌:提供测试电源、信号输入及功能向量,接收晶粒反
    锦正茂科技 2025-04-27 13:37 164浏览
  • 晶振在使用过程中可能会受到污染,导致性能下降。可是污染物是怎么进入晶振内部的?如何检测晶振内部污染物?我可不可以使用超声波清洗?今天KOAN凯擎小妹将逐一解答。1. 污染物来源a. 制造过程:生产环境不洁净或封装密封不严,可能导致灰尘和杂质进入晶振。b. 使用环境:高湿度、温度变化、化学物质和机械应力可能导致污染物渗入。c. 储存不当:不良的储存环境和不合适的包装材料可能引发化学物质迁移。建议储存湿度维持相对湿度在30%至75%的范围内,有助于避免湿度对晶振的不利影响。避免雨淋或阳光直射。d.
    koan-xtal 2025-04-28 06:11 89浏览
  • 速卖通,作为阿里巴巴集团旗下的跨境电商平台,于2010年横空出世,彼时正值全球电商市场蓬勃发展,互联网的普及让跨境购物的需求日益增长,速卖通顺势而为,迅速吸引了全球目光。它以“让天下没有难做的生意”为使命,致力于打破国界限制,搭建起中国商家与全球消费者之间的桥梁。在其发展的黄金时期,速卖通取得的成绩令人瞩目。在欧洲市场,速卖通一度成为第一大电商平台。根据第三方机构《欧洲跨境商务》的评选,速卖通凭借出色的服务和消费者口碑,在“欧洲十大跨境电商平台”中脱颖而出,力压来自美国的亚马逊和eBay等电商巨
    用户1742991715177 2025-04-26 20:23 162浏览
  • 在电子电路设计和调试中,晶振为电路提供稳定的时钟信号。我们可能会遇到晶振有电压,但不起振,从而导致整个电路无法正常工作的情况。今天凯擎小妹聊一下可能的原因和解决方案。1. 误区解析在硬件调试中,许多工程师在测量晶振时发现两端都有电压,例如1.6V,但没有明显的压差,第一反应可能是怀疑短路。晶振电路本质上是一个交流振荡电路。当晶振未起振时,两端会静止在一个中间电位,通常接近电源电压的一半。万用表测得的是稳定的直流电压,因此没有压差。这种情况一般是:晶振没起振,并不是短路。2. 如何判断真
    koan-xtal 2025-04-28 05:09 108浏览
我要评论
0
点击右上角,分享到朋友圈 我知道啦
请使用浏览器分享功能 我知道啦