深度丨海光DCU与DeepSeek完成国产化适配,生态与技术潜力知多少

原创 AI芯天下 2025-02-12 20:30

·聚焦:人工智能、芯片等行业

欢迎各位客官关注、转发






前言
过去,实现特定模型性能所需的大量英伟达芯片,如今可以通过国产GPU与DeepSeek以更经济的方式达成。

DeepSeek对产业链的激活效应亦可能波及国内的智算中心。

众多智算中心正审视DeepSeek,并可能因此调整建设方案,提高国产设备的采购比例。根据中国信息通信研究院的数据,截至2024年7月底,国内已纳入监测的智算中心(包括已建成和在建的)数量达到87个。

DeepSeek所提供的高性价比模型有助于国产GPU与国产云服务的融合,形成一套完全由国产技术构成的解决方案。


作者 | 方文三
图片来源 |  网 络 


海光DCU与DeepSeek完成国产化适配


近期,海光信息技术团队已成功实现DeepSeekV3与R1模型与海光DCU(深度计算单元)的国产化适配,并已正式投入使用。


此举标志着海光团队近期完成了第三款DeepSeek大模型的适配优化工作,充分体现了DCU在生态系统和技术能力方面的显著优势。


得益于DCU采用的GPGPU通用加速计算架构,DeepSeek模型能够直接在DCU上运行,无需进行大规模的适配工作。


技术团队的主要任务在于进行模型精度的验证和性能的持续优化。


此次适配优化的DeepSeek-Janus-Pro模型,具备跨模态理解与生成的能力,专注于视觉与语言理解的结合,旨在处理更为复杂的跨模态任务。


海光技术团队的负责人指出,海光DCU在短时间内迅速完成了多款大模型的适配工作,这充分展示了DCU基于GPGPU架构实现的与主流AI生态兼容的重要优势。


同时,这也验证了国产算力基础支撑前沿AI模型的技术能力,为金融、制造等行业的智能化转型提供了自主可控的技术选择。


随着多模态AI应用场景的不断扩展,国产算力基础设施正成为推动产业智能化升级的核心动力。


海光DCU,作为海光信息公司推出的高性能GPGPU架构AI加速卡,旨在为行业客户提供自主可控的全精度通用AI加速计算解决方案。



DeepSeek与海光DCU之间展现出深层次的协同效应


多令牌预测技术通过改善数据处理流程,使得海光DCU能够更高效地运用其计算核心,从而最大化计算资源的利用率。


例如,在自然语言处理任务中,多令牌预测技术使海光DCU能够在单位时间内处理更多的文本数据。


原本耗时较长的文本分析任务,借助该技术能够迅速得出结果,使得海光DCU在此类任务中的性能与英伟达GPU的差距逐渐缩小。


而FP8混合精度训练技术与海光DCU的硬件架构相结合,能够在硬件层面实现更高效的数据传输和计算,减少数据在不同存储层级之间的搬运时间,从而显著提升整体计算效率。


从成本角度审视,这些新技术的应用使得海光DCU在达到相似计算性能的情况下,成本更为低廉。


以大规模深度学习模型训练为例,采用海光DCU配合DeepSeek新技术,在电力消耗和硬件采购成本上,相较于英伟达GPU具有明显优势。


并且,随着技术的持续优化,海光DCU的单位计算成本仍在不断下降。


在效率方面,多令牌预测和FP8混合精度训练技术的结合,大幅缩短了模型训练周期。


过去需要数周时间才能完成训练的大型模型,现在借助这些技术,可能仅需数天即可完成,这对于时间成本极为敏感的科研项目和商业应用而言,具有极大的吸引力。


在新兴的AI应用领域,如边缘计算与物联网融合的智能场景中,对计算设备的能耗、体积以及成本都有着严格的要求。


海光DCU凭借其相对小巧的体积和较低的能耗,结合DeepSeek的强化学习技术,在这些场景中能够发挥独特的优势。


例如,在智能安防摄像头的实时图像分析、工业物联网设备的实时故障诊断等应用场景中,海光DCU能够在本地进行快速的数据处理和决策,无需将大量数据传输至云端。


这不仅降低了数据传输成本,还提高了响应速度,满足了新兴市场对实时性和本地化计算的需求,为其开拓了广阔的市场空间。



起底海光信息GPGPU路线双赛道厂商


海光信息作为国内为数不多同时深耕CPU和DCU(GPGPU路线)双赛道的厂商,海光服务器不仅可以支持当前的通用场景业务,也可以应用在AI场景(如训练、推理),满足当下AI应用场景强烈的需求。


自2014年成立之初,海光信息从一个鲜为人知的初创公司迅速崛起,成为国产高端处理器行业的领军企业。


其市值一度飙升至3340亿元,成为科创板中市值最高的半导体公司之一。


2016年3月及2017年10月,海光微电子与海光集成分别与AMD签订了技术许可协议。


得益于AMD的授权,海光信息的发展步伐显著加快,2018年第二季度,海光CPU正式推向市场。


2019年6月,海光信息被列入美国《出口管制条例》的[实体清单],此后AMD停止了相关技术服务的提供。


面对挑战,海光信息依靠自身力量完成了后续产品和技术的迭代开发。


2023年9月20日,在接受调研时,海光信息宣布,海光DCU深算二号已正式发布并投入商用,该产品在大数据处理、AI、商业计算等领域实现了商业应用。


深算二号具备全精度浮点数据和多种常见整型数据的计算能力,性能相较于深算一号实现了成倍增长。同时,深算三号的研发工作进展顺利。


2023年10月31日,国产高端处理器再次升级,海光四号新品发布,该产品首次采用自主研发的CPU微架构,有助于加速核心器件的国产化进程。


2023年度,海光信息公司旗下高端处理器(涵盖中央处理器CPU及数据计算单元DCU)业务板块实现营业收入达60.12亿元。


公司依托于不断的产品迭代与技术升级,例如推出海光三号CPU和深算二号DCU等新产品,有效地促进了营业收入与利润的同步增长。


至2024年上半年,公司营业收入达到37.63亿元,同比增长率达到44.08%。


这一增长主要得益于公司持续投入高强度的研发资源,技术创新与产品迭代的成效显著,以及市场份额的进一步拓展。



海光DCU系列产品优势及合作应用


DCU(DeepComputingUnit,深度计算单元)是海光信息在[深算智能]战略下推出的高性能GPGPU架构AI加速卡,致力于为行业客户提供自主可控的全精度通用AI加速计算解决方案。


海光DCU基于GPGPU架构,专为高性能计算(HPC)和AI训练/推理进行了优化,支持FP32、FP16、INT8等多种混合精度计算,并与CUDA生态兼容(通过HIP接口转换),从而降低了用户迁移的成本。


官方声称,其DCU系列产品(例如DCU-Z100)的理论计算性能接近NVIDIAA100的80%-90%,但在实际应用中,仍需对软件栈进行优化以充分发挥硬件的潜力。



中科金财与海光信息达成战略合作,联合推出了创新的软硬一体解决方案,深度适配DeepSeek模型。


中科金财通过自研的多场景多基座大模型引擎,与海光的DCU系列加速卡相结合,创建了一个高效、安全、低成本的AI技术底座。


这一解决方案在金融领域的应用中,展现出了强大的优势。


例如,在智能投顾业务中,能够快速分析市场数据,为投资者提供精准的投资建议;


在风险评估方面,利用DeepSeek模型的强大分析能力,结合海光DCU的高效计算性能,能够更准确地评估风险,为金融机构的稳健运营提供有力支持。


澎峰科技自主研发的PerfXLM+推理框架成功实现了对海光DCU的深度适配与优化。


这一成果使得底层架构能够充分发挥海光DCU的强大算力,在处理DeepSeek-R1-Distill系列等模型时,不仅减少了资源消耗,还显著提升了推理效率。


青云科技旗下的[基石智算CoresHub]正式上线包括671B满血版在内的DeepSeek系列模型,通过基石智算提供DeepSeek云端模型服务的同时,还为企业提供DeepSeek私有化部署服务。



结尾:算力基础设施供应商纷纷适配


近期,中国联通宣布,联通云已基于[星罗]平台实现了国产及主流算力适配多规格DeepSeek-R1模型,兼容私有化和公有化场景,实现多产品场景调用,并可在全国270+骨干云池预部署,全面接入联通云桌面、编程助手等多产品场景。


同时,据华为计算官方公众号最新消息,DeepSeek-R1、DeepSeek-V3、DeepSeek-V2、Janus-Pro已正式上线昇腾社区,支持一键获取DeepSeek系列模型,支持昇腾硬件平台上即开即用,快速部署推理。


此外,京东云也已正式上线DeepSeek-R1和DeepSeek-V3模型,支持公有云在线部署、专混私有化实例部署两种模式。


此前,百度智能云宣布,百度智能云千帆平台已正式上架DeepSeek-R1和DeepSeek-V3模型,推出了超低价格方案,并提供限时免费服务,用户可登录百度智能云千帆ModelBuilder快速体验。


阿里云也宣布,阿里云PAIModelGallery支持云上一键部署DeepSeek-V3、DeepSeek-R1。


在该平台上,用户可以零代码实现从训练到部署再到推理的全过程,简化模型开发流程,为开发者和企业用户带来了更快、更高效、更便捷的AI开发和应用体验。


腾讯云宣布在高性能应用服务HAI(腾讯云高性能应用服务)上支持一键部署DeepSeek-R1模型。


开发者可以在3分钟内完成模型的启动和配置,无需手动处理复杂的安装和调优过程。


360数字安全集团宣布其安全大模型正式接入DeepSeek,将以DeepSeek为安全大模型基座,发挥360安全大数据优势,通过继续强化学习等技术手段,训练出[DeepSeek版]安全大模型,让安全真正做到[自动驾驶]。


部分资料参考:经济观察报:《DeepSeek激活AI产业链大批公司春节加班适配》,21世纪经济报道:《DeepSeek,再传重磅》,创信世界:《DeepSeekV3与R1模型海光DCU国产化适配并上线》,财联社:《DeepSeek[朋友圈]再扩容:华为、京东相继加入》,与非网eefocus:《从DeepSeek适配潮看中国芯突围:生态反击》,信创纵横:《x86技术路线下,谁是国产服务器之光?》,博双股基社:《国产算力领头羊,CPU+DCU双轮驱动》


本公众号所刊发稿件及图片来源于网络,仅用于交流使用,如有侵权请联系回复,我们收到信息后会在24小时内处理。



END


推荐阅读:


商务合作请加微信勾搭:
18948782064

请务必注明:

「姓名 + 公司 + 合作需求」


AI芯天下 聚焦人工智能,AI芯片,5G通讯等行业动态
评论
  • 在智能终端设备开发中,语音芯片与功放电路的配合直接影响音质表现。广州唯创电子的WTN6、WT588F等系列芯片虽功能强大,但若硬件设计不当,可能导致输出声音模糊、杂音明显。本文将以WTN6与WT588F系列为例,解析音质劣化的常见原因及解决方法,帮助开发者实现清晰纯净的语音输出。一、声音不清晰的典型表现与核心原因当语音芯片输出的音频信号存在以下问题时,需针对性排查:背景杂音:持续的“沙沙”声或高频啸叫,通常由信号干扰或滤波不足导致。语音失真:声音断断续续或含混不清,可能与信号幅度不匹配或功放参数
    广州唯创电子 2025-03-25 09:32 72浏览
  • 在智慧城市领域中,当一个智慧路灯项目因信号盲区而被迫增设数百个网关时,当一个传感器网络因入网设备数量爆增而导致系统通信失效时,当一个智慧交通系统因基站故障而导致交通瘫痪时,星型网络拓扑与蜂窝网络拓扑在构建广覆盖与高节点数物联网网络时的局限性便愈发凸显,行业内亟需一种更高效、可靠与稳定的组网技术以满足构建智慧城市海量IoT网络节点的需求。星型网络的无线信号覆盖范围高度依赖网关的部署密度,同时单一网关的承载设备数量有限,难以支撑海量IoT网络节点的城市物联系统;而蜂窝网络的无线信号覆盖范围同样高度依
    华普微HOPERF 2025-03-24 17:00 177浏览
  • 人形机器人产业节奏预估:2024年原型机元年,2025年小规模量产元年。当宇树科技H1人形机器人以灵动的手部动作在春晚舞台上演创意融合舞蹈《秧Bot》,舞出"中国智造"时,电视机前十几亿观众第一次深刻意识到:那个需要仰望波士顿动力的时代正在落幕。*图源:宇树科技短短数周后,宇树G1机器人又用一段丝滑的街舞在网络收割亿级播放量,钢铁之躯跳出赛博朋克的浪漫。2月11日,宇树科技在其京东官方旗舰店上架了两款人形机器人产品,型号分别为Unitree H1和G1。2月12日,9.9万元的G1人形机器人首批
    艾迈斯欧司朗 2025-03-22 21:05 137浏览
  • 无论你是刚步入职场的新人,还是已经有几年经验的职场老手,培养领导力都是职业发展中一个至关重要的环节。拥有良好的领导能力不仅能让你从人群中脱颖而出,也能让你在团队中成为一个值得信赖、富有影响力的核心成员。什么是领导力?领导力并不仅仅意味着“当老板”或者“发号施令”。它更多地是一种能够影响他人、激发团队潜能,并带领大家实现目标的能力。一位优秀的领导者需要具备清晰的沟通能力、解决问题的能力,以及对人心的深刻理解。他们知道如何激励人心,如何在压力下保持冷静,并能在关键时刻做出正确的决策。如何培养领导力?
    优思学院 2025-03-23 12:24 94浏览
  •       知识产权保护对工程师的双向影响      正向的激励,保护了工程师的创新成果与权益,给企业带来了知识产权方面的收益,企业的创新和发明大都是工程师的劳动成果,他们的职务发明应当受到奖励和保护,是企业发展的重要源泉。专利同时也成了工程师职称评定的指标之一,专利体现了工程师的创新能力,在求职、竞聘技术岗位或参与重大项目时,专利证书能显著增强个人竞争力。专利将工程师的创意转化为受法律保护的“无形资产”,避免技术成果被他人抄袭或无偿使
    广州铁金刚 2025-03-25 11:48 131浏览
  • 在人工智能与物联网技术蓬勃发展的今天,语音交互已成为智能设备的重要功能。广州唯创电子推出的WT3000T8语音合成芯片凭借其高性能、低功耗和灵活的控制方式,广泛应用于智能家居、工业设备、公共服务终端等领域。本文将从功能特点、调用方法及实际应用场景入手,深入解析这款芯片的核心技术。一、WT3000T8芯片的核心功能WT3000T8是一款基于UART通信的语音合成芯片,支持中文、英文及多语种混合文本的实时合成。其核心优势包括:高兼容性:支持GB2312/GBK/BIG5/UNICODE编码,适应不同
    广州唯创电子 2025-03-24 08:42 161浏览
  • 在嵌入式语音系统的开发过程中,广州唯创电子推出的WT588系列语音芯片凭借其优异的音质表现和灵活的编程特性,广泛应用于智能终端、工业控制、消费电子等领域。作为该系列芯片的关键状态指示信号,BUSY引脚的设计处理直接影响着系统交互的可靠性和功能拓展性。本文将从电路原理、应用场景、设计策略三个维度,深入解析BUSY引脚的技术特性及其工程实践要点。一、BUSY引脚工作原理与信号特性1.1 电气参数电平标准:输出3.3V TTL电平(与VDD同源)驱动能力:典型值±8mA(可直接驱动LED)响应延迟:语
    广州唯创电子 2025-03-26 09:26 83浏览
  • 文/Leon编辑/cc孙聪颖‍“无AI,不家电”的浪潮,正在席卷整个家电行业。中国家电及消费电子博览会(AWE2025)期间,几乎所有的企业,都展出了搭载最新AI大模型的产品,从电视、洗衣机、冰箱等黑白电,到扫地机器人、双足机器人,AI渗透率之高令人惊喜。此番景象,不仅让人思考:AI对于家电的真正意义是什么,具体体现在哪些方面?作为全球家电巨头,海信给出了颇有大智慧的答案:AI化繁为简,将复杂留给技术、把简单还给生活,是海信对于AI 家电的终极答案。在AWE上,海信发布了一系列世俱杯新品,发力家
    华尔街科技眼 2025-03-23 20:46 78浏览
  • 在智能终端设备快速普及的当下,语音交互已成为提升用户体验的关键功能。广州唯创电子推出的WT3000T8语音合成芯片,凭借其卓越的语音处理能力、灵活的控制模式及超低功耗设计,成为工业控制、商业终端、公共服务等领域的理想选择。本文将从技术特性、场景适配及成本优势三方面,解析其如何助力行业智能化转型。一、核心技术优势:精准、稳定、易集成1. 高品质语音输出,适配复杂环境音频性能:支持8kbps~320kbps宽范围比特率,兼容MP3/WAV格式,音质清晰自然,无机械感。大容量存储:内置Flash最大支
    广州唯创电子 2025-03-24 09:08 192浏览
  • WT588F02B是广州唯创电子推出的一款高性能语音芯片,广泛应用于智能家电、安防设备、玩具等领域。然而,在实际开发中,用户可能会遇到烧录失败的问题,导致项目进度受阻。本文将从下载连线、文件容量、线路长度三大核心因素出发,深入分析烧录失败的原因并提供系统化的解决方案。一、检查下载器与芯片的物理连接问题表现烧录时提示"连接超时"或"设备未响应",或烧录进度条卡顿后报错。原因解析接口错位:WT588F02B采用SPI/UART双模通信,若下载器引脚定义与芯片引脚未严格对应(如TXD/RXD交叉错误)
    广州唯创电子 2025-03-26 09:05 80浏览
  • 核心板简介创龙科技 SOM-TL3562 是一款基于瑞芯微 RK3562J/RK3562 处理器设计的四核 ARM C ortex-A53 + 单核 ARM Cortex-M0 全国产工业核心板,主频高达 2.0GHz。核心板 CPU、R OM、RAM、电源、晶振等所有元器件均采用国产工业级方案,国产化率 100%。核心板通过 LCC 邮票孔 + LGA 封装连接方式引出 MAC、GMAC、PCIe 2.1、USB3.0、 CAN、UART、SPI、MIPI CSI、MIPI
    Tronlong 2025-03-24 09:59 188浏览
  •        当今社会已经步入了知识经济的时代,信息大爆炸,新鲜事物层出不穷,科技发展更是一日千里。知识经济时代以知识为核心生产要素,通过创新驱动和人力资本的高效运转推动社会经济发展。知识产权(IP)应运而生,成为了知识经济时代竞争的核心要素,知识产权(Intellectual Property,IP)是指法律赋予人们对‌智力创造成果和商业标识等无形财产‌所享有的专有权利。其核心目的是通过保护创新和创意,激励技术进步、文化繁荣和公平竞争,同时平衡公共利益与
    广州铁金刚 2025-03-24 10:46 78浏览
我要评论
0
点击右上角,分享到朋友圈 我知道啦
请使用浏览器分享功能 我知道啦