如果DeepSeek成功改用国产GPU,英伟达在人工智能领域的垄断地位将被打破……

DeepSeek自上线以来便以迅猛的速度在全球范围内获得了广泛关注,其日活用户数在短时间内突破2000万,成为全球增速最快的AI应用之一。作为一家中国人工智能初创企业,外部算力(主要是GPU)限制逐渐成为制约其进一步发展的瓶颈,如今他们正致力于通过优化其大模型技术的硬件兼容性来应对潜在的外部算力限制。

DeepSeek与ChatGPT日活用户增长趋势对比来源:AI产品榜

近期,有报道指出DeepSeek正在绕过英伟达的CUDA(Compute Unified Device Architecture,软硬体统一计算架构)编程框架,直接使用底层硬件指令集(PTX),为未来适配中国国产图形处理器(GPU)做准备。这一举措不仅标志着中国AI技术在硬件兼容性上的重大突破,也为全球AI产业的发展带来了新的启示。

(来源:DeepSeek

绕开CUDA,直接采用PTX实现更高效的训练

据多家媒体报道,DeepSeek在研发大型语言模型时,选择了直接使用英伟达的中间指令集框架Parallel Thread Execution (PTX),而不是常用的CUDA编程框架。这种方法不仅能够更高效地利用硬件资源,提供更加细粒度的操作控制,还能避免由于CUDA的通用性导致的训练灵活性损失。

分析表明,这种做法相当于绕过了硬件对训练速度的限制,使得DeepSeek能够在五天内完成其他模型需要十天才能完成的训练任务,极大地提高了效率和灵活性。

韩国未来资产证券(Mirae Asset Securities Research)在对DeepSeek技术论文进行分析时发现,该模型的硬件效率之所以能比Meta等高出10倍,正是因为DeepSeek选择了从头开始重建一切。

(来源:X)

据Tom’s Hardware报道,DeepSeek内部拥有一些擅长写PTX语言的内部开发者,这使得其在硬体适配方面更加得心应手。只要了解这些硬件驱动提供的一些基本函数接口,就可以仿照英伟达GPU硬件的编程接口去写相关的代码,从而让自家大模型更加容易适配国产硬件。

CUDA是英伟达开发的软硬体整合技术,是一种高级语言,它允许开发者利用英伟达的图形处理器(GPU)进行计算。开发者只需要专注于程序和算法最相关的运行逻辑,而不太需要考虑具体的程序是如何在 GPU 等硬件上具体如何执行计算的,从而能够降低开发难度。

举例来说,假如一个人会写汇编语言,虽然能非常高效地操作计算机,但是,汇编语言对于非专业出身的人员难度非常高,哪怕执行一个给变量赋值操作都需要好几条命令,并且还要了解寄存器、内存等计算机基础概念。而由于CUDA大大降低了研发大模型的难度,因此全球大模型开发商都倾向选择使用英伟达的CUDA技术,可以说CUDA 便是为了方便开发基于 GPU 的算法设计的。

然而,DeepSeek却选择了另辟蹊径,从头开始重建模型,这一做法虽然复杂且难以维护,但却为其未来适配中国国产GPU打下了坚实的基础。

适配国产GPU,提升硬件兼容性和自主可控性

DeepSeek这一策略的背后,是对未来可能面临的算力供应问题的深思熟虑。

2025年2月,摩尔线程智能科技公司宣布成功部署DeepSeek蒸馏模型推理服务,验证了其自研全功能GPU在复杂AI任务中的支持能力。摩尔线程还计划开放自主设计的夸娥(KUAE)GPU智算集群,支持DeepSeek V3、R1模型及新一代蒸馏模型的分布式部署。

同样在2月,华为昇腾与潞晨科技联合发布了基于国产昇腾910B芯片的DeepSeek-R1系列推理API。这一合作通过自研推理引擎深度适配优化昇腾算力,使得DeepSeek-R1的推理性能能够比肩高端GPU。DeepSeek-R1系列还支持NV H800等常见算力,进一步释放了异构集群的潜力,满足不同场景下的推理需求。

此外,沐曦2月2日联合中国开源大模型平台Gitee AI发布了全套DeepSeek-R1千问蒸馏模型;天数智芯在2月4日宣布完成与DeepSeek-R1模型的适配工作,并上线多个大模型服务。

国外芯片企业也纷纷表态,1月25日,AMD宣布将DeepSeek-V3模型集成到其Instinct MI300X GPU上;1月31日,英伟达官宣其NVIDIA NIM微服务预览版支持DeepSeek-R1模型;1月31日,英特尔宣布DeepSeek能够在英特尔产品上运行,包括搭载英特尔处理器的AI PC。

推动国产AI生态建设

DeepSeek开源模型在多语言理解和复杂推理任务中展现了卓越性能,其贡献不仅在于技术上的领先,更在于持续支持和赋能开源社区。通过与国产GPU厂商的深度合作,DeepSeek为国内AI开发者提供了更强大的硬件支持和更灵活的开发环境。开发者可以基于国产GPU和DeepSeek模型,更高效地进行AI应用开发,推动AI技术在更多领域的落地应用。

通过DeepSeek提供的蒸馏模型,大规模模型的能力可以迁移至更小、更高效的版本,在国产GPU上实现高性能推理。此举不仅验证了国产全功能GPU对复杂AI任务的支持能力,也为通用人工智能(AGI)技术的普及化提供了可行路径。

国内又有更多云巨头加入到支持行列中。昨天下午,阿里云和百度智能云先后官宣了对DeepSeek-V3、DeepSeek-R1模型的支持。百度智能云更是直接公布了模型的输入和输出价格。加之此前的华为云、腾讯云,目前国内四大云巨头都已正式支持DeepSeek。此前海外的AWS、微软智能云等云巨头已官宣支持。

责编:Luffy
  • 好文,透彻
阅读全文,请先
您可能感兴趣
AI正稳步改变半导体行业,这一趋势在领先EDA公司和硅片代工厂表现得尤为突出。三大EDA工具制造商(Cadence、Synopsys和西门子EDA)已宣布与台积电合作,致力于为先进芯片制造节点开发AI驱动的设计流程。本文将简要回顾这些合作的现状。
台积电计划在 3 月前投资超过 2000 亿新台币(约合 61.2 亿美元),扩建其位于台湾南部科学园区三期的CoWoS生产设施。知情人士透露,台积电之所以做出这一决定,是因为人工智能(AI)驱动的先进封装需求比预期更为强劲......
索尼新专利利用人工智能(AI)技术来预测玩家的操作输入,从而显著减少在线游戏中常见的延迟问题。这项创新技术被称为“定时输入/动作释放”,通过智能AI模型提前判断玩家的意图,并在实际操作完成之前执行相应的指令,从而提升游戏的流畅度和响应速度......
半导体行业正迎来一个新的建设高峰期,SEMI预测,2025年,全球范围内将有18个新的晶圆厂项目开始建设,其中15座为12英寸晶圆厂,3座为8英寸晶圆厂,大部分预计将于 2026 年至 2027 年开始运营......
这款机器人头上的摄像头可以录制视频或使用人工智能识别物体,虽然该机器人的动作仅限于挥动细小的手臂和眨动动画眼睛,但它可以与一把小型电动椅子配对,自动在家中导航。
IP供应商、芯片设计服务提供商和AI专家在以AI为中心的设计价值链中的地位正变得更加突出。本文给出了四个设计用例,强调了服务于AI应用的芯片设计模型的重新调整。
全球人形机器人领域上市公司的百强名单将人形机器人产业链区分为大脑、身体以及集成三大核心环节,覆盖全球共计100家上市公司。中国共37家企业上榜(中国大陆32家,台湾5家),其中深圳7家,占中国大陆上榜企业近四分之一,包括比亚迪、腾讯、优必选、速腾聚创、雷赛智能、兆威机电、汇川技术等......
DeepSeek模型虽降低AI训练成本,但AI模型的低成本化可望扩大应用场景,进而增加全球数据中心建置量。光收发模块作为数据中心互连的关键组件,将受惠于高速数据传输的需求。未来AI服务器之间的数据传输,都需要大量的高速光收发模块......
凭借新一代3nm制程工艺与全新架构,骁龙® 8至尊版的单核和GPU 性能提升均超过 40%,使得Find N5在性能上实现质的飞跃……
简化物联网连接:应用就绪型软件构建模块
别再盯着欧美了,日韩在全球半导体市场也是一股不可忽视的力量。韩国,按销售额来看,是全球半导体第二大国,仅次于美国。日本,半导体设备和材料领域的王者,在部分领域能做到近乎垄断。不只有三星和SK海力士,存
2月10日晚,比亚迪举办了“天神之眼 开创全民智驾时代”智能化战略发布会,正式发布了全民智驾战略,并推出了首批21款智驾车型,覆盖7万级至20万级价格区间,全部保持原价。           其中,海
2月10日,市场调查机构 IDC 发文称,2024 年全年中国平板电脑市场出货量为 2985 万台,同比增长 4.3%,市场迎来回暖。报道称, 2024 年第 4 季度市场出货量为 786 万台,受库
在当今竞争激烈的商业环境中,企业运营效率的高低往往决定了其在市场中的地位和生存能力。而信息化系统的应用,正逐渐成为企业提升运营效率的关键因素。众所周知,信息化系统能够实时监控企业生产、销售等各个环节的
据IT业界9日报道,苹果公司最近进入了“可折叠iPhone”零部件供应商选择的最后阶段,据观察,三星显示器已决定独家供应初期面板量。据悉,三星将供应约1500万至2000万片,并将于明年5月开始量产,
2月10日盘后,光峰科技发布公告,于近日收到某知名车企出具的开发定点通知书,将为其旗下新时代科技品牌的SUV车型供应智能座舱显示产品,预计2025年内量产供货。光峰科技认为,随着消费者对智能座舱需求的
一年一度的新能源汽车“掀桌子”活动又开始了,前两年新能源汽车“价格战”的阴影还没有消散,今年关于智能驾驶只怕又要卷生卷死了。搅动风云的,依旧是那个男人,依旧是那个品牌——比亚迪,又来掀桌子了。昨晚,比
近日,摩根士丹利发布了题为《The Humanoid 100: Mapping the Humanoid Robot Value Chain》的报告,该报告公布了全球人形机器人产业链百强企业榜单。这一
 △广告 与正文无关 近日,南浔区举行项目签约仪式,晶洲长三角TGV玻璃基板半导体工艺装备研发及产业化项目、玻璃基板PVD镀膜设备研发及生产项目签约落户南浔。据悉,苏州晶洲装备科技有限公司是目前国内唯
近年来,贵港市港北区深入实施产业转型升级三年攻坚行动,紧盯全国产业链布局和东部产业转移趋势,确立PCB(印制电路板)产业作为重点产业发展,加大招商引资力度,推动PCB产业“从无到有”,聚链成势。目前,