DeepSeek的国产AI芯片天团

原创 电子工程世界 2025-02-10 08:02

遥想两年前,ChatGPT给了世界一记AI冲击,而DeepSeek无疑是第二记冲击。我们不仅对DeepSeek强劲的性能所震撼,也让远在大洋彼岸的OpenAI、谷歌、META等一众玩家感受到莫大压力,从而纷纷继续“卷”起来,效仿DeepSeek的“开源”模式。

对于DeepSeek本身,人们关注其如何在有限算力实现强大性能,更关注其在重重条令围城之下的未来之路。而在最近,全世界的芯片厂商集体出动,纷纷宣布支持DeepSeek。尤其是众多国产AI芯片厂商,集体发力,为DeepSeek建立了一个坚实的后盾。


缘起:DeepSeek成功背后



为什么DeepSeek能够掀起如此巨浪?因为令人惊讶的是,目前普遍认为DeepSeek仅仅用了550万美元的成本实现了openAI上亿美元做到的事。总结起来,DeepSeek有四点创新:

第一,拉低整体成本。信息显示,DeepSeek V3模型的训练总计耗用278.8万GPU小时,相当于在2048块H800 GPU集群上训练约2个月,成本为557.6万美元。相比之下,GPT-4o的训练成本约为1亿美元,需使用上万块性能更强的H100 GPU。同时,DeepSeek V3的成本仅为Llama 3的7%。AI专家指出,达到DeepSeek V3级别的能力需接近16000颗GPU的集群。

之所以有很低的成本,是DeepSeek的模型架构与主流设计有所不同,采用了细颗粒度的MoE(混合专家)结构。虽然细颗粒度MoE并非首创,例如阿里也在探索这一方向,但DeepSeek通过这一架构在推理时仅激活部分参数,从而显著降低成本。此外,DeepSeek在推理机制中引入了LLA,与市场上常见的多头注意力机制不同,后者需要所有参数参与计算,而DeepSeek仅激活少量参数,进一步提升了效率。当前先进模型大多采用邓氏架构,而DeepSeek的创新在于通过细颗粒度MoE和LLA实现了更高效的推理。

第二,训练方法。传统方法为FP32和FP16的混合精度,DeepSeek则采用FP8参数,比较敏感的组件还是FP16。分布式混合精度目前做的比较少,训练方法里面也有工程优化,之前时延导致GPU利用率不是很高,DeepSeek用流水线并行,高效利用通信网络,提升速率。

第三,编程不同。DeepSeek采用了NVIDIA PTX指令集(Parallel Thread Execution ISA)来提升执行效能。PTX是NVIDIA GPU最底层的控制语言,用更细颗粒度来调度底层单元,将硬件调度细化。不过,此处需要注意PTX并非是CUDA的替代品,对于大部分开发者来说学习门槛较高,所以才有了CUDA来简化开发过程。

第四,AI Infra,通常集群是三层网络,DeepSeek是两层,通信库降低PCIe消耗,减少GPU内存消耗增高网络通信速度,HF Reduce、分布式文件系统、调度平台用得比较灵活。

虽说在各种突破之下,DeepSeek的表现惊人。但对大多数用户来说,也许更多的体验是“服务器繁忙,请稍后再试”,除了国外对于DeepSeek的攻击以外,也许DeepSeek的算力真的不够用了。

根据国泰君安证券分析师舒迪、李奇测算,假设DeepSeek日均访问量为1亿次、每次提问10次,每次提问的回复用到1000个token,1000个token大概对应750个英文字母,则DeepSeek每秒的推理算力需求为1.6*1019TOPs。在这种普通推理情境下,假设DeepSeek采用的是FP8精度的H100卡做推理,利用率50%,那么推理端H100卡的需求为16177张,A100卡的需求为51282张。

这种情况下,AI芯片就显得格外重要了。


后盾:国产芯片撑起一片天



事实上,芯片算力一直都在追着大模型奔跑。换句话说,未来算力需求一定难以满足现在AI发展,DeepSeek未来会面对

据OpenAI测算,自2012年以来,AI模型训练算力需求每3~4个月就翻一番,每年训练AI模型所需算力增长幅度高达10倍。而连摩尔定律中,芯片计算性能翻一番的周期为18~24个月,更何况摩尔定律已经出现放缓迹象。专家预测,未来几年OpenAI仅训练模型⾄少还需要200~300亿美元的硬件,Google需要200-300亿美元,Anthropic需要100-200亿美元,未来几年至少投入1000亿美元纯粹用到训练⼤模型。

 
芯片厂商当然没有错过DeepSeek这一机会,比如在春节期间,国外芯片厂商接连宣布支持DeepSeek:

  • 1月25日,AMD将DeepSeek-V3模型集成于Instinct MI300X GPU;

  • 1月31日,NVIDIA NIM微服务预览版支持DeepSeek-R1模型英伟达;

  • 1月31日,英特尔DeepSeek模型能在酷睿AIPC上离线使用;

  • 2月1日,英特尔Gaudi 2D Al加速器支持DeepSeek Janus Pro模型。

自从AI大模型来了,英伟达喝汤喝到撑,GPU也就成了香饽饽。但在地缘政治局势愈发紧张的现如今,国内高端AI芯片不断被围追堵截。因此,自主可控成了不可不谈的问题。近几日,DeepSeek获国产芯片厂商力挺,成为支撑DeepSeek的“天团”。
1.华为:华为云宣布与硅基流动联合首发并上线基于华为云昇腾云服务的DeepSeek R1/V3推理服务;DeepSeek-R1、DeepSeek-V3、DeepSeek-V2、Janus-Pro正式上线昇腾社区;华为DCS AI全栈解决方案中的重要产品—ModelEngine,全面支持DeepSeek大模型R1&V3和蒸馏系列模型的本地部署与优化,加速客户AI应用快速落地;

2.沐曦:Gitee AI联合沐曦首发全套DeepSeek R1千问蒸馏模型,全免费体验;DeepSeek-V3满血版在国产沐曦GPU首发体验上线;

3.天数智芯:成功完成与 DeepSeek R1 的适配工作,并且已正式上线多款大模型服务,其中包括DeepSeek R1-Distill-Qwen-1.5B、DeepSeek R1-Distill-Qwen-7B、DeepSeek R1-Distill-Qwen-14B等;

4.摩尔线程:基于Ollama开源框架,完成了对DeepSeek-R1-Distill-Qwen-7B蒸馏模型的部署,并在多种中文任务中展现了优异的性能;

5.海光信息:DeepSeek V3和R1模型完成海光DCU适配并正式上线;海光DCU成功适配DeepSeek-Janus-Pro多模态大模型;

6.壁仞科技:DeepSeek R1在壁仞国产AI算力平台发布,全系列模型一站式赋能开发者创新;

7.太初元碁:基于太初T100加速卡2小时适配DeepSeek-R1系列模型,一键体验,免费API服务;

8.云天励飞:完成 DeepEdge10 “算力积木”芯片平台与DeepSeek-R1-Distill-Qwen-1.5B、DeepSeek-R1-Distill-Qwen-7B、DeepSeek-R1-Distill-Llama-8B大模型的适配,可以交付客户使用;

9.燧原科技:完成对DeepSeek全量模型的高效适配,包括DeepSeek-R1/V3 671B原生模型、DeepSeek-R1-Distill-Qwen-1.5B/7B/14B/32B、DeepSeek R1-Distill-Llama-8B/70B等蒸馏模型。截至目前,DeepSeek的全量模型已在庆阳、无锡、成都等智算中心完成了数万卡的快速部署;

10.昆仑芯:完成全版本模型适配,这其中包括DeepSeek MoE 模型及其蒸馏的Llama/Qwen等小规模dense模型;

11.灵汐芯片:完成了DeepSeek-R1系列模型在灵汐KA200芯片及相关智算卡的适配,助力国产大模型与类脑智能硬件系统的深度融合;

12.鲲云科技:全新一代的可重构数据流AI芯片CAISA 430成功适配DeepSeek R1蒸馏模型推理;

13.希姆计算:仅用数小时就将DeepSeek-R1全系列蒸馏模型快速适配到自研RISC-V开源指令集的推理加速卡系列之上,并落地全国多个千卡级以上智算中心;

14.算能:算能自研RISC-V开源指令集融合服务器SRM1-20,成功适配并本地部署DeepSeek-R1-Distill-Qwen-7B/1.5B模型;

15.清微智能:可重构计算架构RPU芯片已完成DeepSeek-R1系列模型的适配和部署运行;

16.龙芯中科:搭载龙芯3号CPU的设备成功启动运行DeepSeek R1 7B模型,实现本地化部署;

17.瀚博:已完成DeepSeek-V3与R1全系列模型训推适配,单机可支持V3与R1 671B全量满血版模型部署。


复盘:国产AI芯片发展现状



前两年,美国千方百计阻止英伟达向中国出售尖端AI芯片,不想放弃中国市场的英伟达,迅速推出中国特供版,但对国内来说,却不香了。所谓中国特供芯片,性能砍了25%,但减量不减价,国产厂商则纷纷点名华为,尤其是华为升腾910B芯片。那么,除了华为,我国还有哪些AI芯片企业值得关注?

AI芯片主要分为GPGPU(通用图形处理器)、FPGA(可编程逻辑器件)、ASIC(专用集成电路)、存算一体和类脑芯片几种。根据在网络中的位置,又可以分为云端AI芯片 、边缘和终端AI芯片。

GPU/GPGPU与GPU不同,GPGPU就是将GPU图形显示部分“摘掉”,全力走通用计算,特别适合用在深度学习训练方面。目前国内GPU存在许多玩家,整个行业也经历过一轮洗牌。

FPGA:可编程的灵活性是任何其它计算芯片无法替代的,同时它在AI领域也具备一定计算能力,但相对来说,FPGA的成本就相对高一些了,而且FPGA开发也很难,软件生态没有GPGPU的CUDA那么方便。

 
ASIC:性能强、功耗低,NPU也是加入神经单元的一种ASIC,不过针对特定算法计算,算法是无法修改的,想要做另一种算法就要再造一种ASIC芯片,前期开发需要FPGA辅助进行。

值得一提的是,TPU,全称Tensor Processing Unit,是一种专为处理张量运算而设计的ASIC芯片,由谷歌自研在2016年推出首款产品,目前国内也有中昊芯英这一玩家。

 
存算一体:能耗比极佳,能够突破存储墙和功耗墙,但商业化进程加速了,而且据说ST也准备在未来发布具有存算一体芯片的MCU。

 
类脑计算:性能更强、功耗更低,算法也变成了SNN,但全世界都在研究之中,还未商业化。

 
可重构计算:能够重新配置的数据流处理器架构,专为特定用例量身定制,可在其“计算结构”上并行执行经过特殊优化的代码。特别是在低功耗嵌入式和边缘计算中,并且需要支持通用编程语言的专有软件堆栈(编译器)。

目前,可重构计算的玩家包括清微智能、鲲云科技、千芯科技、澜起科技。(可参考文章:AI芯片即将被颠覆?效率比CPU100倍,功耗比GPU1000》)


融合:千行百业正在被重塑



DeepSeek诞生的本身,也在促进着国内所有行业的发展,形成了一个循环的产业链。千行百业,正在因为DeepSeek而重塑,各行各业也不断支持DeepSeek。

1.汽车产业:吉利汽车、东风汽车、东风旗下岚图汽车等均宣布了接入DeepSeek,大模型“上车”已经成为大趋势;

2.手机:华为系统级智能体小艺在HarmonyOS NEXT(原生鸿蒙)上接入了DeepSeek最新的R1模型,OPPO Find N5也将接入DeepSeek;

3.云计算:阿里云、百度智能云、腾讯云、华为云已经官宣支持 DeepSeek大模型;

4.教育应用:网易有道、云学堂均宣布全面拥抱DeepSeek-R1;

5.网络安全:360、奇安信、启明星辰、安恒、北信源、天融信、国投智能、安博通、永信至诚、亚信、拓尔思、观安信息均宣布接入DeepSeek;

6.生物医药:恒瑞医药、医渡科技、智云健康、豫资开勒均宣布了DeepSeek的接入与部署;

7.电信运营商:三大运营商中国移动、联通、电信全面宣布接入DeepSeek;

8.软件公司:远光软件、安恒信息、当虹科技、万兴科技、金慧软件接入DeepSeek模型。

总之,DeepSeek作为一次“全民狂欢”,其意义非凡。为了契合这个话题,我们也问了DeepSeek自己对于自己诞生的意义,它的回答是:DeepSeek的诞生不仅是技术上的突破,更是对AI未来形态的积极探索。它通过开源共享、垂直应用和AGI愿景,推动AI从“工具”向“伙伴”演进,同时助力中国在全球AI竞争中占据更重要的战略地位。其意义不仅限于商业成功,更在于为人类与AI共生的未来提供了一种可能性。


· END ·


欢迎将我们设为“星标”,这样才能第一时间收到推送消息。

关注EEWorld旗下订阅号:“汽车开发圈”

回复“Auto”,免费领Autosar入门与实践资料包!


扫码添加小助手回复“进群”

和电子工程师们面对面交流经验



电子工程世界 关注EEWORLD电子工程世界,即时参与讨论电子工程世界最火话题,抢先知晓电子工程业界资讯。
评论
  • 贞光科技代理的品牌-光颉科技高精密薄膜电阻凭借0.01%的超高精度,在AI服务器电源模块中实现了精确电压分配、优化功率因数和减少热损耗,显著提升系统能效和可靠性。在当今的数字时代,人工智能(AI)服务器已成为数据中心的核心。随着AI应用的激增,服务器的性能和能效需求也在不断提高。电源模块作为服务器的关键组件,其性能直接影响整个系统的效率和可靠性。本文将探讨光颉科技高精密薄膜电阻,特别是其0.01%的精度,如何在AI服务器电源模块中提升能效。电源模块在AI服务器中的重要性电源模块负责将输入电源转换
    贞光科技 2025-03-20 16:55 150浏览
  •         在当今电子设备高度集成的时代,电路保护显得尤为重要。TVS管(瞬态电压抑制二极管)和压敏电阻作为一种高效的电路保护器件,被广泛应用于各种电子设备中,用以吸收突波,抑制瞬态过电压,从而保护后续电路免受损坏。而箝位电压,作为TVS管和压敏电阻的核心参数之一,直接关系到其保护性能的优劣。箝位电压的定义        箝位电压指瞬态保护器件(如TVS二极管、压敏电阻)在遭遇过压时,将电路电压限制在安全范围内的
    广电计量 2025-03-20 14:05 90浏览
  • 如同任何对我们工作方式的改变,新的工作方式必然会遇到许多必须面对的挑战。如果不解决组织在实施精益六西格玛过程中面临的障碍以及如何克服它们的问题,那么关于精益六西格玛的讨论就不算完整。以下列举了组织在成功实施精益六西格玛时常见的几个障碍,以及克服它们的方法:1)对精益六西格玛方法论缺乏理解。抵触情绪通常源于对精益六西格玛方法论的不了解,以及不相信它能真正发挥作用。这种情况在所有层级的人员中都会出现,包括管理层。虽然教育培训可以帮助改善这一问题,但成功的项目往往是打消疑虑的最佳方式。归根结底,这是一
    优思学院 2025-03-20 12:35 96浏览
  • 故障现象 一辆2024款路虎发现运动版车,搭载2.0 L发动机,累计行驶里程约为5 000 km。车主反映,使用遥控器无法解锁车门,随后使用机械钥匙打开车门,踩下制动踏板,按压起动按钮,仪表盘提示“将智能钥匙放在图示位置,然后按下起动按钮”(图1)。 图1 故障车的仪表盘提示采用上述应急起动方法,发动机能够起动着机。上述故障现象已出现过多次,过一段时间又会恢复正常,这次故障出现要求将车辆拖入店内进行彻底检修。 故障诊断 车辆进店后进行试车,车辆一切功能又恢复正常。经过反复测试
    虹科Pico汽车示波器 2025-03-20 10:17 78浏览
  • 在电子制造领域,PCB(印刷电路板)的使用寿命直接决定了产品的长期稳定性和可靠性。捷多邦作为全球领先的PCB制造商,始终将质量放在首位,致力于为客户提供高可靠性、高性能的PCB解决方案。以下是捷多邦如何确保PCB使用寿命超过20年的核心技术与优势。 1. ​高品质原材料:从源头保障耐用性捷多邦采用国际认证的优质基材,如FR4、高频材料和高TG板材,确保PCB在高温、高湿等极端环境下的稳定性。通过严格的原材料筛选和入库检验,捷多邦从源头控制质量,避免因材料缺陷导致的失效问题。 
    捷多邦 2025-03-20 11:22 97浏览
  • 近日,保定飞凌嵌入式技术有限公司(以下简称“飞凌嵌入式”)携手瑞芯微电子股份有限公司(以下简称“瑞芯微”)正式加入2025年全国大学生嵌入式芯片与系统设计竞赛(以下简称“嵌入式大赛”),并在应用赛道中设立专属赛题。本次嵌入式大赛,双方选用基于瑞芯微RK3588芯片设计的ELF 2开发板作为参赛平台,旨在通过此次合作,促进产教融合,共同推动嵌入式系统创新人才的培养。全国大学生嵌入式芯片与系统设计竞赛是一项A类电子设计竞赛,同时也是被教育部列入白名单的赛事,由中国电子学会主办,是学生保研、求职的公认
    飞凌嵌入式 2025-03-20 11:53 84浏览
  • 本文内容来自微信公众号【工程师进阶笔记】,以工程师的第一视角分析了飞凌嵌入式OK3506J-S开发板的产品优势,感谢原作者温老师的专业分享。前两周,有一位老朋友联系我,他想找人开发一款数据采集器,用来采集工业现场的设备数据,并且可以根据不同的业务场景,通过不同的接口把这些数据分发出去。我把他提的需求总结了一下,这款产品方案大概有以下功能接口,妥妥地一款工业网关,在网上也能找到很多类似的产品方案,为啥他不直接买来用?再跟朋友深入地聊了一下,他之所以联系我,是因为看到我在公众号介绍过一款由飞凌嵌入式
    飞凌嵌入式 2025-03-20 11:51 115浏览
  • 流感季急诊室外彻夜排起的长队,手机屏幕里不断闪烁的重症数据,深夜此起彼伏的剧烈咳嗽声——当病毒以更狡猾的姿态席卷全球,守护健康的战争早已从医院前移到每个人的身上。在医学界公认的「72小时黄金预警期」里,可穿戴设备闪烁的光芒正穿透皮肤组织,持续捕捉血氧浓度、心率变异性和体温波动数据。这不是科幻电影的末日警报,而是光电传感器发出的生命预警,当体温监测精度精确到±0.0℃,当动态血氧检测突破运动伪影干扰……科技正在重新定义健康监护的时空边界。从智能手表到耳机,再到智能戒指和智能衣物,这些小巧的设备通过
    艾迈斯欧司朗 2025-03-20 15:45 161浏览
  • 全球领先的光学解决方案供应商艾迈斯欧司朗(SIX:AMS)近日宣布,凭借AS1163独立智能驱动器(SAID)成为中国领先的智能集成系统产品汽车制造商宁波福尔达智能科技股份有限公司(“福尔达”)环境动态照明应用的关键供应商。此次合作标志着汽车技术发展的一个重要时刻,充分展现了AS1163在优化动态照明应用系统成本方面的多功能性和先进性能。该产品支持传感器集成,拥有专为车顶照明设计的超薄外形,并能提升车内照明系统的性能。AS1163是一款先进的智能LED驱动器,能够与开放系统协议(OSP)网络无缝
    艾迈斯欧司朗 2025-03-20 14:26 97浏览
  • 4月8-11日,第91届中国国际医疗器械博览会(CMEF)将在国家会展中心(上海)举办。这场全球瞩目的医疗科技盛宴以“创新科技,智领未来”为主题,旨在全方位展示医疗科技的最新成果,与来自全球的行业同仁一道,为全球医疗健康领域带来一场科技与商贸交融的产业“盛宴”。飞凌嵌入式作为专业的嵌入式技术解决方案提供商,一直致力于为医疗器械行业提供丰富的、高可靠性的嵌入式硬件主控解决方案。届时,飞凌嵌入式将为来自全球的观众带来适用于IVD、医疗影像、生命体征监测等医疗设备的嵌入式板卡、显控一体屏产品以及多款动
    飞凌嵌入式 2025-03-20 11:46 35浏览
  • 为有效降低人为疏失导致交通事故发生的发生率,各大汽车制造厂及系统厂近年来持续开发「先进驾驶辅助系统」ADAS, Advanced Driver Assistance Systems。在众多车辆安全辅助系统之中,「紧急刹车辅助系统」功能(AEB, Autonomous Emergency Braking)对于行车安全性的提升便有着相当大的帮助。AEB透过镜头影像模块与毫米波雷达感测前方目标,可在发生碰撞前警示或自动刹车以降低车辆损伤以及乘员伤害。面临的挑战以本次分享的客户个案为例,该车厂客户预计在
    百佳泰测试实验室 2025-03-20 15:07 97浏览
  • PCIe 5.0应用环境逐步成形,潜在风险却蠢蠢欲动?随着人工智能、云端运算蓬勃发展,系统对于高速数据传输的需求不断上升,PCI Express(PCIe)成为服务器应用最广的传输技术,尤其在高效能运算HPC(High Performance Computing)及AI服务器几乎皆导入了最新的PCIe 5.0规格,使得数据传输的双向吞吐量达到了128GB/s,让这两类的服务器能够发挥最大的效能。不过随着PCIe 5.0的频率达到16GHz,PCB板因为高频而导致讯号衰减加剧的特性,使得厂商面临很
    百佳泰测试实验室 2025-03-20 13:47 92浏览
  • 家电“以旧换新”政策的覆盖范围已从传统的八大类家电(冰箱、洗衣机、电视、空调、电脑、热水器、家用灶具、吸油烟机)扩展至各地根据本地特色和需求定制的“8+N”新品类。这一政策的补贴再叠加各大电商平台的优惠,家电销售规模显著增长,消费潜力得到进一步释放。晶尊微方案为升级换代的智能家电提供了高效且稳定的触摸感应和水位检测功能,使得操作更加便捷和可靠!主要体现在:水位检测1健康家电:养生壶、温奶器、加湿器的缺水保护安全2清洁电器:洗地机、扫地机器人的低液位和溢液提醒3宠物家电:宠物饮水机的缺水提醒/满水
    ICMAN 2025-03-20 15:23 142浏览
我要评论
0
点击右上角,分享到朋友圈 我知道啦
请使用浏览器分享功能 我知道啦