早在2025年春节前某些半导体企业的年会上,我们就已经听到AI专家在谈论深度求索(DeepSeek)模型的价值。直到DeepSeek相关话题在春节爆发,致国内外的不少AI芯片企业在春节期间加班加点,从技术和市场两方面为DeepSeek提供支持。加上包括伊隆·马斯克、山姆·奥特曼等国外AI大佬与外媒的舆论“助攻”及美股的“配合”,幻方量化、梁文锋在短短几天间,和电影《哪吒之魔童闹海》同时引爆春节前后的话题。
我们当时总结DeepSeek对行业的价值有两点:
(1)AI模型的效率大幅提升,对应到AI技术应用成本的降低;
(2)而且这样一款优秀模型还开源了。
所谓的效率提升和成本降低究竟做到了什么程度呢?最初的报道提到DeepSeek-V3总训练成本仅557万美元,也就是旁人1/10的成本就在跑分上体现出多项能力超过Llama-3.1、Claude-3.5和GPT-4o等。然而,DeepSeek-R1则赶上了OpenAI会员才能限量使用的o1,面向开发者的API标价每百万词元(token)价格仅有o1的几十分之一,基本是开源之最,还媲美前沿闭源模型。
更不用说后续发布的多模态大模型Janus Pro/Flow——据说只花了14天,用了256张NVIDIA A100(40GB)显卡。公开数据为其理解图像及生成图像的能力超越了Stable Diffusion和DALL-E一众竞争对手(图1)……
更夸张的是,社区爱好者对DeepSeek本地部署做了各种尝试。2月初有工程师分享自己将满血版671B参数规模的DeepSeek部署到本地:据说算上电源、CPU、主板、GPU、内存和SSD等核心组件,只花了四五万元人民币。后续则出现了开源的KTransformer项目,标题党宣称单卡GeForce RTX 4090即可推理满血DeepSeek。
图1:AI技术间的对决将愈演愈烈。
虽说这些对普通个人用户的参考价值大不到哪儿去,光是1TB DRAM就不是普通PC平台可以达成的,但也体现出从训练到部署和推理的效率大幅提升。似乎从最符合直觉的角度,以及基于资本市场的不理性传统,NVIDIA股价迎来暴跌是合理的。毕竟当AI模型的训练和使用成本真的大幅降低,此前全社会显卡用量飙升的预言是否就不再成立了?
借着DeepSeek诞生的机会,本文以此话题为切入点尝试谈谈AI技术目前的发展阶段,以及对AI芯片而言意味着什么。
端侧ChatGPT时刻
早在2015年就有论文(“Ask Me Anything: Dynamic Memory Networks for Natural Language Processing”)提到,自然语言处理的“动态内存网络”,是基于AI未来要成为“通才”的思路,让AI回答人类以自然语言提出的问题,并可以此解决所有实际问题。当年绝大部分人都认为这一设想是天方夜谭。
然而,2019年GPT2问世,1542M参数量+40G训练数据,令GPT开始有能力与人对话;2020年GPT3的175B参数量+570G训练数据——且过滤前的数据量达到45T,是让很多人感到震惊的。只不过直到2021年,仍有不少行业专家认为以GPT为代表的LLM大语言模型要成为AI通才仍然是不现实的。
站在2025年的今天来看“通用人工智能(AGI)”,在大量堆砌算力、参数和数据量的情况下,人类离真正的“强人工智能”好像也不是那么遥远。这种认知转变仅发生在短短10年间。
在我们的常规认知中,生成式AI模型越大越好,训练数据集越大越好。而参数量增大、训练数据集变多,自然意味着支撑AI模型训练和推理的硬件需求提升,尤其是包括GPU在内的AI芯片。因此才会有山姆·奥特曼的7万亿AI芯片计划传言,以及不少AI芯片和模型企业都开始投资核电能源这类新闻出现。AI的“堆料”和“大力出奇迹”是个大方向基本正确的认知,但在不同时期的内涵又有所不同。
如果说AI的发展真的就依托于堆料,那么即便提供底层算力的芯片能持续以摩尔定律供能,就算加上芯粒(chiplet)、先进封装、DSA,乃至完全应用导向的芯片设计,半导体行业的发展或许也很难满足AI应用贪婪的性能需求。《电子工程专辑》官网前不久撰文谈到过当前的尖端半导体技术能否支持AI技术发展的问题——只不过从半导体及芯片角度探讨AI技术发展并不是唯一思路(图2)。
图2:AI技术的发展并不能单纯依靠半导体技术进步。
2024年在我们针对诸多AI芯片企业的走访中,包括爱芯元智在内的不少企业负责人都提过AI技术发展过程中需要“芯片+算法联合调优”。或者说在芯片之外,“算法也需要优化”。过去一年常被人提起的AI从云走向边缘,也是以此为依托的。只不过大众对这一走向的认知仍然是不足的,才会对DeepSeek的诞生感到惊讶。
2024年9月面壁智能在发布MiniCPM 3.0时,在宣传中说这是“端侧ChatGPT时刻”的到来,“以4B参数规模在性能上超越GPT3.5”,“且多模态OCR某些能力接近GPT-4V”,乃至“无限长文支持”,“性能超Kimi”,“GPT-4o级函数调用(function calling)”等。虽然可能在引用的部分数据有偏向性,但体现的是现在的端侧LLM模型要超越两三年前运行在云上的大模型。
面壁智能在2024年的英特尔新质生产力技术生态大会上提到“模型知识密度”的概念,即模型能力÷模型参数量。在模型参数量级不变的情况下,每8个月模型能力就提升1倍。面壁智能认为,当下2B参数量的模型就能达到当年170B参数GPT3的水平。要知道GPT3可是超算训练出来,推理也需多GPU协作。
若将达成相同能力的模型参数量下降曲线与摩尔定律所指单位面积内晶体管数量增加曲线放在一起,“当这两条曲线相交,就能在给定有限算力下完成非常复杂的功能,真正激活端侧智能”。无论这个说法是否科学,算法和模型优化的过程在过去两三年里也的确在不断持续。
图3:大语言模型推理价格下降趋势。
SemiAnalysis的研究数据是,AI模型要达成相同能力所需的算力,每年降低4倍。某些研究机构给出的数据更为激进,有提出10倍的。一个基本事实是,2022年1月GPT3的每百万token推理成本(基于MMLU大型多任务语言理解基准)还在大几十美元的高位,GPT3.5 Turbo就将该值拉到了两三美元的程度,Llama2-7B实现了百万token推理成本1美元,到最近一代的Llama 3.2-3B则让这个数字低到不足0.1美元。
在3年时间里,实现GPT3相似质量的AI模型推理价格下降了1200倍(图3)。
如果将2023年3月的GPT4和2025年1月的DeepSeek-V3放在这一曲线的首尾两端,则其趋势走向和上述GPT3到Llama3.2-3B基本类似:算法提升和优化,令成本降低10倍或者说令性能提升10倍。
换句话说,我们认为DeepSeek之所以实现相对低成本,并不单纯是因为很多人所说芯片和技术禁运致中国寻求技术突破,而更在于不妨将DeepSeek放到整个AI技术发展的历史趋势中来看,会发现它的出现契合历史需求,也继承了AI技术先辈们的前沿技术,并率先在开源领域占领新的制高点。
杰文斯悖论
无论是以混合专家(MoE)架构为基础、践行推理(reasoning)模型的思路,还是其文档中所列出的MLA多层注意力架构、FP8混合精度训练框架、DualPipe跨节点通信、无辅助损失的均衡负载策略、跨节点全对全通信内核、多token预测MTP(Multi-token Prediction)技术、数据精筛等等,其中的确有技术是为解决美国的芯片与技术禁运所做工程层面的努力,但大部分技术都并非DeepSeek首创。
比如说最近被人多有提起的MLA并不是新技术,MTP的思路也是Meta此前就提出的。只不过工程层面的率先实现、投入使用且开源,的确也体现出了DeepSeek的快人一步,并且在开源模型中做到了顶尖,还媲美闭源、收费模型。
但我们认为DeepSeek的大热和流量,是天时地利人和共同作用的结果。实际上,在DeepSeek大热后的1月29日,阿里巴巴发布了Qwen2.5-Max,据说表现就已经优于DeepSeek-V3,而Moonshot AI和字节跳动发布的推理模型Kimi 1.5/1.5 Pro也在部分基准测试中超越了o1。显然即便这些模型也相当不错,热度就被DeepSeek完全盖过了。
另外需要注意的是,我们认为DeepSeek的训推成本的确够低,但也并不像很多人想象得那么低,或者领先于其他竞争对手那么多。幻方量化早在2019年就开始购入NVIDIA显卡以2亿打造“萤火一号”超算集群;2021年投入10亿建设“萤火二号”,已经有了传说中的“万卡”入场券——当时做到这一点的就只有百度、腾讯、字节等互联网大厂。
而所谓不到600万美元的训练成本显然只涵盖了总体成本的一部分,主要是预训练的GPU开销,不包括研发、硬件TCO等。人才成本、新架构的研究与试错、数据获取与过滤等都必须考虑进去。
虽然DeepSeek API文档的百万token输入价格(缓存命中,具体是指模型可直接复用缓存中的计算结果)标定DeepSeek-V3为0.5元,DeepSeek-R1则为1元,但幻方量化本身似乎暂时还无意于靠AI服务赚钱,且现阶段也没有因为服务请求数量巨大而大幅投入基础设施建设,标价并不能对应到实际的推理成本。
图4:部分负载下,DeepSeek与OpenAI的性能比较。(来源:DeepSeek)
与此同时,DeepSeek某种程度上算是相对偏科的理科生,DeepSeek-R1的确在部分测试项目上优于GPT-o1,尤其是在reasoning这一新范式下,但也不是所有测试项目全胜,且落后于o1的子项也不少(图4),即便我们必须充分肯定DeepSeek的价值——且要再度明确DeepSeek-R1是开源的。
基于前述AI技术高速发展的事实,新发布的模型可达成更优性能也称得上基操。所以如果半年或一年后,有新模型出现(或DeepSeek-R1的迭代模型)让AI使用成本再降5倍,或性能再提5倍,在AI技术尚处发展初期的当下都没什么可奇怪的。半导体技术、互联网与移动技术起步之时也有类似的发展轨迹,即便速度可能没有AI那么夸张。
所以,我们很惊讶于DeepSeek大火后,NVIDIA股价迎来跳水:2025年1月27日早晨,NVIDIA股票跌幅一度高达17.7%。相关科技股都应声下跌:ASML股票跌7.7%,SoftBank也跌了超8%;当天纳斯达克100指数跌落3%,标普500跌2%;能源板块都受影响。
从市场反应的逻辑来看,DeepSeek的出现似乎在短期是不利于所有AI芯片及其周边业务乃至上下游产业链的,因为AI效率提高了,对AI芯片的需求自然也就降低了……真的是这样吗?
除了前文基本都在阐述DeepSeek是顺应AI技术发展的产物这一点,可表现DeepSeek并未跳出这个时代的发展范畴,这段时间“杰文斯悖论”(Jeven's Paradox)一词经常被人提起,也同样能说明当市场回归理性后,作为基础工具的AI芯片仍是行业香饽饽无疑:不仅是NVIDIA显卡,还有更多专用AI芯片。
图5:智算中心的需求还在激增。
杰文斯悖论是指技术进步提高了资源利用率之后,资源消耗总量不降反升。好比当年的蒸汽机效率提升,单位动力耗煤下降,但煤炭总消耗量却因蒸汽机应用场景扩展而激增。这种现象在高速发展的科技领域是普遍存在的,自然也包括DeepSeek在工程层面带动AI效率的提升(图5)。
其背后的主要原因包括:
(1)AI成本下降会进一步带动AI应用的普及,更多行业和场景都会开始布局AI应用;
(2)效率的提升也会促成新应用场景的出现,应用层面的创新甚至会是现在的人类始料未及的;
(3)这种趋势还会带动AI技术间的竞争并促进效率持续突破——不仅DeepSeek现有“解题思路”很快会被行业的其他竞争者全面借鉴,而且更多市场参与者也会反思技术的效率优化,带动市场整体发展。
此外,DeepSeek实际上并未太大程度扩展“智能边界”,且人类离真正的通用人工智能(AGI)——同时满足任务通用性、自主目标驱动和物理世界交互能力及这些特性的协同——还有很远距离。考虑到DeepSeek所做的工程创新只是AI高速发展期的一部分,显卡及AI加速卡用量并不会减少,只会更多。
因此,我们认为,中长期来看DeepSeek是AI产业链发展的催化剂,有利于整个AI行业蓬勃向前。不作为投资指导:我们预计这一波NVIDIA为代表的股价下跌只是市场对AI技术的不理性回应。
还需要多少AI芯片?
对于最终实现AGI还需要多少AI基础设施投入,可能暂时没有人能答得出来。我们可以参考麦肯锡的生成式AI报告(“Generative AI: The next S-curve for the semiconductor industry?”),来预判中短期内的AI市场发展情况。
2024年麦肯锡估算包含B2C和B2B在内的生成式AI应用算力需求,2024年总体为0.2QFLOPS(quettaFLOPS,1QFLOPS=10^30次浮点运算/秒);2030年该值将跃升至25.0QFLOPS(图6)。
图6:2024-2030年生成式AI算力增长。(来源:McKinsey & Company)
其中面向消费端的应用将占到7成,而面向企业/行业端的占比为3成上下。具体会有哪些应用就不再展开了,我们关注的重点是这125倍的算力跃升对半导体行业而言意味着什么。
这里我们不对边缘及端侧生成式AI市场做深入解读:生成式AI应用仍有很大一部分需要跑在服务器和数据中心之中。AI数据中心,或者用现在流行的话来说叫智算中心,相较于传统数据中心似乎也没多大差异。但实际上智算中心有着更高的功率密度或者机架密度。
通用数据中心的机架功率密度在5-15kW,而AI训练负载的功耗可以达到100-150kW,且部分专家预测未来几年这个值就会上升到250-300kW。不只是算力、存储和通信组件的能耗,考虑配套的散热制冷支出走向液冷,对市场而言又是一笔价值提升。
具体到服务器中的芯片,首先是AI大芯片:麦肯锡认为2030年AI加速器中的ASIC芯片会成为运行AI负载的主力,因为它们在专门的AI任务中存在效率优势——这是基于推理(inference)将成为未来AI算力主力需求所得出的。GPU及融合(XPU融合在同一片芯片或同一块PCB板上)服务器由于各类任务的通用性,仍适配推理负载。
届时,非生成式AI应用的逻辑晶圆需求为1500万片(其中700万片≥3nm,800万片≤3nm),而生成式AI则额外需要120万-360万片晶圆,且其工艺节点≤3nm。现有逻辑晶圆厂(fab)计划为2030年1500万片晶圆采用≤7nm工艺,这与生成式AI需求现阶段创造的潜在需求存在100万-400万片≤3nm晶圆的缺口,因此在原计划的基础上还需3-9个新的逻辑fab厂才能补足市场需求。
而在生成式AI相当吃重的存储芯片方面,麦肯锡保守估计2030年生成式AI带来的DRAM市场需求在500万-1300万片。相对大胆一些的预测是700万-2100万片晶圆,6-18个新fab厂。NAND存储需求不会像DRAM那么激进,预计总的NAND需求在200万-800万片,需新增1-5家fab厂。
对于AI技术的发展,市场可关注的其他芯片或器件类型重点还包括:
(1)高速网络与互联——生成式AI对于板级、服务器间、节点间互联将有更加高速、低延迟的需求,且重点可关注光连接方向,这是个将潜在占据更多市场份额的新技术热点;
(2)功率器件,毕竟智算中心的功率密度都会有大幅跃升,功率器件必然是个机会点,而且麦肯锡认为到2030年全球供电超过10%都将供给AI服务器,功率半导体市场的上扬是必然的。
《电子工程专辑》此前对消费级CPU、GPU产品的体验文章都提到过,现阶段我们对AI、生成式AI的认识还相当浅层,因为该技术发展阶段尚处早期。就像半导体发展早期,人们并不能清晰地认识到器件发展就是走向越来越小,在更长尺度观察行业才显得明朗。可能2030年我们再回望AI技术走向,会发现2025年还处在AI技术的试错期。
就像2022-2023年,AI研究人员才开始重视模型尺寸和训练数据大小的关系,加上微调(fine-tune)和强化学习(reinforcement learning),让现在的小模型轻易打败2-3年前的大模型,也让原本只能跑在数据中心的模型走向了端侧。这都表现出AI技术的研究还处在初期中的初期——在我们看来,即便是麦肯锡的市场预期数据或许都还是过于保守的。
本文为《电子工程专辑》2025年4月刊杂志文章,版权所有,禁止转载。免费杂志订阅申请点击这里。
