今年《电子工程专辑》4月刊封面故事和《国际电子商情》5月刊封面故事,我们都连续探讨了DeepSeek引发的行业思考,及DeepSeek在工程层面的创新,带来AI计算成本降低的内在奥义。
我们说DeepSeek虽然没有太大程度拓展AI技术的边界,现在流行的Agentic AI也没有真正脱离Generative AI的技术范式,但可能DeepSeek作为一个标志和符号,对AI市场的影响又是极为深远的。
举个例子,随DeepSeek一起火起来的技术点包括MoE(混合专家)、MLA(多层注意力架构)、MTP(多token预测)等。其中很多技术虽不是DeepSeek首创,却在DeepSeek手里玩得最溜,这些技术的追随者自然也是络绎不绝。而MLA作为DeepSeek的重要创新之一,过去几个月也被很多媒体、厂商谈得很频繁——端侧、边缘和云都在谈。
最近NextSilicon CEO Elad Raz在EE Times美国版发表文章就提到,MLA帮助提升了内存使用效率,但另一方面这个技术的引入可能增加开发者的工作量,增加AI应用于生产环境的复杂度,因为GPU用户可能需要针对MLA进行“手动编程(hand-code)”。而这个例子也很大程度表征了,在后DeepSeek时代,我们需要重新思考AI芯片、AI基础设计架构的实施方案。
MLA和算法创新
对于MLA技术,先谈个背景知识:LLM大语言模型针对用户输入来生成相关响应的过程中,KV矢量——也就是key和value是非常重要的。它们让模型能够更多关注到输入部分相关的数据内容上。一般来说在注意力机制中,当模型拿到新的请求以后,就会将请求与key做比较,来决定哪些内容与用户请求是最为相关的。
“可以把key想象成一本书的章节标题——它能指明每部分是说什么的;而value则是这些标题之下更为细节化的摘要。”Elad类比说,“用户输入以后,它(应该是指AI模型)就请求搜索词,帮助生成答案。这个过程就像是在问,‘在对应的故事情节下,哪个章节是最相关的?’”
而MLA就是对这样的章节标题(key)和摘要(value)做压缩的技术,可以让找答案的过程更快,效率也更高。从结果来看,MLA能够帮助DeepSeek最终减少5-13%的内存占用。更多技术细节就不谈了,有兴趣的读者可以去看看DeepSeek的官方paper。前一阵联发科的开发者大会上,面向端侧的天玑手机芯片,甚至都在谈对MLA的支持,可见DeepSeek的深远影响力。
我们说类似MLA这样的技术,属于AI时代的典型算法创新。但AI技术高速发展时期的算法创新是层出不穷的,这些创新也带来了新的问题,尤其当算法创新是专门针对某一个平台的时候。Elad在文章里提到,在MLA这一例中,对于非NVIDIA GPU而言,要用上MLA就需要开发者做额外的手动编程。
以DeepSeek为代表的技术固然表现出了AI时代的创新及价值,但软硬件也要随着这样的创新去做调整。Elad认为,这种调整对开发者,和生产环境的系统复杂度而言,理应是越小越好的。否则我们为每次创新付出的代价都会很大。
“如果下一次算法创新并不能很好、简单地适用于传统架构,那又该怎么办?”
芯片设计与算法创新的矛盾,灵活性与效率的矛盾
过去两三年我们参加AI芯片厂商的活动,绝大部分企业都提到大型AI芯片设计的周期都需要起码1-2年。也就是说在一颗芯片上市前的1-2年,芯片就要开始设计了。AI技术发展如此迅速,AI芯片设计就必须具备前瞻性,如果只着眼在当下,那么最终问世的AI芯片一定是过时的——它也不可能适配芯片上市那一刻的应用技术创新。
现在AI行业的应用算法创新是以周计的。我们在前不久的文章里提过,AI模型要达成相同能力所需的算力每年降低4-10倍;过去3年达成GPT3相似质量的AI模型推理成本下降了1200倍;当下2B参数量的模型就能达到当年170B参数GPT3的水平。想一想,这是最近5年的事情:表现的就是AI技术栈上层的创新和速度。
这对传统芯片架构规划与设计而言,大概是可以称作灾难的。Elad认为,行业需要意识到类似DeepSeek MLA这样的创新对AI技术而言是常态;“下一代计算不仅需要优化今天的负载,也要满足技术突破的需求。”我们理解,这里所说的“行业”并不单纯是芯片行业,而是AI技术栈的所有中下层基础设施。
“DeepSeek及其他创新表明了算法创新的快速跃进。”“研究人员和数据科学家需要更为通用、有弹性的工具,驱动新的洞察和发现。市场需要智能、软件定义的硬件计算平台,让客户可对现有加速器解决方案做到可随时替换(drop-in replacement),同时让开发者可以无痛移植。”
“为了应对这样的现状,行业必须设计更为智能、可适配、尽可能灵活的计算基础设施。”
一般我们说灵活和效率是对矛盾体,就好像CPU非常灵活,但其高度并行计算效率一定远弱于GPU,而具备一定编程性的GPU在效率上又可能弱于更为专用的AI ASIC芯片。
Elad在文中特别提到,NVIDIA预期很快AI数据中心机架会达到600kW的功率水平——要知道现在75%的标准企业数据中心单机架峰值功耗不过15-20kW。无论AI的潜在效率提升水平如何,起码对构建计算基础设施系统的数据中心而言,这又是个需要努力投入去做设计和构建的大问题。
所以在Elad眼中,现在的GPU和AI加速器很有可能无法解决潜在的AI与HPC需求。“如果不对我们提升计算效率的方法做彻底的重新构思,行业可能面临触碰物理极限与经济限制的风险。”“这堵高墙还将产生副作用,限制更多组织机构使用AI与HPC,在即便有算法或传统GPU架构进步的情况下仍旧阻碍创新。”
下一代计算基础设施的建议和需求
基于此,Elad提出了定义下一代计算基础设施的“4大支柱”:
(1)即插即用可替换:“历史表明复杂架构转换,如CPU到GPU的应用迁移,需要历经数十年时间才完全落地。所以下一代计算架构应当支持平滑迁移。”针对所谓的“即插即用”可替换,Elad认为新时代的计算架构应当借鉴x86, Arm生态的经验,通过向前兼容达成更为广泛的布局。
同时,现代化的设计不需要开发者大量重写代码,也不应针对特定供应商产生技术依赖。“比如像MLA这样新兴技术的支持应当形成标准。而不是像现在,非NVIDIA GPU那样需要额外的手动调整。下一代系统要在不需要手动修改代码或做较大程度API调整的情况下,就开箱即用地理解和优化新的负载。”
(2)可适应的、实时的性能优化:Elad认为行业不应当基于固定功能的加速器发展,“行业需要构建于智能、软件定义的硬件基础之上,这样的硬件能够在运行时(at runtime)就动态进行自我优化。”
“通过对负载的持续学习,未来的系统能够实时对自身做出调整,实现最大化的利用率和持续的性能释放,和具体的应用负载无关。这种动态可适应性意味着,无论是跑HPC模拟、复杂的AI模型,还是矢量数据库操作,基础设施都能在真实负载场景下提供一致的效率。”
(3)具备伸缩特点的高效性:“通过解耦软硬件,专注于智能的实时优化,未来的系统应当达成更高的利用率,降低整体的能耗。如此一来,基础设施会变得更具成本效益,同时具备可伸缩性来满足持续进化中的新负载需求。”
(4)未来验证(future-design)的设计:这一点对应于前文提及AI基础设施中下层,尤其芯片设计需要具备前瞻性。“今天前沿的算法,明天就可能过时了。”“无论是AI神经网络,还是基于Transformer的LLM模型,下一代计算基础设施都需要具备适应能力,确保企业的技术投入在未来数年内都有韧性。”
在我们看来,这是整体比较理想化、且可引发行业思考的建议。这种指导纲领式的方法论,是未来AI HPC技术的发展需要参考的,即便或许其中的两个矛盾仍会是行业的长久议题。“要发挥AI, HPC和其他未来计算与数据密集型负载的潜力,我们就必须思考基础设施,拥抱动态与智能的解决方案,去支持创新和先行者。”
