AI技术创新太快,DeepSeek就是个例子——算法创新几乎以周为单位推进。那么行业就必须重新思考提供算力的数据中心、芯片和系统的构建方式...

今年《电子工程专辑》4月刊封面故事和《国际电子商情》5月刊封面故事,我们都连续探讨了DeepSeek引发的行业思考,及DeepSeek在工程层面的创新,带来AI计算成本降低的内在奥义。

我们说DeepSeek虽然没有太大程度拓展AI技术的边界,现在流行的Agentic AI也没有真正脱离Generative AI的技术范式,但可能DeepSeek作为一个标志和符号,对AI市场的影响又是极为深远的。

举个例子,随DeepSeek一起火起来的技术点包括MoE(混合专家)、MLA(多层注意力架构)、MTP(多token预测)等。其中很多技术虽不是DeepSeek首创,却在DeepSeek手里玩得最溜,这些技术的追随者自然也是络绎不绝。而MLA作为DeepSeek的重要创新之一,过去几个月也被很多媒体、厂商谈得很频繁——端侧、边缘和云都在谈。

最近NextSilicon CEO Elad Raz在EE Times美国版发表文章就提到,MLA帮助提升了内存使用效率,但另一方面这个技术的引入可能增加开发者的工作量,增加AI应用于生产环境的复杂度,因为GPU用户可能需要针对MLA进行“手动编程(hand-code)”。而这个例子也很大程度表征了,在后DeepSeek时代,我们需要重新思考AI芯片、AI基础设计架构的实施方案。

 

MLA和算法创新

对于MLA技术,先谈个背景知识:LLM大语言模型针对用户输入来生成相关响应的过程中,KV矢量——也就是key和value是非常重要的。它们让模型能够更多关注到输入部分相关的数据内容上。一般来说在注意力机制中,当模型拿到新的请求以后,就会将请求与key做比较,来决定哪些内容与用户请求是最为相关的。

“可以把key想象成一本书的章节标题——它能指明每部分是说什么的;而value则是这些标题之下更为细节化的摘要。”Elad类比说,“用户输入以后,它(应该是指AI模型)就请求搜索词,帮助生成答案。这个过程就像是在问,‘在对应的故事情节下,哪个章节是最相关的?’”

而MLA就是对这样的章节标题(key)和摘要(value)做压缩的技术,可以让找答案的过程更快,效率也更高。从结果来看,MLA能够帮助DeepSeek最终减少5-13%的内存占用。更多技术细节就不谈了,有兴趣的读者可以去看看DeepSeek的官方paper。前一阵联发科的开发者大会上,面向端侧的天玑手机芯片,甚至都在谈对MLA的支持,可见DeepSeek的深远影响力。

我们说类似MLA这样的技术,属于AI时代的典型算法创新。但AI技术高速发展时期的算法创新是层出不穷的,这些创新也带来了新的问题,尤其当算法创新是专门针对某一个平台的时候。Elad在文章里提到,在MLA这一例中,对于非NVIDIA GPU而言,要用上MLA就需要开发者做额外的手动编程。

以DeepSeek为代表的技术固然表现出了AI时代的创新及价值,但软硬件也要随着这样的创新去做调整。Elad认为,这种调整对开发者,和生产环境的系统复杂度而言,理应是越小越好的。否则我们为每次创新付出的代价都会很大。

“如果下一次算法创新并不能很好、简单地适用于传统架构,那又该怎么办?”

 

芯片设计与算法创新的矛盾,灵活性与效率的矛盾

过去两三年我们参加AI芯片厂商的活动,绝大部分企业都提到大型AI芯片设计的周期都需要起码1-2年。也就是说在一颗芯片上市前的1-2年,芯片就要开始设计了。AI技术发展如此迅速,AI芯片设计就必须具备前瞻性,如果只着眼在当下,那么最终问世的AI芯片一定是过时的——它也不可能适配芯片上市那一刻的应用技术创新。

现在AI行业的应用算法创新是以周计的。我们在前不久的文章里提过,AI模型要达成相同能力所需的算力每年降低4-10倍;过去3年达成GPT3相似质量的AI模型推理成本下降了1200倍;当下2B参数量的模型就能达到当年170B参数GPT3的水平。想一想,这是最近5年的事情:表现的就是AI技术栈上层的创新和速度。

这对传统芯片架构规划与设计而言,大概是可以称作灾难的。Elad认为,行业需要意识到类似DeepSeek MLA这样的创新对AI技术而言是常态;“下一代计算不仅需要优化今天的负载,也要满足技术突破的需求。”我们理解,这里所说的“行业”并不单纯是芯片行业,而是AI技术栈的所有中下层基础设施。

“DeepSeek及其他创新表明了算法创新的快速跃进。”“研究人员和数据科学家需要更为通用、有弹性的工具,驱动新的洞察和发现。市场需要智能、软件定义的硬件计算平台,让客户可对现有加速器解决方案做到可随时替换(drop-in replacement),同时让开发者可以无痛移植。”

“为了应对这样的现状,行业必须设计更为智能、可适配、尽可能灵活的计算基础设施。”

一般我们说灵活和效率是对矛盾体,就好像CPU非常灵活,但其高度并行计算效率一定远弱于GPU,而具备一定编程性的GPU在效率上又可能弱于更为专用的AI ASIC芯片。

Elad在文中特别提到,NVIDIA预期很快AI数据中心机架会达到600kW的功率水平——要知道现在75%的标准企业数据中心单机架峰值功耗不过15-20kW。无论AI的潜在效率提升水平如何,起码对构建计算基础设施系统的数据中心而言,这又是个需要努力投入去做设计和构建的大问题。

所以在Elad眼中,现在的GPU和AI加速器很有可能无法解决潜在的AI与HPC需求。“如果不对我们提升计算效率的方法做彻底的重新构思,行业可能面临触碰物理极限与经济限制的风险。”“这堵高墙还将产生副作用,限制更多组织机构使用AI与HPC,在即便有算法或传统GPU架构进步的情况下仍旧阻碍创新。”

 

下一代计算基础设施的建议和需求

基于此,Elad提出了定义下一代计算基础设施的“4大支柱”:

(1)即插即用可替换:“历史表明复杂架构转换,如CPU到GPU的应用迁移,需要历经数十年时间才完全落地。所以下一代计算架构应当支持平滑迁移。”针对所谓的“即插即用”可替换,Elad认为新时代的计算架构应当借鉴x86, Arm生态的经验,通过向前兼容达成更为广泛的布局。

同时,现代化的设计不需要开发者大量重写代码,也不应针对特定供应商产生技术依赖。“比如像MLA这样新兴技术的支持应当形成标准。而不是像现在,非NVIDIA GPU那样需要额外的手动调整。下一代系统要在不需要手动修改代码或做较大程度API调整的情况下,就开箱即用地理解和优化新的负载。”

(2)可适应的、实时的性能优化:Elad认为行业不应当基于固定功能的加速器发展,“行业需要构建于智能、软件定义的硬件基础之上,这样的硬件能够在运行时(at runtime)就动态进行自我优化。”

“通过对负载的持续学习,未来的系统能够实时对自身做出调整,实现最大化的利用率和持续的性能释放,和具体的应用负载无关。这种动态可适应性意味着,无论是跑HPC模拟、复杂的AI模型,还是矢量数据库操作,基础设施都能在真实负载场景下提供一致的效率。”

(3)具备伸缩特点的高效性:“通过解耦软硬件,专注于智能的实时优化,未来的系统应当达成更高的利用率,降低整体的能耗。如此一来,基础设施会变得更具成本效益,同时具备可伸缩性来满足持续进化中的新负载需求。”

(4)未来验证(future-design)的设计:这一点对应于前文提及AI基础设施中下层,尤其芯片设计需要具备前瞻性。“今天前沿的算法,明天就可能过时了。”“无论是AI神经网络,还是基于Transformer的LLM模型,下一代计算基础设施都需要具备适应能力,确保企业的技术投入在未来数年内都有韧性。”

在我们看来,这是整体比较理想化、且可引发行业思考的建议。这种指导纲领式的方法论,是未来AI HPC技术的发展需要参考的,即便或许其中的两个矛盾仍会是行业的长久议题。“要发挥AI, HPC和其他未来计算与数据密集型负载的潜力,我们就必须思考基础设施,拥抱动态与智能的解决方案,去支持创新和先行者。”

责编:Illumi
阅读全文,请先
您可能感兴趣
目前,中国传感器企业越来越多地将目光投向新兴技术和应用,以寻求新的增长点。
根据微软官方声明,本次裁员与员工绩效表现无关,而是聚焦于优化组织架构。美国总部成为裁员“重灾区”,华盛顿州雷德蒙德园区将削减1985个岗位,涉及软件工程、产品管理等核心部门。
美国商务部废除《AI扩散规则》并升级对华为芯片的禁令,体现了其在技术霸权与商业利益间的“政策摇摆”。
开发一款人形机器人,不单单是做成人的样子,还要让它具备一颗接近人的“大脑”,在面对现实物理世界时具备一些简单的思考和推断能力。但说是简单,实现起来却困难重重,物理 AI(Physical AI)的崛起正是为了填补这一空白……
为了支持这一战略,荣耀不仅在组织架构上进行了调整,还新增了AI新产业部门,并将AI相关研发工作提升为一级研发部门。
具身智能的本质是‘大脑+小脑+感知系统’的协同进化。当前,尽管DeepSeek等大模型已显著提升机器人的认知能力,但物理世界的交互仍受限于感知精度与执行效率。
在本文中,我们将探讨SiC半导体产品如何实现高质量和高可靠性,以及SiC制造商为确保其解决方案能够投放市场所付出的巨大努力,这些努力不仅提升了产品性能,还确保了卓越的可靠性。
随着诸如无人机、智能驾驶汽车、无人农机、各种专用和消费机器人等智能无人设备广泛进入我们的工作和生活,这些设备的功能安全问题成为了一个值得关注的重要话题。
低空经济作为新质生产力的典型代表之一,已获得国家与香港特区政府的高度重视。近年来,全球低空经济呈现爆发式增长,无人机物流、城市空中交通(UAM)等业态快速迈向规模化应用。这一趋势对多机协同定位精度与任务动态调度能力提出更高要求。
公司报告显示市场份额持续攀升且研发投入加码布局
体系化优势开始显现”作者|王磊 秦章勇编辑|秦章勇在高度竞争的2024年,零跑成为第二家盈利的新造车后,还没来得及开香槟,就投入到更残酷的2025年。今年来,零跑销量不断创新纪录,三、四月份连续两个月
Microchip资讯News该系列器件具备后量子加密、增强安全功能与低功耗特性受密码学研究的进步及更强安全措施需求的推动,美国国家安全局(NSA)推出了《商用国家安全算法套件2.0》(CNSA 2.
还是热心的粉丝供图,不过东西确实是看的我一愣一愣的,感觉是有点胡B的。fans买的最好的我觉得这个壳子还挺好看的是24个单端,12个差分可以到上下10V的样子测量的是5kHz的方波不是,1W?里面就这
(广告分割线)在金湾这片创新热土上,有这样一批企业:它们没有终端产品的耀眼光环,却以核心技术定义产品性能;不追逐短期风口,却用几十年如一日的技术深耕构筑竞争壁垒。珠海特区报“金质招牌”系列报道本期聚焦
扫码预约发布会现场体验有趣好玩的AI眼镜了解全志V881新品干货~报名时间:即日起 至 5月19日 20:00截止尊敬的观众:因会场座位限制,数量有限,约完即止,请确保您的联系方式正确无误,每个联系方
亚化咨询重磅推出《中国半导体材料、晶圆厂、封测项目及设备中标、进口数据全家桶》。本数据库月度更新,以EXCEL表格的形式每月发送到客户指定邮箱。中国大陆半导体大硅片项目表(月度更新)中国大陆再生晶圆项
点击上方蓝色字体,关注我们移植实时操作系统(RTOS)到新的硬件平台是嵌入式开发中的一项关键任务。无论是将FreeRTOS移植到STM32,还是将其他RTOS适配到定制硬件,开发者都可能遇到一系列挑战
生活中,我们总有用不上的闲置/二手物品需要转让或出售,从相机到家电到演唱会门票,可交易的同时又免不了担心: “买家收货后挑刺砍价” “卖家隐瞒瑕疵拒绝退货” “转账
  实验名称:振幅测试实验   研究方向:随着科技的高速发展,航空宇航、国防、海洋工程、交通运输工程等高科技领域对机械零部件的性能要求更高,不仅要求
(广告分割线)台湾电路板协会(TPCA)近日发布报告指出,2024年中国台湾电路板(PCB)产业链总产值达到1.22兆元(新台币,下同),年成长率8.1%,主要受AI伺服器应用需求扩张带动,材料与设备