中国初创公司DeepSeek今年初发布的AI模型,在硅谷乃至整个AI界引起了广泛关注,甚至略带一丝担忧。

在过去十年左右的时间里,边缘AI推理的发展与硬件、软件和AI模型优化的进步相辅相成。

边缘AI推理的起源可以追溯到嵌入式计算的早期,当时有限的处理能力使得AI推理变得不切实际。在AI模型普及之前,为特定应用(例如工业控制器和汽车电子控制单元)设计的边缘设备依赖于确定性编程,而非数据驱动的学习方法。

机器学习模型(包括决策树和支持向量机)的出现,为模式识别等任务带来了更复杂的功能。然而,虽然训练主要在集中式服务器上进行,但由于边缘设备的计算能力限制,推理仍然受到限制。

大型语言模型(LLM)在数据中心取得了显著成功,丰富的计算资源和内存容量支持广泛的AI应用。然而,由于边缘设备固有的限制,包括处理能力不足、内存容量有限、能效和成本要求以及专门的架构限制,将这些模型部署到更靠近数据源的边缘仍然是一个挑战。

边缘推理的重大突破

中国初创公司深度求索(DeepSeek)今年初发布的AI模型,在硅谷乃至整个AI界引起了广泛关注,甚至略带一丝担忧。DeepSeek模型似乎是现有美国模型的有力竞争者,它展示了一种创新方法,直接解决了阻碍LLM在边缘AI推理部署的硬件限制。这一突破或将重塑AI格局,为边缘计算开辟新的可能性。

在边缘部署LLM的挑战主要源于其对硬件的巨大计算需求,这反过来又会导致高功耗、过高的延迟和高昂的成本,所有这些都与边缘环境的限制格格不入。LLM的结构涉及大量浮点矩阵运算,需要大量内存来存储大量的参数和激活函数,这通常会超出边缘硬件的容量。此外,边缘设备固有的架构限制也加剧了这些挑战,这些设备通常针对低功耗而非深度学习任务所需的高并行度进行优化。

DeepSeek的方法通过在边缘设备上更高效地执行LLM,为这些问题提供了一种潜在的解决方案。其策略围绕两项关键创新。首先是混合专家(MoE)架构的实现,这项技术允许模型根据其接收的输入选择性地激活模型网络的不同部分,从而潜在地减少整体计算工作量。第二个关键创新是多头潜在注意力(MLA)。虽然MLA的细节尚不明确压缩和解压缩策略,但它似乎是一种旨在提高注意力机制效率的机制。注意力机制是LLM的重要组成部分,它使模型能够专注于输入的相关部分。

这两项进步的协同作用为克服迄今为止限制LLM在边缘部署的硬件瓶颈提供了一条充满希望的途径。

MoE降低计算需求

最新的DeepSeek R1模型拥有6700亿个参数。它并非一次性部署全部参数集,而是将其分解为包含370亿个参数的较小模型,每个模型都针对一项特定任务,即专家模型。MoE方法允许模型分配计算负载,使其更高效,更适用于资源受限的环境。通过在推理过程中仅使用模型的一小部分参数,该方法显著降低了处理需求并降低了活动内存占用,使大规模推理在边缘硬件上更加可行,并允许根据任务复杂性和可用资源进行动态调整。

MLA提升计算效率

DeepSeek的另一项重要创新是引入了MLA,这是一种创新的注意力机制,旨在加速LLM的推理,可将缓存需求大幅降低高达93%。

LLM推理的一个主要瓶颈是存储键值(KV)缓存所需的海量内存。这些缓存保存了输入序列的相关信息,对于注意力机制至关重要,它使模型在生成文本时能够专注于输入的相关部分。传统的多头注意力机制(MHA)会为输入序列中的每个单词和每个注意力头存储键值向量,这会导致大量的内存消耗,尤其是在序列较长且注意力头较多的情况下。MLA通过巧妙的压缩和解压缩策略缓解了内存瓶颈。

MLA不会存储完整的键值向量,而是将高维张量输入信息压缩为一个更小的低维潜在向量。可以将这个潜在向量视为输入张量的简化表达形式,从而捕获注意力所需的最重要信息。压缩步骤大幅减少了键值缓存(KV)所需的内存占用。当模型需要计算特定单词或token的注意力时,潜在向量会被解压回高维空间,重建必要的键值向量。解压过程允许模型访问与注意力计算相关的信息,即使只存储了压缩后的潜在向量。

MLA的优势在于其效率。通过仅存储压缩后的潜在向量,内存需求显著降低。内存占用的降低意味着可以更快地从键值缓存中检索信息,从而提高推理速度。此外,DeepSeek V2的结果表明,MLA不仅可以降低内存占用、加快推理速度,甚至可以提升模型性能,从而获得高于传统MHA的准确率。

本质上,MLA提供了一种更有效地处理信息的方法。它压缩了注意力所需的关键数据,使模型能够使用更小、更易于管理的输入表示进行高效推理。这种压缩和解压缩过程使LLM能够更高效地运行,从而实现更快、更节省内存的推理,这对于在实际应用中部署这些大型模型至关重要。这使得在内存资源有限的设备上运行强大的LLM成为可能,为移动和边缘部署开辟了新的可能性。

虽然关于MLA的细节仍然有限,但初步分析表明,它与推测性AI(一种用于加速AI推理的技术)有相似之处。然而,专家认为MLA超越了推测性优化,并提出了一种全新的内存与注意力管理机制,专用于部署在边缘设备上的LLM。通过最大限度地减少缓存需求,MLA显著减轻了对高端硬件的依赖,使其能够在内存容量较低的设备上进行推理。此外,这种优化还降低了延迟,实现了实时AI交互,并提高了功耗效率,这对于移动和嵌入式应用来说至关重要。

边缘LLM推理的曙光

DeepSeek在MoE和MLA方面的突破,标志着大规模LLM在边缘部署方式的根本性转变。通过优化计算和内存需求,这些创新为边缘AI应用开辟了新的可能性。移动和可穿戴设备上增强型实时AI助手、L4和L5自动驾驶、具有低延迟推理的更智能工业自动化,以及具有更强大设备端智能的改进型AI驱动型物联网设备,都是最具潜力的应用场景。

改变游戏规则

将LLM引入边缘计算的挑战在于平衡处理能力、计算效率、能耗和成本。DeepSeek对MoE和MLA的战略性实施标志着其与传统方法的重大突破,为LLM推理突破数据中心的限制铺平了道路。

这种方法可以彻底改变边缘AI,解锁从移动设备上的实时语言翻译到工业设备上复杂的预测性维护等一系列应用。

为了衡量这项创新的重要性,值得注意的是,虽然DeepSeek是第一个将其推向公众的公司,但目前大多数主要的AI公司都在探索和实施类似的方法,因为他们意识到了其改变游戏规则的潜力。

(原文刊登于EE Times欧洲版,参考链接:The Rise of LLM Inference at the Edge: Innovations Shaping the Future,由Franklin Zhao编译。)

本文为《电子工程专辑》2025年6月刊杂志文章,版权所有,禁止转载。免费杂志订阅申请点击这里

责编:Franklin
本文为EET电子工程专辑原创文章,禁止转载。请尊重知识产权,违者本司保留追究责任的权利。
阅读全文,请先
您可能感兴趣
到2030年,美国自动驾驶汽车共享出行市场规模将增长至70亿美元,并通过降低事故率颠覆价值4000亿美元的保险市场。
传感器与新兴技术的融合提升了现代系统的效率和智能化,从而催生了多个行业的前沿应用场景。
STM32 峰会是意法半导体“在中国,为中国”战略的阶段性成果展示 —— 不仅详细介绍了四款新产品,更首次系统解读“国内外双供应链新生态”,为中国嵌入式产业注入新动能的同时,也展现了其在复杂地缘环境下保障中国客户供应安全的决心。
格芯表示,公司将开拓半导体行业的利润蓝海,包括芯片与光学数据组件的集成方案,以及采用氮化镓材料的电源管理芯片替代方案。
根据计划,这种技术有望在2027年前完成原型设计,并在2030年前实现商业化。如果成功, Saimemory希望通过这种替代产品,抢占至少日本数据中心的市场份额。
有分析认为,苹果的最新研究不仅为其健康监测技术提供了新的方向,也将为用户提供了更全面的健康数据支持。
混合动力汽车(HEV)曾经被视为电动车和传统燃油车的中间地带,但如今已独当一面,发展成为具有自身市场意义的精密工程系统。为了满足现代 HEV 的需求,工程师正在不断挑战电源架构的极限,以实现更高的电压、更紧密的集成和更智能的连接。
高温环境会严重制约集成电路的性能、可靠性和安全性,亟需通过创新技术手段攻克相关技术难题‌。
​广东芯赛威SFM8801 APOIS芯片实现硬件可重构与算法开源双突破
知存科技联合复旦大学、浙江大学、上海交通大学、南京大学等高校及社区举办的第二届 “知存科技杯高校存内计算创新应用大赛”于近日正式开启。
6 月 10 日消息,赛富乐斯(Saphlux LLC)今日发布 T3 系列 0.13 英寸单片全彩 Micro LED 微显示屏,为新一代增强现实(AR)眼镜带来更丰富的显示内容与更高效的信息提示体
近日,阿尔特汽车宣布正式进军机器人产业,该公司最新战略布局取得突破性进展 —— 由阿尔特联合云视科技、上海乙蜂共同投资的北京阿尔瑞特智能机器人科技有限公司(以下简称阿尔瑞特)已完成注册并举行成立庆典。
6月9日消息,目前多方爆料已经明确,华为将在下半年推出Mate XT三折叠的小迭代机型,此前外界猜测将命名为“Mate XTs”。但根据博主“超维界”的最新爆料,新一代三折叠将会直接被命名为“Mate
6月10日消息,华为首款鸿蒙折叠电脑MateBook Fold非凡大师已于6月6日正式开售,有博主第一时间对电脑进行了拆解。最让人意外的地方不是折叠屏设计、不是做工堆料,而是那颗从未官宣、但却赫然出现
特斯拉在得克萨斯州奥斯汀正式进入自动驾驶车辆的“测试”阶段,这距离其计划推出商业服务的日子仅剩数天。几个月来,特斯拉一直在讨论于今年 6 月在奥斯汀推出自动驾驶网约车车队的计划。此前,特斯拉曾承诺,自
芯片超人现有1600平米芯片智能仓储基地,现货库存型号1000+,品牌高达100种,5000万颗现货库存芯片,总重量10吨,库存价值高达1亿+。同时,芯片超人在深圳设有独立实验室,每颗物料均安排QC质
6月9日,由广州光亚法兰克福展览有限公司、车载显示产业生态联盟主办,WitDisplay承办,成都新型显示行业协会协办的2025广州汽车智能照明及显示技术论坛在广州成功举办。该论坛以““智驾出行 智慧
据媒体报道,首片6寸薄膜铌酸锂光子芯片晶圆顺利下线,我国首条光子芯片中试线在滨湖规模化量产。入选国家工信部“首批重点培育中试平台”名单不到1个月,位于上海交大无锡光子芯片研究院内的国内首条光子芯片中试
Q需要为嵌入式AI模型提供多少样本数据?我在向客户介绍如何使用AI方法设计一款客户产品时,客户理解,AI嵌入式项目的开发都是围绕数据展开的,如此,我经常会被问到这样的问题:客户的工程师需要采集多少数据
兆易创新GigaDevice宣布,将参加SNEC PV+ 第十八届(2025)国际太阳能光伏与智慧能源(上海)大会暨展览会(展位号:5.1H-B360),集中展示其在数字能源领域的创新成果。本次展会,