在过去十年左右的时间里,边缘AI推理的发展与硬件、软件和AI模型优化的进步相辅相成。
边缘AI推理的起源可以追溯到嵌入式计算的早期,当时有限的处理能力使得AI推理变得不切实际。在AI模型普及之前,为特定应用(例如工业控制器和汽车电子控制单元)设计的边缘设备依赖于确定性编程,而非数据驱动的学习方法。
机器学习模型(包括决策树和支持向量机)的出现,为模式识别等任务带来了更复杂的功能。然而,虽然训练主要在集中式服务器上进行,但由于边缘设备的计算能力限制,推理仍然受到限制。
大型语言模型(LLM)在数据中心取得了显著成功,丰富的计算资源和内存容量支持广泛的AI应用。然而,由于边缘设备固有的限制,包括处理能力不足、内存容量有限、能效和成本要求以及专门的架构限制,将这些模型部署到更靠近数据源的边缘仍然是一个挑战。
边缘推理的重大突破
中国初创公司深度求索(DeepSeek)今年初发布的AI模型,在硅谷乃至整个AI界引起了广泛关注,甚至略带一丝担忧。DeepSeek模型似乎是现有美国模型的有力竞争者,它展示了一种创新方法,直接解决了阻碍LLM在边缘AI推理部署的硬件限制。这一突破或将重塑AI格局,为边缘计算开辟新的可能性。
在边缘部署LLM的挑战主要源于其对硬件的巨大计算需求,这反过来又会导致高功耗、过高的延迟和高昂的成本,所有这些都与边缘环境的限制格格不入。LLM的结构涉及大量浮点矩阵运算,需要大量内存来存储大量的参数和激活函数,这通常会超出边缘硬件的容量。此外,边缘设备固有的架构限制也加剧了这些挑战,这些设备通常针对低功耗而非深度学习任务所需的高并行度进行优化。
DeepSeek的方法通过在边缘设备上更高效地执行LLM,为这些问题提供了一种潜在的解决方案。其策略围绕两项关键创新。首先是混合专家(MoE)架构的实现,这项技术允许模型根据其接收的输入选择性地激活模型网络的不同部分,从而潜在地减少整体计算工作量。第二个关键创新是多头潜在注意力(MLA)。虽然MLA的细节尚不明确压缩和解压缩策略,但它似乎是一种旨在提高注意力机制效率的机制。注意力机制是LLM的重要组成部分,它使模型能够专注于输入的相关部分。
这两项进步的协同作用为克服迄今为止限制LLM在边缘部署的硬件瓶颈提供了一条充满希望的途径。
MoE降低计算需求
最新的DeepSeek R1模型拥有6700亿个参数。它并非一次性部署全部参数集,而是将其分解为包含370亿个参数的较小模型,每个模型都针对一项特定任务,即专家模型。MoE方法允许模型分配计算负载,使其更高效,更适用于资源受限的环境。通过在推理过程中仅使用模型的一小部分参数,该方法显著降低了处理需求并降低了活动内存占用,使大规模推理在边缘硬件上更加可行,并允许根据任务复杂性和可用资源进行动态调整。
MLA提升计算效率
DeepSeek的另一项重要创新是引入了MLA,这是一种创新的注意力机制,旨在加速LLM的推理,可将缓存需求大幅降低高达93%。
LLM推理的一个主要瓶颈是存储键值(KV)缓存所需的海量内存。这些缓存保存了输入序列的相关信息,对于注意力机制至关重要,它使模型在生成文本时能够专注于输入的相关部分。传统的多头注意力机制(MHA)会为输入序列中的每个单词和每个注意力头存储键值向量,这会导致大量的内存消耗,尤其是在序列较长且注意力头较多的情况下。MLA通过巧妙的压缩和解压缩策略缓解了内存瓶颈。
MLA不会存储完整的键值向量,而是将高维张量输入信息压缩为一个更小的低维潜在向量。可以将这个潜在向量视为输入张量的简化表达形式,从而捕获注意力所需的最重要信息。压缩步骤大幅减少了键值缓存(KV)所需的内存占用。当模型需要计算特定单词或token的注意力时,潜在向量会被解压回高维空间,重建必要的键值向量。解压过程允许模型访问与注意力计算相关的信息,即使只存储了压缩后的潜在向量。
MLA的优势在于其效率。通过仅存储压缩后的潜在向量,内存需求显著降低。内存占用的降低意味着可以更快地从键值缓存中检索信息,从而提高推理速度。此外,DeepSeek V2的结果表明,MLA不仅可以降低内存占用、加快推理速度,甚至可以提升模型性能,从而获得高于传统MHA的准确率。
本质上,MLA提供了一种更有效地处理信息的方法。它压缩了注意力所需的关键数据,使模型能够使用更小、更易于管理的输入表示进行高效推理。这种压缩和解压缩过程使LLM能够更高效地运行,从而实现更快、更节省内存的推理,这对于在实际应用中部署这些大型模型至关重要。这使得在内存资源有限的设备上运行强大的LLM成为可能,为移动和边缘部署开辟了新的可能性。
虽然关于MLA的细节仍然有限,但初步分析表明,它与推测性AI(一种用于加速AI推理的技术)有相似之处。然而,专家认为MLA超越了推测性优化,并提出了一种全新的内存与注意力管理机制,专用于部署在边缘设备上的LLM。通过最大限度地减少缓存需求,MLA显著减轻了对高端硬件的依赖,使其能够在内存容量较低的设备上进行推理。此外,这种优化还降低了延迟,实现了实时AI交互,并提高了功耗效率,这对于移动和嵌入式应用来说至关重要。
边缘LLM推理的曙光
DeepSeek在MoE和MLA方面的突破,标志着大规模LLM在边缘部署方式的根本性转变。通过优化计算和内存需求,这些创新为边缘AI应用开辟了新的可能性。移动和可穿戴设备上增强型实时AI助手、L4和L5自动驾驶、具有低延迟推理的更智能工业自动化,以及具有更强大设备端智能的改进型AI驱动型物联网设备,都是最具潜力的应用场景。
改变游戏规则
将LLM引入边缘计算的挑战在于平衡处理能力、计算效率、能耗和成本。DeepSeek对MoE和MLA的战略性实施标志着其与传统方法的重大突破,为LLM推理突破数据中心的限制铺平了道路。
这种方法可以彻底改变边缘AI,解锁从移动设备上的实时语言翻译到工业设备上复杂的预测性维护等一系列应用。
为了衡量这项创新的重要性,值得注意的是,虽然DeepSeek是第一个将其推向公众的公司,但目前大多数主要的AI公司都在探索和实施类似的方法,因为他们意识到了其改变游戏规则的潜力。
(原文刊登于EE Times欧洲版,参考链接:The Rise of LLM Inference at the Edge: Innovations Shaping the Future,由Franklin Zhao编译。)
本文为《电子工程专辑》2025年6月刊杂志文章,版权所有,禁止转载。免费杂志订阅申请点击这里。
