十大边缘AI芯片-电子工程专辑



 0

 收藏

 分享

扫码分享到微信好友

 扫一扫

扫码查看更多文章

本文精选十大边缘人工智能芯片，涵盖了从能在边缘设备中处理GenAI的芯片到专为视觉和超低功耗应用而设计的产品。

如今，人工智能正在渗透几乎所有边缘和嵌入式市场，制造出性能更强大、功能更丰富的设备，从工业机器的预测性维护到家用电器的语音激活，再到支持更复杂的计算机视觉应用和自主机器。

生成式人工智能(GenAI)也正在边缘设备中兴起，使这些设备能够理解和创建自然语言，从而提供更自然的用户体验。然而，对于小型设备来说，这需要大量的计算资源，因此需要专门的人工智能芯片来加速工作负载，同时又不会牺牲功耗。

以下是我们精选的十大边缘人工智能芯片，目前均已上市。它们涵盖了从能在边缘设备中处理GenAI的芯片到专为视觉和超低功耗应用而设计的产品。

用户界面

大型语言模型(LLM)和GenAI可以为拥有足够计算、内存和处理能力的系统添加自然直观的界面，使其能够在给定的延迟内运行。

Hailo Technologies公司的第二代AI加速器Hailo-10专门设计用于边缘计算中的GenAI和LLM。它基于与该公司早期专注于视觉的Hailo-8相同的架构，后者依靠Hailo的软件分析神经网络各层的计算和内存需求，分配充足的资源，并将它们尽可能地映射到更近的位置，以最大程度地缩短数据传输距离。Hailo-10增加了专用内存接口，允许使用外部内存，这对于快速的LLM推理至关重要。

Hailo-10支持4位、8位和16位整数精度，在INT4模式下可达到40TOPS的算力。这与Hailo-8类似，但新增的内存访问功能使其更适用于GenAI。Hailo还提升了一些常见Transformer算子的效率，并改进了对多模态的支持。

Hailo-10可以以低于5W的功耗运行Llama2-7B，每秒最多处理10个token；或者在相同的功耗下，以低于5秒的每张图像处理时间运行StableDiffusion 2.1。虽然70亿参数的LLM在今天看来规模相对较小，但对于仅需特定领域知识的设备的用户界面来说，这已经足够了。

Hailo公司的Hailo-10人工智能加速器(来源：Hailo Technologies公司)

AI助手

Kinara公司推出了其第二代AI加速器Ara-2，适用于边缘服务器、笔记本电脑和游戏机市场。Ara-2可在6W的功耗范围内加速多达300亿个INT4参数的模型。

Kinara已演示Ara-2在运行Llama2-7B时每秒能生成数十个token，并在10秒内完成StableDiffusion 1.4的20次迭代。Ara-2针对GenAI工作负载进行了优化，包括为边缘服务器和边缘设备应用生成图像和文本。

该芯片比Kinara专注于视觉的第一代产品更大，但计算效率也更高，性能提升了5到8倍。新内核加入了专为AI工作负载优化的超长指令字(VLIW)，有助于避免加载/存储瓶颈(VLIW常用于AI加速器，因为它支持指令级并行，这对于AI工作负载非常有利)。还新增了对常见Transformer激活函数(例如softmax和ReLU)的支持，以及INT4和MSFP16能力。一个专有的编译器负责处理数据流。

边缘设备可以使用本地数据为AI添加有价值的上下文，从而使AI智能体和助手可以获取特定于上下文的信息，从而帮助生成更准确的结果。例如，这可能体现为用户在笔记本电脑上的本地数据。在游戏机领域，Kinara正在推动在本地运行小型LLM，以支持更加真实、可交互的非玩家角色。

Kinara公司的Ara-2 AI加速器(来源：Kinara公司)

量化技术

韩国AI芯片初创公司DeepX的核心技术在于其量化方法，该方法能将训练好的模型转化为高效的低精度版本，以加快推理速度。通常，量化需要牺牲精度，但DeepX的量化方法实际上使量化后的视觉网络比原始的全精度版本更精确。这是因为它帮助模型减少了过拟合，过拟合是一个常见问题，即模型由于记住了数据而无法泛化。

DeepX提供两种芯片。DX-V1是一款片上系统(SoC)，配备5TOPS神经处理单元(NPU)、四个RISC-V CPU和一个12MP图像信号处理器(ISP)。这是一款适用于边缘设备的小型SoC，售价低于10美元，功耗仅为1至2W。DeepX的V1演示以30fps的速度运行YOLOv7，实现实时处理。DX-M1则是一款基于相同NPU架构的更强大的加速器，但设计用于与独立主机CPU并行工作。它可在5W的功耗范围内提供25TOPS的计算能力，适用于工业PC及类似应用，例如摄像系统、无人机和机器人。

DX-H1是一款四核M1卡，也适用于边缘服务器和工业网关。当前一代产品支持Transformer编码器，但不支持解码器。下一代产品则将全面支持Transformer。

DeepX的DX-M1加速器(来源：DeepX)

多摄像头数据流

Axelera AI的Metis芯片配备四核数字内存计算矩阵矢量乘法加速器，峰值性能达到214TOPS(混合精度/INT8权重)，功耗为14.7TOPS/W。Metis AI处理单元的典型功耗为10W。

Metis的高效性源于其密集交错的内存和计算能力，以及每个AI内核中一个小型RISC-V CPU，该CPU负责管理内存映射I/O上的数据流，并支持各种激活函数的硬件加速。四核设计可配置为在不同内核上运行的不同模型，或用于级联模型，大型模型可以分布在多个内核上。

Metis配备了带有1GB DRAM的M.2卡或PCIe卡。这些单芯片卡仍然可以处理多流推理；Axelera的演示展示了在24个摄像头数据流上运行YOLOv5物体检测，总帧率达400fps。在单个芯片上运行多个数据流有助于避免软件复杂性。

即将推出的是一款四芯片PCIe卡，其计算能力达856TOPS，可用于聚合更多摄像头数据流；此外，还有一款单板计算机，搭载单个Metis芯片和主机CPU。

虽然Metis主要用于计算机视觉应用，但它也可以运行Transformer。

Axelera AI的Metis芯片(来源：Axelera AI)

完整的SoC

随着消费电子和工业设备、机器人和车辆逐渐转向大型多模态模型LMM(Large Multimodal Model)和GenAI，SiMa Technologies公司(SiMa.ai)已打造第二代芯片以满足这一需求。Modalix SoC已针对包括BF16精度的视觉和多模态Transformer在内的Transformer架构进行了优化，同时它还可以运行卷积神经网络(CNN)和其他AI工作负载。它具有针对分段多项式激活函数以及LLM和LMM中常用的其他非线性函数的硬件加速功能。

Modalix是一个完整的SoC系列，不仅包括加速器，还配备了八个Arm A级CPU内核，旨在运行完整的应用程序而不是单独的加速器任务。这些CPU内核将用于运行应用程序、进行决策，并且在加速器不支持任何操作的情况下，它们还可以用于回退。Modalix将推出25、50、100和200TOPS(INT8)版本，其中50TOPS版本将率先上市。该版本可以以超过10个token/s的速度运行Llama2-7B，功耗为8至10W。SoC上还集成了片上ISP和数字信号处理器(DSP)。

SiMa.ai的工具链可以自动量化不同的层级，以实现最佳精度。

SiMa.ai的Modalix SoC(来源：SiMa Technologies公司)

实时视觉

Blaize公司的图流处理器架构专为图工作负载设计，包括AI和常见的图像信号处理功能。该硬件将流处理与多线程技术相结合；激活数据会被缓存在小型片上缓冲区中，然后直接传输到下一个节点。减少处理器和外部存储器之间的数据传输，可大幅降低能耗。

最终，该芯片能够在五个摄像头流上实时处理YOLOv3物体检测(每个流每次推理耗时不到20ms，因此所有五个流均可同时以10fps的帧率运行)。这使得工业和智慧城市应用中的实时视觉处理成为可能，但Blaize架构也适用于汽车驾驶辅助系统、零售货架摄像头和其他视觉应用。

Blaize的芯片Blaize 1600 SoC拥有16个内核，总共具有16-TOPS INT8性能，功耗为7W。它有几种小卡格式，可作为单芯片加速器(最高可达4GB LPDDR4)，或用于边缘服务器应用和网关的四芯片PCIe卡。

AI加速器

对于基于CNN的小型视觉模型，MemryX公司的MX3 AI加速器可提供5TFLOPS(混合精度)性能，功耗仅为2W。与类似解决方案一样，它基于数据流架构的内存计算；处理单元包含矩阵乘法加速器，以及另一个处理激活和其他运算的小单元。数据从一个引擎流向下一个引擎，无需离开芯片进入外部存储器，存储器是处理引擎之间的唯一连接(无片上网络)。权重支持INT4、INT8和INT16，激活使用BF16以保持整体精度。

对于更大的模型，MemryX提供带有四块芯片的M.2模块(混合精度性能为20TFLOPS)。模型可以分布在四个器件上，总功耗为8W。该公司的软件堆栈可以一键自动编译模型。该公司测试了来自HuggingFace等在线存储库的大量模型，这些模型在未经进一步优化的情况下，芯片的利用率达到了50%至80%。MemryX MX3的应用包括PC上的实时视觉和AI。

始终在线的AI

对于需要超低功耗的应用，如电池供电设备中始终在线的关键字检测，Syntiant公司的NDP250神经决策处理器则是理想选择。NDP250是Syntiant架构的第三代版本，可在10至100mW的功率范围内提供30GOPS的INT8性能。

Syntiant器件的典型用例是音频或视觉唤醒词，或传感器处理，如果检测到感兴趣的内容，则会唤醒微控制器(MCU)或系统的其他部分。这使得系统的大部分部件保持关闭状态，直到被唤醒以节省功耗。NDP250配备比之前的Syntiant器件更大的加速器，可以处理稍大的任务，例如自动语音识别和文本转语音。这可以节省能耗并改善系统的延迟，例如唤醒运行LLM的更强大的处理器。尽管如此，NDP250支持注意力层，因此支持微型Transformer网络(低于600万个INT8参数)。

芯片内置Syntiant的加速器、用于音频特征提取和信号处理的HiFi3 DSP以及Arm Cortex-M0内核，这使得该芯片在某些应用中无需主处理器即可运行。

该公司还通过收购Pilot.ai提供AI模型。此外，它最近还收购了楼氏电子的消费级MEMS麦克风业务。

应用处理器

在应用处理器领域，恩智浦半导体(NXP)的i.MX 95系列应用处理器采用其专有的Neutron NPU进行片上AI加速。这是一款功能强大的应用处理器，专为汽车、工业和物联网市场而设计，配备多达六个Arm Cortex-A55 CPU，以及一个用于3D图形处理的Arm Mali GPU、一个ISP以及NPU。典型应用包括工厂机器视觉和车辆语音警告、仪表和摄像头系统。

Neutron NPU是先前MCX-N MCU中使用的IP的扩展版本，最高可扩展至2TOPS(INT8)。它可以运行CNN、RNN、TCN和Transformer。恩智浦表示，对MobileNet、MobileNet-SSD和YOLO等CNN的测试表明，i.MX 95的Neutron NPU比在片上Cortex-A55上运行推理的速度快100倍到300倍。i.MX 95由恩智浦的eIQ软件开发环境提供支持，该环境包含用于数据集管理、模型选择和部署的工具。此外，还有许多第三方工具(例如量化器)可用作eIQ流程的一部分。

NXP的i.MX 95应用处理器系列(来源：NXP)

AI MCU

意法半导体(ST)首款搭载专用AI加速器的MCU STM32N6，可提供600GOPS(INT8)的加速性能，远超其他MCU制造商的产品(包括5GOPS的NXP MCX-N和约250GOPS的英飞凌PSoC边缘产品)。这款MCU足以胜任诸如人体检测等应用——其演示展示了一个定制版YOLO，其检测速度高达314fps，并且内置片上成像流水线——但它在运行诸如异常检测等小型模型时，也同样出色。

意法半导体自主研发的NeuralART加速器，运行能效可达3TOPS/W。STM32N6还搭载Arm Cortex-M55 CPU，主频达800MHz，是STM32器件迄今为止的最高主频，并支持Arm Helium矢量扩展。此外，它还拥有迄今为止STM32中最大的RAM，高达4MB。ST已集成高速内存接口、ISP、MIPI接口和内置图形支持。

这款MCU将面向边缘AI应用，涵盖汽车、工业和消费电子领域，这些领域正是STM32系列目前的主要市场。它由ST成熟的工具链提供支持。NanoEdge AI Studio是一款无需代码的工具，可用于使用ST的模型进行时间序列数据处理；STM32Cube.AI则用于优化模型和性能。

ST的STM32N6 MCU(来源：意法半导体)

（原文刊登于EE Times姊妹网站Electronic Products，参考链接：Top 10 edge AI chips，由Franklin Zhao编译。）

责编：Franklin

本文为EET电子工程专辑原创文章，禁止转载。请尊重知识产权，违者本司保留追究责任的权利。

阅读全文，请先

处理器/DSP 控制/MCU 人工智能物联网产品新知市场分析

十大边缘AI芯片