如今,人工智能正在渗透几乎所有边缘和嵌入式市场,制造出性能更强大、功能更丰富的设备,从工业机器的预测性维护到家用电器的语音激活,再到支持更复杂的计算机视觉应用和自主机器。
生成式人工智能(GenAI)也正在边缘设备中兴起,使这些设备能够理解和创建自然语言,从而提供更自然的用户体验。然而,对于小型设备来说,这需要大量的计算资源,因此需要专门的人工智能芯片来加速工作负载,同时又不会牺牲功耗。
以下是我们精选的十大边缘人工智能芯片,目前均已上市。它们涵盖了从能在边缘设备中处理GenAI的芯片到专为视觉和超低功耗应用而设计的产品。
用户界面
大型语言模型(LLM)和GenAI可以为拥有足够计算、内存和处理能力的系统添加自然直观的界面,使其能够在给定的延迟内运行。
Hailo Technologies公司的第二代AI加速器Hailo-10专门设计用于边缘计算中的GenAI和LLM。它基于与该公司早期专注于视觉的Hailo-8相同的架构,后者依靠Hailo的软件分析神经网络各层的计算和内存需求,分配充足的资源,并将它们尽可能地映射到更近的位置,以最大程度地缩短数据传输距离。Hailo-10增加了专用内存接口,允许使用外部内存,这对于快速的LLM推理至关重要。
Hailo-10支持4位、8位和16位整数精度,在INT4模式下可达到40TOPS的算力。这与Hailo-8类似,但新增的内存访问功能使其更适用于GenAI。Hailo还提升了一些常见Transformer算子的效率,并改进了对多模态的支持。
Hailo-10可以以低于5W的功耗运行Llama2-7B,每秒最多处理10个token;或者在相同的功耗下,以低于5秒的每张图像处理时间运行StableDiffusion 2.1。虽然70亿参数的LLM在今天看来规模相对较小,但对于仅需特定领域知识的设备的用户界面来说,这已经足够了。
Hailo公司的Hailo-10人工智能加速器(来源:Hailo Technologies公司)
AI助手
Kinara公司推出了其第二代AI加速器Ara-2,适用于边缘服务器、笔记本电脑和游戏机市场。Ara-2可在6W的功耗范围内加速多达300亿个INT4参数的模型。
Kinara已演示Ara-2在运行Llama2-7B时每秒能生成数十个token,并在10秒内完成StableDiffusion 1.4的20次迭代。Ara-2针对GenAI工作负载进行了优化,包括为边缘服务器和边缘设备应用生成图像和文本。
该芯片比Kinara专注于视觉的第一代产品更大,但计算效率也更高,性能提升了5到8倍。新内核加入了专为AI工作负载优化的超长指令字(VLIW),有助于避免加载/存储瓶颈(VLIW常用于AI加速器,因为它支持指令级并行,这对于AI工作负载非常有利)。还新增了对常见Transformer激活函数(例如softmax和ReLU)的支持,以及INT4和MSFP16能力。一个专有的编译器负责处理数据流。
边缘设备可以使用本地数据为AI添加有价值的上下文,从而使AI智能体和助手可以获取特定于上下文的信息,从而帮助生成更准确的结果。例如,这可能体现为用户在笔记本电脑上的本地数据。在游戏机领域,Kinara正在推动在本地运行小型LLM,以支持更加真实、可交互的非玩家角色。
Kinara公司的Ara-2 AI加速器(来源:Kinara公司)
量化技术
韩国AI芯片初创公司DeepX的核心技术在于其量化方法,该方法能将训练好的模型转化为高效的低精度版本,以加快推理速度。通常,量化需要牺牲精度,但DeepX的量化方法实际上使量化后的视觉网络比原始的全精度版本更精确。这是因为它帮助模型减少了过拟合,过拟合是一个常见问题,即模型由于记住了数据而无法泛化。
DeepX提供两种芯片。DX-V1是一款片上系统(SoC),配备5TOPS神经处理单元(NPU)、四个RISC-V CPU和一个12MP图像信号处理器(ISP)。这是一款适用于边缘设备的小型SoC,售价低于10美元,功耗仅为1至2W。DeepX的V1演示以30fps的速度运行YOLOv7,实现实时处理。DX-M1则是一款基于相同NPU架构的更强大的加速器,但设计用于与独立主机CPU并行工作。它可在5W的功耗范围内提供25TOPS的计算能力,适用于工业PC及类似应用,例如摄像系统、无人机和机器人。
DX-H1是一款四核M1卡,也适用于边缘服务器和工业网关。当前一代产品支持Transformer编码器,但不支持解码器。下一代产品则将全面支持Transformer。
DeepX的DX-M1加速器(来源:DeepX)
多摄像头数据流
Axelera AI的Metis芯片配备四核数字内存计算矩阵矢量乘法加速器,峰值性能达到214TOPS(混合精度/INT8权重),功耗为14.7TOPS/W。Metis AI处理单元的典型功耗为10W。
Metis的高效性源于其密集交错的内存和计算能力,以及每个AI内核中一个小型RISC-V CPU,该CPU负责管理内存映射I/O上的数据流,并支持各种激活函数的硬件加速。四核设计可配置为在不同内核上运行的不同模型,或用于级联模型,大型模型可以分布在多个内核上。
Metis配备了带有1GB DRAM的M.2卡或PCIe卡。这些单芯片卡仍然可以处理多流推理;Axelera的演示展示了在24个摄像头数据流上运行YOLOv5物体检测,总帧率达400fps。在单个芯片上运行多个数据流有助于避免软件复杂性。
即将推出的是一款四芯片PCIe卡,其计算能力达856TOPS,可用于聚合更多摄像头数据流;此外,还有一款单板计算机,搭载单个Metis芯片和主机CPU。
虽然Metis主要用于计算机视觉应用,但它也可以运行Transformer。
Axelera AI的Metis芯片(来源:Axelera AI)
完整的SoC
随着消费电子和工业设备、机器人和车辆逐渐转向大型多模态模型LMM(Large Multimodal Model)和GenAI,SiMa Technologies公司(SiMa.ai)已打造第二代芯片以满足这一需求。Modalix SoC已针对包括BF16精度的视觉和多模态Transformer在内的Transformer架构进行了优化,同时它还可以运行卷积神经网络(CNN)和其他AI工作负载。它具有针对分段多项式激活函数以及LLM和LMM中常用的其他非线性函数的硬件加速功能。
Modalix是一个完整的SoC系列,不仅包括加速器,还配备了八个Arm A级CPU内核,旨在运行完整的应用程序而不是单独的加速器任务。这些CPU内核将用于运行应用程序、进行决策,并且在加速器不支持任何操作的情况下,它们还可以用于回退。Modalix将推出25、50、100和200TOPS(INT8)版本,其中50TOPS版本将率先上市。该版本可以以超过10个token/s的速度运行Llama2-7B,功耗为8至10W。SoC上还集成了片上ISP和数字信号处理器(DSP)。
SiMa.ai的工具链可以自动量化不同的层级,以实现最佳精度。
SiMa.ai的Modalix SoC(来源:SiMa Technologies公司)
实时视觉
Blaize公司的图流处理器架构专为图工作负载设计,包括AI和常见的图像信号处理功能。该硬件将流处理与多线程技术相结合;激活数据会被缓存在小型片上缓冲区中,然后直接传输到下一个节点。减少处理器和外部存储器之间的数据传输,可大幅降低能耗。
最终,该芯片能够在五个摄像头流上实时处理YOLOv3物体检测(每个流每次推理耗时不到20ms,因此所有五个流均可同时以10fps的帧率运行)。这使得工业和智慧城市应用中的实时视觉处理成为可能,但Blaize架构也适用于汽车驾驶辅助系统、零售货架摄像头和其他视觉应用。
Blaize的芯片Blaize 1600 SoC拥有16个内核,总共具有16-TOPS INT8性能,功耗为7W。它有几种小卡格式,可作为单芯片加速器(最高可达4GB LPDDR4),或用于边缘服务器应用和网关的四芯片PCIe卡。
AI加速器
对于基于CNN的小型视觉模型,MemryX公司的MX3 AI加速器可提供5TFLOPS(混合精度)性能,功耗仅为2W。与类似解决方案一样,它基于数据流架构的内存计算;处理单元包含矩阵乘法加速器,以及另一个处理激活和其他运算的小单元。数据从一个引擎流向下一个引擎,无需离开芯片进入外部存储器,存储器是处理引擎之间的唯一连接(无片上网络)。权重支持INT4、INT8和INT16,激活使用BF16以保持整体精度。
对于更大的模型,MemryX提供带有四块芯片的M.2模块(混合精度性能为20TFLOPS)。模型可以分布在四个器件上,总功耗为8W。该公司的软件堆栈可以一键自动编译模型。该公司测试了来自HuggingFace等在线存储库的大量模型,这些模型在未经进一步优化的情况下,芯片的利用率达到了50%至80%。MemryX MX3的应用包括PC上的实时视觉和AI。
始终在线的AI
对于需要超低功耗的应用,如电池供电设备中始终在线的关键字检测,Syntiant公司的NDP250神经决策处理器则是理想选择。NDP250是Syntiant架构的第三代版本,可在10至100mW的功率范围内提供30GOPS的INT8性能。
Syntiant器件的典型用例是音频或视觉唤醒词,或传感器处理,如果检测到感兴趣的内容,则会唤醒微控制器(MCU)或系统的其他部分。这使得系统的大部分部件保持关闭状态,直到被唤醒以节省功耗。NDP250配备比之前的Syntiant器件更大的加速器,可以处理稍大的任务,例如自动语音识别和文本转语音。这可以节省能耗并改善系统的延迟,例如唤醒运行LLM的更强大的处理器。尽管如此,NDP250支持注意力层,因此支持微型Transformer网络(低于600万个INT8参数)。
芯片内置Syntiant的加速器、用于音频特征提取和信号处理的HiFi3 DSP以及Arm Cortex-M0内核,这使得该芯片在某些应用中无需主处理器即可运行。
该公司还通过收购Pilot.ai提供AI模型。此外,它最近还收购了楼氏电子的消费级MEMS麦克风业务。
应用处理器
在应用处理器领域,恩智浦半导体(NXP)的i.MX 95系列应用处理器采用其专有的Neutron NPU进行片上AI加速。这是一款功能强大的应用处理器,专为汽车、工业和物联网市场而设计,配备多达六个Arm Cortex-A55 CPU,以及一个用于3D图形处理的Arm Mali GPU、一个ISP以及NPU。典型应用包括工厂机器视觉和车辆语音警告、仪表和摄像头系统。
Neutron NPU是先前MCX-N MCU中使用的IP的扩展版本,最高可扩展至2TOPS(INT8)。它可以运行CNN、RNN、TCN和Transformer。恩智浦表示,对MobileNet、MobileNet-SSD和YOLO等CNN的测试表明,i.MX 95的Neutron NPU比在片上Cortex-A55上运行推理的速度快100倍到300倍。i.MX 95由恩智浦的eIQ软件开发环境提供支持,该环境包含用于数据集管理、模型选择和部署的工具。此外,还有许多第三方工具(例如量化器)可用作eIQ流程的一部分。
NXP的i.MX 95应用处理器系列(来源:NXP)
AI MCU
意法半导体(ST)首款搭载专用AI加速器的MCU STM32N6,可提供600GOPS(INT8)的加速性能,远超其他MCU制造商的产品(包括5GOPS的NXP MCX-N和约250GOPS的英飞凌PSoC边缘产品)。这款MCU足以胜任诸如人体检测等应用——其演示展示了一个定制版YOLO,其检测速度高达314fps,并且内置片上成像流水线——但它在运行诸如异常检测等小型模型时,也同样出色。
意法半导体自主研发的NeuralART加速器,运行能效可达3TOPS/W。STM32N6还搭载Arm Cortex-M55 CPU,主频达800MHz,是STM32器件迄今为止的最高主频,并支持Arm Helium矢量扩展。此外,它还拥有迄今为止STM32中最大的RAM,高达4MB。ST已集成高速内存接口、ISP、MIPI接口和内置图形支持。
这款MCU将面向边缘AI应用,涵盖汽车、工业和消费电子领域,这些领域正是STM32系列目前的主要市场。它由ST成熟的工具链提供支持。NanoEdge AI Studio是一款无需代码的工具,可用于使用ST的模型进行时间序列数据处理;STM32Cube.AI则用于优化模型和性能。
ST的STM32N6 MCU(来源:意法半导体)
(原文刊登于EE Times姊妹网站Electronic Products,参考链接:Top 10 edge AI chips,由Franklin Zhao编译。)
本文为《电子工程专辑》2025年6月刊杂志文章,版权所有,禁止转载。免费杂志订阅申请点击这里。
