本文精选十大边缘人工智能芯片,涵盖了从能在边缘设备中处理GenAI的芯片到专为视觉和超低功耗应用而设计的产品。

如今,人工智能正在渗透几乎所有边缘和嵌入式市场,制造出性能更强大、功能更丰富的设备,从工业机器的预测性维护到家用电器的语音激活,再到支持更复杂的计算机视觉应用和自主机器。

生成式人工智能(GenAI)也正在边缘设备中兴起,使这些设备能够理解和创建自然语言,从而提供更自然的用户体验。然而,对于小型设备来说,这需要大量的计算资源,因此需要专门的人工智能芯片来加速工作负载,同时又不会牺牲功耗。

以下是我们精选的十大边缘人工智能芯片,目前均已上市。它们涵盖了从能在边缘设备中处理GenAI的芯片到专为视觉和超低功耗应用而设计的产品。

用户界面

大型语言模型(LLM)和GenAI可以为拥有足够计算、内存和处理能力的系统添加自然直观的界面,使其能够在给定的延迟内运行。

Hailo Technologies公司的第二代AI加速器Hailo-10专门设计用于边缘计算中的GenAI和LLM。它基于与该公司早期专注于视觉的Hailo-8相同的架构,后者依靠Hailo的软件分析神经网络各层的计算和内存需求,分配充足的资源,并将它们尽可能地映射到更近的位置,以最大程度地缩短数据传输距离。Hailo-10增加了专用内存接口,允许使用外部内存,这对于快速的LLM推理至关重要。

Hailo-10支持4位、8位和16位整数精度,在INT4模式下可达到40TOPS的算力。这与Hailo-8类似,但新增的内存访问功能使其更适用于GenAI。Hailo还提升了一些常见Transformer算子的效率,并改进了对多模态的支持。

Hailo-10可以以低于5W的功耗运行Llama2-7B,每秒最多处理10个token;或者在相同的功耗下,以低于5秒的每张图像处理时间运行StableDiffusion 2.1。虽然70亿参数的LLM在今天看来规模相对较小,但对于仅需特定领域知识的设备的用户界面来说,这已经足够了。

Hailo公司的Hailo-10人工智能加速器(来源:Hailo Technologies公司)

AI助手

Kinara公司推出了其第二代AI加速器Ara-2,适用于边缘服务器、笔记本电脑和游戏机市场。Ara-2可在6W的功耗范围内加速多达300亿个INT4参数的模型。

Kinara已演示Ara-2在运行Llama2-7B时每秒能生成数十个token,并在10秒内完成StableDiffusion 1.4的20次迭代。Ara-2针对GenAI工作负载进行了优化,包括为边缘服务器和边缘设备应用生成图像和文本。

该芯片比Kinara专注于视觉的第一代产品更大,但计算效率也更高,性能提升了5到8倍。新内核加入了专为AI工作负载优化的超长指令字(VLIW),有助于避免加载/存储瓶颈(VLIW常用于AI加速器,因为它支持指令级并行,这对于AI工作负载非常有利)。还新增了对常见Transformer激活函数(例如softmax和ReLU)的支持,以及INT4和MSFP16能力。一个专有的编译器负责处理数据流。

边缘设备可以使用本地数据为AI添加有价值的上下文,从而使AI智能体和助手可以获取特定于上下文的信息,从而帮助生成更准确的结果。例如,这可能体现为用户在笔记本电脑上的本地数据。在游戏机领域,Kinara正在推动在本地运行小型LLM,以支持更加真实、可交互的非玩家角色。

Kinara公司的Ara-2 AI加速器(来源:Kinara公司)

量化技术

韩国AI芯片初创公司DeepX的核心技术在于其量化方法,该方法能将训练好的模型转化为高效的低精度版本,以加快推理速度。通常,量化需要牺牲精度,但DeepX的量化方法实际上使量化后的视觉网络比原始的全精度版本更精确。这是因为它帮助模型减少了过拟合,过拟合是一个常见问题,即模型由于记住了数据而无法泛化。

DeepX提供两种芯片。DX-V1是一款片上系统(SoC),配备5TOPS神经处理单元(NPU)、四个RISC-V CPU和一个12MP图像信号处理器(ISP)。这是一款适用于边缘设备的小型SoC,售价低于10美元,功耗仅为1至2W。DeepX的V1演示以30fps的速度运行YOLOv7,实现实时处理。DX-M1则是一款基于相同NPU架构的更强大的加速器,但设计用于与独立主机CPU并行工作。它可在5W的功耗范围内提供25TOPS的计算能力,适用于工业PC及类似应用,例如摄像系统、无人机和机器人。

DX-H1是一款四核M1卡,也适用于边缘服务器和工业网关。当前一代产品支持Transformer编码器,但不支持解码器。下一代产品则将全面支持Transformer。

DeepX的DX-M1加速器(来源:DeepX)

多摄像头数据流

Axelera AI的Metis芯片配备四核数字内存计算矩阵矢量乘法加速器,峰值性能达到214TOPS(混合精度/INT8权重),功耗为14.7TOPS/W。Metis AI处理单元的典型功耗为10W。

Metis的高效性源于其密集交错的内存和计算能力,以及每个AI内核中一个小型RISC-V CPU,该CPU负责管理内存映射I/O上的数据流,并支持各种激活函数的硬件加速。四核设计可配置为在不同内核上运行的不同模型,或用于级联模型,大型模型可以分布在多个内核上。

Metis配备了带有1GB DRAM的M.2卡或PCIe卡。这些单芯片卡仍然可以处理多流推理;Axelera的演示展示了在24个摄像头数据流上运行YOLOv5物体检测,总帧率达400fps。在单个芯片上运行多个数据流有助于避免软件复杂性。

即将推出的是一款四芯片PCIe卡,其计算能力达856TOPS,可用于聚合更多摄像头数据流;此外,还有一款单板计算机,搭载单个Metis芯片和主机CPU。

虽然Metis主要用于计算机视觉应用,但它也可以运行Transformer。

Axelera AI的Metis芯片(来源:Axelera AI)

完整的SoC

随着消费电子和工业设备、机器人和车辆逐渐转向大型多模态模型LMM(Large Multimodal Model)和GenAI,SiMa Technologies公司(SiMa.ai)已打造第二代芯片以满足这一需求。Modalix SoC已针对包括BF16精度的视觉和多模态Transformer在内的Transformer架构进行了优化,同时它还可以运行卷积神经网络(CNN)和其他AI工作负载。它具有针对分段多项式激活函数以及LLM和LMM中常用的其他非线性函数的硬件加速功能。

Modalix是一个完整的SoC系列,不仅包括加速器,还配备了八个Arm A级CPU内核,旨在运行完整的应用程序而不是单独的加速器任务。这些CPU内核将用于运行应用程序、进行决策,并且在加速器不支持任何操作的情况下,它们还可以用于回退。Modalix将推出25、50、100和200TOPS(INT8)版本,其中50TOPS版本将率先上市。该版本可以以超过10个token/s的速度运行Llama2-7B,功耗为8至10W。SoC上还集成了片上ISP和数字信号处理器(DSP)。

SiMa.ai的工具链可以自动量化不同的层级,以实现最佳精度。

SiMa.ai的Modalix SoC(来源:SiMa Technologies公司)

实时视觉

Blaize公司的图流处理器架构专为图工作负载设计,包括AI和常见的图像信号处理功能。该硬件将流处理与多线程技术相结合;激活数据会被缓存在小型片上缓冲区中,然后直接传输到下一个节点。减少处理器和外部存储器之间的数据传输,可大幅降低能耗。

最终,该芯片能够在五个摄像头流上实时处理YOLOv3物体检测(每个流每次推理耗时不到20ms,因此所有五个流均可同时以10fps的帧率运行)。这使得工业和智慧城市应用中的实时视觉处理成为可能,但Blaize架构也适用于汽车驾驶辅助系统、零售货架摄像头和其他视觉应用。

Blaize的芯片Blaize 1600 SoC拥有16个内核,总共具有16-TOPS INT8性能,功耗为7W。它有几种小卡格式,可作为单芯片加速器(最高可达4GB LPDDR4),或用于边缘服务器应用和网关的四芯片PCIe卡。

AI加速器

对于基于CNN的小型视觉模型,MemryX公司的MX3 AI加速器可提供5TFLOPS(混合精度)性能,功耗仅为2W。与类似解决方案一样,它基于数据流架构的内存计算;处理单元包含矩阵乘法加速器,以及另一个处理激活和其他运算的小单元。数据从一个引擎流向下一个引擎,无需离开芯片进入外部存储器,存储器是处理引擎之间的唯一连接(无片上网络)。权重支持INT4、INT8和INT16,激活使用BF16以保持整体精度。

对于更大的模型,MemryX提供带有四块芯片的M.2模块(混合精度性能为20TFLOPS)。模型可以分布在四个器件上,总功耗为8W。该公司的软件堆栈可以一键自动编译模型。该公司测试了来自HuggingFace等在线存储库的大量模型,这些模型在未经进一步优化的情况下,芯片的利用率达到了50%至80%。MemryX MX3的应用包括PC上的实时视觉和AI。

始终在线的AI

对于需要超低功耗的应用,如电池供电设备中始终在线的关键字检测,Syntiant公司的NDP250神经决策处理器则是理想选择。NDP250是Syntiant架构的第三代版本,可在10至100mW的功率范围内提供30GOPS的INT8性能。

Syntiant器件的典型用例是音频或视觉唤醒词,或传感器处理,如果检测到感兴趣的内容,则会唤醒微控制器(MCU)或系统的其他部分。这使得系统的大部分部件保持关闭状态,直到被唤醒以节省功耗。NDP250配备比之前的Syntiant器件更大的加速器,可以处理稍大的任务,例如自动语音识别和文本转语音。这可以节省能耗并改善系统的延迟,例如唤醒运行LLM的更强大的处理器。尽管如此,NDP250支持注意力层,因此支持微型Transformer网络(低于600万个INT8参数)。

芯片内置Syntiant的加速器、用于音频特征提取和信号处理的HiFi3 DSP以及Arm Cortex-M0内核,这使得该芯片在某些应用中无需主处理器即可运行。

该公司还通过收购Pilot.ai提供AI模型。此外,它最近还收购了楼氏电子的消费级MEMS麦克风业务。

应用处理器

在应用处理器领域,恩智浦半导体(NXP)的i.MX 95系列应用处理器采用其专有的Neutron NPU进行片上AI加速。这是一款功能强大的应用处理器,专为汽车、工业和物联网市场而设计,配备多达六个Arm Cortex-A55 CPU,以及一个用于3D图形处理的Arm Mali GPU、一个ISP以及NPU。典型应用包括工厂机器视觉和车辆语音警告、仪表和摄像头系统。

Neutron NPU是先前MCX-N MCU中使用的IP的扩展版本,最高可扩展至2TOPS(INT8)。它可以运行CNN、RNN、TCN和Transformer。恩智浦表示,对MobileNet、MobileNet-SSD和YOLO等CNN的测试表明,i.MX 95的Neutron NPU比在片上Cortex-A55上运行推理的速度快100倍到300倍。i.MX 95由恩智浦的eIQ软件开发环境提供支持,该环境包含用于数据集管理、模型选择和部署的工具。此外,还有许多第三方工具(例如量化器)可用作eIQ流程的一部分。

NXP的i.MX 95应用处理器系列(来源:NXP)

AI MCU

意法半导体(ST)首款搭载专用AI加速器的MCU STM32N6,可提供600GOPS(INT8)的加速性能,远超其他MCU制造商的产品(包括5GOPS的NXP MCX-N和约250GOPS的英飞凌PSoC边缘产品)。这款MCU足以胜任诸如人体检测等应用——其演示展示了一个定制版YOLO,其检测速度高达314fps,并且内置片上成像流水线——但它在运行诸如异常检测等小型模型时,也同样出色。

意法半导体自主研发的NeuralART加速器,运行能效可达3TOPS/W。STM32N6还搭载Arm Cortex-M55 CPU,主频达800MHz,是STM32器件迄今为止的最高主频,并支持Arm Helium矢量扩展。此外,它还拥有迄今为止STM32中最大的RAM,高达4MB。ST已集成高速内存接口、ISP、MIPI接口和内置图形支持。

这款MCU将面向边缘AI应用,涵盖汽车、工业和消费电子领域,这些领域正是STM32系列目前的主要市场。它由ST成熟的工具链提供支持。NanoEdge AI Studio是一款无需代码的工具,可用于使用ST的模型进行时间序列数据处理;STM32Cube.AI则用于优化模型和性能。

ST的STM32N6 MCU(来源:意法半导体)

(原文刊登于EE Times姊妹网站Electronic Products,参考链接:Top 10 edge AI chips,由Franklin Zhao编译。)

本文为《电子工程专辑》2025年6月刊杂志文章,版权所有,禁止转载。免费杂志订阅申请点击这里

责编:Franklin
本文为EET电子工程专辑原创文章,禁止转载。请尊重知识产权,违者本司保留追究责任的权利。
阅读全文,请先
您可能感兴趣
该公司在财报中表示,10月份出售了3210万股英伟达股票。此外,该公司还出售了其持有的部分T-Mobile股份,套现91.7亿美元。
英特尔AI业务的核心舵手突然转投OpenAI,芯片巨头在人工智能赛道的关键时刻遭遇高层震荡。
前不久我们探访了安博会上的全志科技,和全志聊了聊端侧AI芯片,尤其是AI眼镜芯片...
在国产AI处理器市场持续疯涨的当下,即便是那些利润赤字的企业,不少似乎也都迎来了转机…
最近的进博会上,电子工程专辑探访了高通展位,高通展位还真是集齐了一种热门技术与话题…
毫无疑问,AMD MI308芯片仍然面临较大不确定性。尽管这款芯片已获得出口许可,但地缘政治因素、技术更新换代速度、市场需求变化等都将影响市场的走向。
为了实现智慧城市愿景,无处不在、高性能、可靠的连接必不可少——它已成为支撑城市、基础设施和建筑物的第四大公用事业。
是否能将这种生成式的、目标驱动的方法从软件层向下延伸呢?这一理念是否可以直接应用于硬件本身呢?
 Arm® Zena™ CSS 是专为“AI 定义汽车”打造的预集成、标准化计算平台,全面支持从 L2+ 先进驾驶辅助系统到 L4 级自动驾驶的多样化 AI 负载。
思尔芯亮相2025进博会,以数字EDA解决方案赋能产业创新
☆点击星标,第一时间掌握前沿趋势 行家说储能 据上海钢联数据显示,11月10日电池级碳酸锂(早盘)价格较上日上涨3050元/吨,均价报83900元/吨。碳酸锂主力合约涨超7%,创近
电子工程师在寻找smt打样服务时,成本与效率是首要考量。嘉立创SMT针对原型验证阶段的“痛点”,推出了革命性的“经济型”smt贴片服务,工程费低至50元且钢网免费。本文将详细对比嘉立创SMT经济型和标
英飞凌携一众新品参加了2025 PCIM Asia,我们将推出一系列“与展品对话”视频。本期展台对话为您特别介绍最新光储应用——基于DTO封装的IGBT7单管器件。点击观看本视频,了解更多技术细节!👇
2025年汽车行业报告汇总(点击进入)钠电池是一种以钠离子为电荷载体的充电电池,它的组成结构、工作原理跟锂电池类似。工作原理为钠离子在正极、负极材料中的嵌入脱嵌,以实现能量的充入与释放。电池充电时,钠
据博主“数码闲聊站”透露,某厂商的10000mAh±超级大电池已顺利试模,方案可推进量产,预计安排给迭代线的走量中端机。从博主暗示和网友猜测来看,该方案属于小米,预计将会在REDMI机型上登场。值得注
11月11日,软银集团宣布出售其持有的英伟达公司全部股份,套现58亿美元。软银创始人孙正义计划进行一系列投资,以构建在人工智能领域的影响力。转自︱第一财经加入“中国IC独角兽联盟”,请点击进入是说芯语
官方发布全球低功耗无线通信半导体解决方案领导者 Nordic Semiconductor (以下简称 “Nordic”) 宣布,通过Memfault技术驱动的nRF Cloud平台在 2025 年移动
一名LG电子商店经理因诈骗即将结婚的新人购买家电后潜逃而被警方逮捕。首尔东大门警察署昨晚(11月10日)在江原道束草市一家汽车旅馆逮捕了一名40多岁的男子,代号“A”。该男子涉嫌诈骗。A先生涉嫌从包括
相信不少人已经听说过“瞬间刹停”的网络梗,在昨晚举办的第五代瑞虎8上市发布会上,奇瑞高管也就该内容发表了意见。奇瑞汽车执行副总裁李学用在谈到麋鹿测试和汽车安全时发表了引发热议的观点:“在高速公路行驶时
11月9日,中华人民共和国第十五届运动会在广州“广东奥体中心”盛大开幕。本届十五运会,是全国首个由广东、香港、澳门三地共同承办的大型综合性运动会,也是中国规模最大、水平最高、影响最广的综合性运动会。