AI芯片按照应用场景不同,可分为云端AI训练和推理、边缘AI推理,以及终端AI推理。我们在10大国产AI芯片文章中列出了10家国产AI芯片公司的云端AI训练和推理芯片,本文将侧重于边缘侧和端侧的AI芯片。
虽然边缘AI芯片在计算性能和技术先进性方面不如云端AI芯片,但仍有其无可替代的独特优势,大致如下:
根据Deloitte的一份边缘AI芯片报告分析,AI芯片(包括边缘和云端)的市场规模将从2018年的约60亿美元增长到2025年的900亿美元,这期间的年复合增长率高达45%。这家咨询机构预计,2020年用于边缘和终端设备上的AI芯片或AI加速内核数量大约为7.5亿个,折合为金额大约26亿美元。到2024年,边缘AI芯片的出货量将增至15亿颗,年增长至少20%,远高于全球半导体整体增长率(大约9%)。
边缘AI芯片主要应用在哪些边缘设备和终端上呢?下图展示出边缘AI的主要应用载体,其中手机等消费电子设备、企业级和工业级设备、电信设备、数据中心,以及企业级服务器等。
目前的边缘AI芯片主要出现在消费类电子设备,其中高性能手机占据了70%的消费应用边缘AI芯片市场。当然,在轻薄的手机内部,边缘AI也许不是以单独的芯片存在,而是作为AI处理器IP内置到手机主处理器AP中,目前的主流手机都或多或少带有AI功能,比如屏幕解锁、人脸识别、图像处理和拍照特效等。虽然手机出货量很大,但集成进AP的AI功能只掌握在少数几家巨头手中(苹果/三星/华为手机厂商,以及高通、联发科和紫光展锐等手机AP供应商),对大部分AI芯片初创公司只能望尘莫及。
然而,边缘AI芯片正越来越多地应用在非消费类设备和场合,比如智能安防、ADAS/自动驾驶、智能家居、可穿戴智能设备,以及商业和工业场合的AI应用(智能交通、智慧城市、工厂机器视觉、机器人和AGV等)。这些新兴的AIoT和工业物联网应用场景为众多边缘AI芯片设计公司带来更多机会,风投也嗅到了这里蕴含的巨大商机。因此,无论全球还是国内市场,都有越来越多的AI芯片初创公司获得融资。(欲了解更多关于国内AI芯片初创公司的融资情况,请关注留意AspenCore后续发布的国产AI芯片厂商调研分析报告)。
AspenCore分析师团队从15家国产AI芯片厂商中挑选出15个国产边缘/端侧AI芯片,请大家在文末通过“微信投票”评选出最喜欢的国产边缘AI芯片。这些公司包括:瑞芯微、全志、清微智能、酷芯微、亿智电子、时识科技、九天睿芯、杭州国芯、知存科技、爱芯元智、时擎科技、启英泰伦、深聪智能、灵汐科技、闪易半导体。
V535是全志科技研发的新一代智能行车专用处理器,是集图像视频处理和AI视觉于一体的高性能、高集成度、高稳定性的工业级芯片;V535针对客户需求实现多项突破性创新设计及优化,可在多路图像实时编解码同时具备AI(如:车、人)检测识别等功能。
核心技术包括:
主要产品及应用:智能行车记录和驾驶行为检测类产品,包括车载全盲区AI监测预警仪、驾驶员行为检测仪等。
TX510基于可重构神经网络引擎RNE和可重构通用计算引擎RCE,可支持主流神经网络,可实现人脸识别、手势识别、目标跟踪等功能。其峰值算力为2Tops,内置3D引擎、定制低功耗双ISP引擎。
该芯片的性能参数如下:
其主要应用包括:新零售场景的人脸支付、客流统计、智能货柜,以及智能安防、智能家居、智能穿戴设备等。
AR9341采用CPU+DSP+NPU的异构运算(4 核CPU、单核CEVA XM6 DSP、4TOPS NPU),相较于业界同类产品,在综合处理能力上有2-5倍的显著提升。AR9341集成了酷芯微电子自研的第二代HiFi-ISP技术,在2D降噪、3D降噪、HDR、去雾、边缘增强等各方面达到行业极高的水平,同时内部集成红外热成像图像增强的技术,具有更加广泛的适应性。
AR9341作为一颗高集成度的视觉AI芯片,集成的4K级ISP、H264/265视频编、解码器(9M@60fps)可保证其输出高质量的视频,相比酷芯上一代的产品性能提升了100%。在产品实测中,ISP、视频编码器可以与AI算法互动,并做自适应调整,进一步提升视频编码的运行效率。在达到同等视频质量的条件下,码率可以降低50%以上。
AR9341集成了酷芯微电子自研的NPU(深度学习处理器),具备4TOPS@INT8的峰值算力。通过硬件架构上的优化,AR9341的NPU执行效率较高,实际算力可等效于竞品的8-10TOPS,8bit精度下检测网络YOLO-V3可达46fps,分类网络mobilenet-V1可达800fps。
AR9341芯片还集成了一个高性能的视觉DSP,在实测中可以兼顾深度学习和传统 CV算法,极大的丰富了AI视觉的应用场景。作为酷芯第二代超高清视觉AI芯片,AR9341适合的应用领域包括高端智能IPC、车载辅助驾驶、边缘计算盒子、智能机器人等。
SV823系列AI芯片集成自研NPU、具备高性能的图像处理和编解码能力,主要应用于智能安防场景。该系列芯片采用智能H.265+编码技术,可降低编码码率,有效节省硬盘空间;并集成专业安防级别的ISP,支持2~3帧宽动态融合技术和自适应降噪技术,在逆光和低照度环境下表现出色,让摄像机看清丰富细节。
同时,SV823搭载亿智第二代自研NPU,提供1.0T智能算力,可支持Caffe、Tensorflow和Pytorch等主流框架,比上一代有效降低最高50%的带宽消耗,AI算力得到高效发挥,结合深度学习的AI算法,实现人车检测、人脸识别、车牌识别、高空抛物、电动车识别、宠物识别、哭声检测、手势识别、关键字识别等,全方位助力智能安防、智慧社区、智能家居、智慧办公等应用场景落地。
此外,SV823系列可集成1 Gb / 2 Gb的DDR3L,集成度高,采用精简的QFN128封装方式,适用于智能网络摄像头、智能人脸门禁对讲、智能USB摄像头、视频会议等。
SynSense时识科技“感算一体”动态视觉智能SoC——Speck作为针对边缘端的全栈式解决方案,以类脑技术实现视觉传感器智能化的同时,大大降低解决方案成本,可替代技术方案很少,对于众多应用场景来说,可进行类脑技术解决方案的导入,赋能边缘端应用领域。
实时视觉边缘运算专用动态视觉智能SoC-Speck,以单SoC芯片集成SynSense时识科技独有的DYNAP-CNN AI运算内核+DVS传感器阵列,基于类脑感知及计算、纯异步数字电路设计,对像素级大规模动态数据流实时处理,为亚毫瓦级的视觉边缘 AI 运算提供完整解决方案。
该芯片的性能参数如下:
SynSense时识科技类脑技术横跨类脑感知及类脑计算,可用于实时视觉处理、生物信号、身体信号等实时监测处理,以及语音识别及处理。主要应用:针对端侧感知及计算,适用于手势控制、行为检测、跌倒检测、高速避障等场景,主要可应用于智能家居、智能玩具、智慧交通、智能座舱、无人机等领域。
九天睿芯自主创新的“感存算一体”芯片架构是由ASP(模拟特征预处理)+ADA(基于6T SRAM 的模数混合信号存内计算)两部分组成。ASP类似DSP(数字信号处理)模拟版本,可以在模拟信号端直接进行信号的特征分析和提取;这样可以在ADC 之前,有效提取有效信号,去除掉冗余信号;大大降低ADC 的工作负载,从而实现低功耗,高效率的计算工作。ADA基于6T SRAM 的模数混合信号存内计算AI 加速器,可实现超高能效比。
ADA200 是基于这种感存算一体芯片架构的多传感器芯片融合处理芯片,可在超低功耗下(低于1mW)下进行声音、视觉,以及其他时序信号类传感器的融合处理,可广泛应用于智能手机,可穿戴,智能家居,工业,医疗等一系列对低功耗、高能效比有需求的应用场景。
该芯片的性能参数:能效比达20TOPs/W;峰值功耗< 1mW,适合对功耗敏感的应用;模数混合信号存内计算架构可实现真正意义的无符号8X8 比特运算,保证满足算力需求的同时保持高精度;极其精简的外围电路使得芯片面积<3*3mm,适合可穿戴对体积敏感的应用场景。
主要应用:工业领域 -- AON 唤醒下的声音异常触发;安防领域 -- AON 下的人形检测触发;消费类领域 -- 个人设备(手机,手表)的人脸唤醒,图像识别;XR眼动追踪,视觉辨识;机器人、自动驾驶领域:视觉辅助系统。
GX8002除了内置升级的第二代神经网络处理器gxNPU V200,还有自主研发的硬件VAD模块。区别于传统的VAD,国芯自研的VAD具备超强过滤能力,在各种复杂环境中准确识别人声开始的信号,并且VAD的运行不依赖于CPU,从而能做到极低功耗。GX8002具备超低功耗、低成本、小体积的特性,让AI语音交互与智能穿戴完美结合。
产品性能指标:GX8002的待机功耗只有70uW,运行时的功耗约为0.7mW,平均功耗约为300uW;支持在可穿戴以及其他设备上的语音唤醒能力,综合唤醒率超过95%,误唤醒率达到24小时内小于1次。同时,GX8002凭借着NPU的能力,还可以应用于AI语音降噪、AI声纹识别、AI声音事件检测,AI图像检测等多个应用领域,具有很强的扩展能力。
市场应用:GX8002为全新发布的针对智能穿戴市场的AI语音交互芯片,目前已经有QCY、漫步者、小度、科大讯飞等多款品牌TWS耳机采用8002芯片量产。智能穿戴市场近年来发展迅猛,主要形态包括TWS耳机、智能眼镜、智能手表手环等。
WTM2101是知存科技推出的首个存算一体SoC芯片,集成了基于存内计算技术(Computing-in-flash)实现的 AI 加速器 (NPU)与RISC-V CPU,可以在极低功耗下实现 AI 神经网络的推理计算,算力对比现有可穿戴计算引擎提高数十倍,特别适合可穿戴设备中的智能语音和智能健康服务。
该芯片的封装采用WLCSP(2.7x3.1mm2);功耗:5uA-3mA;AI算力:50Gops;最大模型参数:1.8M。知存科技的存算一体模块基于高密度非易失性存储器,8-bit量化的深度学习算法参数量支持高达1.8M个,可同时运行2-3个高性能模型。
该芯片及其AI应用的主要优势包括:基于存算一体技术,实现NN VAD和上百条语音命令词识别;超低功耗实现NN环境降噪算法、健康监测与分析算法;典型应用场景下,工作功耗均在微瓦级别;采用WLCSP的2.6x3.2mm极小封装,可采用I2C/I2S/SPI/UART等多种接口中任意一种或者几种进行数据通信和控制;针对音频输入,提供Analog和PDM编解码以及旁路输出,方便系统集成和拓展声音信道。
Timesformer智能处理器AT1611基于RISC-V指令集,面向端侧各类语音和视觉算法需求的DSA架构,既能友好支持如声学前端、CV等DSP类的算法,又可以高效支持各类主流神经网络模型和算子,具有高应用适用性、高性价比、高能效比的特点。
与Timesformer搭配的TimesFlow是“一键式“神经网络部署工具,支持多种主流的人工智能训练框架,如TensorFlow, PyTorch, ONNX等,支持各种神经网络模型的主流优化方法,如训练后量化,训练感知量化,剪枝,蒸馏等,并能提供丰富的功能调试及性能分析的工具。
AT1611的性能指标:
该芯片的主要应用包括:全向麦克风,如会议宝、拾音器;语音对讲,如无线门铃、对讲机;语音识别和控制等。
TH1520是一颗AI 专用双核增强型低功耗 DSP 芯片,集成了思必驰全链路智能对话技术并进行模块化封装。TH1520 适配语音控制设备常用的双麦、四麦阵列,在远场和复杂声场环境下,可实现高效识别和快速响应,误唤醒不超过 1 次 / 48 小时。它的功耗极低,在always-on 监听阶段的功耗低至毫瓦级,典型工作场景功耗仅需几十毫瓦,极端场景峰值功耗为百毫瓦左右。
此外,TH1520具备超高定制能力,可自定义唤醒词、合成音,选择播报音色,调节语速,增强交互的趣味性,可同时支持声纹识别和方言识别。TH1520 还具备离在线的双模式混合交互、全双工交互、就近唤醒、多模块协同等高阶的自然交互能力。
其性能指标如下:
1. 芯片特征
(1)双核增强型DSP,含定制指令集;
(2)灵活配置的低功耗模式;
(3)专用的AI语音识别引擎;
(4)大容量片内静态存储;
(5)多通道音频编解码器,最高支持6 + 2通道语音同步采集;
(6)支持全部标准音频格式,支持广域的采样率范围;
(7)支持主流接口:USB/SPI/UART/I2C/I2S/GPIO。
2. 算法特征
(1)最高支持6+2通道语音同步采集,通道间延时小于10ns;
(2)语音端点检测,召回率:>99%,精度:>90%;
(3)语音降噪,消除平稳和短时平稳噪声,SNR增益:>15dB;
(4)支持多达6mic+2ref的语音回声消除,SNR增益:>40dB;
(5)波束成形,目标信号增强和干扰抑制,SNR增益:>15dB;
(6)语音侦听和目标语音唤醒,召回率:>95%, 误唤醒率:<1次/48小时;
(7)声纹验证和声纹识别,召回率/精度: >95%/>97%;
(8)本地语音识别,唤醒识别率>95%。
主要应用:该产品已经在智能家居家电,智能办公以及智能车载领域等三大场景完成落地应用,并与美的、海信、云米、雅迪、盯盯拍等三十多家行业的头部企业确认了深度合作。
AX620A 是一款高算力,高能效比,低功耗的AI SoC芯片。芯片集成了四核Cortex A7 CPU,14.4TOPs@INT4 或3.6TOPs@INT8 的高算力NPU,支持4K@30fps的ISP,以及支持H.264、H.265编码的VPU。AX620A 支持LPDDR4x,支持eMMC v5.1 / SPI Flash,支持多路sensor同时工作,支持多路子码流,支持千兆Ethernet,支持USB2.0。
AX620A 广泛适用于端侧、边缘侧诸多场景,如智慧城市、智能交通、智能家居等领域,尤其在智能网络摄像机、智能工业相机、门禁设备、运动相机、快速唤醒类产品范畴表现卓越。
灵汐科技研发的类脑芯片领启® KA200可同时支持计算机科学和神经科学的神经网络模型,并支持两者融合的混合神经网络计算模型,可高效支持卷积脉冲神经网络,支持新型类脑算法。KA200采用异构融合众核、存算一体的芯片架构,单芯片集成25万神经元和2500万突触(稠密模式),可扩展支持200万神经元和20亿突触的集成计算(稀疏模式),对神经网络的连接稀疏性、事件稀疏性,对脑仿真执行效率进行高度优化,较典型的冯诺依曼架构的芯片可实现百倍以上的计算效率提升。
基于“类脑计算完备性”理论,灵汐科技开发了类脑软件LynOS,支持深度学习、高性能计算、机器学习和类脑计算等算法的高效图优化和全自动编译,支持多种算法模型的融合异构,实现应用算法的快速部署。自主研发的面向深度脉冲神经网络的训练框架和脑仿真平台,支持多种类脑神经元模型、突触模型和在线学习机制,高效支持生物脑的脑神经元动力学模拟。
KA200采用12nm工艺,单芯片集成25万神经元和2500万突触,集成了30个类脑计算核,可支持混合精度计算。
主要应用:脑科学及脑仿真领域;类脑产品的时空域融合计算特性,对视频采集/分析将会产生颠覆性的影响,或将改变现有视频监控的处理模式,提供更优的解决方案;高速动态的工业互联网市场;多模态复杂环境的智能机器人应用;自动驾驶等具有高不确定性的应用。
智能语音AI芯片CI1122具有如下功能特性:
CI1122的规格参数如下表:
基于该芯片的智能语音应用解决方案适合智能家居、家电、照明领域的智能语音应用。此外,其方案支持WiFi、BLE、Zigbee等多种通信数据接口,家居环境可实现最远10米远距识别,识别率可达到95%以上。