AI语音芯片大致分为云端计算语音识别和端侧计算语音识别两种。在早期由于算力限制,端侧没有专用芯片可以解决算力和功耗成本均衡的问题,所以大部分的语音识别功能需要从端侧上传数据到云端完成推断,再将决策返回端侧。但久而久之,人们发现云端语音存在一些弊端,只有在端侧实现语音智能计算,才最符合人类日常交流的形态去使用AI语音,同时拥有完整、自主的设备使用权和控制权……

随着5G、AIoT等技术的快速发展与应用融合,人工智能(AI)产业及相关业务越来越受政府和产业界的关注与支持,在国家的“十四五”规划中,人工智能技术已被列为前沿科技领域的“最高优先级”,宏观环境不断向好发展。

AI技术中,语音识别、自然语义理解(NLP)、机器学习是人机交互技术的基础,居于重要地位。语音识别、NLP两项均与语音交互密切关联,而语音识别又是在行业中落地最早的AI技术。2010年前后,以神经网络为代表的AI技术大大提升智能语音识别效果后,各个领域的应用开始了积极尝试,如今已逐渐走向成熟。

从具体分类来看,AI语音芯片大致分为云端计算语音识别和端侧计算语音识别两种。在早期由于算力限制,端侧没有专用芯片可以解决算力和功耗成本均衡的问题,所以大部分的语音识别功能需要从端侧上传数据到云端完成推断,再将决策返回端侧。

但久而久之,人们发现云端语音存在一些弊端,例如需要稳定的网络连接,否则无法做到稳定的实时响应;数据上传云端,用户有隐私安全的顾虑;需要服务器等各种运维费用,导致整套方案成本居高不下,并直接传导给消费者……

全球人工智能芯片分类地图及代表公司

鉴于此,以启英泰伦为代表的企业,开始研究如何通过专用的AI语音芯片,将语音智能计算在终端实现。这种方式既保障语音功能应用的优点,又解决了云端语音的缺点,让终端用户能以最符合人类日常交流的形态去使用AI语音,同时拥有完整、自主的设备使用权和控制权。

离线方案才是语音识别的最终归宿?

“多年来,AI语音技术的发展经历了很多艰与辛,坎与痛。” 成都启英泰伦科技有限公司创始人,首席执行官何云鹏在接受《电子工程专辑》等媒体采访时,总结了之前AI语音方案普遍面对的三大难题——首先是用户个性化,不同用户拥有不同的口音与方言,表达方式也是丰富多彩,这给语音识别和语义理解带来了难度;其次是客户的高要求,对机器而言需要用人甚至超过人的识别标准来要求,同时还要满足不断降低成本的预期;最后是AI语音应用场景的复杂化,在家居、推广和生产环境中,存在各种不同的噪声干扰,给准确识别带来了难度。

成都启英泰伦科技有限公司创始人,首席执行官何云鹏

2016年,启英泰伦发布国内首款离线语音识别芯片Cl1006后,如今已经过3个大代和3个半代的产品迭代,总计6次。其中半代是在正数代基础上脑神经网络处理器核(BNPU)平台不变,通过功能精简达到 30%方案成本的下降。第二代产品是2019年的Cl110X系列,第三代产品则分为两大系列,分别是Cl130X系列智能语音主控(MCU)芯片;Cl230X系列智能语音AIoT芯片。

之所以选择做离线语音识别芯片,何云鹏给出的理由中有一条是让“亿万用户用得起、用得好”。他表示,在语音芯片发展的早期,限于半导体工艺水平和算法先进性等原因,终端用户对于增加一颗独立语音芯片是持观望态度的,因为额外的数据处理器、用于存储算法的Flash都会增加BoM成本。但随着摩尔定律的演进,经过6-7年的芯片制造工艺的提升及算法迭代后,独立AI语音芯片不但性能指数级提升,成本也以每年30-50%的速度下降。“目前我们的离线语音整体方案成本,最初1代为 50-90 元(CI1006),1.5 代为 30-40 元(CI1102),2 代芯片系列15-25元,来到2.5 代则降低到10-15元之间。高度集成实现单芯片即方案,不再会给端侧带来成本的负担。”

反观云端语音方案,其成本增加是持续存在的。由于需要每时每刻上传数据、接收指令,网络传输成本一直存在;云端服务器建设的周期长、费用大,通常需要借助第三方平台,带来运营成本每年也会摊销到设备端,如果不续费甚至可能造成语音功能停止——这一点用过智能音箱的人深有体会,当断网时,智能音箱立马变成“智障”音箱。

“这些额外的费用,在采用端侧语音识别方案后都可以省去。” 何云鹏认为,“语音识别是一种对实时反馈要求极高的技术,相关运算应该放在线下、端侧来做,而云端则更应该专注交易、内容服务、非实时大数据运算等协同操作。这才是一个合理的分工。”

第三代语音芯片的AI算法优势

为了更好地满足用户需求,启英泰伦在算法攻关和芯片研发两个方面同时发力,BNPU是启英泰伦的核心技术优势之一,版本也在不断升级,从BNPU 1.0、BNPU 2.0,一直到今天推出的BNPU 3.0版本。

何云鹏介绍道,第一代BNPU实现的是端侧语音识别,是行业首款集成神经网络处理器的语音AI芯片,也是离线语音产业应用兴起的标志。二代系列芯片CI1102/CI1103及CI1122芯片则集成了第二代BNPU,不仅实现了离线语音识别功能,还能实现离线声纹识别和命令词自学习等个性化的功能。

前几代产品在噪音环境下识别度方面已经很不错,正常安静家居环境下识别度达到98%以上,对于 65dB 左右中强环境噪声下也能有较好的识别效果。如今,搭载BNPU 3.0的第三代芯片又将把整个语音识别应用推向新的高点实现了更高算力、高集成度和性能新高的“三个新高”。

算法方面,启英泰伦三代语音芯片支持几乎全部信号处理和识别技术。包括单麦自适应降噪/降混响/回声消除/DOA(语音定向)/波束形成/盲源分离/语音活动检测等传统信号技术。BNPU 3.0 除了继承了 2 代的语音/声纹识别之外,还支持了基于深度学习的降噪(也称深度降噪)、人声分离(也称深度分离)、命令词自学习 2.0 版本以及行业首次突破的离线 NLP 技术。

  • 深度降噪技术能在信噪比-5dB 到 -10dB 的环境噪声下将人声提取出来,实现良好识别。演示视频中,油烟机噪声高达80dB 时,对于70多dB的人声依然可以良好识别。
  • 在深度人声分离技术演示中,电视噪声和干扰人声离语音设备更近,也就是此时目标人声分贝数为 0 甚至负的条件下,通过芯片的深度人声分离技术,语音模块仍然可以良好识别到。
  • 命令词自学习 2.0 版本支持离线命令自学习,在 60 到 65 分贝噪声条件下依然具备良好的识别表现,非常接近大数据训练模型的效果。用户即便带着方言口音,简单训练2-3次设备也能学会,支持50多条词条数。
  • 端侧 NLP 技术包含了语音识别和意图识别,该意图模型采用联合规则和统计训练的模型来实现端侧语音识别+语义理解的功能。这使得设备彻底不需要依赖云端,一样可以具备上下文关联、多轮对话、意图理解等云端 NLP 的功能。

此外BNPU 3.0还能运行语义识别模型、端侧离线TS等语音相关的算法。对于市面上一些竞品号称也能做到端侧离线NLP,何云鹏表示他们有做过对比,发现“(竞品)还是要用比较传统的命令词,用自然对话就无法识别了。而我们的芯片能达到自然语言识别。”

硬核技术及相关参数

前面 5 颗芯片的迭代,不仅是上述算法性能功能不断提升,集成度也在不断增加。 2 代系列相比1代,集成进了 Audio CODEC、Flash 等单元,以及双麦阵增强处理能力。据悉,启英泰伦的第三代语音芯片采用40nm工艺制造,主打性能的同时,相对于二代功耗降低了一半仅为10mA左右(低功耗模式做语音运算时)。

芯片算力方面,三代 13 系列芯片内置 BNPU 3.0 和支持 DSP 指令扩展的 RISC CPU 两大内核,主频高达 240MHz,并具有 640KB 系统 SRAM。而 2 代主频是 160MHz,内置 BNPU2.0,512KB SRAM。

芯片集成度方面,三代 13 系列芯片集成了 Audio Codec 模拟 MIC 接口、数字PDM麦克DMIC 接口、通用 ADC及 MCU 常见的串口/PWM/GPIO 等。还进一步集成了 4 线 NOR Flash、3 路 LDO PMU和高精度RC 振荡器等。

成本方面,芯片即方案,除了MIC、喇叭外,板级仅需要阻容和PA芯片,多数情况下连晶振都不需要加。极大简化BoM,但可以通过外设接口扩展各种功能。封装上,前两代采用QFN封装,第三代为适应不同应用及贴片要求,推出了SOP16/SSOP24/QFN40等系列封装。

23 系列 AIOT 单芯片(CI2305 和 CI2306)在语音功能和性能上与13系列相同,主要增加了 Wi-Fi 和 BLE,形成三合一单芯片。其中CI2305 支持离线语音+IOT,而 CI2306还支持将语音上传,实现离线语音+在线语音+IOT 功能。

“与一些 Wi-Fi芯片公司推出的用纯软件方式在芯片上跑语音算法低成本方案相比,我们的 23 系列 AIOT 单芯片能够实现优异的语音处理和识别表现,以及优良的 IOT 连接传输性能。”何云鹏说到。

值得注意的是,启英泰伦的一二代产品都是采用Arm内核,但在2.5代Cl1122这款产品中采用了RISC-V处理器。对于选择RISC-V还是Arm内核,何云鹏认为两者各有优点,会在不同产品线上选择不同的内核。“Arm生态成熟,而RISC-V的开源特性,带来了众人拾柴火焰高的效果。此外RISC-V指令精简,接口灵活,可以定制加速单元,方便加速设计。”

第三代产品的主控能力进一步加强,拥有更丰富的IO接口,兼容3.3V和5V;主频更高,SRAM更大,算力可更充分提供给主控应用。按照启英泰伦的说法,这颗语音芯片既可以作为语音识别或语音信号处理的专用芯片,也可以作为带语音识别功能的 MCU 主控芯片。

那为什么通用MCU不适合做AI语音?何云鹏解释到,传统通用MCU嵌入语音算法,还需要满足语音识别的大Flash存储、CPU频率、专用语音通道和Audio Codec等硬件要求,一般只能用于玩具级的机器学习(Tiny ML),无法用于专业设备。而启英泰伦第三代语音芯片提供1/2/4MB三种Flash版本供选择,更大的Flash,可以存放更大的神经网络模型,这是做离线NLP自然语言交互必须的;而不需要NLP的应用,采用1MB版本的就够了。

“可能刚开始做语音的同学无法理解,但要把语音真正做好的同时把成本降下来,就要对芯片和算法极致打磨。”何云鹏补充道,“通用MCU要想把语音做到接近我们的水平,在处理器频率和存储上要增加大量成本,具体取决于算法的好坏。”

哪些终端设备最需要语音交互技术?

据IDC的统计数据,2021年中国智能家居设备市场出货量已超2.2亿台,2022年中国智能家居设备市场出货量则将突破2.6亿台,同比增长为17.1%。

由于智能语音技术和NLP技术不断加速发展,智能语音的市场空间不断打开。目前,智能语音已在2C消费级的智能家居、智慧生活、智慧办公、智能驾驶;2B企业级的智慧医疗、智能客服等多个领域实现场景应用。其中家电行业的渗透率已达到130多个品类,某些品类的渗透率超过50%。

从目前终端客户的接受程度看,已经从之前大多采用AI语音beside方案(后装,一般是在电源插座上加装声控),转变为了inside方案(前装)。据何云鹏介绍,这一点在智能家居、智慧办公的房地产客户和家电设备客户上最明显,“因为用启英泰伦的语音AIOT芯片,已经可以直接替换原来的通用MCU。至于后装则是通过的加装一个带语音识别功能的插座来控制设备,仅需搭载一颗语音主控芯片,就能把存量的家电设备通过USB Dongle、2.4G红外等形式加上语音控制功能。”

最积极采用语音取代现有操作方式的,首先是使用者和设备之间有一定距离、传统上用遥控器的设备,例如空调、照明设备等;其次是虽然人和设备距离较近,但是双手无法解放的,用语音控制效果也较好,例如油烟机、车载操控;最后是功能多、菜单多、组合键多的设备,消费者觉得太复杂,这时候直接用语音表达需求更方便,例如微波炉档位选择、洗衣机洗衣方式的选择等。

何云鹏预计,接下来所有家电大厂将布局产品机器人化、智慧化服务。例如空调将不只是调节温度,还会实时监测空气温湿度、气味、负氧离子等,并提供山林、海边、乡间清晨等虚拟环境模拟。而这个过程中的很多服务需要让机器理解人,就会用到NLP,让家电成为服务的入口。

“这种服务是时刻发生,需要实时响应的。以往的云上识别方案带来的传输带宽成本只有抹掉,才能让这种服务入口落地。”他说到,“另外一些非实时的功能放在云上,例如固件升级、交易等,实现端云融合。”

结语

据悉,启英泰伦目前已经有5000多客户,10000多平台开发者,和10万多在校学员。整个离线语音及语音AIOT领域应用呈现快速崛起之势。目前已经达到2000万年装机量,正快速向上亿年装机量发展。

启英泰伦的终极目标是打造跨设备、跨时空,用户专属,终身守护的守护精灵。何云鹏将这一目标划分为三个阶段:

第一步,让人机交互更自然,更具普适性;

第二步,通过更多的数据,让机器更理解人、更主动地为人类服务;

最终目标,打造专属的守护精灵,它将是用户全方位的生活管家、健康安全卫士、百科知识导师和给与心灵陪伴的知己朋友。

如今整个行业正处于终端语音交互应用走向普及、多感知机器人技术芯片和技术研发积累的阶段。每个阶段都需要埋头苦干,需要多次迭代和至少 5 到 10 年的坚持。为了更快地实现自身目标,帮助下游客户实现敏捷开发、快速落地的目标,启英泰伦正加强生态建设,提升语音AI应用开发平台,该平台支持10000用户同时开发,即时生成NLP模型,提供更自然的语音交互能力。

“在过去20多年的工作时间里,很多人不理解我回国做芯片的选择,他们认为一个人的力太薄弱,不能改变什么。但我的妻子总是无怨无悔的支持我所有的选择和追求,最近她对我说,你当初的选择是对的,我们国家芯片差点被卡了脖子。”何云鹏感慨道, “我觉得,一个人的力量是微薄的,但是为追求那些站在民族和人类立场的美好愿望,多一个人的力量也是好的。一个人这么想,就一定会有更多人这么想,最终汇聚成浩浩荡荡一往无前的力量!今天,已经有千千万万的人投入到了民族的集成电路事业中,中国集成电路崛起之路已经势不可挡。”

责编:Luffy
本文为EET电子工程专辑原创文章,禁止转载。请尊重知识产权,违者本司保留追究责任的权利。
阅读全文,请先
您可能感兴趣
AI(人工智能)已经是未来十年甚至是数十年科学和科技界最重要的发展领域,未来技术的进步也将在AI的不断进化中快速提升。在AI领域的软件模型算法已经相对成熟(当然还在不断的优化、改进和发展)的当下,对硬件的考验与要求越来越高。以往,AI芯片级硬件主要被NVIDIA的 A100主导称王,现在这一局面逐渐被打破。6月底, MLCommons公布的MLPerf v2.0 训练结果显示,Graphcore的Bow Pod系列和Intel的HLS-Gaudi2的性能已经比NVIDIA的DGX-A100快了超过30%。
人工智能和机器学习正在各行各业如火如荼地取得快速进展,业界为推动进展所做的技术努力和解决方案也层出不穷。作为一种新趋势,本文介绍的SSD控制器解决方案,内置人工智能和机器学习引擎,再加上低功耗内存计算解决方案,将作为新助力,应对人工智能面临的各项挑战。
在《工程师面试时必须掌握的6大机器学习算法及其优缺点(一)》中,我们讨论了用于构建机器学习模型的著名机器学习算法中的线性回归与逻辑回归、支持向量机 (SVM)、K-最近邻(KNN),本文将讨论后面三个算法:XGBoost、AdaBoost和ANN。
近日谷歌挖走了在IBM工作了21年、负责IBM Z System芯片的首席架构师安东尼·萨波里托(Anthony Saporito),担任其首席架构师,负责下一代处理器设计。
随着现代汽车陆续演变为车轮上的数据中心,战略上,汽车已成为大家关注的下一个焦点,还有人工智能和机器学习,所有这些都正朝着更高的带宽需求发展,并对高速互联提出挑战。本文介绍的堪称是“革命性飞跃”的PCIe 6.0,其所提供的带宽是其前身的两倍,互连性能也得以显著提升。
随着英特尔和AMD等大型主流科技厂商的押宝,RISC-V架构正快速崛起,其生态在嵌入式应用中也正迅速发展。随着高性能RISC-V内核的出现,RISC-V生态系统还将朝着高性能计算的方向发展。而对于通用MCU和边缘AI芯片架构来说,是选择Arm还是RISC-V?就此,多位业内专家在本文中给出了明确见解。
由于采用性能相对强大的M1处理器和mini-LED屏幕以及更多的创新,新款iPad Pro 2021已经成为消费者心目中最受欢迎。然而,iPad 2却已经在全球范围内被列入“复古和过时”的名单中。
目前来看,折叠屏新机作为一种新的生产力工具,逐渐成为高端/平板的一种趋势,有报料称三星的Galaxy Z Fold 3发布时间或为7月,并且会引入新手势操控。

近日,芯海科技(股票代码:688595)针对可穿戴健康测量市场,继高精度全场景PPG AFE芯片CS1262之后,再次全新推出一颗具有高分辨率、多档频率、多激励幅度、宽裕动态范围及接触阻抗可
计算芯片属于汽车芯片的一种,按集成度规模可分为MCU(Multi Control Unit,多点控制单元)和SoC(System on Chip,系统级芯片)两种。
电动汽车电池管理系统(BMS)是连接车载动力电池和电动汽车的重要纽带,它将电池或电池组的监测及管理集于一体,从而确保电池或者电池组的安全可靠,并以最佳状态输出动力。BMS可以实现对电池的实时监控、自动
近年来,猎芯网与众多专注于电子产业各垂直领域的行业组织签约合作,结合线上和线下的方式,实现优势互补,给双方带来加乘效应,促使更好地为行业提供服务,为中国电子产业的创新发展创造开放、互利、共赢的生态环境
7月28日,据财新网消息,国家集成电路产业投资基金股份有限公司现任总裁丁文武近日被有关部门调查,目前仍处于与外界失联的状态!丁文武,1962年3月出生于宁夏海原县,回族。1988年毕业于合肥工业大学电
前言本文以四个方面介绍epoll的实现原理,1.epoll的数据结构;2.协议栈如何与epoll通信;3.epoll线程安全如何加锁;4.ET与LT的实现。epoll的数据结构多种数据结构进行决策ep
世健也有自己的视频号啦~快点击观看,进一步了解世健吧立即扫码购买 ↑ ↑ ↑立即扫码了解详情 ↑ ↑ ↑关于世健亚太区领先的元器件授权代理商世健(Excelpoint)是完整解决方案的供应商,为亚洲电
如今的多通道宽带多倍频程调谐RF接收器,通常需要消除不必要的阻塞信号,从而保持相关信号的保真度。滤波器在减少这些不必要的信号上起到了重要作用,特别是在这些系统的接收器RF前端和本振(LO)部分。本文将
    7 月 31 日消息,美媒日前报道称,目前最强大的芯片作用越来越大,但它们几乎不能再被称为“微型芯片”。由于各行各业都需要速度更快、功能更强大的芯片,而通过缩小晶体管的方法正进入瓶颈。于是工程
公众号:高速先生作者:王辉东毛毛说他最近的人生就像天气预报,晴天,阴天,下雨天,关键下雨就下雨吧,它还是狂风暴雨,雷鸣电闪。这不刚设计一个二阶HDI,投到板厂两个星期,马上都要交货了,工厂突然来了电话
点击上面↑“电动知家”可以订阅哦!电动知家消息,7月31日,哪吒S正式上市,指导价19.98-33.88万元。新车定位运动型智享轿跑,基于自研的山海平台打造,提供纯电及增程式两套动力系统,2022年底
点击上面↑“电动知家”可以订阅哦!电动知家消息,据外媒报道,丰田汽车警告英国政府称,如果英国政府从2030年开始禁止销售混合动力车,丰田的制造、零售等业务活动以及在英国的未来投资将受到影响,可能会停止