广告

多模态人机交互:未来机器“眼耳手鼻口”一个都不能少

时间:2019-12-22 作者:刘于苇 阅读:
人类传统的交互单一通道有眼(视觉系统)、耳(听觉系统)、口(味觉系统)、鼻(嗅觉系统)、手(触觉系统)等器官,在这些通道彼此融合后,人机交互技术正从键盘鼠标变成了触屏,又转变成现在的语音视觉等多模态交互。具体表现为从“手指”优先,发展为“语音”优先……
广告

百余年前,在等车的人们用看报纸打发时间;今天的人们同样需要打发时间,但是报纸变成了手机。YPiEETC-电子工程专辑

IMG_2829.JPGYPiEETC-电子工程专辑

喜马拉雅硬件生态事业部总经理余涛YPiEETC-电子工程专辑

“人获取内容的本质需求其实没有变,变的是交互方式。从单一的视觉需求,扩展出了听觉、语音等多模态交互。”12 月 19 日,在炬芯科技举办的第四届 Techlife 炬芯 2019 多模态交互技术开发者大会上,喜马拉雅硬件生态事业部总经理余涛说到。YPiEETC-电子工程专辑

而炬芯举办本次开发者大会的目的,正是将AI 多模态交互技术运用在新型教育之中。“对于教育,我们不能停留在与电子产品的互动,而要回归本质与书本的互动。语音、视觉、触控加上反馈的融合是未来的方向。”炬芯产品总监肖凯平认为,人类传统的交互单一通道有眼(视觉系统)、耳(听觉系统)、口(味觉系统)、鼻(嗅觉系统)、手(触觉系统)等器官,在这些通道彼此融合后,人机交互技术正从键盘鼠标变成了触屏,又转变成现在的语音视觉等多模态交互。具体表现为从“手指”优先,发展为“语音”优先,并且兼顾老人、儿童以及方言人士让语音对话体验越来越好。语音与视觉,触屏,LCD反馈显示结合的交互体验,令交互门槛的不断降低。YPiEETC-电子工程专辑
1.jpgYPiEETC-电子工程专辑
炬芯产品总监肖凯平YPiEETC-电子工程专辑

在人机交互领域,人们常说“大耳朵,小眼睛”,这里耳朵表示听觉,眼睛表示视觉。这样说是因为语音技术已经比较成熟,是AI交互的主要手段,不同产品有不同需求,但体验的门槛是2mic,要在本地完成AFE+WWE+AEC所有的计算;视觉技术相对而言还没那么成熟,由于视觉算法需要的资源很大,本地化NN的性价比不够,一般在本地完成一部分计算,大部分工序在云端完成。YPiEETC-电子工程专辑

智能交互的目的,就是为了赋能AIoT双向交互反馈能力,给设备装上耳朵、眼睛和手,让AIoT更“有用”。YPiEETC-电子工程专辑

IMG_2885.JPGYPiEETC-电子工程专辑
“为实现更优质交互体验,炬芯希望用更优质产品给智能机器赋能,推出了 ATS 3607、 ATS 3607D、 ATS 3609、 ATS 3609D 四款多模态智能交互芯片,充足的算力、超低的功耗、强大的可扩展性。” 肖凯平说到,“ ATS 3609D支持多麦智能语音、轻智能图像、双模态识别手指输入解决方案。将语音交互、机器视觉和传感器三个模态综合,为强人工智能下的多模态交互提供可行解决方案。”YPiEETC-电子工程专辑

IMG_2887.JPGYPiEETC-电子工程专辑
芯片架构上,有着专为智能语音设计的VAD和6路高精度ADC,加上关键词检测模块形成了Always On唤醒功能的基础。算法则是集成了阿里巴巴达摩院的AFE,WWE。YPiEETC-电子工程专辑

达摩院语音实验室:从原子能力到自然交互

阿里巴巴达摩院语音实验室成立于2014年,承担着为阿里巴巴经济体提供无处不在的语音交互能力的重任。达摩院资深算法专家高杰介绍到,语音AI三大基石包括数据积累、算法以及计算能力,“背靠阿里云的数据积累,在三国五地百人精英团队的技术支持下,达摩院语音识别技术的弹性计算能做到百万并发,经受住了双十一的考验,SLA达到99.9%。”YPiEETC-电子工程专辑
2.jpgYPiEETC-电子工程专辑
达摩院资深算法专家高杰YPiEETC-电子工程专辑

达摩院语音实验室从成立到去年,基本上会以每半年周期做一个大提升。其中最具里程碑效应的是 2015年12月份的LCBLSTM模型,这是在语音识别领域中,整个序列模型第1次在工业界做大规模部署,当时的错误率相比DNN下降20%左右。 另外是2017和2018年底大规模部署的两种语音识别模型,与之前的模型相比错误率都分别下降20%,效率大幅提升,“也因如此,麻省理工科技评论在一则报道中称阿里巴巴拥有了一项比谷歌更好用的语音助手技术。”高杰说到。YPiEETC-电子工程专辑
IMG_2850.JPGYPiEETC-电子工程专辑
在语音技术上,达摩院语音实验室将语音技术做成一项原子产品,通过开箱即用的原子能力,在独创的学习平台定制业务模型,和多家业务伙伴携手,提出完整的行业语音解决方案。YPiEETC-电子工程专辑

在语音交互上,余杰表示,语音实验室采取被集成的策略,希望通过算法、系统以及服务全链路的能力输出解决方案,给硬件厂商提供服务。“达摩院语音实验室的解决方案已经在车载行业、电视行业、公共空间等交互设备上落地实现,在这些复杂的场景中,多模态技术已经开始发挥着作用。我们的合作策略是不做自己的硬件产品,只做alibaba-inside。”YPiEETC-电子工程专辑
IMG_2861.JPGYPiEETC-电子工程专辑
一个被集成的案例是上海地铁的语音售票机,余杰称这也是全球第一台地铁语音售票机,在真实嘈杂环境下识别准确率超过96%。相比传统售票机买一张票需要30.64秒,AI语音售票机只需要11.85秒。另外在儿童教育硬件产品上,达摩院作为语音AI能力输出者,与炬芯等芯片厂商及方案商、内容厂商合作,定制TTS服务。YPiEETC-电子工程专辑

既要听得懂,也要看得明

2018年,中国发布的《教育信息化2.0行动计划》强调“智慧教育创新发展行动”要加强智能教学助手、教育机器人、智能学伴、语言文字信息化关键技术研究与应用。由于产业政策的利好,教育机器人作为机器人应用于教育领域的代表,将成为智慧学习环境的重要组成部分。YPiEETC-电子工程专辑
3.jpgYPiEETC-电子工程专辑
玩瞳科技 CTO潘鑫YPiEETC-电子工程专辑

第一代教育机器设备以VCD、录音机等有声设备为主;第二代以个人电脑、手机搭配教育APP,结合多媒体、海量资源库以及GUI交互为主;目前的第三代设备已经进入到交互式智能教育硬件,例如教育机器人和学习平板,大量使用ASR/NLP技术和外辅设备。下一代机器人会往哪个方向发展?玩瞳科技 CTO 潘鑫认为,视觉将是下一代机器人的基本能力,具备自然交互和主动伺服功能的多模态交互机器人将成为主流。视觉的能力将使机器人改变以往的被动服务形式,迈向主动服务,从而为使用者提供更好的服务体验。YPiEETC-电子工程专辑

TWS蓝牙耳机也是语音市场爆发可以看得到的主力军。根据蓝牙联盟数据,2018年全球语音产品出货量为8.8亿台,这其中包括各种蓝牙耳机、智能音响等。而预计到2022年仅TWS蓝牙耳机出货量就将达到8亿只,对应的SoC市场规模将达到16亿颗,YoY增长率33%。这其中还不包括苹果的产品。YPiEETC-电子工程专辑
4.jpgYPiEETC-电子工程专辑
CEVA大客户经理田元YPiEETC-电子工程专辑

CEVA大客户经理田元表示,庞大且还在高速发展的智能语音市场,“有不同的场景需求,我们也提出超低功耗和高性能的两种解决方案,为 IC 设计公司提供更多的选择。”以炬芯的芯片为例,超低功耗的解决方案对应炬芯 ATS 283X 平台,高性能解决方案对应 ATS3609D 平台。YPiEETC-电子工程专辑

 YPiEETC-电子工程专辑

本文为EET电子工程专辑 原创文章,禁止转载。请尊重知识产权,违者本司保留追究责任的权利。
刘于苇
电子工程专辑(EETimes China)副主分析师。
  • AI的下一个技术方向:tinyML低功耗边缘侧 当国内还在热火朝天的谈论5G、 IoT、 大数据、 超算、 视觉识别、 智能监控、 车联网、 无人机 等等热门主题的时候,当人们还在寻找人工智能行业下一个最具商业前景的发展方向,专注于视觉和语音技术,纠结于提高算力、创新算法模型、大数据存储标记清洗的时候,太平洋彼岸已经悄然开启了在低功耗边缘侧人工智能,即tinyML这一垂直细分上的思考与发展。
  • 用真正的系统级优化迎接边缘计算时代 根据预测,到2023年,网络边缘的智能设备数量可能是传统IT领域的20倍以上,Gartner也将边缘计算列为2020年十大战略技术趋势之一。边缘计算为何能呈现这样的高速增长态势?它的下一步会走向何方?恩智浦的技术专家们对此分享了自己的见解。
  • Wally Rhines博士:未来10年全球半导体市场发展趋势 在今年的全球CEO峰会上,Wally Rhines博士为国内半导体人士带来了一场耳目一新的视听盛宴,他分享了AI芯片和数据采集/分析/保护的最新趋势和技术发展动向,介绍了一种新的加密计算技术及其市场前景,并对全球半导体未来10年的发展趋势做出了独到分析和预测。
  • 边缘AI持续混战,如何以1/7面积和100倍性价比向NVIDIA发 InferX X1芯片是“AI边缘系统领域迄今为止性能最高的芯片”,可对目标检测与识别等各类神经网络模型进行加速,其应用范围包括机器人、工业自动化、医学成像、基因测序、银行安全、零售分析、自动驾驶、航天工程等等。与目前业内领先的NVIDIA Xavier 相比,InferX X1在处理 YOLOv3目标检测识别模型时的性能提高了30% 。
  • 利用神经形态芯片仿真人脑 长期以来人们一直在研究生物细胞的电特性,以便了解细胞动力学。离子电流的动态特性和离子电导的非线性是由微观参数控制,由于测量微观参数具有相当的难度,阻碍了定量运算模型的建构…
  • 价值900亿美元的美国半导体连环并购案揭秘 2020年见证了非比寻常的半导体行业,一场旷日持久的疫情不但遮掩了全球半导体的持续下滑,也冲淡了中美科技冷战的硝烟。同时,另外一个被掩盖的现象下半年开始浮出水面,那就是半导体行业的一连串并购活动。并购金额之大令人咋舌,对整个半导体甚至高科技行业的影响也将会无法估量。本文将针对ADI/Maxim、Nvidia/Arm及AMD/Xilinx这三大并购案展开深入探讨,并简要提及对中国半导体的影响和启示。
广告
热门推荐
广告
广告
广告
EE直播间
在线研讨会
广告
广告
面包芯语
广告
向右滑动:上一篇 向左滑动:下一篇 我知道了