广告

多模态人机交互:未来机器“眼耳手鼻口”一个都不能少

时间:2019-12-22 作者:刘于苇 阅读:
人类传统的交互单一通道有眼(视觉系统)、耳(听觉系统)、口(味觉系统)、鼻(嗅觉系统)、手(触觉系统)等器官,在这些通道彼此融合后,人机交互技术正从键盘鼠标变成了触屏,又转变成现在的语音视觉等多模态交互。具体表现为从“手指”优先,发展为“语音”优先……
广告

百余年前,在等车的人们用看报纸打发时间;今天的人们同样需要打发时间,但是报纸变成了手机。

IMG_2829.JPG

喜马拉雅硬件生态事业部总经理余涛

“人获取内容的本质需求其实没有变,变的是交互方式。从单一的视觉需求,扩展出了听觉、语音等多模态交互。”12 月 19 日,在炬芯科技举办的第四届 Techlife 炬芯 2019 多模态交互技术开发者大会上,喜马拉雅硬件生态事业部总经理余涛说到。

而炬芯举办本次开发者大会的目的,正是将AI 多模态交互技术运用在新型教育之中。“对于教育,我们不能停留在与电子产品的互动,而要回归本质与书本的互动。语音、视觉、触控加上反馈的融合是未来的方向。”炬芯产品总监肖凯平认为,人类传统的交互单一通道有眼(视觉系统)、耳(听觉系统)、口(味觉系统)、鼻(嗅觉系统)、手(触觉系统)等器官,在这些通道彼此融合后,人机交互技术正从键盘鼠标变成了触屏,又转变成现在的语音视觉等多模态交互。具体表现为从“手指”优先,发展为“语音”优先,并且兼顾老人、儿童以及方言人士让语音对话体验越来越好。语音与视觉,触屏,LCD反馈显示结合的交互体验,令交互门槛的不断降低。
1.jpg
炬芯产品总监肖凯平

在人机交互领域,人们常说“大耳朵,小眼睛”,这里耳朵表示听觉,眼睛表示视觉。这样说是因为语音技术已经比较成熟,是AI交互的主要手段,不同产品有不同需求,但体验的门槛是2mic,要在本地完成AFE+WWE+AEC所有的计算;视觉技术相对而言还没那么成熟,由于视觉算法需要的资源很大,本地化NN的性价比不够,一般在本地完成一部分计算,大部分工序在云端完成。

智能交互的目的,就是为了赋能AIoT双向交互反馈能力,给设备装上耳朵、眼睛和手,让AIoT更“有用”。

IMG_2885.JPG
“为实现更优质交互体验,炬芯希望用更优质产品给智能机器赋能,推出了 ATS 3607、 ATS 3607D、 ATS 3609、 ATS 3609D 四款多模态智能交互芯片,充足的算力、超低的功耗、强大的可扩展性。” 肖凯平说到,“ ATS 3609D支持多麦智能语音、轻智能图像、双模态识别手指输入解决方案。将语音交互、机器视觉和传感器三个模态综合,为强人工智能下的多模态交互提供可行解决方案。”

IMG_2887.JPG
芯片架构上,有着专为智能语音设计的VAD和6路高精度ADC,加上关键词检测模块形成了Always On唤醒功能的基础。算法则是集成了阿里巴巴达摩院的AFE,WWE。

达摩院语音实验室:从原子能力到自然交互

阿里巴巴达摩院语音实验室成立于2014年,承担着为阿里巴巴经济体提供无处不在的语音交互能力的重任。达摩院资深算法专家高杰介绍到,语音AI三大基石包括数据积累、算法以及计算能力,“背靠阿里云的数据积累,在三国五地百人精英团队的技术支持下,达摩院语音识别技术的弹性计算能做到百万并发,经受住了双十一的考验,SLA达到99.9%。”
2.jpg
达摩院资深算法专家高杰

达摩院语音实验室从成立到去年,基本上会以每半年周期做一个大提升。其中最具里程碑效应的是 2015年12月份的LCBLSTM模型,这是在语音识别领域中,整个序列模型第1次在工业界做大规模部署,当时的错误率相比DNN下降20%左右。 另外是2017和2018年底大规模部署的两种语音识别模型,与之前的模型相比错误率都分别下降20%,效率大幅提升,“也因如此,麻省理工科技评论在一则报道中称阿里巴巴拥有了一项比谷歌更好用的语音助手技术。”高杰说到。
IMG_2850.JPG
在语音技术上,达摩院语音实验室将语音技术做成一项原子产品,通过开箱即用的原子能力,在独创的学习平台定制业务模型,和多家业务伙伴携手,提出完整的行业语音解决方案。

在语音交互上,余杰表示,语音实验室采取被集成的策略,希望通过算法、系统以及服务全链路的能力输出解决方案,给硬件厂商提供服务。“达摩院语音实验室的解决方案已经在车载行业、电视行业、公共空间等交互设备上落地实现,在这些复杂的场景中,多模态技术已经开始发挥着作用。我们的合作策略是不做自己的硬件产品,只做alibaba-inside。”
IMG_2861.JPG
一个被集成的案例是上海地铁的语音售票机,余杰称这也是全球第一台地铁语音售票机,在真实嘈杂环境下识别准确率超过96%。相比传统售票机买一张票需要30.64秒,AI语音售票机只需要11.85秒。另外在儿童教育硬件产品上,达摩院作为语音AI能力输出者,与炬芯等芯片厂商及方案商、内容厂商合作,定制TTS服务。

既要听得懂,也要看得明

2018年,中国发布的《教育信息化2.0行动计划》强调“智慧教育创新发展行动”要加强智能教学助手、教育机器人、智能学伴、语言文字信息化关键技术研究与应用。由于产业政策的利好,教育机器人作为机器人应用于教育领域的代表,将成为智慧学习环境的重要组成部分。
3.jpg
玩瞳科技 CTO潘鑫

第一代教育机器设备以VCD、录音机等有声设备为主;第二代以个人电脑、手机搭配教育APP,结合多媒体、海量资源库以及GUI交互为主;目前的第三代设备已经进入到交互式智能教育硬件,例如教育机器人和学习平板,大量使用ASR/NLP技术和外辅设备。下一代机器人会往哪个方向发展?玩瞳科技 CTO 潘鑫认为,视觉将是下一代机器人的基本能力,具备自然交互和主动伺服功能的多模态交互机器人将成为主流。视觉的能力将使机器人改变以往的被动服务形式,迈向主动服务,从而为使用者提供更好的服务体验。

TWS蓝牙耳机也是语音市场爆发可以看得到的主力军。根据蓝牙联盟数据,2018年全球语音产品出货量为8.8亿台,这其中包括各种蓝牙耳机、智能音响等。而预计到2022年仅TWS蓝牙耳机出货量就将达到8亿只,对应的SoC市场规模将达到16亿颗,YoY增长率33%。这其中还不包括苹果的产品。
4.jpg
CEVA大客户经理田元

CEVA大客户经理田元表示,庞大且还在高速发展的智能语音市场,“有不同的场景需求,我们也提出超低功耗和高性能的两种解决方案,为 IC 设计公司提供更多的选择。”以炬芯的芯片为例,超低功耗的解决方案对应炬芯 ATS 283X 平台,高性能解决方案对应 ATS3609D 平台。

 

本文为EET电子工程专辑 原创文章,禁止转载。请尊重知识产权,违者本司保留追究责任的权利。
刘于苇
电子工程专辑(EETimes China)副主分析师。
  • 清微智能王博谈智能安防硬核技术之智能感知、图像/视 《电子工程专辑》8月刊封面专题的主题是智能安防三大硬核技术,我们从智能感知、图像/视频处理,以及AI计算这三个方面分别采访了多名业界技术专家。本文是清微智能CEO王博就智能感知、图像/视频处理和边缘AI计算方面的问答访谈。
  • 思特威欧阳坚谈智能安防硬核技术之智能感知 《电子工程专辑》8月刊封面专题的主题是智能安防三大硬核技术,我们从智能感知、图像/视频处理,以及AI计算这三个方面分别采访了多名业界技术专家。本文是思特威副总经理欧阳坚就智能安防硬核技术的智能感知进行的问答访谈。
  • 亿智电子魏唯谈智能安防硬核技术之图像/视频处理和AI 《电子工程专辑》8月刊封面专题的主题是智能安防三大硬核技术,我们从智能感知、图像/视频处理,以及AI计算这三个方面分别采访了多名业界技术专家。本文是亿智电子安防产品部VP魏唯就图像/视频处理、CMOS图像传感器,以及AI计算方面进行的问答访谈。
  • 鲲云科技王少军博士谈智能安防硬核技术之图像/视频处 《电子工程专辑》8月刊封面专题的主题是智能安防三大硬核技术,我们从智能感知、图像/视频处理,以及AI计算这三个方面分别采访了多名业界技术专家。本文是鲲云科技COO王少军博士就图像/视频处理和AI计算方面的问题进行的问答访谈。
  • 一种基于FPGA的图神经网络加速器解决方案 在宏观层面上,GNN的架构与传统CNN有很多相似之处,诸如卷积层、池化、激活函数、机器学习处理器(MLP)、全连接层(FC layer)等模块,这些都可以应用到GNN。下图展示了一个相对简单的GNN架构……
  • 简化AI部署流程:百度边缘部署适配与加速解决方案 2021年7月27日,全球领先的专业电子机构媒体Aspencore与深圳市新一代信息通信产业集群联合主办“2021国际AIoT生态发展大会”。在智慧能源分论坛上,百度ACG AI产品研发部高级研发工程师傅雨东先生介绍了智慧能源中的边缘部署适配与加速解决方案。
  • 新款iPad Pro 2021成最受欢迎的 由于采用性能相对强大的M1处理器和mini-LED屏幕以及更多的创新,新款iPad Pro 2021已经成为消费者心目中最受欢迎。然而,iPad 2却已经在全球范围内被列入“复古和过时”的名单中。
  • 三星折叠屏手机Galaxy Z Fold 3 目前来看,折叠屏新机作为一种新的生产力工具,逐渐成为高端/平板的一种趋势,有报料称三星的Galaxy Z Fold 3发布时间或为7月,并且会引入新手势操控。

  • ​快人一步,一触即发|芯海科技信号 视频来源:iQOO手机官方微博8月17日晚,iQOO8系列未来电竞旗舰重磅发布,通过屏下双控压感实现更多样的操控体验,双指变四指手速度倍增,在保持机身简洁的同时助你成为自带BUFF的竞技
  • 泰艺电子推出小型化恒温控制晶体振 泰艺电子,频率控制解决方案的领先供货商,推出全新 NN 系列恒温控制晶体振荡器(OCXO),能够满足严格的频率稳定度要求,同时具备优越的相位噪声性能。
广告
热门推荐
广告
广告
广告
EE直播间
在线研讨会
广告
广告
广告
向右滑动:上一篇 向左滑动:下一篇 我知道了