广告

多模态人机交互:未来机器“眼耳手鼻口”一个都不能少

时间:2019-12-22 作者:刘于苇 阅读:
人类传统的交互单一通道有眼(视觉系统)、耳(听觉系统)、口(味觉系统)、鼻(嗅觉系统)、手(触觉系统)等器官,在这些通道彼此融合后,人机交互技术正从键盘鼠标变成了触屏,又转变成现在的语音视觉等多模态交互。具体表现为从“手指”优先,发展为“语音”优先……
广告

百余年前,在等车的人们用看报纸打发时间;今天的人们同样需要打发时间,但是报纸变成了手机。

IMG_2829.JPG

喜马拉雅硬件生态事业部总经理余涛

“人获取内容的本质需求其实没有变,变的是交互方式。从单一的视觉需求,扩展出了听觉、语音等多模态交互。”12 月 19 日,在炬芯科技举办的第四届 Techlife 炬芯 2019 多模态交互技术开发者大会上,喜马拉雅硬件生态事业部总经理余涛说到。

而炬芯举办本次开发者大会的目的,正是将AI 多模态交互技术运用在新型教育之中。“对于教育,我们不能停留在与电子产品的互动,而要回归本质与书本的互动。语音、视觉、触控加上反馈的融合是未来的方向。”炬芯产品总监肖凯平认为,人类传统的交互单一通道有眼(视觉系统)、耳(听觉系统)、口(味觉系统)、鼻(嗅觉系统)、手(触觉系统)等器官,在这些通道彼此融合后,人机交互技术正从键盘鼠标变成了触屏,又转变成现在的语音视觉等多模态交互。具体表现为从“手指”优先,发展为“语音”优先,并且兼顾老人、儿童以及方言人士让语音对话体验越来越好。语音与视觉,触屏,LCD反馈显示结合的交互体验,令交互门槛的不断降低。
1.jpg
炬芯产品总监肖凯平

在人机交互领域,人们常说“大耳朵,小眼睛”,这里耳朵表示听觉,眼睛表示视觉。这样说是因为语音技术已经比较成熟,是AI交互的主要手段,不同产品有不同需求,但体验的门槛是2mic,要在本地完成AFE+WWE+AEC所有的计算;视觉技术相对而言还没那么成熟,由于视觉算法需要的资源很大,本地化NN的性价比不够,一般在本地完成一部分计算,大部分工序在云端完成。

智能交互的目的,就是为了赋能AIoT双向交互反馈能力,给设备装上耳朵、眼睛和手,让AIoT更“有用”。

IMG_2885.JPG
“为实现更优质交互体验,炬芯希望用更优质产品给智能机器赋能,推出了 ATS 3607、 ATS 3607D、 ATS 3609、 ATS 3609D 四款多模态智能交互芯片,充足的算力、超低的功耗、强大的可扩展性。” 肖凯平说到,“ ATS 3609D支持多麦智能语音、轻智能图像、双模态识别手指输入解决方案。将语音交互、机器视觉和传感器三个模态综合,为强人工智能下的多模态交互提供可行解决方案。”

IMG_2887.JPG
芯片架构上,有着专为智能语音设计的VAD和6路高精度ADC,加上关键词检测模块形成了Always On唤醒功能的基础。算法则是集成了阿里巴巴达摩院的AFE,WWE。

达摩院语音实验室:从原子能力到自然交互

阿里巴巴达摩院语音实验室成立于2014年,承担着为阿里巴巴经济体提供无处不在的语音交互能力的重任。达摩院资深算法专家高杰介绍到,语音AI三大基石包括数据积累、算法以及计算能力,“背靠阿里云的数据积累,在三国五地百人精英团队的技术支持下,达摩院语音识别技术的弹性计算能做到百万并发,经受住了双十一的考验,SLA达到99.9%。”
2.jpg
达摩院资深算法专家高杰

达摩院语音实验室从成立到去年,基本上会以每半年周期做一个大提升。其中最具里程碑效应的是 2015年12月份的LCBLSTM模型,这是在语音识别领域中,整个序列模型第1次在工业界做大规模部署,当时的错误率相比DNN下降20%左右。 另外是2017和2018年底大规模部署的两种语音识别模型,与之前的模型相比错误率都分别下降20%,效率大幅提升,“也因如此,麻省理工科技评论在一则报道中称阿里巴巴拥有了一项比谷歌更好用的语音助手技术。”高杰说到。
IMG_2850.JPG
在语音技术上,达摩院语音实验室将语音技术做成一项原子产品,通过开箱即用的原子能力,在独创的学习平台定制业务模型,和多家业务伙伴携手,提出完整的行业语音解决方案。

在语音交互上,余杰表示,语音实验室采取被集成的策略,希望通过算法、系统以及服务全链路的能力输出解决方案,给硬件厂商提供服务。“达摩院语音实验室的解决方案已经在车载行业、电视行业、公共空间等交互设备上落地实现,在这些复杂的场景中,多模态技术已经开始发挥着作用。我们的合作策略是不做自己的硬件产品,只做alibaba-inside。”
IMG_2861.JPG
一个被集成的案例是上海地铁的语音售票机,余杰称这也是全球第一台地铁语音售票机,在真实嘈杂环境下识别准确率超过96%。相比传统售票机买一张票需要30.64秒,AI语音售票机只需要11.85秒。另外在儿童教育硬件产品上,达摩院作为语音AI能力输出者,与炬芯等芯片厂商及方案商、内容厂商合作,定制TTS服务。

既要听得懂,也要看得明

2018年,中国发布的《教育信息化2.0行动计划》强调“智慧教育创新发展行动”要加强智能教学助手、教育机器人、智能学伴、语言文字信息化关键技术研究与应用。由于产业政策的利好,教育机器人作为机器人应用于教育领域的代表,将成为智慧学习环境的重要组成部分。
3.jpg
玩瞳科技 CTO潘鑫

第一代教育机器设备以VCD、录音机等有声设备为主;第二代以个人电脑、手机搭配教育APP,结合多媒体、海量资源库以及GUI交互为主;目前的第三代设备已经进入到交互式智能教育硬件,例如教育机器人和学习平板,大量使用ASR/NLP技术和外辅设备。下一代机器人会往哪个方向发展?玩瞳科技 CTO 潘鑫认为,视觉将是下一代机器人的基本能力,具备自然交互和主动伺服功能的多模态交互机器人将成为主流。视觉的能力将使机器人改变以往的被动服务形式,迈向主动服务,从而为使用者提供更好的服务体验。

TWS蓝牙耳机也是语音市场爆发可以看得到的主力军。根据蓝牙联盟数据,2018年全球语音产品出货量为8.8亿台,这其中包括各种蓝牙耳机、智能音响等。而预计到2022年仅TWS蓝牙耳机出货量就将达到8亿只,对应的SoC市场规模将达到16亿颗,YoY增长率33%。这其中还不包括苹果的产品。
4.jpg
CEVA大客户经理田元

CEVA大客户经理田元表示,庞大且还在高速发展的智能语音市场,“有不同的场景需求,我们也提出超低功耗和高性能的两种解决方案,为 IC 设计公司提供更多的选择。”以炬芯的芯片为例,超低功耗的解决方案对应炬芯 ATS 283X 平台,高性能解决方案对应 ATS3609D 平台。

 

本文为EET电子工程专辑 原创文章,禁止转载。请尊重知识产权,违者本司保留追究责任的权利。
刘于苇
电子工程专辑(EETimes China)副主分析师。
  • AMD对显卡挖矿说Yes 前段时间,NVIDIA通过驱动限制显卡挖矿,其RTX 3060 显卡的驱动将会检测以太坊挖矿算法,并通过限制 hash rate 的方式将挖矿效能降低约 50%。而现在,NVIDIA的竞争对手AMD却对显卡挖矿这种做法说YES。
  • 2021-2030 无人机行业十大发展趋势 民用无人机行业在2010前后发力,特别是消费类无人机经过2014-2017的爆炸式发展以后,带动了民用其他行业和专业无人机的发展,然而,自2018年后,消费类无人机市场疲软下滑,行业与专业无人机快速发展,现在市场规模已超过了消费类,那么接下来的5-10年,消费类和行业&专业民用无人机的发展趋势如何呢?
  • 5G和GaN系列之一:全面了解 Sub-6Ghz大规模MIMO基础设施 为了满足RF前端的功率需求,原始设备制造商(OEM)开始使用氮化镓 (GaN)这种相对较新的商用半导体材料。其功率效率、功率密度以及处理更宽频率范围的能力使其非常适合大规模 MIMO 基站应用。
  • 后摩尔定律时代,不止晶体管微缩这一条路 20多年来一直有人在讨论“摩尔定律什么时候终结”,甚至每年都有人认为它明年就会终结,却从来没有应验。从集成电路技术的发展方向来看,晶体管微缩这条路预计到1纳米之后就走不通了,未来几年要提升芯片的效能,势必要往新材料和3D封装的方向努力。
  • 以自适应平台创见全新计算时代 随着智能互联设备的渗透,我们已来到半导体行业发展的拐点。这些智能设备充斥着我们的家庭、汽车、办公室、工厂、城市和云端。而实现无处不在的人工智能( AI )的代价在于,驱动这些设备的半导体器件所要承载的数据处理需求正呈指数级增长。
  • 因应高速运算挑战,CXL进化至2.0版 推动2.0版更新的主力来自于快速演进的数据中心架构,必须支持快速成长的人工智能(AI)与机器学习(ML)新兴任务,持续激增的云端运算以及网络和边缘的“云端化”也是因素之一。
  • 小鹏汽车正研发第二代超低空飞行汽 近日,作为国内三大新能源造车新巨头之一小鹏汽车,与蔚来、理想形成三角竞争之势。小鹏汽车的创始人何小鹏的梦想不局限于“地面”,还要让自己的汽车飞上天。何小鹏3月20日参加《遇见大咖》节目表示,2021年底就可以造出适合人们的飞行汽车。
  • 苹果下一代穿戴设备Apple AR预计配 苹果苹果一直在秘密研发未来可能取代手机的终端设备,其中AR智能穿戴Apple AR是其中非常重要的一部分或者说是核心技术。最新消息显示,苹果可能先推出AR头戴装置,并配备眼球追踪系统,以期实现看哪指哪。
  • Maxim最新同步整流DC-DC反相转换器 作为Maxim首款内部集成电平转换器的60V DC-DC反相转换器,这些器件与最接近的竞争方案相比,外部元件数量减少一半、能耗降低35%,从而节省高达72%的电路板空间。
  • 新型智能升压放大器CS35L45打造移 随着消费者越来越多地采用手机的内置扬声器来欣赏音乐、播客,看电影和玩游戏,Cirrus Logic现推出其最新的旗舰级CS35L45升压放大器,可为智能手机、平板电脑和移动游戏设备提供更丰富、更加身临其境的音频体验。
广告
热门推荐
广告
广告
广告
EE直播间
在线研讨会
广告
广告
广告
向右滑动:上一篇 向左滑动:下一篇 我知道了