亚马逊Alexa、谷歌助手和苹果Siri等消费者语音平台的兴起从根本上重塑了人们对语音交互的期望。这些在智能家居和个人设备中无处不在的平台催生了对汽车中对话式直观语音系统的需求,而免提交互已成为新车买家对安全性和便利性的期望。
语音识别成为汽车系统的一部分已有二十多年的历史,从福特SYNC和梅赛德斯-奔驰Linguatronic等基于关键字的基本系统发展到我们今天看到的更先进的语音助手。早期的系统功能有限,命令结构僵化,无法处理自然语音,因此常常令用户感到沮丧。
目前的系统采用先进的自动语音识别(ASR)和自然语言处理(NLP)技术,并由麦克风阵列提供支持,可以执行调整音量、拨打电话或更改音乐曲目等基本任务。然而,它们在处理复杂或上下文相关的命令时却显得力不从心,而且它们控制的系统通常在架构上是分离的,导致功能有限且运行不畅。
尽管车载语音助手的集成度不断提高,但其使用率仍然相对较低,许多驾驶员在初次使用后就放弃了。挑战在于如何缩小这些现有系统与驾驶员所期望的自然、直观体验之间的差距。
时至今日,车载语音技术正处于变革的边缘。为OpenAI的ChatGPT和Google Gemini等系统提供支持的大型语言模型(LLM)的出现,正在推动从简单的命令式系统向能够理解上下文、管理复杂任务、学习消费者行为并预测用户需求的智能语音助手的转变。
先进的LLM可以实现多模式交互,将语音与文本、图像和视频相结合,以获得更自然、更多样化的用户体验。展望未来,语音将成为车载系统的主要界面,并通过其他模式的增强,大大改善用户交互。
向软件定义汽车(SDV)的转变进一步推动了这一转变,在SDV中,整个车辆的集成软件(而不是孤立的硬件)决定了车辆的功能。在SDV中,语音成为控制信息娱乐、调整座舱设置、导航路线、查询车辆健康状况等的关键。随着自动化水平的提高,特别是高级驾驶辅助系统第4级和第5级的出现,语音作为中央界面的应用将进一步加快。在完全自动驾驶汽车中,乘客将与语音助手互动,以管理娱乐、监测他们的健康状况和管理商业活动,从而将汽车转变为家庭的延伸。
然而,这种转变也带来了挑战,特别是在边缘计算和基于云的人工智能之间的争论中。边缘计算具有重要优势,如减少延迟、降低带宽要求,以及无需互联网连接即可运行。它通过在本地处理命令来确保隐私和响应速度。
但是,由于实时人工智能处理需要强大的计算能力,因此将LLM集成到边缘模型中会带来挑战。相反,基于云的人工智能(AI)可以访问更大、最新的模型,但会带来延迟、连接依赖性、持续访问的订阅成本以及数据隐私问题。
数据所有权是汽车制造商的另一个关键考虑因素。由于语音系统收集了大量用户数据(包括偏好、驾驶习惯甚至情绪状态),汽车制造商必须决定是将这些数据保留在内部还是与第三方平台共享。通过控制这些数据,OEM厂商可以开辟新的收入来源,例如定向广告或个性化服务,并更好地了解客户行为和偏好,以创造更好的产品和服务,同时还能保护用户隐私。
为了充分利用语音技术的潜力,汽车制造商应该掌握与基础LLM的关系。通过将这些模型直接集成到其生态系统中,OEM厂商可以减少对第三方平台的依赖,确保其系统保持独特性并降低长期成本。
像Sensory这样的供应商已经在倡导边缘优先的语音AI解决方案,提供能够处理车辆特定语音命令的嵌入式语言模型,并集成车主手册和车辆状态查询等功能——同时在有连接的情况下,从基于云的LLM检索动态和复杂的响应。这种混合方法可确保关键的控制和信息系统能够离线运行,同时有选择地利用云端获取更广泛的知识并执行车外的补充任务。
展望未来,语音技术将超越基本命令,成为车内体验不可或缺的一部分。由LLM支持的智能语音助手将管理复杂的多层次任务,从个性化娱乐到健康监测和车载商务(图1)。
图1:汽车语音时间线。
随着软件定义自动驾驶汽车的普及,语音将在定义用户体验方面发挥关键作用。那些优先考虑集成语音解决方案(同时保持对数据、隐私和客户参与的控制)的汽车制造商,将引领下一代汽车的发展,其中软件和语音将成为定义移动未来的核心要素。
(原文刊登于EE Times美国版,参考链接:The Evolution of Voice in Automotive,由Franklin Zhao编译。)
本文为《电子工程专辑》2025年4月刊杂志文章,版权所有,禁止转载。免费杂志订阅申请点击这里。
