虽然人工智能(AI)在科技行业并不算一个新鲜玩意,但当下的 AI 浪潮与以往不同,它已从学术界和行业内的渐进式发展,转变为全民关注的热潮。其中,大语言模型(LLM)的突破性进展功不可没。
如 GPT-4、Claude 3 等模型,已实现接近人类水平的复杂推理与多轮对话。同时,开源模型如 DeepSeek、Mistral 等的涌现,降低了企业部署门槛,成为推动行业创新的有力引擎。
多模态融合同样是 AI 发展的关键趋势。以 GPT-4V 为例,它能够分析图像并生成代码,而 Google Gemini 则支持音视频混合输入,展现出 AI 从单一模态向多模态协作演进的强大潜力。此外,边缘 AI 与端侧算力的突破也不容小觑,骁龙 8Gen3 等手机芯片,已能够本地运行 10B 参数模型,为低延迟 AI 应用提供了坚实支撑。
“这意味着AI 从单一模态向多维度协作演进,智能化也从云端向端侧扩散。”在英飞凌消费、计算与通讯创新大会(ICIC 2025)上,大象声科联合创始人 & CEO 张学良系统阐述了 AI 技术如何通过语音交互重塑终端设备体验,并指出:“智能的本质是交互,而语音是实现自然交互的终极入口。”
大象声科联合创始人 & CEO 张学良
语音交互是自然交互的终极形态
这种技术变革正在重构终端设备形态。AI PC、AI 手机等产品不断涌现,为用户带来智能化的交互体验。以联想为代表的头部企业,正全力推动个人电脑的智能化进程。在手机领域,AI 赋能的交互与图片检索功能,也已实现良好的用户体验。
新兴品类方面,张学良以智能眼镜为例表示,“2024 年 Meta 的 Rebecca 智能眼镜全球销量达 200 万台,今年预计还将继续增长,成为继手机、PC 后的第三大交互入口。”
传统智能家居设备如智能音箱,也在 AI 的助力下重焕生机,解决了以往自然语言理解与对话实现门槛高的问题。“判断设备是否智能,本质是看交互体验。” 张学良强调,语音作为人类最自然的交流方式,具有四大核心优势:
- 降低学习成本:无需适应键盘或触屏操作,用户即说即得;
- 场景普适性:覆盖家居、车载、办公等多场景,且大部分设备已具备麦克风和喇叭,无需大规模改造即可实现语音交互功能;
- 情感连接:通过个性化语音合成(如零样本复刻人声)增强用户黏性;
- 信息密度高:语音传递信息量大且精准,单位时间传递的信息量是文本的 3 倍以上。
据大象声科统计,搭载语音交互的设备用户日均交互次数达 23 次,远超触屏操作的 8 次。但张学良也指出,语音交互的核心挑战在于前端信号处理。
"前端信号处理是语音交互的隐形护城河",张学良强调,其中包括语音降噪、回声消除(AEC)、定向拾音、声源定位(DoA)等技术,重要性被长期低估。实验数据显示,未优化的前端处理会导致 ASR 识别率下降 40%,尤其是在嘈杂环境中,还会引发设备误唤醒、交互延迟等问题,严重影响用户体验。“而通过音频变焦技术可实现13米超远场拾音,误唤醒率降低90%。”
技术路线之争:链式处理 vs 端到端
针对语音交互的技术实现,张学良对比了两种主流方案:
- 链式处理(Chain Model):将交互分为前端信号处理、语音识别(ASR)、自然语言处理(NLP)、语音合成(TTS)等模块,逐一实现后再串联。优势在于模块独立优化、数据需求低,便于垂直领域定制;但存在错误逐级累积、延迟较高的问题。
- 端到端(End-to-End):“语音进 - 语音出”的黑箱模型,不进行模块划分,通过统一神经网络实现交互。其优势在于减少中间误差传播,数据充足时效果好且延时低,但需要海量标注数据,调试难度与成本较高。
虽然张学良看好端到端模式,但鉴于目前数据量缺失的问题,大象声科选择的是以链式处理为基础,通过神经网络优化传统信号处理,在保证性能的同时将功耗降低 50%。其自研的 Audio Zoom 技术,结合英飞凌 IM72D128 高信噪比麦克风,实现 13 米远场拾音与定向降噪,视频 - 音频同步变焦误差 < 0.5 秒。
未来,从交互到共情
张学良预测,AI 交互将经历三个阶段:
- 功能响应(2025-2027):完成基础指令交互,设备唤醒率 > 95%;
- 场景理解(2028-2030):结合上下文与环境感知,实现跨设备协同;
- 情感共情(2031+):通过多模态数据学习用户偏好,提供个性化情感支持。
目前,大象声科已将技术赋能数亿台终端设备,覆盖手机、耳机、汽车等品类。在与英飞凌的合作中,大象声科利用英飞凌高信噪比的麦克风,实现了 Audio Zoom 等创新功能。该音频变焦DEMO样机在摄像头上使用 8 颗麦克风线阵,达成 13 米远距离拾音,并同步实现音频与视频的变焦效果,使设备能够集中拾取画面中特定人物的声音;其与英飞凌合作的车载语音系统,在嘈杂环境下的指令识别准确率达 98.7%,误唤醒率 < 0.3 次 / 天,成为理想、蔚来等车企的标配方案。
