智能的本质是交互,而语音是实现自然交互的终极入口……

虽然人工智能(AI)在科技行业并不算一个新鲜玩意,但当下的 AI 浪潮与以往不同,它已从学术界和行业内的渐进式发展,转变为全民关注的热潮。其中,大语言模型(LLM)的突破性进展功不可没。

如 GPT-4、Claude 3 等模型,已实现接近人类水平的复杂推理与多轮对话。同时,开源模型如 DeepSeek、Mistral 等的涌现,降低了企业部署门槛,成为推动行业创新的有力引擎。

多模态融合同样是 AI 发展的关键趋势。以 GPT-4V 为例,它能够分析图像并生成代码,而 Google Gemini 则支持音视频混合输入,展现出 AI 从单一模态向多模态协作演进的强大潜力。此外,边缘 AI 与端侧算力的突破也不容小觑,骁龙 8Gen3 等手机芯片,已能够本地运行 10B 参数模型,为低延迟 AI 应用提供了坚实支撑。

“这意味着AI 从单一模态向多维度协作演进,智能化也从云端向端侧扩散。”在英飞凌消费、计算与通讯创新大会(ICIC 2025)上,大象声科联合创始人 & CEO 张学良系统阐述了 AI 技术如何通过语音交互重塑终端设备体验,并指出:“智能的本质是交互,而语音是实现自然交互的终极入口。”

大象声科联合创始人 & CEO 张学良

语音交互自然交互的终极形态

这种技术变革正在重构终端设备形态。AI PC、AI 手机等产品不断涌现,为用户带来智能化的交互体验。以联想为代表的头部企业,正全力推动个人电脑的智能化进程。在手机领域,AI 赋能的交互与图片检索功能,也已实现良好的用户体验。

新兴品类方面,张学良以智能眼镜为例表示,“2024 年 Meta 的 Rebecca 智能眼镜全球销量达 200 万台,今年预计还将继续增长,成为继手机、PC 后的第三大交互入口。”

传统智能家居设备如智能音箱,也在 AI 的助力下重焕生机,解决了以往自然语言理解与对话实现门槛高的问题。“判断设备是否智能,本质是看交互体验。” 张学良强调,语音作为人类最自然的交流方式,具有四大核心优势: 

  • 降低学习成本:无需适应键盘或触屏操作,用户即说即得;
  • 场景普适性:覆盖家居、车载、办公等多场景,且大部分设备已具备麦克风和喇叭,无需大规模改造即可实现语音交互功能;
  • 情感连接:通过个性化语音合成(如零样本复刻人声)增强用户黏性; 
  • 信息密度高:语音传递信息量大且精准,单位时间传递的信息量是文本的 3 倍以上。

据大象声科统计,搭载语音交互的设备用户日均交互次数达 23 次,远超触屏操作的 8 次。但张学良也指出,语音交互的核心挑战在于前端信号处理

"前端信号处理是语音交互的隐形护城河",张学良强调,其中包括语音降噪、回声消除(AEC)、定向拾音、声源定位(DoA)等技术,重要性被长期低估。实验数据显示,未优化的前端处理会导致 ASR 识别率下降 40%,尤其是在嘈杂环境中,还会引发设备误唤醒、交互延迟等问题,严重影响用户体验。“而通过音频变焦技术可实现13米超远场拾音,误唤醒率降低90%。”

技术路线之争:链式处理 vs 端到端

针对语音交互的技术实现,张学良对比了两种主流方案:

  1. 链式处理(Chain Model):将交互分为前端信号处理、语音识别(ASR)、自然语言处理(NLP)、语音合成(TTS)等模块,逐一实现后再串联。优势在于模块独立优化、数据需求低,便于垂直领域定制;但存在错误逐级累积、延迟较高的问题。
  2. 端到端(End-to-End):“语音进 - 语音出”的黑箱模型,不进行模块划分,通过统一神经网络实现交互。其优势在于减少中间误差传播,数据充足时效果好且延时低,但需要海量标注数据,调试难度与成本较高。 

虽然张学良看好端到端模式,但鉴于目前数据量缺失的问题,大象声科选择的是以链式处理为基础,通过神经网络优化传统信号处理,在保证性能的同时将功耗降低 50%。其自研的 Audio Zoom 技术,结合英飞凌 IM72D128 高信噪比麦克风,实现 13 米远场拾音与定向降噪,视频 - 音频同步变焦误差 < 0.5 秒。

未来交互到共情

张学良预测,AI 交互将经历三个阶段:

  • 功能响应(2025-2027):完成基础指令交互,设备唤醒率 > 95%;
  • 场景理解(2028-2030):结合上下文与环境感知,实现跨设备协同;
  • 情感共情(2031+):通过多模态数据学习用户偏好,提供个性化情感支持。

目前,大象声科已将技术赋能数亿台终端设备,覆盖手机、耳机、汽车等品类。在与英飞凌的合作中,大象声科利用英飞凌高信噪比的麦克风,实现了 Audio Zoom 等创新功能。该音频变焦DEMO样机在摄像头上使用 8 颗麦克风线阵,达成 13 米远距离拾音,并同步实现音频与视频的变焦效果,使设备能够集中拾取画面中特定人物的声音;其与英飞凌合作的车载语音系统,在嘈杂环境下的指令识别准确率达 98.7%,误唤醒率 < 0.3 次 / 天,成为理想、蔚来等车企的标配方案。

责编:Luffy
本文为EET电子工程专辑原创文章,禁止转载。请尊重知识产权,违者本司保留追究责任的权利。
阅读全文,请先
您可能感兴趣
Computex上Intel发布两款Arc Pro显卡,分别面向图形工作站和AI推理工作站。从这两款显卡,大致也能窥见Intel在GPU产品上尝试打开局面的方式…
受这笔AI芯片订单以及美国政策松绑的影响,英伟达股价在2025年5月14日大涨5.61%。
Imagination刚刚发布了E-series GPU IP新品,架构改进开始真正偏向AI计算——但它和市面上现有的解决方案又有所不同…
从“Perception AI”(感知AI)到“Agentic AI”(代理式AI),人工智能发展至今,已完成三次重大技术范式革新。展望未来,物理智能(Physical AI)更将打破数字与物理世界的边界,赋予AI影响现实环境的能力。
整体来看,特朗普政府的AI芯片出口规则调整本质是通过 “技术霸权+贸易保护” 重塑全球贸易秩序。
地缘政治动荡风险是另一个关键挑战。特朗普政府的“美国优先”政策加剧了市场的不确定性,特别是在中美贸易摩擦和技术封锁背景下,全球半导体供应链的稳定性受到严重威胁。
在本文中,我们将探讨SiC半导体产品如何实现高质量和高可靠性,以及SiC制造商为确保其解决方案能够投放市场所付出的巨大努力,这些努力不仅提升了产品性能,还确保了卓越的可靠性。
随着诸如无人机、智能驾驶汽车、无人农机、各种专用和消费机器人等智能无人设备广泛进入我们的工作和生活,这些设备的功能安全问题成为了一个值得关注的重要话题。
微型边缘人工智能是人类社会解锁更大的数据和环境控制权以及数据的实用价值的关键,最终实现更智能的AI驱动的未来。
面对数据中心液冷领域的关键挑战,英特尔携手壳牌全球解决方案公司,成功验证了一套由Supermicro和Submer提供硬件支持的全套浸没式液冷解决方案,为行业用户实现高效、可靠的冷却提供范本。
动动手指,关注公众号并加星标哦(1)先说低级错误是啥,一个就是在DDS模板中调用函数的时候,把函数名称拼错了,导致一直不成功;一个就是把Rn当成rn,以为用的是归一化的值,但其实ADS给的输出是没有归
 △广告 与正文无关 这几天,在江苏省南京市溧水区东屏街道工业园,一条260米长的智能产线正在试生产,它能以±20微米(μm)精度光刻PCB(印制电路板),悄然重塑着国内高端印制电路板制造的新模式。这
英国金融时报上周报道称,英伟达计划在上海设立研发中心,以维持其在 AI 芯片领域的领先地位。5月20日,英伟达回应称:“我们正在为现有员工租用一个新的办公空间,这是我们在中国持续深耕的努力。但我们遵守
芯片超人现有1600平米芯片智能仓储基地,现货库存型号1000+,品牌高达100种,5000万颗现货库存芯片,总重量10吨,库存价值高达1亿+。同时,芯片超人在深圳设有独立实验室,每颗物料均安排QC质
5月19日,以“开拓养虾新纪元”为主题的2025第四届中国高值虾类产业年会暨海南虾苗推介会在福建漳浦成功举办。作为水产数字化领域的创新先锋,机智云旗下智慧渔业板块子品牌渔军师|渔易受邀参会,机智云总经
5月19日晚,上海韦尔半导体股份有限公司(以下简称“韦尔股份”)发布公告,宣布拟将公司中文名称变更为“豪威集成电路(集团)股份有限公司”,英文名称变更为“OmniVision Integrated C
  打造一个完美的洁净厂房,就如同为精密制造构筑一座无尘圣殿,对产品品质的保障具有决定性意义!一个符合国际标准的洁净厂房,不仅能显著提升产品良率,更能为企业创造难以估量的商业价值。
想第一时间收到我们的更新吗?只需两步,为文档君加上“爱你一万年”星标⭐!没有星标,你爱的文档君就要跟你失联啦~
面板价格(5月)根据TrendForce集邦咨询旗下显示器研究中心《TrendForce 2025面板价格预测月度报告》最新调研数据,2025年5月,电视面板价格与笔电面板价格继续保持稳定,显示器面板
《APM32芯得》系列内容为用户使用APM32系列产品的经验总结,均转载自21ic论坛极海半导体专区,全文未作任何修改,未经原文作者授权禁止转载。目前官方SDK的USB设备例程“APM32E10x_E