迈向人类级驾驶智能:VLA视觉语言行动模型

原创 汽车电子设计 2025-05-10 07:59

图片芝能科技出品


2025年,由于安全和强监管的作用,辅助驾驶行业正处于黎明前的黑暗。


面对复杂的现实路况、多样的人类行为模式,以及传统AI在泛化和理解能力上的瓶颈,理想汽车在《AI Talk第二季》系统性的阐述了“VLA(视觉语言行动模型)”。


从逻辑上来看,VLA不是单一的模型升级,从模仿昆虫般的规则算法,到具备哺乳动物智能的端到端系统,再到真正具有人类驾驶认知和执行能力的“司机大模型”。


我们从技术演化的三阶段入手,深入解析VLA的架构组成、训练流程和关键突破,探讨它如何打破智能驾驶发展的困局,成为迈向L4+自动驾驶的关键支点。




01

从蚂蚁到人类:

VLA技术演化的三阶段



阶段一:规则驱动与“昆虫智能”


回溯智能驾驶的早期阶段,我们依赖于机器学习下的感知模块,配合高精地图、规则算法执行。系统的每一个子模块(感知、规划、控制)都需精密耦合,更多依赖人工设定的规则。


这一阶段,智能驾驶系统更像是一只被设定程序路径的“蚂蚁”:只能在特定场景中“爬行”,缺乏对环境的真正理解和泛化能力。


◎ 感知模型参数规模小:仅几百万参数,处理能力严重受限。


◎ 对地图强依赖:高精地图一旦失效,系统极易出现功能崩溃。


◎ 缺乏上下文理解能力:面对突发场景(如施工绕行、人为交通指挥等)无所适从。


这正如马戏团里受训的昆虫,仅能在被设定轨道内完成任务,缺乏主动决策与认知能力。


阶段二:端到端与“哺乳动物智能”


2023年起,理想汽车启动端到端(E2E)辅助驾驶研究,并在2024年开始实车部署。端到端模型将感知与控制流程一体化,通过大规模数据驱动“模仿学习”。


该阶段的模型能通过模仿人类驾驶行为完成任务,具备初步泛化能力。


◎ 学习对象为人类驾驶行为:模型能够“看图开车”,感知场景并输出驾驶指令。


◎ 缺乏因果推理能力:模型虽能模仿,但无法理解行为背后的因果关系。


◎ VLM(视觉语言模型)的初步引入:引导模型理解交通信号语义和少量文字信息,但由于开源VLM多为低分辨率,泛化能力不足。


端到端系统像是能骑车的猩猩:虽然能完成任务,但并不真正理解交通世界的规律与逻辑。这种“经验驱动”的模型仍存在理解维度浅、推理能力弱、泛化能力有限等瓶颈。


阶段三:VLA(司机大模型)与“人类智能”


进入VLA时代,智能驾驶系统不再是规则控制器,也不仅仅是模仿者,而是拥有“类人思维”的驾驶主体。


VLA系统具备真正意义上的三重能力融合


◎ Vision:3D视觉 + 高清2D图像;


◎ Language:交通语言理解 + 内部CoT推理链;


◎ Action:驾驶行为的计划、决策与执行。


VLA不同于传统VLM或E2E模型,它不仅能“看懂世界”,还能“理解”并“行动”,其智能程度首次接近人类驾驶员。



02

技术架构解析:

如何构建一个“司机大模型”?



预训练阶段的目标是打造一个视觉与语言紧密融合的VL(Vision + Language)多模态大模型,作为VLA的训练起点。


当前版本的模型规模达到32B(320亿参数)级别,并部署于云端训练平台。


此模型整合了丰富的视觉语料,包括3D空间感知和高清2D图像,其图像分辨率相比现有开源VLM提升了10倍,覆盖了远距识别、交通标志以及动态场景等复杂要素。


同时,语言语料涵盖了驾驶指令、路况语义及行为规则,包含导航信息、人类指令和驾驶习惯用语。


联合语料方面,通过将视觉语境与语言语义共同嵌入,如导航地图结合驾驶行为的理解,三维图像与指令逻辑结合,旨在构建一个具备物理世界理解能力的“多模态世界模型”。


完成预训练后,32B模型被蒸馏为3.2B端侧模型,以适配Orin-X或Thor-U硬件平台,采用MoE(混合专家模型)架构实现效率与精度的平衡,确保模型能在实时40Hz帧率以上运行,满足车规级部署要求。



进入后训练阶段,重点转向从理解到行动的模仿学习。


如果说预训练赋予了模型“看与听”的能力,那么这一阶段则是让模型学会“动手”。


通过大规模人车共驾数据的学习,模型能够模仿人类驾驶行为,学习轨迹、加速、刹车等操作。此外,生成式行为学习不仅限于回归预测,还能够进行轨迹生成与优化。


任务集成模型(TAM)结构则将视觉语言理解与动作生成深度融合,提高任务执行效率。


最终形成一个具备完整驾驶循环的VLA结构:从环境感知、意图理解到驾驶行为执行,构成闭环控制系统。


模型扩展至4B参数,保留CoT(思维链)机制但限制在2~3步内,以兼顾推理能力和系统延迟。



强化训练阶段强调的是从驾校到真实道路的过渡,注重人类偏好与安全边界控制。


不同于传统的RL方法,VLA的强化训练体系引入了RLHF(人类反馈强化学习),通过人类介入标注数据形成“人接管—AI迭代”循环,融入用户偏好、道路安全行为习惯等软性目标。


Diffusion预测模块能够在执行动作前预测未来4~8秒内的环境与轨迹变化,提供因果推理能力,为决策提供时域支持。


这一过程如同驾驶员从实习到正式上岗的过程,使VLA不仅能开车,而且能安全、稳健地应对真实世界中的突发情况。



视觉语言行动模型(VLA)体系中,最具突破性、也最贴近用户实际驾驶需求的部分,就是“司机Agent”的构建。


所谓“司机Agent”是一个具备类人驾驶智能的“数字驾驶员”——它不仅能够看清楚、听明白,更关键的是,它能理解路况、语言指令以及驾驶意图,并做出合理的行动决策。这是VLA三个阶段演进的核心成果。


传统的感知+规则算法,像昆虫一样只能被动反应、遵循简单指令。而端到端模型虽更聪明,像是训练有素的动物,可以模仿人类行为,却缺乏真正的世界理解。


而VLA中的司机Agent则进一步融合了3D视觉理解、语言推理(CoT),以及实时行动策略学习能力,可以将一段自然语言“你在前方出口处靠右行驶”翻译为精准的轨迹控制,甚至在突发场景下进行动态调整。这意味着它不仅能看清红绿灯,还能“理解”红绿灯的语义和策略影响。


司机Agent依托于三个关键训练步骤构建而成:


◎ 首先基于云端32B模型进行视觉语言联合建模,以理解3D现实世界与高分辨率2D图像并建立交通语境下的“语言-视觉”嵌套结构;


◎ 其次在端侧3.2B蒸馏模型上通过模仿学习实现行动建模,从人类驾驶数据中学会对视觉语义做出反应;


◎ 最后通过强化学习(尤其是RLHF)引入人类反馈,使系统不仅能学习“如何做”,更能学会“如何避免错误”,从而优化安全边际与驾驶习惯,完成从模拟到实战的过渡。


VLA的司机Agent并非只是一套规则的叠加,而是一个拥有短链推理能力(CoT)多模态协同决策能力的泛化智能体。


在保持执行实时性的同时,它可以做出“如果我现在加速,5秒后前车可能会减速”的因果推演,并结合其训练过的行为偏好,选择更符合人类驾驶风格的方式进行操作。


这个“司机Agent”是VLA真正走向量产落地的核心标志:它不仅是模型的集合体,更是驾驶行为的数字化拷贝。


这一Agent的成熟将直接决定辅助驾驶是否能从“功能堆叠”迈向“驾驶替代”,真正成为每一位用户可信赖的“副驾”。



小结

   VLA的意义不仅是技术,

而是产业的破局钥匙


VLA的出现,不只是技术体系的进化,更是辅助驾驶行业从困境走向突破的关键。今天的辅助驾驶争议重重:技术无法闭环、泛化能力弱、安全问题频出。


但正因如此,VLA应运而生。不仅具备了“类人认知”,还以工程化路径落地,在算力可控范围内实现高度拟人化驾驶体验。它将视觉、语言、行动三者融合,从理解世界到改变世界,迈出了自动驾驶真正“可商用、可规模化”的第一步。


VLA并非终点,而是一个开端。正如黎明前的黑暗终将过去,VLA标志着辅助驾驶正从工程试验品,迈向未来社会的基础设施。

汽车电子设计 本公众号是博主和汽车电子的行业的工程师们一起交流、探讨、思考的小结,以作为技术交流和沟通的桥梁
评论
  • ‌磁光克尔效应(Magneto-Optic Kerr Effect, MOKE)‌ 是指当线偏振光入射到磁性材料表面并反射后,其偏振状态(偏振面旋转角度和椭偏率)因材料的磁化强度或方向发生改变的现象。具体表现为:1、‌偏振面旋转‌:反射光的偏振方向相对于入射光发生偏转(克尔旋转角 θK)。2、‌椭偏率变化‌:反射光由线偏振变为椭圆偏振(克尔椭偏率 εK)。这一效应直接关联材料的磁化状态,是表征磁性材料(如铁磁体、反铁磁体)磁学性质的重要非接触式光学探测手段,广泛用于
    锦正茂科技 2025-05-12 11:02 110浏览
  • 【拆解】+自动喷香机拆解 家里之前买了从PDD买了一个小型自动喷香机放在厕所里。来增加家里的温馨感,这东西看着确实小巧,精致。可是这东西吧,耗电就是快,没过几天就没电了。今个就让我拆开看看什么在捣鬼。如下是产品的实物和宣传图: 由于螺丝孔太小和限位很深。对于我的螺丝刀套装没用。只能使用那种螺丝刀细头,同时又长的小螺丝刀进行拆解 拧下三颗螺丝钉,用一字螺丝刀撬开外壳,内部结构就呈现在眼前。 内部构造相当简单,部件没多少。就是锂电池供电,通过MCU实现按键控制,段码屏控制,LE
    zhusx123 2025-05-10 19:55 59浏览
  • 在印度与巴基斯坦的军事对峙情境下,歼10C的出色表现如同一颗投入平静湖面的巨石,激起层层涟漪,深刻印证了“质量大于数量”这一铁律。军事领域,技术优势就是决定胜负的关键钥匙。歼10C凭借先进的航电系统、强大的武器挂载能力以及卓越的机动性能,在战场上大放异彩。它能够精准捕捉目标,迅速发动攻击,以一敌多却毫不逊色。与之形成鲜明对比的是,单纯依靠数量堆砌的军事力量,在面对先进技术装备时,往往显得力不从心。这一现象绝非局限于军事范畴,在当今社会的各个领域,“质量大于数量”都已成为不可逆转的趋势。在科技行业
    curton 2025-05-11 19:09 181浏览
  • 在 AI 浪潮席卷下,厨电行业正经历着深刻变革。AWE 2025期间,万得厨对外首次发布了wan AiOS 1.0组织体超智能系统——通过AI技术能够帮助全球家庭实现从健康检测、膳食推荐,到食材即时配送,再到一步烹饪、营养总结的个性化健康膳食管理。这一创新之举并非偶然的个案,而是整个厨电行业大步迈向智能化、数字化转型浪潮的一个关键注脚,折射出全行业对 AI 赋能的热切渴求。前有标兵后有追兵,万得厨面临着高昂的研发成本与技术迭代压力,稍有懈怠便可能被后来者赶
    用户1742991715177 2025-05-11 22:44 78浏览
  •   定制软件开发公司推荐清单   在企业数字化转型加速的2025年,定制软件开发需求愈发多元复杂。不同行业、技术偏好与服务模式的企业,对开发公司的要求大相径庭。以下从技术赛道、服务模式及行业场景出发,为您提供适配的定制软件开发公司推荐及选择建议。   华盛恒辉科技有限公司:是一家专注于高端软件定制开发服务和高端建设的服务机构,致力于为企业提供全面、系统的开发制作方案。在部队政企开发、建设到运营推广领域拥有丰富经验,在教育,工业,医疗,APP,管理,商城,人工智能,部队软件、工业软件、数字化转
    华盛恒辉l58ll334744 2025-05-12 15:55 120浏览
  • 行车记录仪是长这个样子的,如下图。从前面拆去玻璃挡板,可以清晰的看见里面的部件,5个按键电路板,液晶显示屏,摄像头,喇叭,电池包,还有一块主电路板。液晶显示屏正面,如下图。液晶显示屏背面,如下图。喇叭,如下图。5个按键的电路板,MENU,DOWN,POWER,UP,OK总共5个按键功能,导线连接到主电路板上,如下图。电池包,303040聚合物锂电池,3.7V,300mAH,如下图。如下图。摄像头,如下图。拿去摄像头外壳,如下图。分离广角聚集镜头和PCB板,如下图。广角聚焦镜头,具体结构如下图。P
    liweicheng 2025-05-09 22:50 33浏览
  • 【拆解】+CamFi卡菲单反无线传输器拆解 对于单反爱好者,想要通过远程控制自拍怎么办呢。一个远程连接,远程控制相机拍摄的工具再合适不过了。今天给大伙介绍的是CamFi卡菲单反无线传输器。 CamFi 是专为数码单反相机打造的无线传输控制器,自带的 WiFi 功能(无需手机流量),不但可通过手机、平板、电脑等设备远程连接操作单反相机进行拍摄,而且还可实时传输相机拍摄的照片到 iPad 和电视等大屏设备进行查看和分享。 CamFi 支持大部分佳能和尼康单反相机,内置可充电锂离子电池,无需相机供电。
    zhusx123 2025-05-11 14:14 102浏览
  • 体积大小:14*11*2.6CM,电气参数:输入100V-240V/10A,输出16V24A。PCB 正面如下图。PCB 背面如下图。根据实际功能可以将PCB分成几部分:EMI滤波,PFC电路,LLC电路。EMI滤波区域,两级共模电感,LN各用了保险丝加压敏电阻,继电器(HF32FV-G)用来切除NTC的,为了提高效率点,如下图。PFC电路区域,如下图。LLC电路区域,如下图。详细分析一下该电源用的主要IC还有功率器件。AC侧采用了两颗整流桥进行并联,器件增加电流应力,如下图。共模电感都有放电针
    liweicheng 2025-05-10 20:03 46浏览
  • 蓝牙耳机是长这个样子,如下图。背部图,如下图。拆开L耳的一侧,有NFC和电池包(501230 3.7V 150mAh)如下图。电池包(501230 3.7V 150mAh)如下图。NFC正面,如下图。NFC背面,如下图。如何理解NFC的工作原理呢,搜集一下相关的资料,如下图。拆开R耳的一侧,PCB正面,如下图。PCB背面,如下图。有两组红黑的线,一组连接到了喇叭,另一组连接到了MIC头上,MIC头参数如下图。蓝牙模块(CSR 8635),有蛇形PCB走线做成天线,节约了天线成本,如下图。该IC介
    liweicheng 2025-05-10 00:45 40浏览
  • 文/Leon编辑/cc孙聪颖‍在新能源汽车赛道的残酷洗牌中,威马、爱驰等数十个品牌黯然退场,极越、哪吒汽车也深陷经营困局,“跨界造车” 早已褪去曾经的光环,成为吞噬企业资金与精力的风险泥潭,尤其对上市公司而言,稍有不慎便会被拖入业绩泥沼。当行业共识已清晰显现 —— 新能源汽车市场这片红海正上演着惨烈的生存之战,石头科技创始人昌敬却逆势入局,掌舵极石汽车,其押注造车的抉择,正让本就面临挑战的石头科技主业雪上加霜。2025 年 4 月中旬,昌敬突然清空微博、抖音等社交媒体账号的举动,迅速引爆舆论场。
    华尔街科技眼 2025-05-09 20:53 30浏览
  •   基于 2025 年行业权威性与时效性,以下梳理国内知名软件定制开发企业,涵盖综合型、垂直领域及特色技术服务商:   华盛恒辉科技有限公司:是一家专注于高端软件定制开发服务和高端建设的服务机构,致力于为企业提供全面、系统的开发制作方案。在部队政企开发、建设到运营推广领域拥有丰富经验,在教育,工业,医疗,APP,管理,商城,人工智能,部队软件、工业软件、数字化转型、新能源软件、光伏软件、汽车软件,ERP,系统二次开发,CRM等领域有很多成功案例。   五木恒润科技有限公司:是一家专业的部队信
    华盛恒辉l58ll334744 2025-05-12 16:13 87浏览
  • 递交招股书近一年后,曹操出行 IPO 进程终于迎来关键节点。从 2024 年 4 月首次递表,到 2025 年 4 月顺利通过中国证监会境外发行上市备案,并迅速更新招股书。而通过上市备案也标志着其赴港IPO进程进入实质性推进阶段,曹操出行最快有望于2025年内完成港股上市,成为李书福商业版图中又一关键落子。行路至此,曹操出行面临的挑战依然不容忽视。当下的网约车赛道,早已不是当年群雄逐鹿的草莽时代,市场渐趋饱和,竞争近乎白热化。曹操出行此时冲刺上市,既是背水一战,也是谋篇布局。其招股书中披露的资金
    用户1742991715177 2025-05-10 21:18 58浏览
  •         信创产业含义的“信息技术应用创新”一词,最早公开信息见于2019年3月26日,在江苏南京召开的信息技术应用创新研讨会。本次大会主办单位为江苏省工业和信息化厅和中国电子工业标准化技术协会安全可靠工作委员会。        2019年5月16日,美国将华为列入实体清单,在未获得美国商务部许可的情况下,美国企业将无法向华为供应产品。       2019年6
    天涯书生 2025-05-11 10:41 128浏览
我要评论
0
点击右上角,分享到朋友圈 我知道啦
请使用浏览器分享功能 我知道啦