理想汽车VLA的三个为什么?

原创 Vehicle 2025-05-10 20:38
理想成功,全靠油箱 - 这是理想汽车当前最想证明给大家-“这是错误的”。
不得不说,理想非常精准的抓住汽车电气化转型时候的一个机会,找到技术跨越鸿沟的梯子 - 可油可电而且技术实现相对简单的增程式,发电机发电给电池充电,汽车其他所有结构都类似于纯电汽车结构。具体可以点击我们之前文章《理想汽车凭什么获得新势力销量第一并在港股融资》查看。
理想从当时的三个新势力中脱颖而出,把其他两个势力甩的远远的,成为消费者和资本都追捧的宠儿。最近理想广泛推广的VLA也成了大家追捧的热门词,所以本文围绕以下三个方面构建内容,帮助大家全方位理解理想的VLA。
  • 理想汽车为什么这个时候推出VLA?
  • 理想汽车VLA能够给智能辅助驾驶带来哪些产品亮点?
  • 理想汽车VLA到底怎么样?
被围猎的理想
但从2022年开始,问界推出增程式并且一年后销量直逼理想,如果说问界的销量给理想造成巨大威胁是有华为加持的话。那么从2023年开始推出增程式的零跑,自此登上了新能源新势力的榜单,并且在2025年初就成为继理想汽车之后的第二家盈利的新势力。于是,这两年增程式一发不可收拾,不管新势力和传统势力,不管中国品牌还是外资品牌都在这两年会上增程式。
所以,理想汽车现在危机感重重,他急需寻求他的第二曲线 -- 最会读懂趋势的理想汽车必然找到的是AI人工智能,AI人工智能是怎么发展的?到了哪个节点?利用好它,从产品和营销上狠狠的赢一把,树立明确的有诱惑力和想象空间的产品标签,让投资者看到发展希望,让消费者趋之若鹜。
熟悉我们之前文章《2025 CES 英伟达发布洞察:Agentic AI/Physical AI 快速落地,未来已来》的读者肯定知道Physical AI/Agentic AI就是当前AI的趋势和方向。
图片
于是理想找到了新的标签 - 在智能辅助驾驶方面将两个热门AI词都用上的Physical Agent,落地的技术是 VLA ,如果还不知道VLA是啥点击《2025年,自动驾驶即将开“卷”的端到端大模型 2.0 - VLA (Vision Language Action)》。
VLA落地的产品特点
理想将他的VLA称为MindVLA。并表示MindVLA将为用户带来全新的产品形态和产品体验,由MindVLA赋能的汽车是听得懂、看得见、找得到的专职司机
“听得懂”是用户可以通过语音指令改变车辆的路线和行为,例如用户在陌生园区寻找超市,只需要通过理想同学对车辆说:“带我去找超市”,车辆将在没有导航信息的情况下,自主漫游找到目的地;车辆行驶过程中,用户还可以跟理想同学说:“开太快了”“应该走左边这条路”等,MindVLA能够理解并执行这些指令。
“看得见”是指MindVLA具备强大的通识能力,不仅能够认识星巴克、肯德基等不同的商店招牌,当用户在陌生地点找不到车辆时,可以拍一张附近环境的照片发送给车辆,拥有MindVLA赋能的车辆能够搜寻照片中的位置,并自动找到用户。
“找得到”意味着车辆可以自主地在地库、园区和公共道路上漫游,其中典型应用场景是用户在商场地库找不到车位时,可以跟车辆说:“去找个车位停好”,车辆就会利用强大的空间推理能力自主寻找车位,即便遇到死胡同,车辆也会自如地倒车,重新寻找合适的车位停下,整个过程不依赖地图或导航信息,完全依赖MindVLA的空间理解和逻辑推理能力。
总的一句话就是,和人一样的交互,类似于一个专职司机,但理想的Physical Agent 和 VLA 到底怎么样,必须先拆解其技术原理
VLA 技术原理
具体VLA模型结构以及细节可以查看之前文章《理想智驾的VLA模型及其结构》,那么如何实现从工程上进行实现,具体有四个步骤:
首先,理想在云端训练了一个基座模型,基座模型训练的数据包含了三个部分数据,分别是vision(视觉)的数据,language(语言)的数据和VL(视觉和语言)联合的数据。
这个基座模型参数量大概是32B(320亿),根据李想AI Talk演讲信息,这个基座模型可能采用Deepseek开源蒸馏形成,最少也是借鉴结构方法理论,例如MoE(混合专家模型),理想表示其模型有8个专家组成的MoE模型
有了这个基座模型之后,就将其蒸馏成一个 3.6B(36亿)参数量的满足车端部署的车端小模型。
其次,后训练,后训练将蒸馏的小模型变成VLA(司机大模型)。上一步的模型算是理解环境,这一步就是将action(行动)放进来,Action就是车辆规划控制,将他们组合成一个VLA(司机大模型)的端到端,打通从感知到规控的链路,确保输入感知信息然后输出转向,电们,刹车等车控。
最终这个车端VLA模型参数量大概是4B (40亿)。
第三步是强化的训练,算是驾驶针对性教育这个模型,理想强化训练分为两个部分:
第一个部分先做RLHF(基于人类反馈的强化学习),利用理想原来积累的人类接管数据来训练,让模型知道什么是好和不好。
第二个部分是纯粹的RL(强化学习),采用世界模型来训练,世界模型的概念其实就是人类世界的物理规则集合体,他可以用来教育或者叫训练模型,理想的世界模型包括三类规则:
  • 舒适性规则 - 主要通过G 值(加速度数值)来判断它的舒适性,给舒适性的反馈。
  • 安全碰撞规则 - 让模型知道碰撞是不允许的。
  • 交通规则 - 不能违反交通规则。
舒适、交通规则和安全碰撞就是理想世界模型的三大规则。
以上三个阶段就构成了 VLA(司机大模型)。
但怎么让人和车交互组成所谓的Physical Agent?理想表示搭建一个司机的Agent(智能体),也就是语言,图片的交互体系。
他的逻辑是一些通用的短指令,部署在车端的 VLA(司机大模型)直接就处理了。如果是一些复杂的指令,其实先要到云端的 32B 模型那里处理完以后,再下发车端VLA。
其实这里,可以发现理想VLA可能在一些特定的指令和环境能够做好在这个类人的交互,但是复杂场景实时性难以得到保证。
以上就是完整的理想VLA方法和结构体系。
写在最后
总结起来,和我们之前文章《自动驾驶新风口:DeepSeek-R1 的“车端革命”》预测的一样。Deepseek算是AI大模型的Linux时刻,基于Deepseek开源应用或者借鉴在不同行业中推广应用,理想走在了前列,至少“说出来的”走在前列。
理想在云端构建了一个多模态的类Deepseek大模型,然后将其蒸馏成车端小模型,采用相同Token语言链接车辆规控以及人类交互。
具体好不好用,通过公开文字和信息很难识别,毕竟我们最容易获得的信息是别人想让你看到的
不过,理想VLA 确实从芯片底层交互的编译进行大量的先行工作,促使VLA在双orin以及英伟达最新的Thor上都能够使用,同时我们之前文章理想智驾的VLA模型及其结构》讲到在智能辅助驾驶算法领域创新性的采用3DGS、Diffusion、MoE、CoT等AI大模型领域技术
未经准许严禁转载和摘录

>>>>

相关推荐

  • 2025上海车展 - 合资品牌吹响反攻的号角

  • 比亚迪的智驾梦:2025年,真能让“聪明车”普及吗?

  • 吉利汽车的高阶智驾普及方案

  • 特斯拉"Master Plan Phase 4"路线图全解构:能源×FSD×AI×机器人=?

  • 2025 CES 英伟达发布洞察:Agentic AI/Physical AI 快速落地,未来已来

Vehicle 不断奔跑才能应对变化,与汽车业内企业个人一起成长
评论
  • 一、应用背景:为什么需要图像批量加水印?在电商、媒体和内容创作领域,加水印是保护图片版权的基本手段。防止盗图、转载、抄袭给公司 logo、作者信息、网址打标识批量图片一次性处理,提升效率如果每天需要对几十、上百张图片加水印,使用 PS 或手工拖拽会非常繁琐。Python 可以:✅ 一键批量加水印✅ 支持透明度、字体、颜色设置✅ 自定义水印位置与旋转角度✅ 批量输出为 JPEG、PNG 等格式二、准备工作与开发环境1. 安装核心图像处理库 Pillowbash复制编辑pip install pil
    小菜菜编程 2025-06-19 07:26 1006浏览
  • 文/Leon编辑/cc孙聪颖6月9日,美团在北京美团总部恒电大厦举行股东周年大会,美团创始人、CEO王兴携一众高管出席。在回答股东问题的环节,王兴谈及与京东、淘宝闪购的竞争时表示:“第一,我们非常欢迎更多参与者入场的;第二,再次重申美团是坚决反对内卷的;第三,我们对长期是很有信心的。”然而,据自媒体《划重点》公开报道称,有参会股东透露,疑似提前安排好的问题和管理层全程读稿式的回答令部分现场股东感到不满。在会议结束后,现场股东将负责市场和投资的副总裁徐思嘉围了起来,在小会议室继续沟通了半个小时。不
    华尔街科技眼 2025-06-17 19:11 711浏览
  • 在RoCE v2协议中,RoCE v2队列是数据传输的最底层控制机制,其由工作队列(WQ)和完成队列(CQ)共同组成。其中工作队列采用双向通道设计,包含用于存储即将发送数据的发送队列(SQ)和用于存储已接收到的数据的接收队列(RQ),二者共同组成了端到端的数据传输管道(Pipeline)每一个SQ与RQ绑定起来称为队列对(QP),每个队列对中包含有若干个工作队列元素(WQE)和一些其他元素如本地接收队列指针、本地发送队列指针、远程接收队列指针、远程发送队列指针等。同样的,每一个CQ中也存在着若干
    zzbwx_326664406 2025-06-18 11:49 192浏览
  • 概述在工业自动化领域,PLC(可编程逻辑控制器)是生产过程的核心,其性能直接影响系统的稳定性和效率。然而,在多主站应用场景下,传统PLC往往面临诸多挑战,如协议兼容性不足、扩展性受限以及高昂的License费用,这些都增加了系统部署的复杂性和成本。宏集Berghof PLC基于CODESYS平台,凭借其强大的多主站支持能力和灵活的License选项,为工业控制提供了高效、灵活且经济的解决方案,助力企业优化自动化系统架构。传统PLC多主站应用的挑战在许多自动化应用中,设备需要同时支持多个通信主站,
    宏集科技 2025-06-19 10:58 373浏览
  • 中国汽车市场以年均超 3000 万辆的销量规模(占全球 1/3以上),正推动安全标准从被动防护向主动预防转型。2024 年 7 月实施的 C-NCAP ( China New Car Assessment Program)修订版首次将驾驶员监控系统(DMS)、道路特征识别(RFR)纳入评分体系,其中 DMS 占主动安全分值 40%(总分 2 分),检测准确率需≥90%。这一变革不仅响应工信部 GB/T 41796-2022 等三项国家标准要求,更标志着中国
    康谋 2025-06-18 10:25 322浏览
  • 在竞争白热化的智能汽车赛道,深蓝汽车近期因一系列“迷之操作”,被舆论的熊熊烈火炙烤得焦头烂额。事情起因是,大量深蓝汽车老车主公开吐槽称,深蓝汽车在没经过车主同意的情况下在车机大屏幕投放广告。为此,深蓝汽车及其CEO邓承浩发文道歉,并表示:内部已进行了流程优化,未来将不再通过车机通道给用户推送权益提醒。不过,道歉后深蓝汽车对用户隐私条例进行了更新,主要新增了用户数据采集,如果用户不同意更新,则只能以游客身份访问App。所以又有网友辣评,“这是要强行让大家同意看广告?”对此,深蓝汽车法务部发文回应:
    用户1742991715177 2025-06-17 18:21 642浏览
  • 作为自然界最敏锐的“通用语言”之一,从破土而出的植物新芽到钢铁熔炉中的炽热火焰,温度一直都在无声地影响着万物运行的节奏,它不仅是农业播种与收获、牧业养殖与繁育、工业材料加工与产品制造等领域的关键生产因素之一,更是所有地球生物赖以生存的重要气候参数。因此,如何更好地“读懂”温度已成为各行各业实现提质增效的重要突破点之一,而数字温度传感器就是人类通过发展物联网技术让温度实现快速“说话”的重要途径。数字温度传感器是一种能直接输出数字信号的传感器,具有微型化、易集成、低功耗与高精度等优势,已被广泛应用于
    华普微HOPERF 2025-06-19 09:39 1124浏览
  • 当数千伏工业电机快速启停时、当高速充电桩断电恢复时、当光伏逆变器遭遇雷击时,高压侧电路可能会因电感电流突变或浪涌耦合,产生幅值达母线电压数倍的电压尖峰。而在缺乏有效电气隔离措施或在寄生电容耦合作用的情况下,这些电压尖峰会迅速传导至低压侧电路,瞬间击穿MCU、传感器等敏感元器件,严重时还会威胁到操作人员的生命安全。因此,在现代电力电子系统的高低压电路之间引入隔离芯片,建立安全可靠的电气隔离屏障,已成多项安全标准与通用规范中的明确要求与刚性规定。其不仅能防止高压浪涌、短路漏电等不良现象损坏敏感元器件
    华普微HOPERF 2025-06-18 15:52 1044浏览
  • 一、项目背景与应用场景文件重命名在日常办公与设计领域极为常见:批量图片重命名(IMG001 → 产品01)批量 Word、PDF 改名(合同_张三 → 合同_2024张三)视频、音频素材整理命名规范化手工处理耗时、容易出错,而 Python 可助力一键处理,还能提供可视化界面!因此本篇文章将手把手带你使用 Python 的 Tkinter 模块开发一个功能完整的“批量重命名”桌面工具,附图演示界面效果。二、项目准备1. 安装环境Tkinter 是 Python 标准库,无需单独安装:bash复制
    小菜菜编程 2025-06-18 05:58 14918浏览
  • Micro-OLED显示技术具有高刷新率、高亮度低功耗、小体积等特点,是微显示领域的优选方案。针对Micro-OLED CVBS显示驱动需求,上海冠显(TDO)设计的驱动方案,实现CVBS信号到Micro-OLED显示屏的稳定转换和显示控制,将满足行业对高质量、高性能显示解决方案的迫切需求,为XR、军工、工业及医疗等应用领域提供更优质的视觉体验。方案架构 显示屏驱动板TV103F1CSFS01 是TDO自主开发的单目硅基 OLED 显示屏驱动板,以 SH1.0连接器为 CVB
    冠显光电MicroOLED代理视涯 2025-06-18 16:32 980浏览
  • 随着智慧居家中与智能家电快速发展,各类产品纷纷透过无线技术和行动软件(APP)实现更智能的服务,让原本单一功能的产品,逐步进化变身为多功能且提供人性化功能的智能家电。本篇的主角-智慧居家门铃(Doorbell),正是其中具代表的应用之一。智能门铃整合了传统门铃与对讲机功能,再加上摄影机的功能,进而成为新世代的智能产品!用户可以透过镜头,立即看到来访者并进行对话。更进阶的应用则是结合高分辨率的摄影机、无线连线与APP整合,让用户不再经由传统有线线路,即可远程实时了解门外的一切状况。实测案例本次案例
    百佳泰测试实验室 2025-06-19 13:42 432浏览
我要评论
0
点击右上角,分享到朋友圈 我知道啦
请使用浏览器分享功能 我知道啦