从小米的端到端看自动驾驶物理世界如何建模

原创 Vehicle 2025-03-26 07:01
小米的智能驾驶和小米销量一样是中国智能汽车中发展最快的,从2021年立项,到2024年3月28日小米Su 7,带着高速领航上市;半年之后的9月份,小米的城区领航上市;到2025年现在开始内测车位到车位智驾驶。
不管小米智能驾驶目前体验性能体验如何,但不可否认小米的智能驾驶的功能成长速度是最快的。
最近的GTC 2025 上小米汽车自动驾驶与机器人部杨奎元,表示“小米在2024年智能驾驶上实现了一年追三代的快速追赶,从基于高精地图模块化架构到去高精地图模块化架构再到端到端架构。” 同时他也介绍了小米在端到端方面的一些实践。
所以本文,根据杨奎元在GTC 2025 的演讲内容,探讨端到端算法的物理世界如何建模,也希望探讨下当前智能驾驶端到端到底有几段。
“三层建模”架构的物理世界模型
数据观测层Ot作为神经网络的输入层,也就是传感器输入的包含了图像、激光雷达点云以及领航功能所需要的导航信息等。
隐式特征层Zt,上一步输入层的信息,通过BEV编码网络得到隐私的特征表达,通过不同的解码器可以分别得到:
  • 动态元素,其他交通参与者,其中动态元素在场景中分布较为稀疏局部且不同个体运动状态不同,需要单独维护各自的历史信息,小米智驾使用带有memory的Sparse方案进行建模
  • 静态元素,道路标志,设施,障碍物等,静态元素则相反,直接采用Dense方案进行建模。
  • 自车的未来轨迹,根据车辆的速度,IMU方位等信息得出自己车辆的运动轨迹。 
显示符号层St,就是为了方便人理解以及对接人工规则代码,模型会解码出显示的符号表达,如静态的车道线、斑马线等,动态的行人、车辆等,这些也是监督学习中人工增值标注或者自动化增值标注的表达形式。
有了这“三层建模”这样就形成对当前场景的理解,用于未来的决策规划。
不过,这种“三层建模”只是一种粗粒度的划分和表达,每一层内部还可以细化为更多的层。比如图像金字塔中的多层分辨率图像,深度神经网络中不同隐层的特征表示等。
最后可能车辆输出的运动轨迹只是充分考虑了动静态信息之后解码生成,最终通过人工设计的cost,如和其他障碍物计算的碰撞cost、和车道线计算的偏离车道cost、横纵向Jerk计算的舒适性cost,用于约束轨迹的合理性。
整个神经网络的训练由人工定义也就是规则定义的最后一层的loss曲度,包含静态和动态的元素和真值之间的差异、自车轨迹模仿廉价轨迹的差异以及人工设计的多个cost,输出运动轨迹来控车。
物理世界模型的建模方法
设定好了模型架构,那么建模就是打通数据驱动渠道,让模型能够在数据驱动下自动输出真实的需要的结论,形成数据驱动飞轮。
三层分别建模的多段式端到端
数据观测层典型的输入就是各家常说的多少Clips视频流,但不少corner case或者长尾场景,和感知造环的闭环仿真评测需要采用生成数据训练。
目前已经有很多相对成熟的AI技术可以使用,如3DGS重建技术、diffusion auto regression生成技术,典型的工具有open AI的Sara、Deepmind 的 Journey 到英伟达的Cosmos的这些视觉生成大模型。
通过直接拟合原始数据的概率分布加上额外使用逆时针图像隐私特征显示符号等控制条件,可以进行原始信号的生成。
当前这些模型目前生成速度较慢主要在云端仿真物理世界。
这些生成模型通常也需要使用隐私特征但主要侧重于传感器细节信号的恢复,在理解任务上性能欠佳。于是最近也有些工作开始尝试同时用于生成和理解的隐私特征空间。
隐式特征层,在智能驾驶领域目前还没有成熟的基座模型可以用于生成稳定的特征表达。
显示符号层类似自然语言表达人工可以直接编码操作,借助人类对物理世界已经具备的建模能力,可以通过规则代码的方式和模型结合完成持续上的建模,如互助理经常使用的运动学模型如匀速模型云加速模型等,规控常用的轨迹采样搜索和优化等,
在端到端范式中显示符号层也可以用于显示定义cost对应强化学习中的reward驱动策略学习,另外受大模型scaling law启发,清华赵航教授和理想合作的state Transformer、苹果的self play(这就是之前网络上说苹果没有放弃自动驾驶的信息)等工作在显示符号层通过增大数据量也验证了scaling law对自驾任务的有效性。
三层联合持续建模的一段式端到端
在云端训练模型时,输入录制车辆传感器的未来帧数据则可以用于提供模型训练的自监督信号。将中间的隐式特征层在持续维度上拓展到未来帧。
形成完整的时空神经网络模型统一由数据驱动学习,配上显示符号层的模型,一起也就是形成了一段式模型。
但是,由于自动驾驶环境的动静态元素在未来中的变化方式不同:
  • 静态元素的变化主要和自车运动相关。
  • 动态元素的变化由他们各自的运动和自作运动共同决定。
因此,推测这种一段式三层联合建模,也会分出两个模型,一个动态物体模型,一个是静态模型。
总结
以上为理论建模,但实际工程落地更为复杂,需要考虑算力平台优化,模型精简等。所以,杨奎元还分享了部分工程化实践,例如:
云端训练加速
  • 英伟达平台优化:推理Pipeline重构(利用率↑100%)、CV库优化(GPU利用率↑30%)。
  • 模型架构精简:利用数据稀疏性、2D-3D几何关系减少冗余计算。
车端部署优化
  • 异构计算:图像前处理迁移至Vic SP/NV Encode单元。
  • 算子加速:耗时算子优化20-40%,Orin平台性能翻倍。
等工程化落地实践。
最后,以上为基于小米杨奎元的演讲推测一段式和几段式端到端,可能有错误,欢迎懂行留言讨论。
未经准许严禁转载和摘录-参考资料:
  1. 端到端全场景智能驾驶 - 小米 杨奎元 GTC 2025 演讲PDF

加入我们的知识星球可以下载包含以上参考资料的汽车行业海量的一手资料
图片



>>>>

相关推荐

  • 小米汽车等产品的成功密码 - 解读雷军腾讯演讲

  • 马云开这次 GTC 标题肯定是“让天下没有难做的AI和机器人” - 英伟达GTC 2025主题演讲核心内容总结

  • 采用 ChatGPT 类似大模型作为自动驾驶算法核心的 - Waymo 的端到端多模态算法 EMMA

Vehicle 不断奔跑才能应对变化,与汽车业内企业个人一起成长
评论
  • 2025年全球人形机器人产业迎来爆发式增长,政策与资本双重推力下,谷歌旗下波士顿动力、比亚迪等跨国企业与本土龙头争相入局,产业基金与风险投资持续加码。仅2025年上半年,中国机器人领域就完成42笔战略融资,累计金额突破45亿元,沪深两市机器人指数年内涨幅达68%,印证了资本市场对智能终端革命的强烈预期。值得关注的是,国家发展改革委联合工信部发布《人形机器人创新发展行动计划》,明确将仿生感知系统、AI决策中枢等十大核心技术纳入"十四五"国家重大专项,并设立500亿元产业引导基金。技术突破方面,本土
    电子资讯报 2025-04-27 17:08 220浏览
  • 探针台作为半导体制造与测试的核心设备,通过精密定位与多环境适配能力,支撑芯片研发、生产及验证全流程。以下是其关键应用领域与技术特性:一、核心功能支撑1.‌电性能测试与分析‌l 在晶圆切割前,探针台直接接触芯片电极,测量阈值电压、漏电流、跨导等200余项参数,用于评估良品率及优化工艺设计。l 支持单晶体管I-V曲线测量,定位栅极氧化层厚度偏差(精度达0.2nm),为器件性能分析提供数据基础。2.‌纳米级定位与测量‌l 定位精度达±0.1μm,满足5nm及以下制程芯片的
    锦正茂科技 2025-04-27 13:09 140浏览
  • 探针台作为高精度测试设备,在光电行业的关键器件研发、性能测试及量产质量控制中发挥核心作用,主要涵盖以下应用场景与技术特性:一、光电元件性能测试1.‌光电器件基础参数测量‌l 用于LED、光电探测器、激光器等元件的电流-电压(I-V)特性、光功率、响应速度等参数测试,支撑光通信、显示技术的器件选型与性能优化。l 支持高频信号测试(如40GHz以上射频参数),满足高速光调制器、光子集成电路(PIC)的带宽与信号完整性验证需求。2.‌光响应特性分析‌l 通过电光转换效率测
    锦正茂科技 2025-04-27 13:19 113浏览
  •   基于图像识别技术的数据库检索系统平台解析   北京华盛恒辉基于图像识别技术的数据库检索系统平台融合计算机视觉与数据库管理技术,实现智能化图像检索。以下从架构、功能、技术、应用及发展方向展开解析。   应用案例   目前,已有多个基于图像识别技术的数据库检索系统在实际应用中取得了显著成效。例如,北京华盛恒辉和北京五木恒润基于图像识别技术的数据库检索系统。这些成功案例为基于图像识别技术的数据库检索系统的推广和应用提供了有力支持。   一、系统架构设计   数据采集层:收集各类图像数据,
    华盛恒辉l58ll334744 2025-04-26 16:02 172浏览
  •   北京华盛恒辉电磁环境适应性测试系统是针对复杂电磁环境进行仿真、测试与评估的关键设备,以下从系统功能、技术架构、应用场景、核心优势、发展趋势五个维度展开全面解析:   应用案例   目前,已有多个电磁环境适应性测试系统在实际应用中取得了显著成效。例如,北京华盛恒辉和北京五木恒润电磁环境适应性测试系统。这些成功案例为电磁环境适应性测试系统的推广和应用提供了有力支持。   一、系统功能   复杂电磁环境构建   全生命周期测试能力   实时监测与反馈   二、技术架构   模块化设
    华盛恒辉l58ll334744 2025-04-26 17:21 195浏览
  •     今天,纯电动汽车大跃进牵引着对汽车电气低压的需求,新需求是48V。车要更轻,料要堆满。车身电子系统(电子座舱)从分布改成集中(域控),电气上就是要把“比12V系统更多的能量,送到比12V系统数量更少的ECU去”,所以,电源必须提高电压,缩小线径。另一方面,用比传统12V,24V更高的电压,有利于让电感类元件(螺线管,电机)用更细的铜线,缩小体积去替代传统机械,扩大整车电气化的边界。在电缆、认证行业60V标准之下,48V是一个合理的电压。有关汽车电气低压,另见协议标准第
    电子知识打边炉 2025-04-27 16:24 165浏览
  • 晶振在使用过程中可能会受到污染,导致性能下降。可是污染物是怎么进入晶振内部的?如何检测晶振内部污染物?我可不可以使用超声波清洗?今天KOAN凯擎小妹将逐一解答。1. 污染物来源a. 制造过程:生产环境不洁净或封装密封不严,可能导致灰尘和杂质进入晶振。b. 使用环境:高湿度、温度变化、化学物质和机械应力可能导致污染物渗入。c. 储存不当:不良的储存环境和不合适的包装材料可能引发化学物质迁移。建议储存湿度维持相对湿度在30%至75%的范围内,有助于避免湿度对晶振的不利影响。避免雨淋或阳光直射。d.
    koan-xtal 2025-04-28 06:11 89浏览
  • 一、智能家居的痛点与创新机遇随着城市化进程加速,现代家庭正面临两大核心挑战:情感陪伴缺失:超60%的双职工家庭存在“亲子陪伴真空期”,儿童独自居家场景增加;操作复杂度攀升:智能设备功能迭代导致用户学习成本陡增,超40%用户因操作困难放弃高阶功能。而WTR096-16S录音语音芯片方案,通过“语音交互+智能录音”双核驱动,不仅解决设备易用性问题,更构建起家庭成员间的全天候情感纽带。二、WTR096-16S方案的核心技术突破1. 高保真语音交互系统动态情绪语音库:支持8种语气模板(温柔提醒/紧急告警
    广州唯创电子 2025-04-28 09:24 106浏览
  •   无人机部件仿真与模型验证平台系统解析   北京华盛恒辉无人机部件仿真与模型验证平台系统是无人机研发的核心工具,通过多元功能、创新架构和广泛应用,推动无人机技术发展。以下从核心功能、技术架构、应用场景、优势及发展趋势展开解析。   应用案例   目前,已有多个无人机部件仿真与模型验证平台在实际应用中取得了显著成效。例如,北京华盛恒辉和北京五木恒润无人机部件仿真与模型验证平台。这些成功案例为无人机部件仿真与模型验证平台的推广和应用提供了有力支持。   一、核心功能   三维建模与可视化
    华盛恒辉l58ll334744 2025-04-26 16:39 242浏览
  • 在电子电路设计和调试中,晶振为电路提供稳定的时钟信号。我们可能会遇到晶振有电压,但不起振,从而导致整个电路无法正常工作的情况。今天凯擎小妹聊一下可能的原因和解决方案。1. 误区解析在硬件调试中,许多工程师在测量晶振时发现两端都有电压,例如1.6V,但没有明显的压差,第一反应可能是怀疑短路。晶振电路本质上是一个交流振荡电路。当晶振未起振时,两端会静止在一个中间电位,通常接近电源电压的一半。万用表测得的是稳定的直流电压,因此没有压差。这种情况一般是:晶振没起振,并不是短路。2. 如何判断真
    koan-xtal 2025-04-28 05:09 108浏览
  •  集成电路封装测试是确保芯片性能与可靠性的核心环节,主要包括‌晶圆级测试(CP测试)‌和‌封装后测试(FT测试)‌两大阶段,流程如下:一、晶圆级测试(CP测试)1.‌测试目的‌:在晶圆切割前筛选出功能缺陷或性能不达标的晶粒(Die),避免后续封装环节的资源浪费,显著降低制造成本。2.‌核心设备与操作‌l ‌探针台(Prober)‌:通过高精度移动平台将探针与晶粒的Pad jing准接触,实现电气连接。l ‌ATE测试机‌:提供测试电源、信号输入及功能向量,接收晶粒反
    锦正茂科技 2025-04-27 13:37 164浏览
  • 速卖通,作为阿里巴巴集团旗下的跨境电商平台,于2010年横空出世,彼时正值全球电商市场蓬勃发展,互联网的普及让跨境购物的需求日益增长,速卖通顺势而为,迅速吸引了全球目光。它以“让天下没有难做的生意”为使命,致力于打破国界限制,搭建起中国商家与全球消费者之间的桥梁。在其发展的黄金时期,速卖通取得的成绩令人瞩目。在欧洲市场,速卖通一度成为第一大电商平台。根据第三方机构《欧洲跨境商务》的评选,速卖通凭借出色的服务和消费者口碑,在“欧洲十大跨境电商平台”中脱颖而出,力压来自美国的亚马逊和eBay等电商巨
    用户1742991715177 2025-04-26 20:23 162浏览
我要评论
0
点击右上角,分享到朋友圈 我知道啦
请使用浏览器分享功能 我知道啦