一文带你厘清自动驾驶端到端架构差异

原创 智驾最前沿 2025-05-08 08:40

编者语:后台回复“入群”,加入「智驾最前沿」微信交流群


随着自动驾驶技术飞速发展,智能驾驶系统的设计思路也经历了从传统模块化架构到端到端大模型转变。传统模块化架构将感知、预测、规划和控制等子任务拆分开,分别由不同模块完成;而端到端大模型则尝试直接将传感器输入映射到车辆控制指令上,实现联合优化。虽同为端到端,在各车企在设计时却提出了模块化端到端、双系统端到端、单模型端到端等各种技术架构,这些端到端架构到底有何区别,相较于基于模块化的架构,他们又有何优势?


传统模块化系统架构与决策机制

在聊端到端大模型前,我们还是要先了解下基于模块化的自动驾驶架构,到底是如何实现智驾的。基于模块化的自动驾驶架构通常采用模块化的流水线结构,将环境感知、行为决策和运动控制等功能串联起来。在感知阶段,系统通过摄像头、雷达、激光雷达等传感器进行目标检测、分割和跟踪;在决策规划阶段,基于感知结果和高精度地图进行路径规划与行为决策;最后在控制阶段生成具体的加减速、转向等控制指令。

自动驾驶系统架构

基于模块化的自动驾驶架构优势在于各部分职责明确,可利用丰富的先验知识和规则进行设计,且易于逐一调试和验证。这一技术方案会先利用地图和规则规划期望路径,再基于动态窗口法或采样优化等技术生成轨迹,最后由PID或模型预测控制算法输出执行指令,以实现高速NOA等功能但这一技术对环境建模和规则依赖较强,在应对复杂多变的交通场景和长尾异常情况时容易出现性能瓶颈。


端到端系统架构与决策机制

与模块化方法不同,端到端(End-to-End, E2E)架构将传感器数据直接映射到车辆操控输出,从而实现联合优化。其实端到端概念并不是近几年才出现的,1989年的ALVINN2016年的NVIDIA DAVE-2等,使用前置摄像头图像输入,通过神经网络直接输出转向角,以验证了端到端架构的可行性

 

端到端架构

近年来,随着大规模数据集和深度学习技术的发展,端到端自动驾驶方法不断涌现。典型的端到端决策机制包括基于模仿学习(将驾驶员操作作为监督信号)以及强化学习(以安全舒适为目标优化奖励)等策略,驱动模型直接学习从传感器到规划轨迹或控制命令的映射。端到端系统可以简化结构,将感知、预测和规划任务合并到一个联合可训练的模型中,从而能对驾驶性能进行直接优化。

端到端架构看似极具优势,但由于缺乏明确的中间输出,端到端系统往往被视为“黑箱”,难以解释其决策过程,且在极端或罕见场景下的可靠性尚未充分验证。此外,端到端模型需要海量多样化的训练数据和强大的计算资源,训练优化难度较大。为了兼顾性能与安全,有些方法在端到端架构中仍保留了一定的模块化结构(如使用语义分割或目标检测作为中间表示)。近年来,还出现了将视觉数据与语言模型(如大规模视觉语言模型)结合的尝试,以提升对场景语义和因果关系的理解能力,但这也进一步增加了系统复杂度和实时性的挑战。智驾最前沿曾简单图解了模块化架构到端到端大模型,以故事的方式将这两个技术给大家厘清楚了(相关阅读:自动驾驶中基于规则的决策和端到端大模型有何区别?)。


三种端到端架构详细解析

3.1 模块化端到端架构

模块化端到端架构(Modular End-to-End)将整体规划任务分解为可微分的子模块,但在训练和推理时联合优化以最终规划目标为准。该架构既保留了模块化结构的可解释性,又能享受端到端训练的优势。近年来已有不少研究和工业解决方案采用类似思路,如Wayve等公司训练多任务神经网络实现端到端规划,并在CARLA等仿真平台上取得优异成绩。特斯拉最新的FSD V12方案也采用了这种模块化端到端理念,使用鸟瞰(BEV)空间的占据网格(Occupancy Grid)网络进行路径规划。特斯拉将多目摄像头的特征映射到俯视图空间,通过端到端学习得到占据概率图,然后从中生成安全可行的行驶轨迹。该方法弱化了对高精度地图的依赖,使车辆能更灵活地应对多传感器融合后的环境感知。简单理解,模块化端到端架构在设计上仍保留了感知、预测、规划等模块,只是各模块参数可以联合训练,因此能够在一定程度上兼顾模型的可解释性和任务级优化性能。

3.2 双系统端到端架构(端到端+视觉语言模型)

双系统端到端架构在单一的端到端模型之外,增加了一个视觉语言辅助系统,以提升对复杂场景的理解和推理能力。这一架构采用了“快慢双系统”理念快速系统(Fast System)采用端到端学习处理即时的轨迹规划与控制,慢速系统(Slow System)则借助大规模视觉语言模型(VLM)进行高层次的语义推理和决策支持,双系统相互协同,保障了智驾系统的安全性

理想汽车的最新研发方案就采用了这一思路一个端到端神经网络负责实时驾驶控制,另一个视觉语言模型则对当前场景进行语义化解析,提供补充信息和决策建议。长安汽车的“天枢”大模型架构也采用了“大脑小脑”结构,其中“大脑”部分即是基于大模型的慢速系统,用于复杂推理,而“小脑”则负责具体规划和控制。双系统架构的决策机制通常是端到端模型快速生成初步路径,而视觉语言模型则分析环境上下文(如交通标志含义、行人意图等),在必要时修正或丰富规划结果。但这种方案需要同时运行两个大模型,占用大量算力,而且模型间的协同效率和一致性需要专门设计和优化。

3.3 单模型端到端架构

单模型端到端架构(One Model E2E)旨在用一个统一的多模态大模型完成所有自动驾驶任务,包括感知、预测与规划。这一思路受到大规模语言模型和视觉语言模型的启发,力图构建一个“驾驶领域的通用基础模型”。近期行业内就有相关尝试比如DriveMM是一种全新的大规模多模态模型,可以处理图像和多视角视频等多种输入,并执行感知、预测和规划等广泛的驾驶任务。该模型先在各类视觉和语言数据上进行预训练,再利用驾驶数据集微调,在多个公开数据集上实现了全任务的最先进性能。

在决策机制上,单模型架构可以将驾驶问题转化为类似语言问答或生成的形式,由模型直接给出安全规划或控制输出,甚至可以通过自然语言交互进行意图控制。这种“全能型”模型的优势在于统一了数据表示和优化目标,可挖掘跨任务协同效应;但代价是模型规模巨大,对算力和数据的需求极高,而且目前缺乏实车部署的成熟方案。除了DriveMM之外,还有如DriveGPT4等尝试将驾驶任务映射为文本问题,利用大型语言模型直接生成轨迹或控制指令。这些单模型方法代表着未来自动驾驶大模型的发展方向,但在安全可控性和实时性上仍需突破。


模块化与端到端方案的优劣势分析

4.1 系统复杂度

模块化架构涉及众多专业模块,系统设计和集成相对复杂,需要人工调试和维护多个组件(感知、定位、规划、控制等)。相比之下,纯粹的单模型端到端方案将整体流程压缩为一个网络,减少了传统模块的数量,从架构上更加简洁。但模块化端到端架构需要设计多个可微分的子网络,并管理它们之间的数据流;双系统架构则需同步运行两个大模型,协调“快速端到端模型”和“慢速语言模型”的输出反而增添了额外的子模块或并行网络,系统层次稍显复杂。总体来看,纯粹的单一大模型在系统构成上最为简单,但模型本身规模庞大;传统模块化则模块众多但各自相对简单。

4.2 训练与优化难度

模块化方案可分别针对各个子任务训练(如目标检测、车道线分割、轨迹规划),每个模块使用结构化标注数据,通过监督学习容易收敛。这也需要针对每个模块收集和标注大量数据。端到端模型则需要更大规模的驾驶数据(包括传感器输入与人类驾驶输出)来进行联合训练。由于决策输出高度依赖真实驾驶表现,端到端系统往往需要大量路测和仿真数据来覆盖各类场景。双系统架构在此基础上还需准备适配视觉语言模型的数据集以及专门的对话或问答训练。单一大模型的训练难度最高它不仅需要融合多模态(视觉、地图、语言等)数据,还要在单一模型中学习多任务,因此训练过程极其复杂,对算力和数据的需求远超其他方案。总的来说,端到端方案在优化时缺少显式的中间监督信号,容易陷入收敛困难或性能不稳定的问题,需要更多的探索和调参。

4.3 决策透明性

模块化系统的一个重要优势是可解释性强每个模块有明确的功能边界,设计者可以查看感知输出、中间地图和规划轨迹等结果,清楚地定位问题所在。相比之下,全端到端模型由于决策过程高度融合,往往是“黑箱”式的,难以直接解释为何做出某个操控决策。不过端到端范式并不一定完全封闭黑箱采用模块化端到端策略的系统可以保留如目标检测或语义分割等中间输出,使得系统仍然可以获得部分透明度。如特斯拉的BEV占据图在一定程度上提供了环境语义信息,而Wayve等系统也会输出热力图供可视化。

双系统架构引入的视觉语言模型本质上也作为辅助推理,但这种模型自身通常缺乏明确的决策解释性。单模型架构尽管功能最强大,但几乎没有可见中间层供审查,其决策过程难以监督或理解,反而需要依赖后续的解释性AI技术去分析网络关注区域。因此,就透明性而言,传统模块化和模块化端到端方案较优;而纯端到端或大规模大模型系统的决策往往更不透明。

4.4 灵活性

在功能拓展和算法迭代方面,模块化架构具有较好的灵活性当需要应对新场景或添加新功能时,可以针对性地替换或升级某个模块(如换用更好的感知算法或优化规划策略),而无需重训整个系统。

端到端方案则不易插入外部知识或规则,任何改变往往要通过重新训练网络来实现。双系统架构在这方面介于两者之间虽然端到端模型需要重训,但通过语义模块(VLM)可以灵活地添加解释层面能力,如通过修改提示词或微调语言模型来适应新需求。单模型架构的拓展性最弱,因为其内部结构紧耦合,任何微调都会影响整个模型性能。此外,外部策略调整(如应急接管逻辑)也更难融入端到端模型。综合来看,模块化设计在灵活性上占优,而高度集成的端到端模型需要付出更大代价才能适应变化。

-- END --

图片

智驾最前沿 「智驾最前沿」深耕自动驾驶领域技术、资讯等信息,解读行业现状、紧盯行业发展、挖掘行业前沿,致力于助力自动驾驶发展与落地!公众号:智驾最前沿
评论
  • 医疗数字化的昨天       今天,当我手拿着鼠标在电脑屏幕前面熟练的操作着中望3D软件制作3维立体模型的设计时,平面设计、3维规划、尺寸测量、漏洞修补、色彩渲染、浮点计算、仿真。。。这一系列的工程作图强大而复杂功能被安装在服务器的工程软件轻易的实现了。而对比在多年前我趴在制图桌子上,靠工程尺、圆规、计算器的辅助,做比这简单相似的工程制图工作不知道要方便、准确和快捷了多少。这就是数字化发展带来的显而易见的成果。      &n
    广州铁金刚 2025-06-17 09:46 22827浏览
  • 在户外作业和复杂环境监测场景中,目标追踪需求、环境干扰因素和多变光线条件不断增加,传统光学观测设备面对画面模糊、响应延迟、信息缺失等问题时常难以应对。此时,显示技术的升级成为突破口——它不再只是单纯的“图像载体”,而逐步演变为“决策中枢”,成为设备智能化的核心支撑。其中,Fast LCD 通过其高速响应、高清显示、低功耗和优秀的环境适应性,成为瞄准镜、热成像等设备理想的显示方案,极大地提升设备性能和用户体验。上海冠显光电推出的Fast LCD 1.25" HDMI单目驱动方案,小巧紧凑,采用HD
    冠显光电MicroOLED代理视涯 2025-06-17 14:51 927浏览
  • 作为自然界最敏锐的“通用语言”之一,从破土而出的植物新芽到钢铁熔炉中的炽热火焰,温度一直都在无声地影响着万物运行的节奏,它不仅是农业播种与收获、牧业养殖与繁育、工业材料加工与产品制造等领域的关键生产因素之一,更是所有地球生物赖以生存的重要气候参数。因此,如何更好地“读懂”温度已成为各行各业实现提质增效的重要突破点之一,而数字温度传感器就是人类通过发展物联网技术让温度实现快速“说话”的重要途径。数字温度传感器是一种能直接输出数字信号的传感器,具有微型化、易集成、低功耗与高精度等优势,已被广泛应用于
    华普微HOPERF 2025-06-19 09:39 4552浏览
  • 当数千伏工业电机快速启停时、当高速充电桩断电恢复时、当光伏逆变器遭遇雷击时,高压侧电路可能会因电感电流突变或浪涌耦合,产生幅值达母线电压数倍的电压尖峰。而在缺乏有效电气隔离措施或在寄生电容耦合作用的情况下,这些电压尖峰会迅速传导至低压侧电路,瞬间击穿MCU、传感器等敏感元器件,严重时还会威胁到操作人员的生命安全。因此,在现代电力电子系统的高低压电路之间引入隔离芯片,建立安全可靠的电气隔离屏障,已成多项安全标准与通用规范中的明确要求与刚性规定。其不仅能防止高压浪涌、短路漏电等不良现象损坏敏感元器件
    华普微HOPERF 2025-06-18 15:52 3990浏览
  • 在RoCE v2协议中,RoCE v2队列是数据传输的最底层控制机制,其由工作队列(WQ)和完成队列(CQ)共同组成。其中工作队列采用双向通道设计,包含用于存储即将发送数据的发送队列(SQ)和用于存储已接收到的数据的接收队列(RQ),二者共同组成了端到端的数据传输管道(Pipeline)每一个SQ与RQ绑定起来称为队列对(QP),每个队列对中包含有若干个工作队列元素(WQE)和一些其他元素如本地接收队列指针、本地发送队列指针、远程接收队列指针、远程发送队列指针等。同样的,每一个CQ中也存在着若干
    zzbwx_326664406 2025-06-18 11:49 2318浏览
  • 中国汽车市场以年均超 3000 万辆的销量规模(占全球 1/3以上),正推动安全标准从被动防护向主动预防转型。2024 年 7 月实施的 C-NCAP ( China New Car Assessment Program)修订版首次将驾驶员监控系统(DMS)、道路特征识别(RFR)纳入评分体系,其中 DMS 占主动安全分值 40%(总分 2 分),检测准确率需≥90%。这一变革不仅响应工信部 GB/T 41796-2022 等三项国家标准要求,更标志着中国
    康谋 2025-06-18 10:25 2008浏览
  • 在竞争白热化的智能汽车赛道,深蓝汽车近期因一系列“迷之操作”,被舆论的熊熊烈火炙烤得焦头烂额。事情起因是,大量深蓝汽车老车主公开吐槽称,深蓝汽车在没经过车主同意的情况下在车机大屏幕投放广告。为此,深蓝汽车及其CEO邓承浩发文道歉,并表示:内部已进行了流程优化,未来将不再通过车机通道给用户推送权益提醒。不过,道歉后深蓝汽车对用户隐私条例进行了更新,主要新增了用户数据采集,如果用户不同意更新,则只能以游客身份访问App。所以又有网友辣评,“这是要强行让大家同意看广告?”对此,深蓝汽车法务部发文回应:
    用户1742991715177 2025-06-17 18:21 1523浏览
  • 随着智慧居家中与智能家电快速发展,各类产品纷纷透过无线技术和行动软件(APP)实现更智能的服务,让原本单一功能的产品,逐步进化变身为多功能且提供人性化功能的智能家电。本篇的主角-智慧居家门铃(Doorbell),正是其中具代表的应用之一。智能门铃整合了传统门铃与对讲机功能,再加上摄影机的功能,进而成为新世代的智能产品!用户可以透过镜头,立即看到来访者并进行对话。更进阶的应用则是结合高分辨率的摄影机、无线连线与APP整合,让用户不再经由传统有线线路,即可远程实时了解门外的一切状况。实测案例本次案例
    百佳泰测试实验室 2025-06-19 13:42 3963浏览
  • 概述在工业自动化领域,PLC(可编程逻辑控制器)是生产过程的核心,其性能直接影响系统的稳定性和效率。然而,在多主站应用场景下,传统PLC往往面临诸多挑战,如协议兼容性不足、扩展性受限以及高昂的License费用,这些都增加了系统部署的复杂性和成本。宏集Berghof PLC基于CODESYS平台,凭借其强大的多主站支持能力和灵活的License选项,为工业控制提供了高效、灵活且经济的解决方案,助力企业优化自动化系统架构。传统PLC多主站应用的挑战在许多自动化应用中,设备需要同时支持多个通信主站,
    宏集科技 2025-06-19 10:58 3627浏览
  • 文/Leon编辑/cc孙聪颖6月9日,美团在北京美团总部恒电大厦举行股东周年大会,美团创始人、CEO王兴携一众高管出席。在回答股东问题的环节,王兴谈及与京东、淘宝闪购的竞争时表示:“第一,我们非常欢迎更多参与者入场的;第二,再次重申美团是坚决反对内卷的;第三,我们对长期是很有信心的。”然而,据自媒体《划重点》公开报道称,有参会股东透露,疑似提前安排好的问题和管理层全程读稿式的回答令部分现场股东感到不满。在会议结束后,现场股东将负责市场和投资的副总裁徐思嘉围了起来,在小会议室继续沟通了半个小时。不
    华尔街科技眼 2025-06-17 19:11 1724浏览
  • 概述相关API函数举例:定时发送一个事件总结概述ESP32有一组外设--定时器组。它可以选择不同的时钟源和分配系数。该定时器应用灵活,超时报警可以自动更新计数值。相关API函数1.定时器配置结构体typedefstruct { gptimer_clock_source_tclk_src; /* 定时器时钟源,在clk_tree_defs.h中有个枚举soc_periph_gptimer_clk_src_t */ gptimer_count_direction_tdirection;
    二月半 2025-06-17 16:39 15396浏览
  •   再次拆开来,干脆放上电池看看,呵呵,转呀!  嘀嗒嘀嗒声好听,小齿轮转啊转尊,挺有活力啊!  莫非是活动关节受阻?  仔细,用放大镜观察,真是的!轴承与转杆接触位有污垢。  拆解下来,用酒精仔细清洗干净,看看纸上是刷子擦下来的污迹。  顺便把PCB、其他可能的零部件,也用酒精擦一擦  清洗清洁后的的各个零部件。  再看看电极接触点,有磨损,露出了底下的铜金属。  想想,用焊锡填补吧!  金属表面不太接受,总算有了一点焊锡,试试看吧!  再组装回去,装上电池,不转动!  再拆开来,到底是那个零
    自做自受 2025-06-21 12:19 2178浏览
  • Micro-OLED显示技术具有高刷新率、高亮度低功耗、小体积等特点,是微显示领域的优选方案。针对Micro-OLED CVBS显示驱动需求,上海冠显(TDO)设计的驱动方案,实现CVBS信号到Micro-OLED显示屏的稳定转换和显示控制,将满足行业对高质量、高性能显示解决方案的迫切需求,为XR、军工、工业及医疗等应用领域提供更优质的视觉体验。方案架构 显示屏驱动板TV103F1CSFS01 是TDO自主开发的单目硅基 OLED 显示屏驱动板,以 SH1.0连接器为 CVB
    冠显光电MicroOLED代理视涯 2025-06-18 16:32 3930浏览
  •  RoCE v2原语在RoCE v2协议中,应用程序并不直接与网卡接口相关联,开发者使用RDMA原语进行应用程序的开发。RDMA原语分为单边(one-side)语义和双边(two-side)语义,其中,WRITE、READ、ATOMIC为单边语义,SEND、RECEIVE为双边语义,且双边语义往往成对出现。单边语义指:当本地主机调用单边语义进行操作时,远程主机的CPU完全不会感知这一过程,只有本机的CPU参与数据处理和数据传输流程[42]。READ、WRITE、ATOMIC操作为单边语
    zzbwx_326664406 2025-06-17 08:23 660浏览
我要评论
0
点击右上角,分享到朋友圈 我知道啦
请使用浏览器分享功能 我知道啦