自动驾驶主流芯片及平台架构

汽车电子与软件 2021-07-16 21:33




1、自动驾驶组成和主要技术简介


感知层:主要由激光雷达、 摄像头、高精度地图、IMU/GPS等部分构成,主要负责搜集车身周边信息;

决策层:以感知信息数据为基础,根高算力的计中心获取经过优化的驾驶决策;

执行层:基于决策层给出的驾驶决策,对制动系统、发机转向等控下达指令,负责驾驶执行;



自动驾驶产业链:

不用于智能座舱是按照Tier1 和tier2来分产业链,自动驾驶的技术层级来分的产业链,这样相对于比较清晰一些。


感知层的视觉系统:有舜宇、大立光、欧菲光;

毫米波雷达系统有大陆、博世、德赛西威、华域汽车;

激光雷达有 ibeo、博世、velodyne、Quanergy、innoviz、雷神智能、禾赛科技、北科天绘、速腾聚创;

超声波雷达系统 电装、松下、村田;


数据服务商/地图厂家 百度、四维图新、高德;

决策层有 mobileye、英伟达、安波福、东软、四维图新、中科创达;

芯片供应商有 英伟达、英特尔、高通、华为、地平线;

车联网服务平台 联通智网、中移智行、九五智驾、四维智联;


执行层 控制方案整合 安波福、日本电装、博世;


自动驾驶组成和主要技术简介


从自动驾驶各个研发环节来看,主要涉及到软件工程&硬件工程:


1)软件工程:

操作系统、

基础软件(基础库、分布式、核心服务)

算法设计(定为、感知、规划)

工程实现(FCW、LDW等)

云服务(仿真、高精度地图)

高精度地图


2)硬件工程:

域控制设计(硬件架构、计算单元、功能安全)

传感器(激光雷达、毫米波雷达、超声波雷达、摄像头、GPS、IMU等)

系统集成、线控改造。


供应链上游:CPU芯片


半导体、能源革命驱动的此轮汽车智能化、电动化浪潮,半导体格局反应产业链格局

座舱芯片:高通算力高、集成度高、性价比高,份额提升明显。

自动驾驶芯片

封闭生态战胜开放生态

L3+:英伟达>高通>华为

L3以下:Mobileye市占率最高,但黑盒子交付模式越来越不受车厂喜欢,未来开放模式将更受大家欢迎;地平线、黑芝麻等国产厂商有机会


智能汽车芯片目前主要变化出现在座舱域、辅助驾驶/自动驾驶两大域控制器上。


智能座舱芯片是由中控屏芯片升级而来,目前主要参与者包括传统汽车芯片供应商以及新入局的消费电子厂商,国产厂商正从后装切入前装,包括:四维图新(杰发科技)和全志科技。


自动驾驶域控制器为电子电气架构变化下新产生的一块计算平台,目前占主导的是英特尔Mobileye和英伟达,高通、华为重点布局领域,同时也有地平线、芯驰科技等创业企业参与。


2、自动驾驶芯片相关性能介绍


运智能驾驶时代产业链分为三个层次:硬件公司为低层,上方是负责提供智能/连接/管理的软件层,顶层是与消费者体验相关的服务层;


大算力高性能芯片:相较于传统汽车,智能汽车数据量大增,高性能芯片成为刚需,比如流行的SA8155;


算法升级:目前硬件模块升级相对较慢,算法迭代升级则日新月异,持续优化的算法有助于降低成本,并提供更多的安全冗余



运从量产级别来看,近期量产的车型主要集中在L2+至L3级别车辆;


从硬件配置来看,相关车型主要配置有车载摄像头、毫米波雷达、超声波雷达、高算力芯片等,激光雷达则尚未配置,传感器芯片中以Mobileye相关产品居多,特斯拉采用自研的FSD;


自动驾驶适用场景中,如果是封闭路段,普遍需要高精度地图,开放路段中使用范围较小。



自动驾驶对于算力的要求


智能驾驶汽车涉及到传感器环境感知、高精地图/GPS精准定位、V2X信息通信、多种数据融合、决策与规划算法运算、运算结果的电子控制与执行等过程,此过程需要一个强劲的计算平台统一实时分析、处理海量的数据与进行复杂的逻辑运算,对计算能力的要求非常高。



根据地平线数据披露,自动驾驶等级每增加一级,所需要的芯片算力就会呈现十数倍的上升,L2级自动驾驶的算力需求仅要求2-2.5TOPS,但是L3级自动驾驶算力需求就需要20-30TOPS,到L4级需要200TOPS以上,L5级别算力需求则超过2000TOPS。


每增加一级自动驾驶等级算力需求增长一个数量级,根据Intel推算,全自动驾驶时代,每辆汽车每天产生的数据量高达4000GB。为了更好的智能驾驶表现,计算平台成为汽车设计重点,车载半导体价值量快速提升,汽车行业掀起算力军备竞赛。以行业龙头特斯拉为例,近日媒体报道,特斯拉正与博通合作研发新款 HW 4.0 自动驾驶芯片,预计明年第四季度就将大规模量产,新一代芯片采用7nm工艺。预计HW4.0算力有望达到432 TOPS以上,超过HW3.0的三倍以上,将可用于ADAS、电动车动力传动、车载娱乐系统和车身电子四大领域的计算,成为真正的“汽车大脑”。我们来看看主流的自动驾驶芯片的算力。



这里是量产的自动驾驶芯片的算力做的对比,英伟达最新的orin的算力秒杀全场,但是还没有量产,目前看到的特斯拉单芯片算力是量产里面最强算力的,达到72 TOPS。


感知类算法,包括SLAM算法、自动驾驶感知算法;决策类算法包括自动驾驶规划算法、自动驾驶决策算法;执行类算法主要为自动驾驶控制算法;



涉及到的操作系统以Linux为主,编程语言包括C/C++/PYHTON/MATLAB等;

传感器融合技术:


单一类型传感器无法克服内生的缺点,我们需要将来自不同种类传感器的信息组合在一起,将多个传感器获取的数据、信息集中在一起综合分析以便更加准确可靠地描述外界环境,提高系统决策的正确性,比如典型的激光雷达+摄像头+IMU+高精度地图组合。


前融合算法:在原始层把数据都融合在一起,融合好的数据就好比是一个超级传感器,而且这个传感器不仅有能力可以看到红外线,还有能力可以看到摄像头或者RGB,也有能力看到liDAR的三维信息,就好比是一双超级眼睛,在这双超级眼睛上面,开发自己的感知算法,最后输出一个结果层的物体。


后融合算法:每个传感器各自独立处理生成的目标数据,当所有传感器完成目标数据生成后,再由主处理器进行数据融合



路端/云端:可以用于数据存储、模拟、高精地图绘制以及深度学习模型训练,作用是为无人车提供离线计算及存储功能,通过云平台,我们能够测试新的算法 、更新高精地图并训练更加有效的识别、追踪和决策模型。同时可支持全局信息存储和共享,互联互通业务流,对自动驾驶车实行路径优化。



智能驾驶时代,汽车数据处理量大幅增加,对芯片性要求更高,AI芯片为主


硬件架构升级驱动芯片算力需求呈现指数级提升趋势,汽车需要处理大量图片、视频等非结构化数据,同时处理器也需要整合雷达、视频等多路数据。这些都对车载处理器的并行计算效率提出更高要求,具备AI能力的主控芯片成为主流。


数据、算力和算法是AI三大要素,CPU配合加速芯片的模式成为典型的AI部署方案,CPU提供算力,加速芯片提升算力并助推算法的产生。常见的AI加速芯片包括GPU、FPGA、ASIC三类。


GPU是单指令、多数据处理,采用数量众多的计算单元和超长的流水线,主要处理图像领域的运算加速。但GPU无法单独工作,必须由CPU进行控制调用才能工作。CPU可单独作用,处理复杂的逻辑运算和不同的数据类型,但当需要大量的处理类型统一的数据时,则可调用GPU进行并行计算。


FPGA适用于多指令,单数据流的分析,与GPU相反,因此常用于预测阶段,如云端。FPGA是用硬件实现软件算法,因此在实现复杂算法方面有一定的难度,缺点是价格比较高。对比FPGA和GPU可以发现,一是缺少内存和控制所带来的存储和读取部分,速度更快。二是因为缺少读取的作用,所以功耗低,劣势是运算量并不是很大。结合CPU和GPU各自的优势,有一种解决方案就是异构。


ASIC是为实现特定要求而定制的专用AI芯片。除了不能扩展以外,在功耗、可靠性、体积方面都有优势,尤其在高性能、低功耗的移动端。


类脑芯片架构是一款模拟人脑的新型芯片编程架构,这一系统可以模拟人脑功能进行感知、行为和思考,简单来讲,就是复制人类大脑。


不同应用场景AI芯片性能需求和具体指标


AI芯片部署的位置有两种:云端和终端。云端AI应用主要用于数据中心,在深度学习的训练阶段需要极大的数据量和大运算量,因此训练环节在云端或者数据中心实现性价比最高,且终端单一芯片也无法独立完成大量的训练任务。


终端AI芯片,即用于即手机、安防摄像头、汽车、智能家居设备、各种IoT设备等执行边缘计算的智能设备。端AI芯片的特点是体积小、耗电少,而且性能不需要特别强大,通常只需要支持一两种AI能力。




从功能上来说,目前 AI 芯片主要有两个领域,一个是 AI 系统的 training 训练模型(主要是对深度神经网络的前期训练),另外一个是模型训练部署后,模型对新数据的 inference 推断。理论上来说 training 和 inference 有类似的特征,但是以目前的情况来说,在运算量差别大,精度差别大,能耗条件不同和算法也有差别的情况下,training 和 inference 还是分开的状态。


在 training 领域,需要将海量的参数进行迭代训练,所以芯片设计导向基本都是超高性能,高灵活性,高精度这几个方向。面向 training 的芯片一般都是在云端或者数据中心进行部署,成本大,能耗高。目前在 training 领域, Nvidia 的GPU在市场上独占鳌头,大部分的深度神经网络及项目实施都是采用 Nvidia 的GPU加速方案。同样深度学习加速市场的爆发也吸引了竞争者的入局。


Google在2015年发布了第一代TPU芯片,在2017年5月发布了基于ASIC的TPU芯片2.0版本,二代版本采用了systolic array脉动阵列技术,每秒峰值运算能力达到45TFlops。并且二代版本完善了初代TPU只能做 inference 无法 training 的问题。根据Google的披露,在自然语言处理深度学习网络中,八分之一的TPU Pod(Google自建的基于64个TPU2.0的处理单元)花费六个小时就能完成32块顶级GPU一整天的训练任务。


除了Google外,AMD也发布了基于Radeon Instinct的加速器方案,Intel则推出了 Xeon Phi+Nervana方案。在training领域,资金投入量大,研发成本高,目前竞争者主要是Nvidia GPU, Google TPU和新进入的AMD Radeon Instinct(基于GPU)和IntelXeon Phi+Nervana(基于ASIC)等。目前来看,不管是Google的TPU+tensorfow,还是其他巨头新的解决方案,想要在training端市场撼动Nvidia的地位非常困难。


相比 training 而言 inference 在计算量( 更小) , 精度要求( 更低) 和算法部署( 多种evaluation方法)上都有一定的差别,通常只需要用 training 阶段训练好的模型来对新输入的数据输出模型结果,或者在输出结果的基础上做一些调整。比如摄像头拍到的新的人像直接输出人脸识别模型的结果,就是利用 training 好的模型做一次 inference 操作。相对 training,inference比较适合在终端部署。


如iphoneX搭载的新的A11处理器内置了双核神经网络引擎,还有类似的在自动驾驶,监控摄像头,机器人等终端设备上的 inference 芯片。从CPU到GPU,再到FPGA和最后的ASIC,计算效率依次递增,但灵活性也是依次递减的。在inference方面,除了GPU之外,ASIC和FPGA都有比较大的潜力。


目前业界在 inference 方面也越来越多地开始使用专用性更强的FPGA和ASIC平台。FPGA全称“可编程门阵列”,通过在芯片内集成大量基本的门电路,允许用户后期烧写配置文件来更改芯片功能实现可更改半定制化。FPGA在延迟和功耗方面都有显著优势,在延迟需求较高比如语音识别和图像识别方面相比GPU而言是一个更好的选择。


ASIC是专用的定制化集成电路,能在开发阶段就针对特定的算法做优化,效率很高。ASIC虽然初期成本高,但是在大规模量产的情况下有规模经济效应,反而能在总体成本上占优。因为设计完成后无法更改,故ASIC的通用性比较差,市场风险高。FPGA因为可以半定制化并且内容可更改,在通用性/兼容性方面占有优势,但是在成本,性能,能效上比,ASIC更有优势



汽车主控芯片结构形式也由 MCU 向 SOC 异构芯片方向发展。


现阶段用于汽车决策控制芯片和汽车智能计算平台主要由三部分构成:

1)智能运算为主的 AI计算单元;

2)CPU单元;

3)控制单元。


主控SoC常由 CPU+GPU+DSP+NPU+各种外设接口、存储类型等电子元件组成,现阶段主要应用于座舱 IVI、域控制、ADAS等较复杂的领域。现有车载智能计算平台产品如奥迪 zFAS、特斯拉 FSD、英伟达Xavier 等硬件均主要由 AI(人工智能)单元、计算单元和控制单元三部分组成,每个单元完成各自所定位的功能。




3、车载AI芯片未来会非线性增长


随着自动驾驶渗透率快速提升,预计车载AI芯片市场规模超过手机侧AI芯片规模。随着智能化对算力需求的指数级增长,ADAS功能逐步成为智能汽车标配,预计到2025年70%的中国汽车将搭载L2-L3级别的自动驾驶功能。观研天下预测全球自动驾驶汽车上的AI 推理芯片,其市场规模将从2017 年的1.42 亿美元,年均增长135%至2022 年的102 亿美元,相比之下手机侧AI芯片市场规模为34亿美金,汽车AI芯片市场规模远超手机侧。



部署于边缘的AI 芯片/内置单元的市场规模占比将从2017 年的21%,上升到2022年的47%。其年均增速123%,超过云端部署年均增速的75%。GPU 市场份额将从2017 年的70%下降到2022 年的39%,其主要增长动力将从数据中心算法训练,转移到自动驾驶汽车。



早期 对外采购mobileye EyeQ3 芯片+摄像头半集成方案,主要是为了满足快速量产需求,且受制于研发资金不足限制;


中期 采用高算力NVIDIA 芯片平台+其他摄像头供应商的特斯拉内部集成方案,mobileye开发节奏无法紧跟特斯拉需求;


当前:采用自研NPU(网络处理器)为核心的芯片+外采Aptina摄像头的特斯拉核心自研方案,主要原因在于市面方案无法满足定制需求,而后期时间和资金充足,公司自研实力和开发自由度更高。



为了掌握自动驾驶话语权,同时并掌握核心数据和AI算法,过去5年特斯拉经历了外购主控芯片到自研的道路。2014年~2016年,特斯拉配备的是基于Mobileye EyeQ3芯片的AutoPilot HW1.0计算平台,车上包含1个前摄像头+1个毫米波雷达+12个超声波雷达。2016年~2019年,特斯拉采用基于英伟达的DRIVE PX 2 AI计算平台的AutoPilot HW2.0和后续的AutoPilot HW2.5,包含8个摄像头+1个毫米波雷达+12超声波雷达。



2017年开始特斯拉开始启动自研主控芯片,尤其是主控芯片中的神经网络算法和AI处理单元全部自己完成。2019年4月,AutoPilot HW3.0平台搭载了Tesla FSD自研版本的主控芯片,这款自动驾驶主控芯片拥有高达60亿的晶体管,每秒可完成144万亿次的计算,能同时处理每秒2300帧的图像。


4、特斯拉的FSD HW3.0基本介绍

特斯拉Model 3自研“中央-区EEA”架构:中央计算机是自动驾驶及娱乐控制模块(Autopilot & Infotainment Control Module),由两块FSD芯片承担大量的数据计算,主要服务于自动驾驶功能。两个区控制器分别是右车身控制器(BCM RH)和左车身控制器(BCM LH),主要服务于热管理、扭矩控制、灯光等功能。




FSD 的 HW3.0 由两个相同的计算单元构成,每个计算单元上面有特斯拉自研的2 块FSD计算芯片,每块算力位 36 Tops,设备总算力位 4 x 36 Tops = 144 Tops。但是由于采用的是双机冗余热备的运行方式,实际可用的算力为72 Top。



特斯拉板子的右侧接口从上到下依次是FOV摄像头、环视摄像头、A柱左右摄像头、B柱左右摄像头、前视主摄像头、车内DMS摄像头、后摄像头、GPS同轴天线。左侧从上到下依次是第二供电和I/O接口(车身LIN网络等),以太网诊断进/出、调试USB、烧录、主供电和I/O(底盘CAN网络等)。


而通过特斯拉在售车型的介绍和实际配置来看,主张以摄像头视觉为核心的特斯拉安装了一个三目摄像头、4个环视、一个后置摄像头、车内DMS摄像头、前置毫米波雷达、以及12颗超声波雷达。


HW 3.0 PCB器件介绍



LPDDR 全称是Low Power Double Data Rate SDRAM,是DDR SDRAM的一种,又称为 mDDR(Mobile DDR SDRM),是目前全球范围内移动设备上使用最广泛的“工作记忆”内存。特斯拉的LPDDR4(8BD77D9WCF)是Micron美光供应。

FSD的GPS模块是NEO-M8L-01A-81,水平精度圆概率误差(英文简称CEP- CircularError Probable)为2.5米,有SBAS辅助下是1.5米,接收GPS/QZSS/GLONASS/北斗,CEP和RMS是GPS的定位准确度(俗称精度)单位,是误差概率单位。冷启动26秒,热启动1秒,辅助启动3秒。内置简易6轴IMU,刷新频率20Hz,量大的话价格会低于300元人民币。


UFS(Universal Flash Storage)采用THGAF9G8L2LBAB7,Toshiba 2018年中期量产的新产品,车规级标准UFS,AEC-Q100 2级标准,容量32GB,由于特斯拉的算法模型占地不大倒也够用。


MAX20025S是开关型电源稳压器,给内存供电的,来自Maxim Integrated,目前查不到更多的介绍资料。


S512SD8H21应该是Boot启动,由Cypress(已被Infineon收购)供货。


特斯拉用了3片TI的FPD-LINK,也就是解串器芯片,解串器芯片都是配对使用,加串行一般在摄像头内部,解串行在PCB上。两片DS90UB960,与其对应的可以是DS90UB953-Q1, DS90UB935-Q1,DS90UB933-Q1, DS90UB913A-Q1。DS90UB960拥有4条Lane,如果是MIPI CSI-2端口,每条Lane带宽可以从400Mbps到1.6Gbps之间设置。



上图为TI推荐的DS90UB960的典型应用示意图,即接4个200万像素帧率30Hz的YUV444数据,或者4个200万像素帧率60Hz的YUV420数据。DS90UB954是DS90UB960简化版,从4Lane减少到2Lane,与之搭配使用的是DS90UB953。


由于大部分摄像头的LVDS格式只能用于近距离传输,因此摄像头都要配备一个解串行芯片,将并行数据转换为串行用同轴或STP传输,这样传输距离远且EMI电磁干扰更容易过车规。目前行业内做解串行芯片用的较多的就是德州仪器TI以及Maxim,特斯拉用的是德州仪器,而我们做开发接触的较多的是Maxim,可能是源于NVIDIA的AI芯片平台设计推荐,目前智能驾驶方面用的摄像头大部分都是Maxim方案。


(摄像头的数据格式通常有RAWRGB、YUV两种。YUV常见的有三种级YUV444,YUV422和YUV420。计算带宽的公式是像素*帧率*比特*X,对RAW RGB来说X=4,比如一款摄像头输出30Hz,200万像素,那么带宽是200万x30x8x4,即1.92Gbps。YUV444是像素X帧率X比特X3,即1.44Gbps,YUV422是像素X帧率X比特X2,即0.96Gbps,YUV420是像素X帧率X比特X1.5,即0.72Gbps。ADAS通常对色彩考虑不多,YUV420足够。除车载外一般多采用YUV422。)


5、特斯拉自动驾驶主芯片详细讲解


这款FSD芯片采用14nm工艺制造,包含一个中央处理器、1个图像处理单元、2个神经网络处理器,其中中央处理器和图像处理器都采用了第三方设计授权,以保证其性能和稳定性,并易于开发,关键的神经网络处理器设计是特斯拉自主研发, 是现阶段用于汽车自动驾驶领域最强大的芯片。



中央处理器是1个12核心ARM A72架构的64位处理器,运行频率为2.2GHz;图像处理器能够提供0.6TFLOPS计算能力,运行频率为1GHz;2个神经网络处理器运行在2.2GHz频率下能提供72TOPS的处理能力。为了提升神经网络处理器的内存存取速度以提升计算能力,每颗FSD芯片内部还集成了32MB高速缓存。


NPU的总功耗为7.5 W,约占FSD功耗预算的21%。这使得它们的性能功率效率约为4.9TOPs/W,特斯拉在芯片设计方面充分考虑了安全性,一块典型的自动驾驶电路板会集成两颗Tesla FSD芯片,执行双神经网络处理器冗余模式,两颗处理器相互独立,即便一个出现问题另一个也能照常执行,此外还设计了冗余的电源、重叠的摄像机视野部分、各种向后兼容的连接器和接口。




信号传输流程:


从摄像头的图像开始,根据数据流向,特斯拉解释了整个过程。首先,数据以每秒25亿像素的最大速度采集输入,这大致相当于以每秒60帧的速度输入21块全高清1080P屏幕的数据。这比目前安装的传感器产生的数据多得多。这些数据然后进入我们前面讨论的DRAM,这是SoC的第一个也是主要瓶颈之一,因为这是处理速度最慢的组件。然后数据返回到芯片,并通过图像信号处理器ISP,每秒可以处理10亿像素(大约8个全高清1080P屏幕,每秒60帧)。这一阶段芯片将来自摄像头传感器的原始RGB数据转换成除了增强色调和消除噪音之外实际上有用的数据。


使用的是车载龙头镁光的LPDDR4,具体型号是8BD77D9WCF 8表示年份2018,B 表示第 4 周,D 代表 D-Die,属于镁光产品线中性能相对一般的型号,77 分别代表芯片生产地和封装地,7 代表中国台湾(5 代表中国大陆)。所以,这是一颗美光 2018 年第二周生产的D-Die颗粒)D9WCF对应型号为MT53D512M32D2DS-046AAT。53 代表这是一颗 LPDDR4 颗粒;D 代表1.1V 的工作电压;512M 表示单颗颗粒的容量为 512MB;32 表示单颗粒位宽为 32bit。

 

按照容量计算单颗芯片是=512MB X 32 ÷8 = 2GB,使用量是4颗,所以DDR的总容量是8GB。


按照LPDDR4最高频率4266MHZ的速率计算,每颗DDR是32位的位宽,CPU的位宽是32X4=128 bit,此时DDR的带宽=4266MBX128 ÷ 8 = 68.25G/S。

我们再来看看目前的特斯拉的信号传输流向。

 

可以看到,传输速度远远大于8颗摄像头采集的图像数据,传输速度不是瓶颈,ISP的处理速率是10亿像素/秒,如果是RGB888的位深,此时的数据量应该是2.78GB/S,此处的LPDDR4 的带宽是68GB/S,目前单独处理图像是够的。这里说内存带宽可能是未来限制自动驾驶的瓶颈,原因是要处理很多除了图像以外的数据,比如雷达,多线程多应用的数据。


自动驾驶对于DDR带宽的要求:


上图是目前比较主流的L3+自动驾驶的架构,从这里可以看到,摄像头那部分的处理需要的DDR的带宽是34GB/s,ASIC的DDR带宽为64bit,ADAS需要处理摄像头的raw dater,这样才是最原始的数据,不是压缩,也没有处理过的数据,这样ADAS处理起来才比较灵活,所以ADAS的带宽要求非常高。

 

可以看到除了要处理高清摄像头的raw dater的数据,还需要处理超声波雷达和激光雷达的数据,这些传感器的作用是不同的,激光雷达主要用于3D建模、超声波雷达用于倒车、超车,摄像头主要用于部分ADAS功能,比如ACC自适应巡航、AEB紧急制动等等。



由于这些传感器的数据量非常大,处理的要求也比较高,所以对于ADAS CPU的DDR的带宽要求非常高,需要使用到4颗32bit的LPDDR5,同时需要CPU 的DDR带宽为128bit,同时带宽需要达到102.4GB/s,也许你会有疑惑,为什么特斯拉的才68GB/s的带宽就可以处理了呢?


特斯拉由于成本原因,没有使用激光雷达,下图是特斯拉车身上不同版本的硬件的传感器,AP3.0的硬件使用了6个摄像头,12个超声波雷达,1个毫米波雷达。由于算法做的非常牛掰,一样的可以使用超声波雷达+摄像头进行3D数据建模。所以性能更优,成本更少,而且对于DDR的带宽要求也下降了。



2020年市场上打造的L2级别的驾驶,都没有使用到激光雷达,只有谷歌的waymo使用了4颗激光雷达还有奥迪A8的使用了1颗激光雷达。2021年上海车展的情况来看极光雷达如雨后春笋,越来越多的智能汽车选择使用激光雷达,很多激光雷达都是安全冗余使用的目的,传感器数据是做后融合,此时处理数据的能力要求就提高,此时对于DDR带宽要求会变大。




6、特斯拉NPU介绍




上图的型号处理过程中,该过程的第一步是将数据存储在SRAM阵列中。现在很多人——甚至是那些对计算机组件略知一二的人——可能会想,“SRAM到底是什么?”嗯,最接近的比较是在计算机处理器上能找到的共享L3缓存。这意味着什么呢?这意味着存储速度非常快,但同时也很贵。


目前,Intel最大的L3缓存是45 MB(2010年以前是16 MB, 2014年以前是24 MB)。大多数消费级笔记本电脑和桌面处理器都有8-12 MB的L3缓存。特斯拉的神经网络处理器有一个庞大的64MB SRAM,它被分成两个32 MB的SRAM段来支持两个神经网络处理器。特斯拉认为其强大的SRAM容量是其相对于其他类型芯片的最大优势之一。


NPU的算力能够满足很多图像相关的识别算法:



假设此时你车上的AI图像算法是YOLO-V3,它是一种使用深度卷积神经网络学得的特征来检测对象的目标检测器,直白点就是照片识别器,在机场地铁都有批量使用,就是大量的卷积、残差网络、全连接等类型的计算,本质是乘法和加法。对于YOLO-V3来说,如果确定了具体的输入图形尺寸,那么总的乘法加法计算次数是确定的。比如一万亿次。(真实的情况比这个大得多的多),用算力表示就是TOPS为单位。那么要快速执行一次YOLO-V3,就必须执行完一万亿次的加法乘法次数。



这个时候就来看了,比如IBM的POWER8,最先进的服务器用超标量CPU之一,4GHz,SIMD,128bit,假设是处理16bit的数据,那就是8个数,那么一个周期,最多执行8个乘加计算。一次最多执行16个操作。这还是理论上,其实是不大可能的。

 

那么CPU一秒钟的巅峰计算次数=16* 4Gops =64Gops,当然,以上的数据都是完全最理想的理论值。因为,芯片上的存储不够大,所以数据会存储在DRAM中,从DRAM取数据很慢的,所以,乘法逻辑往往要等待。另外,AI算法有许多层网络组成,必须一层一层的算,所以,在切换层的时候,乘法逻辑又是休息的,所以,诸多因素造成了实际的芯片并不能达到利润的计算峰值,而且差距还极大,实际情况,能够达到5%吧,也就3.2Gops,按照这个图像算法,如果需要执行YOLO-V3的计算,1W除以3.2=3125秒,也就是那么需要等待52分钟才能计算出来。

 

如果是当前的CPU去运算,那么估计车翻到河里了还没发现前方是河,这就是速度慢,对于ADAS产品而言,时间就是生命。

 

此时我们在回过头来看看高通820A芯片的算力,CPU的算力才42K,刚刚那个是基于最先进的服务器IBM的POWER8 CPU计算力是是3.2GPOS,车载算的上最先进的域控制器才42K的CPU计算力,所以不能用于AI的计算。此时需要使用GPU来计算,看看GPU的算力是320Gops,此时算这个YOLO-V3图像识别的算法需要32秒,这个成绩还是非常不错的。

 

此时可以看到高通820A芯片的CPU算力是不能够用于AI的计算,GPU的算力是可以满足一些不需要那么实时性比较高的一些AI处理。


此时可以看到高通820A芯片的CPU算力是不能够用于AI的计算,GPU的算力是可以满足一些不需要那么实时性比较高的一些AI处理。

 

此时再来看看特斯拉的NPU,这个只需要13.8ms就可以计算出来了,按照80KM/h的速度,这个响应速度在0.3米,完全是杠杠的,实际情况下应该没有那么快,因为运算速度没有那么快。

 

神经网络处理器是一个非常强大的工具。很多数据都要经过它,但有些计算任务还没有调整到适合神经网络处理器上运行,或者不适合这种处理器。这就是GPU的用武之地。该芯片的GPU(每辆特斯拉都有)性能适中,运行速度为1 GHz,能够处理600 GFLOPS数据。特斯拉表示,GPU目前正在执行一些后处理任务,其中可能包括创建人类可以理解的图片和视频。然而,从特斯拉在其演示中描述的GPU的角色来看,预计该芯片的下一次迭代将拥有一个更小的GPU。

 

还有一些通用的处理任务不适合由神经网络处理器处理、而由CPU来完成的。特斯拉解释说,芯片中有12个ARM Cortex A72 64位CPU,运行速度为2.2 GHz。尽管这样——更准确的描述应该是有三个4核cpu——特斯拉选择使用ARM的Cortex A72架构有点令人费解。Cortex A72是2015年的一个架构。从那以后,A73, A75,甚至几天前A77架构已经发布。埃隆和他的团队解释说,这是他们两年前开始设计芯片时就有的东西。


对于Tesla来说,这可能是一个更便宜的选择,如果多线程性能对他们来说比单个任务性能更重要,那么这是有意义的,因此包含3个较老的处理器而不是1个或2个更新或更强大的处理器。多线程通常需要更多的编程工作来正确分配任务,但是,嘿,我们正在谈论的是特斯拉——这对它来说可能是小菜一碟。无论如何,该芯片的CPU性能比特斯拉之前版本HW 2.0的CPU性能高出2.5倍。


AI芯片加速原理:

人工智能(深度学习)现在无处不在,衡量人工智能运算量通常有三个名词。


FLOPS:注意全大写,是floating point operations per second的缩写,意指每秒浮点运算次数,理解为计算速度。是一个衡量硬件性能的指标。


FLOPs:注意s小写,是floating point operations的缩写(s表复数),意指浮点运算数,理解为计算量。可以用来衡量算法/模型的复杂度。


MACCs:是multiply-accumulate operations),也叫MAdds,意指乘-加操作(点积运算),理解为计算量,也叫MAdds, 大约是 FLOPs 的一半。

 

人工智能中最消耗运算量的地方是卷积,就是乘和累加运算Multiply Accumulate,MAC。


y = w[0]*x[0] + w[1]*x[1] + w[2]*x[2] + ... + w[n-1]*x[n-1]

w 和 x 都是向量,y 是标量。上式是全连接层或卷积层的典型运算。一次乘-加运算即一次乘法+一次加法运算,所以上式的 MACCs 是n。而换到 FLOPS 的情况,点积做了 2n-1 FLOPS,即 n-1 次加法和 n 次乘法。可以看到,MACCs 大约是 FLOPS 的一半。实际就是MAC只需一个指令,一个运算周期内就可完成乘和累加。卷积运算、点积运算、矩阵运算、数字滤波器运算、乃至多项式的求值运算都可以分解为数个 MAC 指令,人工智能运算也可以写成MAC运算。


MAC指令的输入及输出的数据类型可以是整数、定点数或是浮点数。若处理浮点数时,会有两次的数值修约(Rounding),这在很多典型的DSP上很常见。若一条MAC指令在处理浮点数时只有一次的数值修约,则这种指令称为“融合乘加运算”/“积和熔加运算”(fused multiply-add, FMA)或“熔合乘法累积运算”(fused multiply–accumulate,FMAC)。假设3×3卷积,128 个 filer,输入的 feature map 是 112×112×64,stride=1,padding=same,MACCs 有:3×3×64×112×112×128=924,844,032次,即1.85TOPS算量。

 AI芯片就是简单暴力地堆砌MAC单元。增加MAC数量,这是提升算力最有效的方法,没有之一,而增加MAC数量意味着芯片裸晶面积即成本的大幅度增加,这也是为什么AI芯片要用到尽可能先进的半导体制造工艺,越先进的半导体制造工艺,就可拥有更高的晶体管密度,即同样面积下更多的MAC单元,衡量半导体制造工艺最主要的指标也就是晶体管密度而不是数字游戏的几纳米。

 

具体来说,台积电初期7纳米工艺,每平方毫米是9630万个晶体管,后期7+纳米可以做到每平方毫米1.158亿个晶体管,三星7纳米是9530万个,落后台积电18%,而英特尔的10纳米工艺是1.0078亿个晶体管,领先三星,落后台积电。这也是台积电垄断AI芯片的原因。而5纳米工艺,台积电是1.713亿个晶体管,而英特尔的7纳米计划是2亿个晶体管,所以英特尔的7纳米芯片一直难产,难度比台积电5纳米还高。顺便说下,台积电平均每片晶圆价格近4000美元,三星是2500美元,中芯国际是1600美元。


除了增加数量,还有提高MAC运行频率,但这意味着功耗大幅度增加,有可能造成芯片损坏或死机,一般不会有人这么做。除了简单的数量增加,再一条思路是提高MAC的效率。

 

提高MAC效率方法:


提升MAC效率最重要的就是存储


真实值和理论值差异极大。决定算力真实值最主要因素是内存( SRAM和DRAM)带宽,还有实际运行频率( 即供电电压或温度),还有算法的batch尺寸。例如谷歌第一代TPU,理论值为90TOPS算力,最差真实值只有1/9,也就是10TOPS算力,因为第一代内存带宽仅34GB/s。而第二代TPU下血本使用了HBM内存,带宽提升到600GB/s(单一芯片,TPU V2板内存总带宽2400GB/s)。


最新的英伟达的A100使用40GB的2代HBM,带宽提升到1600GB/s,比V100提升大约73%。特斯拉是128 bit LPDDR4-4266 ,那么内存的带宽就是:2133MHz*2DDR*128bit/8/1000=68.256GB/s。比第一代TPU略好( 这些都是理论上的最大峰值带宽)其性能最差真实值估计是2/9。也就是大约8TOPS。16GB版本的Xavier内存峰值带宽是137GB/s。

 

为什么会这样,这就牵涉到MAC计算效率问题,如果你的算法或者说CNN卷积需要的算力是1TOPS,而运算平台的算力是4TOPS,那么利用效率只有25%,运算单元大部分时候都在等待数据传送,特别是batch尺寸较小时候,这时候存储带宽不足会严重限制性能。但如果超出平台的运算能力,延迟会大幅度增加,存储瓶颈一样很要命。效率在90-95%情况下,存储瓶颈影响最小,但这并不意味着不影响了,影响依然存在。

 

然而平台不会只运算一种算法,运算利用效率很难稳定在90-95%。这就是为何大部分人工智能算法公司都想定制或自制计算平台的主要原因,计算平台厂家也需要推出与之配套的算法,软硬一体,实难分开。

 

最为有效的方法还是减小运算单元与存储器之间的物理距离。也是这15年来高性能芯片封装技术发展的主要目标,这不仅可以提高算力,还能降低功耗减少发热。这其中最有效的技术就是HBM和CoWoS。


CPU与HBM2之间通过Micro-bump连接,线宽仅为55微米,比传统的板上内存或者说off-chip内存要减少20倍的距离。可以大大缓解内存瓶颈问题。


不过HBM和CoWoS价格都很高,假设500万的一次下单量,7纳米工艺的话,纯晶圆本身的硬件成本大约是每片芯片208-240美元,这个价格做训练用AI芯片可以承受,但是推理AI芯片用不起。再有CoWoS是台积电垄断的,台积电也正是靠这种工艺完全垄断高性能计算芯片代工。英特尔的EMIB是唯一能和CoWoS抗衡的工艺,但英特尔不代工。

 

退而求其次的方法是优化指令集,尽量减少数据的访存,CNN算法会引入大量的访存行为,这个访存行为的频繁度会随着参考取样集合的增加而增加(原因很简单,缓存无法装下所有的参考取样,所以,即便这些参考取样会不断地被重复访问,也无法充分挖掘数据本地化所带来的cache收益)。针对这种应用类型,实际上存在成熟的优化范式——脉动阵列。

 

脉动阵列


脉动阵列并不是一个新鲜的词汇,在计算机体系架构里面已经存在很长时间。大家可以回忆下冯诺依曼架构,很多时候数据一定是存储在memory里面的,当要运算的时候需要从memory里面传输到Buffer或者Cache里面去。


当我们使用computing的功能来运算的时候,往往computing消耗的时间并不是瓶颈,更多的瓶颈在于memory的存和取。所以脉动阵列的逻辑也很简单,既然memory读取一次需要消耗更多的时间,脉动阵列尽力在一次memory读取的过程中可以运行更多的计算,来平衡存储和计算之间的时间消耗。


下面说下脉冲阵列的基本原理:


首先,图中上半部分是传统的计算系统的模型。一个处理单元(PE)从存储器(memory)读取数据,进行处理,然后再写回到存储器。这个系统的最大问题是:数据存取的速度往往大大低于数据处理的速度。因此,整个系统的处理能力(MOPS,每秒完成的操作)很大程度受限于访存的能力。这个问题也是多年来计算机体系结构研究的重要课题之一,可以说是推动处理器和存储器设计的一大动力。而脉动架构用了一个很简单的方法:让数据尽量在处理单元中多流动一会儿。


正如上图的下半部分所描述的,第一个数据首先进入第一个PE,经过处理以后被传递到下一个PE,同时第二个数据进入第一个PE。以此类推,当第一个数据到达最后一个PE,它已经被处理了多次。所以,脉动架构实际上是多次重用了输入数据。因此,它可以在消耗较小的memory带宽的情况下实现较高的运算吞吐率。


上面这张图非常直观的从一维数据流展示了脉动阵列的简单逻辑。当然,对于CNN等神经网络来说,很多时候是二维的矩阵。所以,脉动阵列从一维到二维也能够非常契合CNN的矩阵乘加的架构。

 

降低推理的量化比特精度是最常见的方法。它既可以大大降低运算单元的精度,又可以减少存储容量需求和存储器的读写。但是,降低比特精度也意味着推断准确度的降低,这在一些应用中是无法接受的。由此,基本运算单元的设计趋势是支持可变比特精度,比如BitMAC 就能支持从 1 比特到 16 比特的权重精度。大部分AI推理芯片只支持INT8位和16位数据。


除了降低精度以外,还可以结合一些数据结构转换来减少运算量,比如通过快速傅里叶变换(FFT)变换来减少矩阵运算中的乘法;还可以通过查表的方法来简化 MAC 的实现等。

 

对于使用修正线性单元(ReLU)作为激活函数的神经网络,激活值为零的情况很多 ;而在对神经网络进行的剪枝操作后,权重值也会有很多为零。基于这样的稀疏性特征,一方面可以使用专门的硬件架构,比如 SCNN 加速器,提高 MAC 的使用效率,另一方面可以对权重和激活值数据进行压缩。



还可以从体系架构上对整个的Memory读取来做进一步的优化。这里摘取的是寒武纪展示的一些科研成果。其实比较主流的方式就是尽量做Data Reuse,减少片上Memory和片外Memory的信息读取次数,增加片上memory,因为片上数据读取会更快一点,这种方式也能够尽量降低Memory读取所消耗的时间,从而达到运算的加速。


对于神经网络来说,其实很多的连接并不是一定要存在的,也就是说我去掉一些连接,可能压缩后的网络精度相比压缩之前并没有太大的变化。基于这样的理念,很多剪枝的方案也被提了出来,也确实从压缩的角度带来了很大效果提升。

 

需要特别提出的是,大家从图中可以看到,深度学习神经网络包括卷积层和全连接层两大块,剪枝对全连接层的压缩效率是最大的。下面柱状图的蓝色部分就是压缩之后的系数占比,从中可以看到剪枝对全连接层的压缩是最大的,而对卷积层的压缩效果相比全连接层则差了很多。

 

所以这也是为什么,在语音的加速上很容易用到剪枝的一些方案,但是在机器视觉等需要大量卷积层的应用中剪枝效果并不理想。


对于整个Deep Learning网络来说,每个权重系数是不是一定要浮点的,定点是否就能满足?定点是不是一定要32位的?很多人提出8位甚至1位的定点系数也能达到很不错的效果,这样的话从系数压缩来看就会有非常大的效果。从下面三张人脸识别的红点和绿点的对比,就可以看到其实8位定点系数在很多情况下已经非常适用了,和32位定点系数相比并没有太大的变化。所以,从这个角度来说,权重系数的压缩也会带来网络模型的压缩,从而带来计算的加速。


谷歌的TPU AI计算加速介绍:



这是Google的TPU。从上边的芯片框图可以看到,有一个64K的乘加MAC阵列对乘加运算进行加速。从论文中可以看到里面已经用到了脉动阵列的架构方法来对运算进行加速,另外也有我们前面提到的大量的片上Memory 这样的路径。上面蓝色框图中大家可以看到有一个24MiB的片上Memory,而且有两个高速DDR3接口能够与片外的DDR做交互。

 

再来说说AI芯片。比如大名鼎鼎的谷歌的TPU1。TPU1,大约700M Hz,有256X256尺寸的脉动阵列,如下图所示。一共256X256=64K个乘加单元,每个单元一次可执行一个乘法和一个加法。那就是128K个操作。(乘法算一个,加法再算一个)。


另外,除了脉动阵列,还有其他模块,比如激活等,这些里面也有乘法、加法等。


所以,看看TPU1一秒钟的巅峰计算次数至少是=128K X 700MHz=89600Gops=大约90Tops。

对比一下CPU与TPU1,会发现计算能力有几个数量级的差距,这就是为啥说CPU慢。


 当然,以上的数据都是完全最理想的理论值,实际情况,能够达到5%吧。因为,芯片上的存储不够大,所以数据会存储在DRAM中,从DRAM取数据很慢的,所以,乘法逻辑往往要等待。另外,AI算法有许多层网络组成,必须一层一层的算,所以,在切换层的时候,乘法逻辑又是休息的,所以,诸多因素造成了实际的芯片并不能达到利润的计算峰值,而且差距还极大。


上图展示的第二代TPU。从图中可以很直观的看到,它用到了我们前面所说到的HBM Memory。从其论文披露的信息也可以看到,二代TPU在第一代的基础上增加了我们前面说到的剪枝,权重压缩等方面做了很多尝试,也是一个非常经典的云端AI加速芯片的例子。


特斯拉HW4.0 将改变未来汽车的模样


硬件层面:


我们对HW 4.0有什么期待呢?目前,我们所知道的是,它的目的是进一步提高安全性。唯一真正告诉我们的是,它不会专注于让一辆旧车学习新技术,但这并不意味着它不会包括一些新技术。以下是我列出的HW 4.0可能带来的潜在变化和改进,从最可能的到最具推测性的排列如下:

 

特斯拉很可能会使用更新的CPU版本,这取决于特斯拉什么时候开始设计基于A75的架构。增加的处理能力让特斯拉有机会节省芯片上的功耗和空间,为更重要的组件腾出空间。

 

特斯拉可能会升级到LPDDR5,这将导致显著的速度提升和功耗降低。但是,如果HW 4.0芯片在设计过程中、或者为了降低成本,特斯拉可能会选择LPDDR4X。通过使用较低的电压平台,LPDDR4X节省了能耗,但如果同时使用多个芯片,它仍然可以提高速度。尽管如此,与HW 3.0相比,这种配置并不会节省能耗。任何一种选择都代表着对HW 3.0的全面改进。

 

进一步改进具有更多SRAM的神经网络处理单元。

 

根据芯片上的处理能力是否能够处理摄像头传输过来的全分辨率和帧速率的数据,特斯拉的HW 4,0可能会配备更高分辨率的新摄像头和传感器,甚至可能会有更高的帧速率。更高分辨率的图像是至关重要的,因为更多的细节将帮助计算机更准确地识别物体,并具备更远的识别距离。

 

升级的图像信号处理器(ISP)。特斯拉想让自己的芯片尽可能的便宜和强大。这就是为什么在HW 3.0中,芯片输入的处理能力和ISP的处理能力之间存在很大的脱节,因此需要一个更强大的或第二块ISP,这取决于哪种解决方案需要更低的功耗、更小的空间或更低的成本。


一个更小的GPU。HW 3.0的SoC中还存在GPU的原因之一是,并不是所有的处理任务都转移到神经网络处理器中去了。对于特斯拉来说,让它的程序员有足够的时间将剩余的GPU处理任务重新分配给NPU或CPU可能是一条捷径。完全消除GPU可能是不可能的;然而,一个更小的GPU和更小的SoC占用导致更少的NoC,这样可以为更关键的组件——如更多的SRAM——匀出预算和空间。


软件层面:


新一代自动驾驶芯片和HW4.0即将在明年量产,重构AutoPilot底层架构,将推出训练神经网络超级计算机Dojo,瞄准L5自动驾驶场景。2020年8月多家媒体报道,特斯拉正与博通合作研发新款 HW 4.0 自动驾驶芯片,有望在明年第四季度大规模量产,未来将采用台积电 7nm 技术进行生产。同时AutoPilot 团队正对软件的底层代码进行重写和深度神经网络重构, 包括对数据标注、训练、推理全流程的重构。



全新的训练计算机 Dojo 正在开发中。Dojo 将专门用于大规模的图像和视频数据处理,其浮点运算能力将达到exaflop 级别(秒运算百亿亿次),将配合无监督学习算法,来减少特斯拉对于数据人工标注的工作量,帮助特斯拉数据训练效率实现指数级提升。目前特斯拉已经拥有超过82万台车不断回传数据,到2020年年底将拥有51亿英里驾驶数据用于自动驾驶训练,过去的训练数据依赖于人工标注,而主动的自监督学习配合Dojo计算机可以大幅优化算法提升的效率。


Dojo 可以改善 Autopilot 的工作方式,从目前的2D图像 + 内容标注方式训练,升级到可以在「4D」(3D 加上时间维度)环境下运行。我们预计借助强大的自研计算平台、全球领先的AI算法能力、庞大的实际驾驶数据量,特斯拉有望成为率先实现L5级别自动驾驶的公司。


特斯拉HW4.0为什么有勇气对激光雷达say no:


目前还在坚持做图像识别为主的只有特斯拉了,Mobileye已经开始使用了激光雷达做下一代自动驾驶平台的关键器件了,只有马教主坚持激光雷达就像阑尾,他说:一个阑尾就够糟了,还带一堆,简直荒谬。


特斯拉如此有勇气,其实在于它的研发模式,从芯片 ,操作系统,算法以及控制器都是自研,整个性能可以发挥到极致。

视觉方案通过摄像头,致力于解决“拍到的是什么”问题。从工作原理来看,视觉方案以摄像头作为主要传感器,通过收集外界反射的光线从而进一步呈现出外界环境画面,即我们所熟悉的摄像头功能,再进行后续图像分割、物体分类、目标跟踪、世界模型、多传感器融合、在线标定、视觉SLAM、ISP 等一系列步骤进行匹配与深度学习,其核心环节在于物体识别与匹配,或者运用AI 自监督学习来达到感知分析物体的目的,需要解决的是“我拍到的东西是什么”的问题。


视觉方案重在分类,但样本有限度限制了视觉识别正确性,而优化样本对于AI 学习能力、样本数据量要求极高。由于L3 级及以上自动驾驶需要机器应对较为复杂的路况,要求车辆对于道路状况有精准识别能力,而视觉技术需要解决的是“摄像头拍到的是什么物体”的问题,因而对于神经网络训练集要求很高。对于训练的方法,一种为通过机器视觉,人为设定好识别样本,通过收集到的数据直接与样本匹配来识别的方式,但是能否成功辨别物体高度依赖样本的训练,样本未覆盖的物体将难以辨别;另一种为AI 学习,能够通过自学习的方式摆脱样本限制,但是对于算法与算力要求很高,并且其学习过程是个“黑盒子”,输出结果的过程未知,因而难以人为调试与纠错。


而这两个关键问题,对于特斯拉都可以通过提高芯片本身的算力,还有云计算平台的大数据训练来解决。


特斯拉的视觉方案具有很高的算法与算力复杂度。特斯拉曾公布过自己数据流自动化计划的终极目标“OPERATION VACATION”,从数据收集、训练、评估、算力平台到“影子模式”形成数据采集与学习循环。


数据收集:通过8 个摄像头对车体周围进行无死角图像采集;


数据训练:使用PyTorch 进行网络训练,特斯拉的网络训练包含48 个不同的神经网络,

能输出1000 个不同的预测张量。其背后训练量巨大,特斯拉已耗费70000 GPU 小时进行深度学习模型训练;

背后算力支持:特斯拉自研打造了FSD 芯片,具有单片144TOPS 的高算力值。另外,


特斯拉规划创造Dojo 超级计算机,可在云端对大量视频进行无监督学习训练,目前离开发出来的进度值得期待;


影子模式:特斯拉通过独创“影子模式”来降低样本训练成本、提高识别准确度,即特斯拉持续收集外部环境与驾驶者的行为,并与自身策略对比,如果驾驶者实际操作与自身判断有出入,当下数据就会上传至特斯拉云端,并对算法进行修正训练。


从数据采集,本地芯片硬件处理、图像的软件算法处理、再到后台的超级计算机进行训练,这个需要一系列的技术支持,最好从芯片、操作系统、算法、控制器都是自研,这样才能把芯片的性能发挥最佳,从Mobileye的黑盒子开发模式,直接就让车厂彻底放弃了这条纯视觉处理的道路,不投入几千亿估计门都摸不着方向,所以目前只有特斯拉这样的理工男对于激光雷达有勇气say no。



前面有提到,自动驾驶等级每增加一级,所需要的芯片算力就会呈现十数倍的上升,L2级自动驾驶的算力需求仅要求2-2.5TOPS,但是L3级自动驾驶算力需求就需要20-30TOPS,到L4级需要200TOPS以上,L5级别算力需求则超过2000TOPS。


上一章节特斯拉的算力是72TOPS,接下来介绍的几款平台都是在200TOPS以下的低算力平台,主要是L2级别以上的自动驾驶平台,比如Mobileye,其主要强项在于它基于视觉的ADAS应用,低算力平台芯片有Mobileye、瑞萨、TI,地平线 四家芯片平台本期内容会一一介绍。


7、Mobileye方案介绍


Mobileye成立于1999年,是以色列提供基于视觉系统分析和数据处理研发高级驾驶辅助系统和自动驾驶解决方案的全球先行者,为全球27家OEM厂和Tier1厂商提供“芯片+算法”软硬一体化的ADAS视觉解决方案。


EyeQ系列芯片截至2019年底出货5400万,为全球超过5000万辆汽车的行车安全保驾护航,目前全球ADAS市场占有率大约为70%。创办之初公司致力于用单目视觉,提供包括行人检测、车道保持和自适应巡航等辅助驾驶技术,1999年到2001年,Mobileye原型产品每年迭代一次,2001年Mobileye将自研的算法固化到芯片上并集成到汽车当中,从此开启了EyeQ芯片的研发。


2004年4月,EyeQ1开始生产,随后公司收获多轮融资,将商业模式转向汽车安全,陆续与大陆、意法半导体、麦格纳、电装、德尔福等全球顶级零部件供应商签署合作协议。2007年,宝马、通用和沃尔沃成为首批配装Mobileye芯片的车企,Mobileye产品正式商用。2008年,Mobileye对外发布EyeQ 2,公司进入稳定发展期。2013年,Mobileye累计卖出产品突破100万台,随后出货量呈现爆发式增长。2017年3月,Mobileye被芯片巨头英特尔以 153 亿美元的价格收购。


2014年到2019年,公司营收复合增速达到44%,2019年收入8.79亿美元,净利润27.9%,其中EyeQ系列芯片2019年出货量达到1740万颗。EyeQ1至EyeQ4等芯片型号已经量产,EyeQ5则预计于明年投放市场。EyeQ4多用于对半自动辅助驾驶技术的支持,最高支持到L3级别,而EyeQ5主要定位于Level 4/5无人驾驶阶段的应用。


2019 年底,Mobileye EyeQ 芯片全球累计出货超过 5400 万片。


2020 年 9 月,Mobileye 透露,EyeQ 芯片全球出货量超过 6000 万片。


这 6000 万片是 EyeQ2、EyeQ3 和 EyeQ4 之和,其中 2020 年新增的部分主要是 EyeQ4。


目前Mobileye一直采用传感器+芯片+算法绑定的一体式解决方案,这种封闭模式也导致客户开发灵活度下降,短期有利于提升市场占有率,受到转型较晚或者AI投入少的OEM厂商欢迎,但长期将导致定制差异化产品的能力欠缺,因此需要快速迭代升级产品的造车新势力或者对转型速度要求较快的OEM厂商很难接受Mobileye的“黑盒”方式。


例如中国造车新势力小鹏汽车曾短暂地用Mobileye的芯片做过测试后决定在P7上改用英伟达的Xavier,主要因为小鹏希望“把芯片和算法剥离开,采用可编程的芯片,在芯片上进行算法研发和定制化,跟场景结合”,因此选择了更开放的英伟达。



EyeQ4配置了4个CPU内核和6个矢量微码处理器(VMP),每个CPU内核又拥有四个硬件线程。EyeQ4芯片引入了新颖的加速器类别:两个多线程处理集群(MPC)内核,两个可编程宏阵列(PMA)内核。结构上,EyeQ4使用 28nm的FD-SOI。功能上,相比EyeQ3,EyeQ4新增REM路网收集管理、驾驶决策、任意角度车辆识别、可行驶区域等功能。



即将投放市场的EyeQ5将装备8枚多线程CPU内核,同时还会搭载18枚Mobileye的下一代视觉处理器。



EyeQ5具有更为复杂的功能,将采用7nm制程工艺。EyeQ5最多支持20个外部传感器(摄像头、雷达或激光雷达),“传感器融合”是EyeQ5推出的主要目的。EyeQ5运算性能达到了12Tera/每秒,能耗不到5W,芯片节能效率是对标产品Drive Xavier的2.4倍。为了能够运行L4/L5级别自动驾驶,英特尔自动驾驶系统将采用摄像头为先的方法设计,搭载两块EyeQ5系统芯片、一个英特尔凌动芯片以及Mobileye软件。EyeQ5有望实行“开放”战略,Tier1和主机厂等合作伙伴都可以使用“开放式架构”来写入自己的代码,包括传感器融合和驾驶决策等。


EyeQ5 Mobileye 的 SuperVision 即将量产


极氪 001 前面几天的发布会,该车型的自动驾驶使用的就是 自动驾驶会采用 Mobileye 的 SuperVision 系统。

  


SuperVision 是 Mobileye 打造的 360° 纯视觉智能驾驶系统。所谓纯视觉,简单理解就是像特斯拉 FSD 一样,用摄像头来实现 L2 及以上级别辅助驾驶能力的智能驾驶系统。



极氪 001 将搭载的自动驾驶辅助系统 Copilot,其集成了 2 颗 Mobileye EyeQ5 芯片和视觉感知算法 SuperVision,这是一套 L2+ 级自动驾驶系统。


2 颗 24 Tops/10 W 的 EyeQ5H 将为自动驾驶系统提供计算上的冗余,主系统芯片将包含完整的技术栈,另一颗芯片则提供冗余备份,在主系统失效时发挥作用。

 

极氪 001 的传感器配置:  


  • 全车 15 个摄像头;

  • 2 颗 EyeQ5H 高算力芯片,EyeQ5 芯片基于台积电的 7nm FinFET 工艺打造,单芯片算力达到了 24 Tops,接近 EyeQ4 的十倍;

  • 1 个 250 m LRR 超长距毫米波雷达;

  • 12 个超声波雷达。


 

可以实现的功能,包含:


  • 可解放双手的高速自动驾驶:包括自动变道、不同高速公路之间的导航、自动上/下匝道以及城市道路辅助驾驶;

  • 自动泊车;

  • 标准 ADAS 功能:包括 AEB、ACC 以及 LKA 等;

  • DMS 驾驶员监控系统。


 

基于这个平台打造的极氪 001 会在 2021 年实现 L2+ 级别的自动驾驶,类似于现在特斯拉的辅助驾驶能力,而到了2023 年基于此逐步实现高速 NoA 或者城市 NoA。


Mobileye 的后续产品路线



EyeQ5 提供的算力水平是最高 24 TOPS,跟其他几家相比,这个算力水平要逊色不少。

 

EyeQ6 才是 Mobileye 真正发力高性能的高端。

 

EyeQ6 预计于 2024/2025 年量产,分为高中低三个版本。

 

Mobileye 在 2016 年开始设计 EyeQ5,选定了 MIPS 的 I6500 做架构。

 

MIPS 在 I6500 架构之上,推出了特别针对车规的 I6500-F,而后续的 I7200 是针对无线市场的。

 

因此,Mobileye 在之后的一代芯片上,放弃了 MIPS 架构,而决定采用英特尔的 Atom 内核。

 

Atom 是英特尔处理器系列的常青树,典型车载平台是 Apollo Lake。

 

2016 年 6 月,英特尔从 Apolllo Lake 切换到 Goldmont 架构,并先后在特斯拉、宝马、卡迪拉克、红旗、现代、沃尔沃、奇瑞的车机上大量使用。


EyeQ6 要到 2024 年才量产,在各家的竞争中也显得有些落后了。



8、瑞萨自动驾驶平台方案介绍


瑞萨是全球第二大汽车半导体厂家,全球第一大汽车 MCU 厂家,也是日本除索尼(索尼的主营业务主要是图像传感器)外最大的半导体厂家。


瑞萨在整个座舱芯片(包括液晶仪表+中控导航)和自动驾驶全部都有布局,在不同系列的产品都有分入门级和高阶版本。比如座舱的中间级别的芯片等级及时M级别,大众迈腾与帕萨特用的M3系列芯片,定位为中档座舱。


在高性能车载计算方面,瑞萨目前最顶级的产品是 R-CAR H3,主要用在座舱领域,目前最新款的长城H6的柠檬平台就是使用的这个平台。



从上图的roadmap 可以看到,在ADAS芯片这块,瑞萨推出的芯片比较慢,在2018-2020年都是基于R-Car Gen3 架构推的ADAS芯片。R-Car Gen3基于Arm®Cortex®-A57 / A53内核,该内核使用Arm 64位CPU架构。它提供了处理来自车辆周围多个传感器的大量数据的能力。在开发入门级或高端系统时,在图形和计算机视觉方面存在权衡。


在2018年推出的芯片是R-CAR V3M,这颗芯片是一款主要用于前置摄像头应用的SoC,前置摄像头面临的挑战是如何为计算机视觉提供高性能,同时支持低功耗和高水平的功能安全。由于前置摄像头紧靠挡风玻璃安装,因此必须考虑部件本身产生的热量以及阳光直射造成的温度升高。从而对低功耗的要求尤为严格。R-Car V3M 解决了这一难题,提高了摄像头系统开发的功效。


2019年推出第二个视觉 SoC,即 R-CAR V3H,该产品具有高性能的视觉处理能力和AI处理能力,并具有业界领先的低功耗,该产品的目标应用是L3和L4级别的自动驾驶中的前置摄像头的应用。新一代R-Car V3H产品针对立体前置环视应用做了优化,比R-Car V3M在视觉处理方面的性能提高了5倍。


•四个CPU核:ARM® Cortex®-A53 (1000MHz)

•支持双Lockstep ARM Cortex-R7 (800MHz) CPU

•单通道32bit存储器控制器LPDDR4-3200

•支持图像识别引擎(IMP-X5-V3H)

•专门的CNN硬件加速器,密集的光流处理、密集的立体视觉差的处理和目标分类算法

•双图像信号处理(ISP)

•视频输出(4 lanes × 1 channel LVDS, 1 channel digital)

•视频输入(4 lanes × 2 channels MIPI-CSI2, 2 channels digital)

•支持两路CAN-FD 接口

•一路FlexRay 接口

•支持一路千兆以太网和AVB以太网

•一路PCI Express 接口


这颗芯片的AI算力有4 TOPS,从芯片支持的算力和处理速度来看,非常适合处理一些图像数据的处理,适合做传感器的前融合的数据处理 。


前融合算法就是在原始层把数据融合在一起,融合好的数据就好比是一个超级传感器,而且这个传感器不仅有能力可以看到红外线,还有能力看到摄像头或者RGB,也有能力看到LiDAR的三维数据,就好比是一双超级眼睛,在这双超级眼睛上面,开发自己的感知算法,最后输出一个结果层的物体。


瑞萨的V3H就想做这个前融合的超级传感器,博世的下一代视觉系统内嵌V3H,当时由于天然缺陷,没有办法融合到雷达的数据,所以瑞萨需要开发加强版的V3U芯片。



首先可以看到V3U 基于Renesas R-Car Gen 4架构,提供了从入门级应用到高度自动化驾驶系统的可扩展性。该部件可用于高级驾驶辅助系统(ADAS),允许使用风冷式电子控制单元(ECU),从而在重量和成本方面带来优势。


V3U 可以单芯片同时处理摄影机与雷达等传感器资料,同时以AI进行自动驾驶控制与学习,同时达到汽车安全标准ISO 26262最高的ASIL D要求,确保系统简单安全。


R-Car V3U SoC中的三大优势:


1、高能效、高性能的卷积神经网络(CNN)硬件加速器


随着新一代ADAS和AD系统中使用的传感器数量不断增加,CNN处理性能也需要不断加强。而通过减少由功率消耗产生的热量,可以安装空气冷却式电子控制单元(ECU),从而减少重量并降低成本。




瑞萨电子目前已开发出具有出色深度学习性能的CNN硬件加速器内核,并为R-Car V3U以高密度配置了三个加速器内核,每个CNN加速器内核有2MB的专用存储器,总共有6MB的存储器。这样一来,外部DRAM与CNN加速器之间的数据传输减少了90%以上。


R-Car V3U还提供多种可编程引擎,包括用于雷达处理的DSP,用于传统计算机视觉算法的多线程计算机视觉引擎,用于提升图像质量的图像信号处理以及用于密集光流、立体差异和物体分类等关键算法等的其它硬件加速器。


瑞萨一直汽车电子领域,所以低功耗是它的拿手好戏,这里达到了惊人的 13.8 TOPS/W 的能效比,是顶配 EyeQ6 的 6 倍之多,这个非常恐怖。


R-Car V3U提供高度灵活的DNN深度神经网络和AI机器学习功能。其灵活架构能够运行所有用于汽车障碍物检测与分类任务的最前沿神经网络,提供60.4 TOPS高性能的同时,实现同类最佳的电源效率13.8 TOPS / W。


2、具有自我诊断能力的ASIL D系统安全机制


ISO 26262汽车功能安全标准是一项针对各种功能安全级别的数字目标(指标)。最高功能安全级别的ASIL D要求单点故障度量标准(SPFM)为99%以上,潜在故障度量标准(LFM)为90%以上,因此要求极高的随机硬件故障检测率。此外,由于先进车辆操作系统的不断发展,如新一代ADAS和AD系统,汽车级SoC整体功能基本符合ASIL D标准。

V3U 内部框架如上图:采用 8 核 A76 设计。瑞萨没有像特斯拉一样,堆了 12 个 A72,而是使用了 ARM 的 Corelink CCI-500,即 Cache 一致性互联,这些冗余的芯片架构设计,都是为了满足ASIL D而设计。


瑞萨还开发出安全机制,用于快速检测和响应SoC整体中发生的随机硬件故障。通过组合适合特定目标功能的安全机制,既可以降低功耗,又可以提高故障检测率。将上述机制整合到R-Car V3U中后,SoC的大多数信号处理都可达到ASIL D标准,且能够具备自我诊断能力,降低AD系统中容错设计的复杂性。


3、使软件任务间免受干扰(FFI)的支持机制


软件任务间免受干扰(FFI)是满足功能安全标准的重要因素。当系统中存在具有不同安全级别的软件组件时,防止较低级别任务影响较高级别任务而引发故障就显得尤为重要。此外,当访问硬件模块和共享内存中的控制寄存器时,在SoC中确保FFI也非常重要。因此,瑞萨电子开发出一种FFI支持机制,可以监视通过SoC中互连流过的所有数据,并阻止任务之间的未授权访问。这样在SoC上执行的所有任务均可实现FFI,从而达到ASIL D标准应用,可实现管理对象识别、集成传感器与雷达/LiDAR、规划路线以及通过单个芯片发布控制指令。


V3U 也是一个系列产品,针对不同层级自动驾驶的需求可以提供多个版本,这样做是为了进一步提高出货量,降低成本。


V3U 的产品系列采用的是模块化设计,A76 可以是 2、4、8 核。


GPU 也可以不要,外设也可以轻松增减,灵活性很强。


算力不够,安全来凑:


以技术而言,R-Car V3U并不算先进,至少NVIDIA在2020年5月公布的自动驾驶用次世代芯片Orin系列产品,CNN计算有10~2,000TOPS多种芯片;芯片是由台积电制作,使用12纳米(nm)制程,而台积电已开始供应5~7纳米制程芯片。


R-Car V3U样品开始供货的2020年12月17日,汽车芯片领域12纳米制程算先进技术,但瑞萨预定的R-Car V3U量产时间是2023年4~6月,届时是有点落后了。


在 Mobileye、瑞萨、英伟达、高通四大自动驾驶芯片厂家中,只有瑞萨的主业是汽车半导体,虽然算力稍微落后,但是它对汽车行业的理解最深,对车规重视程度最高,V3U是在几家中唯一能过ASIL-D的厂家,同时有日本车厂加持,瑞萨希望非常之大。



9、德州仪器TI自动驾驶平台方案介绍


TI芯片是老牌的汽车芯片,同NXP、瑞萨是传统座舱芯片的三大龙头芯片厂家。


TI在处理器上实际上是走得两条产品线,Jacinto和TDA系列。



Jacinto系列将数字处理器的重点放在了汽车等应用上,主要是车载信息娱乐系统。



但是从Jacinto6中,我们看到车载信息娱乐与ADAS功能的结合,这款芯片包括了双ARMCortex-A15内核、两个ARM M4内核、两个C66x浮点DSP、多个3D/2D图形处理器GPU(Imagination),并且还内置了两个EVE加速器。无论是在处理娱乐影音方面,还是车载摄像头的辅助驾驶,可利用汽车内部和外部的摄像头来呈现如物体和行人检测、增强的现实导航和驾驶员身份识别等多种功能。


TDA系列一直是侧重于ADAS功能,可以看到TDA系列兼容性很强,硬件TDA2xV系列是可以做环视、后视等图像处理。



TDA3x系列可支持车道线辅助、自适应巡航控制、交通标志识别、行人与物体检测、前方防碰撞预警和倒车防碰撞预警等多种ADAS算法。这些算法对于前置摄像头、全车环视、融合、雷达与智能后置摄像头等众多ADAS应用的有效使用至关重要。


整体TDA系列的硬件和软件都是可以向下兼容的,只是算力和应用方面的区别,这样移植起来非常方便。


自动驾驶 Jacinto 7 系列架构芯片



Jacinto 7系列架构芯片含两款汽车级芯片:TDA4VM 处理器和 DRA829V 处理器,前者应用于 ADAS,后者应用于网关系统,以及加速数据密集型任务的专用加速器,如计算机视觉和深度学习。此外,这两款处理器包含支持功能安全的微控制器(MCU),使得汽车厂商(OEM)和一级供应商能够用单芯片同时支持 ASIL-D 高安全要求的任务和功能。


很多人在看到Jacinto 7 平台发布的时候,基本上就宣布TI放弃了座舱域控制芯片的道路,往ADAS和网关方面转型了,所以很多车厂基本上就放弃TI的Jacinto 6的选型,因为TI后续基本上不做座舱域控制芯片了。


 DRA829V 处理器简单介绍:


传统汽车在网关部分采用的都是 CAN、LIN 等低速接口,对电控单元的升级不同,现在的汽车发展到了域的结构,包括动力域、ADAS 域等,都需要高速的总线接口。


随着汽车实现联网,需要多个计算资源管理更多的数据,需要 PCIe 和 ENET 满足高带宽 ECU 内和 ECU 间通信,而且在达到基本功能的同时要求高等级的功能安全,需要支持网络安全 eHSM。


DRA829V 处理器是业界第一款集成了片上 PCIe 交换机的处理器,同时,它还集成了支持 8 端口千兆支持 TSN 的以太网交换机,进而能够实现更快的高性能计算和整车通信。




从上图可以看出,在 DRA829V 进行了高度集成,将传统的安全 MCU、eHSM、以太网交换机集成到一颗芯片中,降低了系统设计的复杂度。同时,注重了隔离性,功能等级从高到低混合起来性能依然稳定。




DRA829V SoC 通过提供计算资源、在车辆计算平台中高效移动数据以及在整个车辆网络中进行通信,解决了新型车辆计算架构带来的难题,可以看到DRA829V 主要是处理数据交互和安全的问题。


很多人都把这款芯片和 NXP发布的S32G混淆了,虽然两个芯片都是用作网关,但是主要的出发点是不同的。



NXP的S32G是作为一个成熟的网络处理器设计的,处理各控制器的OTA升级、数据网关的交互,安全信息的传输等任务,其实没有看到PCIE接口的速信号的转发。


而DRA829V 更多是车内高速信号的集联和转发,同时也网关控制的功能,网关控制并不是主节点,仅仅是附属功能。


TDA4VM自动驾驶芯片


由于使用该芯片的车型还没有曝光,先来看看这颗芯片的规格参数。



1Processor cores:

• C7x floating point, vector DSP, up to 1.0 GHz, 80 GFLOPS, 256 GOPS

• Deep-learning matrix multiply accelerator (MMA), up to 8 TOPS (8b) at 1.0 GHz

• Vision Processing Accelerators (VPAC) with Image Signal Processor (ISP) and multiple vision assist accelerators

• Depth and Motion Processing Accelerators (DMPAC)

• Dual 64-bit Arm® Cortex®-A72 microprocessor subsystem at up to 1.8 GHz, 22K DMIPS

– 1MB shared L2 cache per dual-core Cortex®-A72 cluster

– 32KB L1 DCache and 48KB L1 ICache per Cortex®-A72 core

• Six Arm® Cortex®-R5F MCUs at up to 1.0 GHz, 12K DMIPS

– 64K L2 RAM per core memory

– Two Arm® Cortex®-R5F MCUs in isolated MCU subsystem

– Four Arm® Cortex®-R5F MCUs in general compute partition

• Two C66x floating point DSP, up to 1.35 GHz, 40 GFLOPS, 160 GOPS

• 3D GPU PowerVR® Rogue 8XE GE8430, up to 750 MHz, 96 GFLOPS, 6 Gpix/sec

• Custom-designed interconnect fabric supporting near max processing entitlement

Memory subsystem:

• Up to 8MB of on-chip L3 RAM with ECC and coherency

– ECC error protection

– Shared coherent cache

– Supports internal DMA engine

• External Memory Interface (EMIF) module with ECC

– Supports LPDDR4 memory types

– Supports speeds up to 3733 MT/s

– 32-bit data bus with inline ECC up to 14.9GB/s

• General-Purpose Memory Controller (GPMC)

• 512KB on-chip SRAM in MAIN domain, protected by ECC

Safety: targeted to meet ASIL-D for MCU island and ASIL-B for main processor

• Integrated MCU island subsystem of Dual Arm® Cortex®-R5F cores with floating point coprocessor and optional lockstep operation, targeted to meet ASIL-D safety requirements/certification

– 512B Scratchpad RAM memory

– Up to 1MB on-chip RAM with ECC dedicated for R5F

– Integrated Cortex®-R5F MCU island isolated on separate voltage and clock domains

– Dedicated memory and interfaces capable of being isolated from the larger SoC

• The TDA4VM main processor is targeted to meet ASIL-B safety requirements/certification

– Widespread ECC protection of on-chip memory and interconnect

– Built-in self-test (BIST) an


正常情况下看规格书都是英文,这里简单对于高性能参数方面再阐述一下。


TDA4VM处理器核采用C7x浮点,矢量DSP,高达1.0 GHz, 80 GFLOPS, 256 GOPS;


深度学习矩阵乘法加速器(MMA),1.0GHz高达8 TOPS (8b);


视觉处理加速器(VPAC)和图像信号处理器(ISP)和多个视角辅助加速器;


深度和运动处理加速器(DMPAC);

具有两个64位 Arm® Cortex®-A72微处理器子系统,工作频率高达1.8GHz,22K DMIPS;


每个Cortex®-A72核集成了32KB L1 DCache和48KB L1 ICache,有六个Arm® Cortex®-R5F MCU,工作频率高达1.0GHz,12 K DMIPS;


每个核存储器为64K L2 RAM,隔离MCU子系统有两个Arm® Cortex®-R5F MCU,通用计算部分有四个Arm® Cortex®-R5F MCU,两个C66x浮点DSP,工作频率高达1.35 GHz, 40 GFLOPS, 160 GOPS;


TDA4VM处理器仅使用5到20W的功率执行高性能ADAS运算,无需主动冷却。


高性能内核概述:


“C7x”下一代DSP 将TI 行业领先的DSP 和EVE 内核整合到单个性能更高的内核中并增加了浮点矢量计算功能,从而实现了对旧代码的向后兼容性,同时简化了软件编程。在典型汽车最坏情况结温125°C 下运行时,新型“MMA”深度学习加速器可在业界最低功率包络内实现高达8TOPS 的性能。专用的ADAS/AV 硬件加速器可提供视觉预处理以及距离和运动处理,而不会影响系统性能。



TI公司的TDA4VM处理器系列是基于Jacinto™ 7架构,目标用在驾驶辅助系统(ADAS)和无人驾驶汽车(AV).TDA4VM处理器具有强大的片上数据分析的能力,并与视觉预处理加速器相结合,从而使得系统性能更高效。汽车厂商和一级供应商可用来开发前置摄像头应用,使用高分辨率的800万像素摄像头,帮助车辆看得更远并且可以加入更多驾驶辅助增强功能。


此外,TDA4VM处理器能够同时操作4到6个300万像素的摄像头,同时还可以将雷达、激光雷达和超声波等其他多种感知处理融合在一个芯片上。这种多级处理能力使得TDA4VM能够胜任ADAS的中心化处理单元,进而实现自动泊车应用中的关键功能(如环绕视图和图像渲染显示),同时增强车辆感知能力,实现360度的识别感知。


从整个芯片性能和功能来看,结合无人驾驶系统架构,其实TI的ADAS芯片和瑞声的V3H基本上十分类似,都是做图像或者雷达的数据融合处理,而且都是以低功耗为主,算法需要十分强大,这样提高芯片的处理能力,把处理完的信号再给到控制芯片。


TDA4M 优势:


以更低的功耗提高车辆感知能力


通过接入摄像头、雷达和激光雷达数据,ADAS技术帮助汽车看到并适应周围的世界。大量信息涌入汽车意味着处理器或片上系统需要快速有效地实时管理多级数据处理,并且需要满足系统的功耗要求。TI的新处理器仅使用5到20W的功率执行高性能ADAS运算,无需主动冷却。


TDA4VM 以业界领先的功耗/性能比为传统和深度学习算法提供高性能计算,并具有很高的系统集成度,从而使支持集中式ECU 或独立传感器中多种传感器模式的高级汽车平台实现可扩展性和更低的成本。


关键内核包括具有标量和矢量内核的下一代DSP、专用深度学习和传统算法加速器、用于通用计算的最新Arm 和GPU 处理器、集成式下一代成像子系统(ISP)、视频编解码器、以太网集线器以及隔离式MCU 岛。所有这些都由汽车级安全硬件加速器提供保护。


10、地平线自动驾驶平台方案介绍


地平线具有领先的人工智能算法和芯片设计能力,通过软硬结合,设计开发高性能、低成本、低功耗的边缘人工智能芯片及解决方案,面向智能驾驶和 AIoT ,地平线可提供超高性价比的边缘 AI 芯片、极致的功耗效率、开放的工具链、丰富的算法模型样例和全面的赋能服务。



依托行业领先的软硬结合产品,地平线向行业客户提供“芯片 + 算法 + 工具链”的完整解决方案。在智能驾驶领域,地平线同全球四大汽车市场(美国、德国、日本和中国)的业务联系不断加深,目前已赋能合作伙伴包括奥迪、博世、长安、比亚迪、上汽 、广汽等国内外的顶级 Tier1s ,OEMs 厂商;


而在 AIoT 领域,地平线携手合作伙伴已赋能多个国家级开发区、国内一线制造企业、现代购物中心及知名品牌店。目前基于创新的人工智能专用计算架构 BPU(Brain Processing Unit),地平线已成功流片量产了中国首款边缘人工智能处理器--专注于智能驾驶的 “征程(Journey)”系列处理器和专注于 AIoT 的 “旭日(Sunrise)” 系列处理器,并已大规模商用。



车规级芯片道路上,公司有超强的耐心和长远规划的战略能力,2020年6月长安UNI-T上市标志着公司的征程二代成为中国首个车载商用量产的AI芯片,万里长征路已经取得领先。相比其他AI芯片新秀一开始就进入手机、摄像头等消费级场景希望快速实现收入增长,地平线选择了一条最困难的道路,挑战AI行业的珠穆朗玛峰——车规级AI芯片,并进入与传统芯片巨头搏杀的赛道。


自2015年创立以来,地平线仅用了5年的时间即实现了车规AI芯片的量产落地,开启国产车规级AI芯片的前装量产元年。公司目前拥有多个主机厂定点项目订单,2020~2023年预计将迎来全面的收入和业绩爆发式增长。考虑到样片流片、车规级认证和车型导入的时间,地平线成立5年即实现车规AI芯片量产在整个汽车电子行业都处于领先位置。与此相比,Mobileye的车规芯片从研发到正式商用历时8年;作为全球通用AI芯片龙头的英伟达,在CUDA发布后9年才将K1芯片应用于奥迪A8的车用系统。


征程系列芯片可以同时支撑智能汽车智能座舱AI应用和自动驾驶应用,应用于智能座舱域和自动驾驶域,最终成为中央计算平台主控芯片。目前征程二代可支撑L2自动驾驶应用,下一代芯片将支持L3/L4自动驾驶应用。



未来智能座舱走向交互方式升级,例如车内视觉(光学)、语音(声学)以及方向盘、刹车踏板、油门踏板、档位、安全带等底盘和车身数据,利用生物识别技术(车舱内主要是人脸识别、声音识别),来综合判断驾驶员(或其他乘员)的生理状态(人像、脸部特征等)和行为状态(驾驶行为、声音、肢体行为),做到让车真正“理解”人,座舱演变成全面“个人助理”。



因此地平线去年发布的征程二代芯片拥有强大的智能座舱多模感知算法支撑能力,并在2020年4月上市的长安SUV车型UNI-T上正式商用,目前UNI-T智能座舱功能如视线亮屏、分心提醒、疲劳监测、智能语音拍照等均已达到成熟稳定的高标准用户体验。


目前征程二代能够对多类目标进行实时检测和精准识别,并提供高精度且低延迟的感知输出,可满足自动驾驶视觉感知、视觉建图定位、视觉 ADAS 等智能驾驶场景的需求,以及语音识别,眼球跟踪,手势识别等智能人机交互的功能需求。


可以同时跑超过 60 个分类任务,每秒钟识别目标数可以超过 2000 个,因此完全可以满足L2级别智能驾驶的各类视觉应用需求,预计2020年~2021年将会看到正式搭载征程系列芯片实现ADAS功能的量产汽车。


地平线2020年1月份宣布推出新一代自动驾驶计算平台——Matrix 2.0,搭载地平线征程二代车规级芯片,可满足L2~L4级别自动驾驶需求。感知层面, Matrix 2.0可支持包括摄像头、激光雷达在内的多传感器感知和融合,实现高达23类语义分割以及六大类目标检测,感知算法还能够应对复杂环境,支持在特殊场景或极端天气的情况下输出稳定的感知结果。



在Robotaxi 领域,地平线与多家顶级自动驾驶运营公司达成合作,目前Matrix 被应用于近千辆的测试车队并开已开展商业运营服务;在整车厂领域,地平线与奥迪长期在高级别自动驾驶技术研发及产品化等方面展开合作,助力奥迪在无锡获得了 L4 路测牌照,奥迪中国首次在国内实际高速公路场景进行乘用车编队 L4 自动驾驶及车路协同演示也是采用Matrix计算平台。


新产品路径规划清晰,下一代芯片均在研发和实流片途中,预期单芯片算力未来将接近100TOPS,处理多达16路视频信号。地平线征程二代芯片成功商用是公司新的里程碑,目前征程二代已经拿到多个国家的市场客户的前装的定点。公司后续新产品升级和规划也在快速推进和落地,优秀的商业落地成绩源于持续不断的前瞻性技术探索和 AI 芯片产品的快速迭代。



作为全球边缘 AI 芯片领导者,地平线继 2019 年成功推出车规级 AI 芯片征程 2 之后,将于今年推出面向高等级自动驾驶的旗舰级芯片征程 5,具备 96TOPS 的 AI 算力,实际性能领先国际,并将以边缘人工智能芯片为核心,面向自动驾驶落地应用的实际需求,为产业提供具备极致效能、全面灵活的赋能服务。


5月9日消息,国产车载AI芯片厂商地平线官方宣布,其第三代车规级产品,面向L4高等级自动驾驶的大算力征程5系列芯片,比预定日程提前一次性流片成功并且顺利点亮!



作为业界第一款集成自动驾驶和智能交互于一体的全场景整车智能中央计算芯片,征程 5 系列芯片基于 SGS TV Saar认证的汽车功能安全(ISO 26262)产品开发流程体系打造,单颗芯片 AI 算力最高可达 128 TOPS,同时支持 16 路摄像头感知计算。此外,基于征程 5 系列芯片,地平线将推出 AI 算力高达 200~1000TOPS 的系列智能驾驶中央计算机,兼备业界最高 FPS(frame per second) 性能与最低功耗。


在J5之前,地平线已先后推出车规级芯片J2以及J3。目前J2、J3已在长安、奇瑞等多家车企的车型上实现量产,后续拿下长城、东风岚图、广汽、江淮、理想、上汽(按照首字母排序)等多家自主品牌车企的多款主力爆款车型上实现定点开发,预计这1-2年会陆续出货。


J5将是地平线第一款面向高等级自动驾驶的大算力芯片,J5将在今年内正式发布。据此前官方披露的消息,基于J5的合作车型量产预计在2022年。



上一章节有提到低算力的自动驾驶平台,本章内容重点介绍高算力的自动驾驶平台,华为、高通、英伟达。


11、华为自动驾驶MDC平台方案介绍


以整车数字架构为基础,全面管理软硬件的复杂性,并确保整车的可靠性:我们提出华为CCA+VehicleStack构建数字系统,这个数字系统可以看一个传统车有六层。


最底下是机械层,第二层是高压电池电气层;第三层是低压的部件层,传感器,执行器,甚至是网关、计算、域控制器等等,再上面一层是软件层,这里含娱乐系统的操作系统、自动驾驶的操作系统、车控的操作系统,而且还包含跨操作系统的VehicleStack,我们叫整车级的中间件,再上面是应用层,比如座舱的应用程序、自动驾驶的应用程序和整车控制的应用程序,再上面是云服务层。


整车数字系统架构设计理念从长期来看,一是软件可升级,可以做到跨车型、跨软件,甚至跨车企的软件重用;硬件来讲,要做到可扩展、可更换,甚至做到传感器的即插即用,将来这个车如果你要开发,现在你买的车可能是L2的,只有5个毫米波,1个摄像头,将来要升级上去,要更高的自动驾驶,可以买两个激光装上去,同时买个自动驾驶的硬件装上去,使得你这个车具有更高阶的功能,而不是每次想要一个新功能的时候重新换车。因为在“摩尔定律”的作用下,电子电池部件更新换代是非常快的,但是换车的话可能要5-10年


华为定义了三个域控制器:VDC(智能车控平台)负责整车和底盘域,MDC(智能驾驶平台)负责自动驾驶域,CDC(智能座舱平台)负责娱乐域。



华为的CCA+VehicleStack架构从长远的设计理念来看,目标是实现软件跨车型、跨车企的升级和复用,以及硬件的可拓展、可更换,甚至是传感器的即插即用。此外,该架构力求构建可信的安全体系,具体包含整车的数字安全、网络安全、功能安全与隐私保护,使汽车成为持续创造价值的平台。当汽车销售给消费者后,可以像智能手机一样在汽车平台上购买更多的应用和服务,为整车厂和开发商提供持续盈利的空间,从而形成一个正向的商业循环。


CCA+VehicleStack包含基于区域的架构硬件层和整车级软件框架:


1)硬件层方面,在车辆识别单元(VIU)上就近接入相应的传感器和执行器,甚至部分ECU,由VIU为以上电子元器件供电,几个VIU就可以提供高速的以太总线进行互联,搭建环网。即使部分VIU损坏,整个环网也可以通过环回的路线保证通讯安全。在此基础上,华为定义了三个域控制器:VDC(智能车控平台)负责整车和底盘域,MDC(智能驾驶平台)负责自动驾驶域,CDC(智能座舱平台)负责娱乐域。


2)软件框架方面,整车的框架是基于服务的架构,采用微服务和微插件。整车级框架要实现数据的预处理、分组、加密、聚合、分发,同时提供功能安全和网络安全服务。最后在该架构上实现应用程序编程接口(API),让上层的整车管理、热管理、ADAS等应用得以实现。


MDC平台参数说明:


华为MDC平台遵循平台化与标准化原则,包括平台硬件、平台软件服务、功能软件平台、配套工具链及端云协同服务,支持组件服务化、接口标准化、开发工具化;软硬件解耦,一套软件架构,不同硬件配置,支持L2+~L5的平滑演进,保护客户或生态合作伙伴的应用软件开发的历史投资。


华为的自动驾驶计算平台由车 BU 下的 MDC 产品部负责。

MDC 上采用的 AI 协处理器是昇腾系列芯片,而 CPU 来自华为的泰山服务器事业部,即鲲鹏系列芯片。


MDC 全称是 Mobile Data Center,移动数据中心。

 

MDC 的成员部分来自华为的中央硬件部,后者以开发 ARM 服务器为主要业务,之后转到自动驾驶领域。

MDC 的芯片部分仍由海思提供。

MDC 目前主打两款产品:


一款是用在 L2+ 上的 MDC 210

另一款 MDC 610,主要用在 L4 上


MDC 210 的 CPU 部分未知,AI 处理器是昇腾 310。

MDC 610 的 CPU 很可能是鲲鹏 916,AI 处理器是昇腾 610。



鲲鹏 916,在海思内部代号是 Hi1616,是 2017 年的产品。

其采用 32 核 ARM A72 并联设计,最低功耗 75 瓦,标准 TDP 功耗 85 瓦,对标英特尔至强系列服务器 CPU。


华为鲲鹏 916 参数与内部框架图如上:

采用了 16 纳米工艺,也就是说中芯国际能够代工。



鲲鹏系列更高级的产品是 920,海思内部代号 Hi1620,采用了 16 - 96 核设计,华为自研的架构,ARM v8.2 指令集,7 纳米工艺。

鲲鹏 930 计划采用 5 纳米工艺。


上面说到,华为 MDC 的 AI 处理器主要是昇腾 310 和 610。


按照华为的路线图,官方原计划在 2020 年推出昇腾 320、610 和 920,但一直到目前都没有消息。


昇腾 310 是采用台积电 12 纳米 FFC 工艺制造,于 2018 年推出,因此性能一般,只有 16TOPS 算力。


从华为的官方介绍看,昇腾 920 和 610 都是定位于服务器深度学习训练用的,不是用于车载应用。


这两款处理器有明显的 Cowos 多存储芯片封装设计,这种封装成本也很高,不适用于成本敏感的领域。


华为智能驾驶涉及到感知、融合、定位、决策、觃划、控制等多个环节。激先雷达点云数,据处理需要大量CPU算力,摄像头数据需要AI算力,定位、决策、规划、控制等逻辑处理癿环节需要CPU算力。


集合了鲲鹏CPU芯片和昇腾AI芯片癿MDC平台为多样化的智能驾驶提供了算力支撑。


MDC内部模块的功能安全ASIL分解如下,以满足整体ASIL D的目标。


这次最新的上海车展上,华为又发布了计算平台MDC810,即将在极狐阿尔法S上量产。

即将量产的MDC 810,是业界目前已经量产、最大算力的智能驾驶计算平台,稠密算力高达400 TOPS,达到ASIL D功能安全要求,搭载智能驾驶平台软件MDC Core(含智能驾驶操作系统AOS、VOS),配套完善工具链,可满足拥堵跟车(TJP)、高速巡航(HWP)、自动泊车(AVP)等高级别自动驾驶应用场景所需,已率先搭载在ARCFOX极狐阿尔法S上并量产上市,后续将有越来越多的搭载不同MDC系列产品的新车型陆续量产上市。



作为专业的智能驾驶计算平台,华为MDC采用“统一硬件架构,一套软件平台,系列化产品”的研发规划。华为MDC系列产品(MDC 210/MDC 300F/MDC 610/MDC 810),基于领先的基础平台与安全架构,提供48~400+ TOPS的弹性算力与丰富的传感器接口,配套持续升级的平台软件MDC Core(含AOS、VOS等),前向兼容长期平滑演进,保护客户历史投资与持续能力积累,覆盖L2+~L5级别自动驾驶的乘用车、商用车、作业车等不同应用场景。


12、高通自动驾驶平台方案介绍


1、高通自动驾驶平台Snapdragon Ride 平台基本信息



1) 该平台包括安全系统级芯片SoC(ADAS应用处理器)、安全加速器(自动驾驶专用加速器)和自动驾驶软件栈,可支持L1~L5级别的自动驾驶;


2)安全系统级芯片SoC和安全加速器的功能安全安全等级为ASIL-D级;


3)平台高度可扩展、开放、完全可定制化,且能够提供功耗高度优化的自动驾驶解决方案;


4)平台将于2020年上半年交付OEM和Tire1进行前期开发,搭载该平台的汽车预计将于2023年投产。


2、Snapdragon Ride硬件平台



Ride平台由应用处理器和AI加速器组成,这些AI加速器的范围从高级驾驶辅助系统(ADAS)的SAE 1级扩展到完全自治的SAE 5级。Ride平台利用基于域的体系结构,该体系结构允许汽车制造商将多个车辆域聚合到一个集中式平台中,并且还可以使用基于以太网,PCIe或CAN-FD的网络在所有主要系统之间进行通信,从而实现高速连接。


该平台包括两大核心芯片和自动驾驶软件栈:安全系统级芯片SoC(ADAS应用处理器)、安全加速器(自动驾驶专用加速器,ASIC芯片),全部达到ASIL-D,可支持L1~L5级别的自动驾驶;


ADAS应用处理器:Kryo CPU、Adreno GPU、神经处理器、嵌入式视觉处理器


自动驾驶专用加速器(ASIC):神经处理器阵列


L1/L2级ADAS:面向具备AEB、TSR和LKA等驾驶辅助功能的汽车


硬件支持:1个ADAS应用处理器,可提供30 TOPS的算力


L2+级ADAS:面向具备HWA(高速辅助)、自动泊车APA以及TJA(低速辅助)功能的汽车


硬件支持:2个或多个ADAS应用处理器,期望所需算力要求60~125 TOPS的算力


L4/L5级自动驾驶:面向在城市交通环境中的自动驾驶乘用车、机器人出租车和机器人物流车;


硬件支持:2个ADAS应用处理器 + 2个自动驾驶加速器(ASIC),可提供700TOPS算力,功耗为130W



Snapdragon Ride 硬件平台示例

 

1)摄像头7个

前部:1个长距 +1个中距 侧部:2个侧前视 +2个侧后视 后部:1个长距

2)毫米波雷达 6个

前部:1个长距 + 2个中距 后部:1个长距 + 2个中距

3)高精地图

4) CV2X接收装置



Snapdragon Ride软件平台

Snapdragon Ride 软件平台包括:规划堆栈、定位堆栈、感知融合堆栈、系统框架、核心软件开发工具包(SDK)、操作系统和硬件系统;



平台还包括一个完整的软件堆栈,该软件堆栈支持包括Linux和QNX在内的多个操作系统,以及由高通公司设计和开发的应用程序,这些应用程序可利用感知,本地化,传感器融合和行为计划来自我导航高速公路驾驶员应用程序。顾客,包括OEM和一级汽车电子供应商在内,将能够自定义和添加其他应用程序。


高通驾驶平台 Snapdragon Ride 将于 2022 年应用到长城汽车的高端车型上,这个平台如果预先的硬件支持到L4级别的算力的芯片平台,后面可以通过不断OTA进行软件能力升级,让你的车辆一直处于领先的自动驾驶地位。


总体而言,高通骁龙产品策略应该还是以车载娱乐信息系统为主,逐步向更专业的ADAS拓展。


13、英伟达自动驾驶平台方案介绍


英伟达是全球最大的智能计算平台型公司,公司从早期专注PC图形计算,后来逐步将重点扩展到AI领域,并在3D图形的持续需求与游戏市场规模扩张推动下,利用GPU架构,创建VR、HPC(高性能计算)、AI平台。英伟达在独立显卡、GPU领域有超过70%的市场份额。除了优秀的硬件性能外,英伟达开发了基于GPU的“CUDA”开发平台,CUDA工具包包括了GPU加速库、编译器、开发工具等,为开发者提供丰富的开发软件SDK,支持现有的大部分的机器学习、深度学习开发框架,开发者可以在CUDA平台上使用自己熟悉的开发语言进行应用开发。在不改变硬件的前提下,通过软件和库的完善,过去2年英伟达将计算性能提升4倍,AI性能提升2倍,所需的开发时间大幅缩短。


公司花费了大量时间培养自己的开发生态,包括与高校合作培训专业人才、开展专业竞赛,培养、发展英伟达“GPU+CUDA”的开发者群体,形成了相当可观的产品使用人群, 2019年全球已经有超过160万CUDA开发者。中国CUDA开发者数量众多,数量也增长最快,目前已经超过了30万,并且还在以每个月新增1万人的数量增长。2020财年英伟达实现总收入109.2亿美元,其中汽车部门收入7亿美金,占总收入比例6.4%,同比增长9%。




自2015年开始,英伟达已经推出4代自动驾驶计算平台分别为:Drive PX、Drive PX2、Drive AGX Xavier/ Pegasus、Drive AGX Orin。


Drive PX2:算力24TOPS,性能强,受到很多车企和自动驾驶企业的青睐,如特斯拉。


Drive AGX Xavier/Pegasus:Xavier芯片12nm制程,分为面向L2/L3级(小鹏P7/上汽荣威)、L4/L5级自动驾驶(文远知行、小马知行)两种。


Drive AGX Orin:算力2000TOPS,功耗目前为800W,功耗较高,仍需优化。



在自动驾驶领域,英伟达提供芯片+开放软件生态,提供包括Drive AV、Drive IX、Drive Sim等软件在内的完整的开发者套件。


在未计算图灵GPU的价格下,英伟达面向L4、L5级的AGX Pegasus的载板,成本总计大约6090元人民币。


单纯的一片Xavier价格大概600元左右。




2017年1月,英伟达发布用于自动驾驶领域Xavier系统级SOC芯片, Xavier拥有超过90亿个晶体管,配置了一个8核CPU、一个全新的512核Volta GPU、一个深度学习加速器、全新计算机视觉加速器、以及全新8K HDR视频处理器,针对自动驾驶数据量做了特殊的设计和优化,采用了16nmFinFET工艺,功耗为30W,算力达到30TOPS。2020年4月上市的小鹏汽车 P7,成为首款搭载 NVIDIA DRIVE AGX Xavier 自动驾驶平台的量产车型,小鹏 P7 配备了13 个摄像头、5 个毫米波雷达、12 个超声波雷达,集成开放式的 NVIDIA DRIVE OS 操作系统。



2019年12月英伟达发布了新一代面向自动驾驶和机器人领域Orin芯片和计算平台,可扩展、可编程,具有ARM Hercules CPU内核和英伟达下一代GPU架构。Orin SoC包含170亿晶体管,晶体管的数量几乎是Xavier SoC的两倍,具有12个ARM Hercules内核,将集成下一代Nvidia GPU,提供200 TOPS@INT8性能,接近Xavier SoC的7倍,Orin SOC将在2021年提供样片,2022年正式面向车厂量产。


2020年5月GTC上,英伟达介绍了即将发布的新一代自动驾驶Drive平台,Drive平台如果搭载两个Orin SoC和两块NVIDIA Ampere GPU,可以实现从入门级ADAS解决方案到L5级自动驾驶出租车(Robotaxi)系统的全方位性能提升,平台最高可提供2000TOPS算力。


蔚来ET7 使用orin芯片。


ET7搭载了4颗NVDIA Drive Orin芯片以及800万像素的摄像头,这两个硬件设备是视觉自动驾驶技术实现的根本。先来说下芯片,这款芯片是专业的车载芯片。


ORin芯片可以支持基于Cuda和TensorRT做深度学习模型的服务,TensorRT是一个模型服务的框架,可以支持各种框架产生的模型。



ET7每秒钟可以产生8GB的视频,而视觉自动驾驶技术,其实就是一个物体识别模型实时inference的流程,需要保持每秒钟超过10个以上的图片识别请求效率。所以视觉自动驾驶的实现前提是强大的芯片计算力。Orin芯片是这个计算力的保证。


ADAM由4颗英伟达Drive Orin芯片组成,它们在大多数时候都是各司其职,其中两颗芯片负责自动驾驶,一颗为冗余芯片,最后一颗负责群体智能与个性训练。


四颗芯片的核心数据如下:48个CPU内核,256个矩阵运算单元,8096个浮点运算单元,共计680亿个晶体管。正是这些芯片,让每天近8亿的数据量,高效稳定地运行在蔚来的这套NAD系统上。


14、自动驾驶域控制器基本架构


域控制其中最核心的是主芯片,一般会采用一颗或多颗高性能的SOC。SOC是System on Chip的缩写,就是在单块芯片上集成多个微处理器、模拟IP核、数字IP核和存储器等部件,比如CPU、GPU、DSP、ISP、Codec、NPU、Modem等模块。





这些单元,在一套总线系统的连接下,构成了一个系统。大家所熟知的各种手机SOC芯片,如苹果的A系列、高通的骁龙系列、华为的麒麟系列,或者各类的AI SOC芯片,车载领域的各种SOC芯片,都逃不出以上范式。虽然都是同一范式,但是由于使用的场景不同,各个芯片的侧重点不太一样:


娱乐系统芯片,其实和消费电子几乎一模一样,关注音频、视频、显示、图像等、Modem等。


自动驾驶芯片,注重高性能计算,一般配备有强大的NPU、GPU、DSP等。


15、自动驾驶芯片重要指标


中央控制器作为自动驾驶核心部件,作为自动驾驶的“大脑”端,通常需要外接多个摄像头、毫米波雷达、激光雷达,以及IMU等设备,完成的功能包含图像识别、数据处理等。因此,其需要具备多传感器融合、定位、路径规划、决策控制、无线通讯、高速通讯的能力,因而从始至终牵动着整个处理及控制命脉。


这里需要注意的是,由于自动驾驶传感器对于驾驶辅助系统的复杂度影响力(主要表现在计算能力、传输带宽、存储能力等)几乎是成倍的增加,特别是侧视摄像头的加入导致需要预处理的视频数据成倍的增加,同时,激光雷达的加入又不断地生成千万级的待处理点云信息,这就对其自动驾驶控制器计算性能及算法能力提出了比较大的需求,这也使得我们需要对自动驾驶控制器芯片选型单独提出的需求。


由于要完成大量运算,域控制器一般都要匹配一个核心运算力强的处理器,能够提供自动驾驶不同级别算力的支持,其运行时期的信息交换速度、算法计算速度、存储能力等均受到其内部控制芯片的影响。对于自动驾驶控制器芯片选型而言,主要考虑如下一些技术要求参数信息来进行方案设计。


1)算力:


自动驾驶的实现,需要依赖环境感知传感器对道路环境的信息进行采集,将采集到的数据传送到汽车中央处理器进行处理,用来识别障碍物、可行道路等,依据识别结果,规划路径、制定车速,自动控制汽车行驶。整个过程需要在一瞬间完成,延时必须要控制在毫秒甚至微秒级别,才能保证自动驾驶的行驶安全。


要完成瞬时处理、反馈、决策规划、执行的效果,对中央处理器的算力要求非常高。在自动驾驶中,最耗费算力的当属视觉处理,占到全部算力需求的一半以上,且自动驾驶级别每升高一级,对计算力的需求至少增加十倍。L2级别需要2个TOPS的算力,L3需要24个TOPS的算力,L4为320TOPS,L5为4000+TOPS。


第一部分通常是GPU或TPU,承担大规模浮点数并行计算需求,主要用于环境感知和信息融合,包括摄像头、激光雷达等传感器信息的识别、融合、分类等,如Xavier的GPU单元、昇腾310。


第二部分大多为ARM架构,类似于CPU,主要负责逻辑运算和决策控制,处理高精度浮点数串行计算。


目前来看单颗芯片的算力最大的是英伟达的orin-X芯片,200TOPS算力,能效比最高的是地平线6.4FTOPS/W。





光有算力还不够,考虑汽车应用的复杂性,汽车处理器还需要同时考虑算力利用率、是否通过车规和安全标准等。算力理论值取决于运算精度、MAC的数量和运行频率。如下表示了一种典型的单帧算力计算方式:


理论算力是根据Net卷积层的乘法运算累加得出,卷积层中的每次乘加(MAC)算成两个OPS,卷积运算量占DL NET的90%以上,其它辅助运算或其它层的运算忽略不计,SSD所有卷积层乘法运算总数是40G MACs,所以理论算力是80GOPS。


真实值和理论值差异极大,考虑其它运算层,硬件实际利用率要高一些。决定算力真实值最主要因素是内存( SRAM和DRAM)带宽,还有实际运行频率(即供电电压或温度),还有算法的batch尺寸。


2)能效比:


对于车载AI芯片来说,算力指标重要,能效比更重要。在传统芯片行业,PPA(算力、功耗和面积)是最经典的性能衡量指标。因为现在汽车自动驾驶对算力的追求,业界往往会把峰值算力当作衡量 AI 芯片的主要指标。


地平线提供一个新的方法用以评估芯片的AI真实性能——MAPS (Mean Accuracy-guaranteed Processing Speed,在精度有保障范围内的平均处理速度),针对应用场景的特点,在精度有保障的前提下,包容所有与算法相关的选择,评估芯片对数据的平均处理速度。


MAPS评测方法,关注真实的用户价值,将每颗芯片在‘快’和‘准’这两个关键维度上的取舍变化直观地展现出来,并在合理的精度范围内,评估芯片的平均处理速度。这个方法具有可视化和可量化的特点。



地平线致力于打造极致AI能效,芯片设计上能效比行业领先。未来一辆自动驾驶车辆平均每天产生600-1000 TB的数据计算,仅2000辆自动驾驶车辆产生的数据量超过2015年我们整个文明一天数据用量,大规模设备端部署需要成本效率。


要实现大规模部署,尤其在汽车初始售价逐步下降的情况下,车载AI芯片需要充分考虑芯片的能效比。地平线在AI处理器设计的初始就开始从整个芯片的系统级设计和芯片级别角度上思考SoC的设计思路,将经典芯片设计思想和带宽利用率优化结合在一起,注重真实的AI能力输出,既守住主效能又兼顾灵活效能的BPU思想。


以2020年最先商用量产的地平线征程二代芯片为例,搭载自主创新研发的高性能计算架构BPU2.0(Brain Processing Unit),可提供超过4TOPS的等效算力,典型功耗仅2瓦,且具有极高的算力利用率,典型算法模型在该芯片上处理器的利用率可以高于90%,能够高效灵活地实现多类AI任务处理,对多类目标进行实时检测和精准识别,可全面满足自动驾驶视觉感知、视觉建图定位、视觉ADAS等智能驾驶场景的需求,以及语音识别,眼球跟踪,手势识别等智能人机交互的功能需求,充分体现BPU架构强大的灵活性。


作为通用 GPU 的代表供应商英伟达的自动驾驶系列芯片,通过添加神经网络单元,以实现对 AI 处理越来越高效,但总体而言 GPU 仍功耗较高。丰富的通用模块虽可实现对各种场景的适用性,但也带来了成本过高、功耗过高的问题。征程二代芯片具备极高的算力利用率,每TOPS AI能力输出可达同等算力GPU的10倍以上。与此同时,征程二代还可提供高精度且低延迟的感知输出,满足典型场景对语义分割、目标检测、目标识别的类别和数量的需求。


在最高性能模式下,如果自动驾驶控制器的芯片功耗级别较高,即便其自身性能强劲,但也会引发某些未可预知的隐患,如发热量成倍增加,耗电率成倍增加,这些结果尤其对于新能源车型来说也毫无疑问是颗“核弹”。因此,在前期自动驾驶芯片设计中需要充分考虑其功耗指标。


3)最小核心系统:


a)Core:内核通常是空间中心。一方面便于自动驾驶控制器和外围传感器、执行器通讯,同时也用外围来保护它。core强调运行态,通常出现的core-down,是指cpu计算上出现问题了,core强调的是自动驾驶控制器整体对外功能中的核心功能。


b)DMIPS:主要用于测整数计算能力。包含每秒钟能够执行的指令集数量,以及其这些指令集在实现我的测试程序的时候,每秒钟能够实现的工作数量,这个能力由cpu的架构,内存memory的访问速度等硬件特性来决定。它是一个测量CPU运行相应测试程序时表现出来的相对性能高低的一个单位(很多自动驾驶芯片评估场合,人们习惯用MIPS作为这个性能指标的单位)。


c)Memory:存储器管理单元的主要功能包括:虚拟地址到物理地址映射、存储器访问权限控制、高速缓存支持等;这里还包括一个支持最大的数据带宽,这个直接影响到数据传输的带宽。


d)DataFlash:DataFlash是美国ATMEL公司推出的大容量串行Flash存储器产品,采用Nor技术制造,可用于存储数据和程序代码。与并行Flash存储器相比,所需引脚少,体积小,易于扩展,与单片机或控制器连接简单,工作可靠,所以类似DataFlash的串行Flash控制器越来越多的用在自动驾驶控制器产品和测控系统评估中。


4)图像接口和图像处理能力


a)图像接口CSI:


CSI作为前端-配置逻辑接口,可以支持大多数通用的可用的CMOS摄像头接口,支持方便YCC,YUV,Bayer或者是RGB的数据格式输入,完全可控的8-bit或16-bit数据到32-bit的FIFO进行打包,32*32大小的FIFO存储接受到的的图像像素数据,该FIFO可以通过可编程的IO或者是DMA进行读取。


后端-提供了直接到eMMA的预处理PrP块接口(PrP和PP组成了MX27图形加速器eM MA,PrP和PP能够用来给视频做预处理和后期处理,例如,放大,缩小,颜色转换)。提供sensor的可屏蔽中断源,该中断源也是中断可控的,提供给外部sensor用的,可配置的主时钟频率,由统计数据产生的自动曝光(AE)和自动白平衡(AWB)控制。


b)视觉处理芯片ISP


ISP作为视觉处理芯片核心,其主要功能包括 AE(自动曝光)、AF(自动对焦)、AWB(自动白平衡)、去除图像噪声、LSC(Lens Shading Correction)、BPC(Bad PixelCorrection),最后把 Raw Data 保存起来,传给 videocodec 或 CV 等。通过 ISP 可以得到更好的图像效果,因此在自动驾驶汽车上对ISP的要求很高,比如开始集成双通道甚至三通道的 ISP。


一般来说 ISP 是集成在 AP 里面(对很多 AP 芯片厂商来说,这是差异化竞争的关键部分),但是随着需求的变化也出现了独立的 ISP,主要原因是可以更灵活的配置,同时弥补及配合 AP 芯片内 ISP 功能的不足。


c)图像绘制芯片GPU:


GPU是基于大的吞吐量设计,用来处理大规模的并行计算。GPU的控制单元可以把多个的访问合并成少的访问。GPU将更多的晶体管用于执行单元,而非像CPU那样用作复杂的数据cache和指令控制。由于GPU具有超强的浮点计算能力,可用于在智能汽车前端的图像或视频处理领域的应用,也越来越多地应用在中央控制器高性能计算的主流设计中。


5)丰富的传感器相关接口包括以太网和CAN


ETH和CAN:中央控制器芯片设计中需要充分考虑其连接接口是否支持以太网和CANFD等高级数据连接传输方式,这是接收并有效处理数据的前提。


需要支持丰富的接口,通过对比分析,自动驾驶系统传感器数量很多但是种类无外乎摄像头、激光雷达、毫米波雷达、超声波雷达、组合导航、IMU、V2X模块等。


自动驾驶系统对于摄像头可供选择的不是很多,接口类型有MIPI SI-2、LVDS、GMSL、FPDLink等;激光雷达都是Ethernet接口,目前大多是普通Ethernet;毫米波雷达都是CAN总线传输;超声波雷达LIN总线就够了;组合导航和惯导常见接口为RS232串口;V2X模块采用Ethernet接口传输。


需要支持PCIE接口:


一般的应用场景中,集成一个主芯片就能够满足计算资源的需求,但是自动驾驶对算力有着更高的要求,有时候 于安全的考虑,也需要同时集成多个主芯片,其结构一般如下图所示:


多个芯片在需要在PCIe Switch的连接下共同组成一个计算单元,如果以后发展成可动态拓展的形式(类似于刀片机),该结构依然适用,以下是采用两个Xavier芯片组成的一个高性能计算单元的示意图:



6)主芯片需要满足车规及功能安全的需求


人工智能时代车规级AI芯片成为皇冠上的明珠,竞争壁垒高。终端侧的AI芯片,车规级AI芯片是皇冠上的明珠。由于车规级标准极难认证,车规级人工智能芯片代表了芯片行业中的最高标准,与消费级和工业级芯片相比,车规级AI芯片在安全性、可靠性和稳定性上都有最高的要求。必须要达到,车载环境温度在-40℃到125℃区间,故障率为0。



因为对安全性、可靠性的要求高,所以芯片从设计到车上测试验证、真正实现量产一般需要至少4~5年。由于车规级芯片开发周期长、设计难度大,属于长跑创新,一旦建立起领先优势,龙头厂商将具有较高的竞争壁垒,人工智能时代车规级AI芯片成为皇冠上的明珠,领先厂商竞争壁垒较高



现在自动驾驶的芯片不仅仅需要过AECQ100的车规级要求,而且要求增加功能安全的认证要求。


功能安全目标是整个自动驾驶中央控制器的核心设计需求,由于其影响对整个自动驾驶功能设计中的单点失效分析结果,因此,在前期硬件设计中就需要充分考虑其是否能够完全满足系统对于硬件的功能安全设计需求。



功能安全在芯片上的设计原则是要尽可能多的找出芯片上的失效场景并纠正。失效又分为系统和随机两种,前者依靠设计时的流程规范来保证,后者依赖于芯片设计上采取的种种失效探测机制来保证。我们在这主要谈后者。简单来说,芯片的失效率,是基于单个晶体管在某个工艺节点的失效概率,推导出片上逻辑或者内存的失效概率。面积越大,晶体管越多,相应的失效率越大。


ISO26262把安全等级做了划分,常见的有ASIL-B和ASIL-D级。ASIL-B要求芯片能够覆盖90%的单点失效场景,而ASIL-D则是99%。这其实是个非常高的要求。一个晶体管的失效概率虽低,可是通常一个复杂芯片是上亿个晶体管组成的,如果不采取任何措施,那任何一点的错误都可能造成功能失效,失效率很高,这对于芯片设计来说需要增加非常多的冗余措施和开发成本,不是一蹴而就的,目前过了产品的芯片的ISO26262的功能认证的自动驾驶芯片不多,特斯拉就没有过,当然它是特独立的芯片厂家,但是我们在选择自动驾驶平台的时候需要考虑这个因素。


自动控制需要负责可靠性和车辆控制,也就是功能安全和冗余监控作用,不要求很高的算力,但是可靠性必须要有保障,ISO26262等级要求达到ASIL-D,目前用的较多的就是Infineon的TC297或者TC397,为了达到功能安全,同地平线总监沟通,目前它们这部分控制的MCU也是给到英飞凌芯片做控制,地平线那边输出对应的图像或雷达处理信息,给到英飞凌的MCU去做最终的控制算法。



优控智行的域控制器型号为EAXVA03,据说是第三代产品已经小批量装车。其内置NVIDIA Xavier和Infineon TC297T。按照设计部署,Xavier用于环境感知、图像融合、路径规划等,TC297用于安全监控、冗余控制、网关通讯及整车控制。


综合以上各种因素,目前主流自动驾驶芯片的算力、功耗、算力功耗比、制程、SOP时间、芯片类型等相关信息对比如下:

可以看到,目前芯片基本上制程都往7nm和5nm开发,而且功耗越来越低,算力越来越高,即将上车的roin 单芯片算力达到200TOPS。



16、自动驾驶计算平台对比及选择平台考虑因素


自动驾驶计算平台比较


前面提到L2级别需要2个TOPS的算力,L3需要24个TOPS的算力,L4为320TOPS,L5为4000+TOPS。


这里可以看到目前主流的自动驾驶计算平台的算力普遍都在200+TOPS,当然特斯拉是没有达到200TOPS,它是没有激光雷达,这部分所需要的数据处理能力要求降低很多。


这里可以看到很有意思的事情,单个xavier的算力只有30TPOS,但是通过PCIE等连接方式,这样计算平台的算力明显提升,计算平台英伟达的DRIVE PX Pegasus的算力达到320TPOS,比特斯拉HW3.0的算力还大。




自动驾驶芯片客户拓展进度



可以看到英伟达在自动驾驶占据的车厂是非常多的,xavier的自动平台就有小鹏P7,上汽、奔驰、一汽,而单芯片算力最强的orin芯片在理想和蔚来都有使用,当然这个最终的车型还没有上市,但