广告

特斯拉人工智能日能带给我们什么惊喜?

时间:2021-09-13 作者: Egil Juliussen 阅读:
近日,特斯拉的人工智能日举办的如火如荼,长大三小时的演示,给我们超多的惊喜,不仅带来了全新的硬件技术,还给我们带来了目前业界最强大的神经网络模型,那么我们期望的L4级别自动驾驶究竟还有多远呢?
广告

 

近日,特斯拉的人工智能日举办的如火如荼,不仅有汽车用芯片、零部件和系统还有软件上的机器学习和神经网络,由这些令人惊喜的软硬件结合的汽车又会在业界掀起“血雨腥风”。Tesla CEO 埃隆马斯克和芯片设计团队在超过三个小时的展示中提供了大量的技术细节(据统计,此次演示吸引了超过163万次浏览),长达三个小时的展示重点都在本文列出。

 

Tesla AI 日演示视频截图(来源:Tesla)

神经网络

特斯拉设计了一种灵活的可拓展的分布式计算机体系结构,专门针对神经网络进行了特殊优化,最早使用这种架构是D1专用芯片上,其拥有354个训练节点,每个节点都有一个性能强大的计算单元,这种多节点分布式的CPU结构专门为高性能神经网络和机器学习而设计,对于32bits的浮点运算有着64 GFLOPS的优势。对于这种拥有354个CPU的芯片,32bits浮点运算最大性能为22.6TFLOPS,而对于16bits来说,D1芯片最大性能可发挥到362TFLOPS。

 

Tesla AI Day展示内容汇总(图源:EE times)

特斯拉还引入了两个神经网络训练系统:“the Training Tile(训练模块)”和“ExaPOD”,并且在每个训练模块的封装中包含25个D1芯片,这25个芯片共同构成包含8850个训练节点的系统。对于32bits的浮点运算,一个训练模块最大性能为565 TFLOPS。另一个重点的亮点是ExaPOD将120个训练模块连接到一个系统中,将3000个D1芯片和106万个训练节点连接起来,对于32bits浮点运算来说,ExaPOD最大性能将高达67.8PFLOPS。

D1芯片和Dojo神经网络训练系统可以说是Tesla未来的方向,并且其背后的研发资金投入也是高的吓人,后续Tesla可能会和业界其他公司分享这些先进技术----给公司带来全新的收入来源,就像之前出售给其他OEM商的BEVs技术。下表中列举出Tesla神经网络产品的最新亮点,表格中数据是又EE times 资深编辑 Egil Juliussen整理,还加入了很多芯片和架构的释义和理解。

 

图源:EE Times ---Egil Juliussen

特斯拉设计目标是最大限度的平衡芯片和系统的性能----计算性能、高带宽和计算节点间的低延迟通信。业内目前有一个共同的难题是高带宽和低延迟一直难以让计算节点扩展到成百上千个,但是此次Tesla给业内展示的似乎已经成功的将所有参数组成一个网络架构中,也找到了其中最大性能的微妙平衡。

训练节点

训练节点是D1芯片上最小的的训练单元,拥有1个64位4线程的核心处理器,可以执行2维矢量8x8维的乘法运算。并且该中央处理器指令集架构是为机器学习和神经网络训练任务量身定做,该CPU支持多种浮点运算形式----8位、16位、32位、FP32、BFP16以及一种全新的格式CFP8和FP8格式。并且该CPU内置了1.25MB高速SRAM存储器,用于程序和数据存储,并且使用ECC纠错算法来提高可靠性。

为了获得训练节点之间的低延迟,Tesla选择了一个信号主频2GHz时钟频率,据悉该频率下信号可以传播的最远,这也决定了不同训练节点之间的物理距离,以及CPU和其他电子设备之间的配合程度(CPU以每秒512G bit的速率与其他模块通信)。

D1 芯片

整个介绍中最令人印象深刻的当属D1系列芯片了,这款专门为神经网络训练专用芯片采用了7nm工艺,在约645平方毫米的芯片上集成了500亿个晶体管,其内部有超过17.7公里长的导线和400W左右的功耗。不仅如此,D1芯片拥有一个高速率、低功耗的输入输出环,而一共有576个通道环绕在芯片周围,每条通道信号转换速率为112Gb/ps,最大的片上传输速率高达10Tb/ps,板载芯片间传输速率也高达4 Tb/ps。

我们回过头来看D1芯片拥有354个CPU,每个CPU都配备了1.25MB的SRAM缓存,加起来就有442MB的缓存空间,在354个CPU同时训练时就能发挥出其堪称“恐怖”的运算力。

训练模块

Tesla的训练模块是其人工智能系统的基石,一个训练模块集成了25个D1芯片,并且这25层die都被封装在一个多芯片专用模块(MCM)中,这也是目前业界最大的MCM专用封装芯片了。Tesla这种封装包括多层电源和控制、电路分配、计算核心和冷却散热通道等系统,并且如此大的封装也被安装在其专用的IT中心内,而非自动驾驶车辆上。

 

Tesla MCM 封装(图源:Tesla)

这种MCM封装内包含25个CPU运算核心其16bits浮点运算算力高达9千兆,而32bits浮点算力达到了565千兆,并且Tesla还将12组2x3x2组合的训练模块再安装到一个巨型计算机中,并命名为训练矩阵。

ExaPOD

由上述多个训练模块组成目前最大的神经网络训练系统----ExaPOD,拥有120块训练模块,加起来一共有3000个D1芯片和106.2万个训练节点,如此多的硬件设备被安置在10个服务器组机柜上。整个ExaPOD系统对于16bits浮点运算来说能达到的最大算力性能为1.09 Exa FLOPS(Exa为百亿亿次,10的18次方)。

Dojo软件和DPU

Dojo软件的设计初衷是为了支持各种规模的神经网络训练,Tesla还拥有自主研发的编码器,可以对训练模块、D1芯片训练节点和ExaPOD等系统进行整合,还兼容目前十分流行的Pytorch开源机器学习库来进行强化训练。

 

软件结构(图源:Tesla)

软件允许大型神经网络被分割成零星的部分,用来满足不同的并行计算,模型训练和平行数据传输等需求,从而加速整个神经网络的训练。编译器还会对多种技术提取并行,利用数据模型图进行底层优化,减少内存占用。

Dojo处理器还可用于IT中心的主机通信,通过PCI-E 4.0链接到D1处理器系统,并且还和D1 CPU共享高速DRAM缓存。Dojo内的DPU由接口处理器、一个或者多个计算单元构成,运行在DPU系统的神经网络可以随时随地根据需求放大和缩小。

行业基准

特斯拉的神经网络训练芯片、系统和软件令人印象深刻,超高带宽和极低的系统时延几乎是业内难以企及的高度,而全新的MCM封装也是业内首创;不仅仅硬件创新其软件和系统层面也有着令人震惊的进步,神经网络训练模型和潜在应用于全新的自动驾驶技术软件,给业界带来无限幻想。

似乎这一切都在向我们透露出特斯拉希望依托神经网络算法和强大的硬件性能加持,使其电动汽车达到L3/L4级别的自动驾驶,而埃隆马斯克能否给我们带来划时代的“惊雷”呢?就让时间告诉我们答案。

 

责编:我的果果超可爱

编译自:Tesla AI Day Perspectives     ----EE times

 

本文为EET电子工程专辑 原创文章,禁止转载。请尊重知识产权,违者本司保留追究责任的权利。
  • 瑞萨收购Dialog,到底为哪般? 从相对直观的角度来看,完成对Dialog的收购,必然会令瑞萨电子的业务、人员构成发生变化。比如说此前瑞萨的R&D人员,绝大部分(56%)都位于日本本土;而在收购以后,位于日本的R&D人员,将在比例上缩减至46%……
  • 项目负责人被挖,苹果汽车仍正在选择供应商,或独自开发 近日,福特大张旗鼓的宣布挖走了苹果汽车项目负责人,苹果汽车部门一年之内就离职了四位高官,坊间猜测苹果汽车的推出可能遥遥无期。然而,最新消息显示苹果正在选择供应商,或许为了加快进度独自开发汽车。
  • 现在你的车也有被黑客攻击的风险了 大约六年前,汽车产业开始认真对待网络安全问题,并着手设计和部署网络安全解决方案。汽车产业现在已开始部署有助于提升网络安全性的硬件和软件,但面对网络攻击越来越多的现状,要让每辆汽车中的ECU都免受攻击,还需一段长路要走。
  • 大量自动驾驶车开上美国街头,监管机构对其安全性睁一只 目前并没有足够的信息显示,我们可以信任任何一家开自驾车技术的公司或自动驾驶车(AV),但负责车辆安全的机构已在发放免审查的通行证相相关业者。其次,花了时间和资源制订了安全标准,却不强制要求遵循,究竟又是怎么回事?
  • 国产MCU通过车规认证,需要满足哪些要求? 微控制器(MCU)在汽车中的应用非常广泛,是汽车电子中最重要的芯片之一。从高端的预控制器,到最简单的门窗控制,全部都要用到MCU。针对汽车产业链的特点,围绕国际车企的基本要求,车规芯片需要符合相关标准。包括在设计阶段要遵循的国际上对于电子电器产品的安全可靠标准ISO26262,在流片和封装阶段要遵循的AEC-Q001-004以及TS16949,在认证测试阶段要遵循的……
  • HBM,你有多“疯狂”? 人们改变了传统数据中心“CPU+内存(如DDR4)+存储(如SSD)”的数据处理方式,转而走进“异构数据中心”时代,即通过部署CPU、GPU、DPU、FPGA和ASIC等各种组件,分别侧重于提供特定功能或者处理不同类型和格式的数据,从而显著提高整个系统的速度和性能。
  • 新款iPad Pro 2021成最受欢迎的 由于采用性能相对强大的M1处理器和mini-LED屏幕以及更多的创新,新款iPad Pro 2021已经成为消费者心目中最受欢迎。然而,iPad 2却已经在全球范围内被列入“复古和过时”的名单中。
  • 三星折叠屏手机Galaxy Z Fold 3 目前来看,折叠屏新机作为一种新的生产力工具,逐渐成为高端/平板的一种趋势,有报料称三星的Galaxy Z Fold 3发布时间或为7月,并且会引入新手势操控。

  • 瑞萨电子携手豪威科技提供汽车摄像 设计采用瑞萨电子的新型汽车高清链接(AHL)技术和豪威科技的OX01F10 130万像素SoC,以提供低成本的优质视频;于9月15日至16日在比利时AutoSens展会上进行展示
  • 芯查查屹立数字化潮头,赋能电子信息 全球市场对芯片需求进一步扩大,我国集成电路产业布局加快,广东、上海、浙江、天津等多地陆续公布制造业“十四五”规划,集成电路成为各地未来五年的重点发展方向。
  • 「VOLANT沃兰特」完成数百万美元首轮融资,青桐资本担任财务顾问 | 青桐交易 近日, 「VOLANT沃兰特」宣布已完成数百万美元种子轮融资,由顺为资本领投、Ventech China跟投,青桐资本担任财务顾问。作为本轮融资财务顾问,青桐资本投资总监霍婷洁表示:“随着研发体系的成
  • 华为成立第3家超聚变公司,落户郑州 昨日,除了科技巨头苹果发布了几款新品之外,国内科技龙头华为也出现了新的动作。根据相关报道显示,华为近日在河南郑州成立了一家超聚变数字技术有限公司,工商信息显示该公司的法定代表人为郑丽英,注册资本7.2
  • 国家拨经费1.5亿!国家重点研发计划 “氢能技术”专项开启申报定向山东 点击上面↑“电动知家”可以订阅哦!9月13日,科技部发布了《国家重点研发计划“氢能技术”重点专项2021年度定向项目申报指南的通知》。通知中指出,“氢能技术”重点专项2021年拟在“氢进万家”综合示范
  • OPPO裁员20%? 日前,有传闻称国内某一线手机品牌将会在下半年大规模裁员20%。外界不少人认为该国内一线手机品牌应该说的是华为。不过,也有消息显示,将要大规模裁员20%的国内一线手机品牌厂是OPPO。早在7月16日,职
  • 中石油,卖车! 点击上面↑“电动知家”可以订阅哦!电动知家消息,日前,据中国石油消息,其与大搜车共同打造的汽车换购店正式开业,这也是中国石油首座汽车换购店。官方表示,在这里,客户能实现买车比市场价低,卖车比市场价高。
  • 安徽的“世界级”造车梦 点击上面↑“电动知家”可以订阅哦!“其时已至,其势已成”时代变了。2018年4月的一个春夜,比亚迪董事局主席、总裁王传福回到了阔别多年的家乡无为。这位在无为市政府网站上与北宋著名书画家米芾等先贤并列的
  • 用国产CH32替代STM32,要不要试试? /* 作者: 罗冰  https://blog.csdn.net/luobing4365 */随着芯片价格疯涨,项目的不可控性越来越大。特别是价格方面,达到了无法想象的地步了。按我的记忆,之
  • 【见刊快,高分区】这些优质的SCI期刊火热征稿中! 扫码联系编辑,更多优质期刊等你投,高分区高IF高录用!郭编辑
  • 一文道破傅里叶变换的本质,优缺点一目了然 傅里叶变换的公式为:可以把傅里叶变换也成另外一种形式:可以看出,傅里叶变换的本质是内积,三角函数是完备的正交函数集,不同频率的三角函数的之间的内积为0,只有频率相等的三角函数做内积时,才不为0。下面从
  • 中国厂商入局1000亿美元存储市场,将如何构建产业生态? 9月14日,主题为“存储标准-存储生态”的2021中国闪存市场峰会在深圳举行。活动吸引了存储产业链上下游人士到场,三星、美光、铠侠、长江存储、英特尔等国内外企业相关代表出席并发表演讲,共同探讨存储产业
广告
热门推荐
广告
广告
广告
EE直播间
在线研讨会
广告
广告
广告
向右滑动:上一篇 向左滑动:下一篇 我知道了