广告

烤箱搬出最大显卡后,英伟达在厨房发布了7nm安培GPU

时间:2020-05-15 作者:网络整理 阅读:
由于新冠肺炎疫情的影响,每年一度的GTC大会,今年采用了线上发布会的形式,而英伟达(NVIDIA)创始人兼CEO黄仁勋变身主厨,将发布场地挪到了自家厨房。也不知道是不是显卡玩家圈里2080Ti像煤气灶的梗,前两天的预热视频中,黄老板是从烤箱中扛出的此次发布会新品。而在14日晚上,备受期待的7nm Ampere GPU、基于该架构的两款EGX边缘AI平台产品以及第三代工作站DGX A100都在这个厨房里发布了……
广告
ASPENCORE

由于新冠肺炎疫情的影响,每年一度的GTC大会,今年采用了线上发布会的形式,而英伟达(NVIDIA)创始人兼CEO黄仁勋变身主厨,将发布场地挪到了自家厨房。也不知道是不是显卡玩家圈里2080Ti像煤气灶的梗,前两天的预热视频中,黄老板是从烤箱中扛出的此次发布会新品……eA4EETC-电子工程专辑

据黄仁勋介绍,他已经在家工作四十五天了,这次的演讲视频是在家里的厨房提前录制的,本次2020 GTC的主题演讲和新品发布只用了用7个视频就完成了,也被他称作NVIDIA史上第一个“厨房 Keynote”。eA4EETC-电子工程专辑

eA4EETC-电子工程专辑

5月14日晚间,在NVIDIA GTC2020大会上,英伟达发布备受期待的7纳米(nm)工艺安培(Ampere)架构GPU,以及基于该架构的两款EGX边缘AI平台产品。最后,NVIDIA还发布了相应的第三代工作站DGX A100,也可以叫个人超级计算机,支持在桌面端进行AI研究,并扩展到云端。eA4EETC-电子工程专辑

这次的GTC 2020大会演讲中,黄仁勋主要谈的就是HPC计算、AI人工智能、自驾驶等方面的内容。eA4EETC-电子工程专辑

世界上最大的7nm GPU

期盼已久的安培架构GPU——A100终于正式发布,跟2018年发布的上一代图灵(Turing)架构GPU一样,黄仁勋表示这是NVIDIA八代GPU史上最大的一次性能飞跃。eA4EETC-电子工程专辑

“A100 是迄今为止人类制造出的最大 7nm工艺芯片,集AI训练和推理于一身,并且其性能相比于前代产品提升了高达20倍。”黄仁勋说。就具体参数来看,A100 采用目前最先进的台积电(TSMC)7nm工艺,拥有 540 亿个晶体管,而且是一块CoWoS 3D 堆叠芯片,这种封装专为科学计算,云图形和数据分析而构建。芯片面积高达 826平方毫米,GPU的最大功率达到 400WeA4EETC-电子工程专辑

eA4EETC-电子工程专辑

它除了拥有6912个CUDA核心,还采用第三代张量计算核心(Tensor CoreeA4EETC-电子工程专辑
),支持TF32运算。黄仁勋对此解释道,无需任何代码改变,就可以让FP32精度下的AI性能比上一代Volta架构提升20倍,达到19.5 TFLOPS(万亿次/秒)。此外,TensorCore还支持FP64双精度运算,与HPC应用相比带来了2.5倍的性能。eA4EETC-电子工程专辑

eA4EETC-电子工程专辑

除了性能提升,安培GPU也可以实现在一个平台上对横向扩展以及纵向扩展的负载的加速。“A100将在提高吞吐量的同时,降低数据中心的成本。” 黄仁勋说到。eA4EETC-电子工程专辑

eA4EETC-电子工程专辑

凭借这些新功能,英伟达A100能够成为了AI训练和推理以及科学模拟、对话式AI、推荐系统、基因组学、高性能数据分析、地震建模和金融预测等各种高要求工作负载的理想选择。eA4EETC-电子工程专辑

上一次英伟达发布如此性能强大的GPU芯片还是2017年的Tesla V100。在英伟达看来,自Volta 架构的Tesla V100推出后,业界对AI模型训练算力的需求增长了 3000 倍。这显然也是英伟达放手增加算力和吞吐量的动力所在,而当时黄仁勋就强调英伟达未来的 GPU 将对训练、推理兼顾,这是革命性的突破。eA4EETC-电子工程专辑

eA4EETC-电子工程专辑

今天看来,他兑现了自己三年前的承诺。如上图英伟达给出的数据显示,A100对比前代Telsa V100,进行BERT模型训练性能提升了6倍,BERT模型推理性能提升了7倍。可是以后应该管这个叫GPU还是TPU呢?eA4EETC-电子工程专辑

据介绍,安培将是NVDIA的新一代GPU核心,取代Turing和Volta架构。换言之,NVIDIA新一代图形产品只有这一套核心,覆盖GeForce、Quadro、Tesla等。eA4EETC-电子工程专辑

Tesla A100加速卡

首款基于A100 GPU的产品是Tesla A100加速卡,据介绍,该卡支持第三代NVLINK,与服务器的双向带宽为4.8 TB/s,GPU到GPU的互连带宽为600 GB/s。Tesla A100拥有40GB的HBM2内存,显存位宽为5120-bit,TDP为400W。eA4EETC-电子工程专辑

eA4EETC-电子工程专辑

除了NVIDIA产品已经广泛采用的 Tensor Core核心,Tesla A100还用到了新GPU的几个重要特性:eA4EETC-电子工程专辑

其一是多实例GPU-MG(Multi-instance GPU,简称MIG),这是一项创新技术,可以将一个GPU划分为七个独立的GPU,针对不同的目标提供不同的运算,最大化提高计算效率。eA4EETC-电子工程专辑

eA4EETC-电子工程专辑

第二是第三代NVIDIA NVLink 互联技术,能够将多个A100 GPU合并成一个巨大的GPU来执行更大规模的训练任务。eA4EETC-电子工程专辑

最后是结构化稀疏,这种全新效率技术利用AI数学固有的稀疏性,使性能提升了一倍。eA4EETC-电子工程专辑

这几个技术的创新使得Tesla A100加速卡成为苛刻工作负载的理想选择,不仅可以用于AI推理、AI训练,还可以用于科学仿真、AI对话、基因组、高性能数据分析、地震建模及财务计算等等。eA4EETC-电子工程专辑

DGX-A100超级计算机

eA4EETC-电子工程专辑

与此同时,NVIDIA还宣布了基于Tesla A100的DGX A100超级计算机,有8路Tesla A100加速卡,性能高达5PFLOPS,阿里云、AWS云、谷歌云、微软Azure、甲骨文及腾讯云都将推出基于DGX A100的云服务。eA4EETC-电子工程专辑

黄仁勋表示,“AI已经被应用到云计算、汽车、零售、医疗等众多领域,AI算法也正变得越来越复杂和多样。ResNet模型的算力需求从2016年到现在已经增加了3000倍,我们需要更好的解决方案。”eA4EETC-电子工程专辑

eA4EETC-电子工程专辑

DGX-A100搭载了AMD第二代EPYC“Rome”企业级处理器,两个AMD EPYC 7742加起来总计128核/256线程,最高可达3.40 GHz boost。eA4EETC-电子工程专辑

DGX A100配备了八颗安培架构的Tesla A100 GPU,每一颗整合40GB HBM2高带宽(12.4TB/s)显存,总容量达320GB。eA4EETC-电子工程专辑

据介绍,该系统除了具备10 PETAFLOPS的运算性能外,也具备创纪录的5 PETAFLOPS AI性能。每颗GPU均支持多达12路的NVLink互连总线,GPU-GPU带宽高达600GB/s,可保证八颗GPU彼此完全互连,同时还有6颗NVIDIA NVSwitch芯片,双向带宽高达4.8TB/s。eA4EETC-电子工程专辑

eA4EETC-电子工程专辑

不过从示意图上可以看出,每颗GPU周围其实有六颗HBM2显存芯片,很显然有一颗没有启用,剩下的五颗单颗容量8GB从而组成40GB。eA4EETC-电子工程专辑

网络方面,配备了刚完成收购的Mellanox ConnectX-6 HDR 200Gb/s网络接口,包括八颗单端口ConnectX-6 VPI用于聚类,峰值性能200GB/s,以及一颗双端口ConnectX-6 VPI用于数据与存储网络,提供总计每秒3.6TB的双向带宽。MeLLanox网络计算和网络加速引擎,例如RDMA、GPUDirect,以 及SHARP技术,实现最高性能和可扩展性。eA4EETC-电子工程专辑

另外,利用A100的多实例GPU功能,每台DGXA100系统能够被分割为多达56个实例,用于加速多个小型工作负载的处理速度。凭借这些功能,企业可在一个完全集成的软件定义平台上根据自己的需求优化计算力和资源,加快数据分析、训练和推理等各种工作负载的速度。eA4EETC-电子工程专辑

有趣的是,搭配的CPU处理器这次抛弃了Intel至强,改而使用两颗AMD二代霄龙(Rome),且是顶级的64核心型号。同时搭配1TB DDR4内存、15TB PCIe Gen4.0 NVMe SSD固态硬盘,速度比 Gen3.0 NVMe SSDs 快 2 倍。eA4EETC-电子工程专辑

黄仁勋称这它配备了“世界上最大的显卡”,不算外壳单单是其中的计算板加散热器就有45斤的重量,集成超过3万个不同组件,钻孔数量多达100万个,连接电路长达1公里。eA4EETC-电子工程专辑

NVIDIA宣称,DGX A100相比于高端CPU服务器,它的AI计算性能要高出150倍,内存带宽高出40倍,IO带宽也高出40倍。eA4EETC-电子工程专辑

NVIDIA DGX A100个人超算现已上市,售价19.9万美元(约合人民币141万元)。eA4EETC-电子工程专辑

目前已经开始通过合作伙伴网络销售,包括DDN Storage,戴尔,IBM,NetApp,Pure Storage 和Vast等储存设备供应商也计划将 NVIDIA DGX A100整合到其产品内。eA4EETC-电子工程专辑

而美国能源局的阿贡国家实验室(Argonne National Laboratory)已经宣布采用DGX A100,该实验室将运用该集群的Al和计算力来更好地研究和应对新冠肺炎。eA4EETC-电子工程专辑

eA4EETC-电子工程专辑

黄仁勋说,通过一个价值100万美元由5个DGX A100系统组成的机架,可以取代当下价值1100万美元,由50个DGX-1和600个CPU组成的25个机架AI训练和推理的数据中心。并且,功耗也可以由630kW大幅降低至28kW。eA4EETC-电子工程专辑

难怪云服务商们下单这么快,老省电费了,就像黄老板在发布会视频中说的:“你买得越多,你越省钱。”。eA4EETC-电子工程专辑

GPU + SoC 扩展自动驾驶平台

自动驾驶芯片也是这次发布的重头戏。eA4EETC-电子工程专辑

“自动驾驶汽车是我们这个时代面临的最大的计算挑战之一。”黄仁勋说,为此英伟达也在全力推进NVIDIA DRIVE平台迭代。eA4EETC-电子工程专辑

而且这一次,不再是单纯的算力叠加游戏,英伟达将借助全新的安培GPU和即将推出Orin系统级芯片(SoC),对对DRIVE AGX平台进行扩展,范围覆盖从ADAS系统到DRIVEAGX PegasusRobotaxi平台。“既可以为前挡风玻璃提供5瓦的ADAS系统,还能将规模扩大到L5级Robotaxi系统。”eA4EETC-电子工程专辑

eA4EETC-电子工程专辑

后者配备两个Orin SoC和两块NVIDIA安培 GPU,可实现每秒2000万亿次运算,超过上一代平台性能的6倍。同时,也能够缩小到入门级ADAS/Level 2的案例,性能达到10TOPS,功耗低至5W。eA4EETC-电子工程专辑

据悉,Orin SoC系列将于明年开始提供样品,在2022年下半年投入生产并向汽车制造商供应,为下一代可编程软件定义NVIDIA DRIVE AGX系列奠定基础。eA4EETC-电子工程专辑

此前,小鹏汽车曾采用英伟达Xavier方案搭建L3自动驾驶计算平台,就昨天公布的信息来看,美国电动车新创企业Canoo的下一代电动汽车、法拉利未来的FF 91、小马智行都计划采用英伟达DRIVE AGX Xavier平台。eA4EETC-电子工程专辑

由于小鹏汽车与Xavier平台具有很强的架构兼容性,这家公司也在探索对NVIDIA Orin平台的应用机会。eA4EETC-电子工程专辑

两款EGX边缘AI平台新品

NVIDIA还发布了两款边缘AI平台新品,据称能够在边缘提供安全、高性能的AI处理能力。eA4EETC-电子工程专辑

EGX A100适用于较大型商业通用服务器 ,微型EGX Jetson Xavier NX适用于微型边缘服务器。这两款产品能够在边缘提供安全、高性能的AI处理能力,适用于制造、零售、电信、医疗等多个行业。eA4EETC-电子工程专辑

eA4EETC-电子工程专辑

黄仁勋介绍说,EGX A100是首个基于NVIDIA 安培架构的边缘AI产品,借助英伟达的MeLLanox ConnectX-6 Dx板载网卡,EGXA100可以每秒接收200 Gb的数据并将其直接发送到GPU内存以进行AI或 5G信号处理。实时处理来自摄像头和其他物联网传感器的大量流式数据,可以更快地获得洞见并提高业务效率,例如同时管理机场中的数百台摄像头。eA4EETC-电子工程专辑

而EGX Jetson Xavier NX则没有采用最新GPU,但NVIDIA称其为全球体积最小、性能最强大的AI超级计算机,适用于微型服务器和边缘智能物联网盒。与被业界广泛采用的前代产品Jetson TX2相比,Jetson Xavier NX模块性能提高了10倍以上。通过运用云原生技术,开发人员即可利用这块仅有信用卡尺寸大小的高AI功能与高计算性能的模块。运行EGX云原生软件堆栈的EGX Jetson Xavier NX可以快速处理来自多个高分辨率传感器的流式数据,例如管理便利店中的少量摄像头。eA4EETC-电子工程专辑

具备云原生功能的Jetson Xavier NX已获得嵌入式生态系统的支持,据悉合作伙伴已提供了超过20种解决方案。Jetson Xavier NX开发者套件和Jetson Xavier NX模块现正通过NVIDIA分销渠道进行发售,售价399美元。eA4EETC-电子工程专辑

责编:Luffy LiueA4EETC-电子工程专辑

本文综合自英伟达官方直播、新浪科技、36kr、雷锋网、量子位报道eA4EETC-电子工程专辑

ASPENCORE
本文为EET电子工程专辑 原创文章,禁止转载。请尊重知识产权,违者本司保留追究责任的权利。
  • 美积极研发自动导入安全性的IC设计新方法 美国DARPA近日宣布,分别由EDA供货商Synopsys与军工业者Northrop Grumman所领导的两支团队,正加速推进在一年前展开的“安全芯片自动化实现”(AISS)项目。
  • IC Insights:中国大陆半导体10年内仍难自给自足 中美紧张的贸易关系,让各界预期中国将加速半导体自主化发展。然而据IC Insights最新报告数据显示,2019年,中国大陆的IC产量占其近1250亿美元IC市场的15.7%,仅略高于2014年的15.1%。IC Insights强调,尽管自2005年以来中国一直是全球最大的集成电路消费市场,但这并不意味着中国本土集成电路产量自此大幅增长……
  • 通过形式验证找到更多Bug 本文将介绍在形式验证过程中找到最佳“钓鱼点”的方法。它利用功能仿真活动,从仿真轨迹中找到有价值的“钓鱼点”,进行形式验证。我们称这种方法为“河钓法”,它并不是从一个初始状态开始形式验证,而是从功能仿真轨迹中挑选出一些可疑的点,然后从这些“钓鱼点”开始形式验证。
  • NI发布免费版LabVIEW,宅家工程师也能用 5月11日,美国国家仪器(NI)宣布,推出免费下载的针对非商业用户使用的LabVIEW大众版和LabVIEW NXG大众版。而且,该版本提供了与LabVIEW专业版相同的功能……
  • CB Insights发布中国芯片设计企业榜 CB Insights联合Deeptech首次发布中国芯片设计企业榜单,该榜单从四个维度全方位评估企业自身实力、外界态度、发展趋势和合作表现等维度,全方位评估中国芯片设计企业的实力,特别关注企业的发展潜力,以及在整个IC产业链中所发挥的协同作用。包括阿里平头哥、寒武纪、比亚迪半导体、Arm中国在内的65家中国芯片设计企业入选……
  • 中国IC设计行业30家上市公司综合实力排名 ASPENCORE旗下《电子工程专辑》分析师团队采用独特的数学统计模型,根据上市公司公开数据,以及所采集公司官方网站发布的信息,对中国IC设计行业的30家上市公司进行了量化评估。首次采用“综合实力指数”和“增长潜力指数”对上市公司进行全面而客观地评估,并据此进行排名。
广告
热门推荐
广告
广告
广告
EE直播间
在线研讨会
广告
广告
面包芯语
广告
向右滑动:上一篇 向左滑动:下一篇 我知道了