由于新冠肺炎疫情的影响,每年一度的GTC大会,今年采用了线上发布会的形式,而英伟达(NVIDIA)创始人兼CEO黄仁勋变身主厨,将发布场地挪到了自家厨房。也不知道是不是显卡玩家圈里2080Ti像煤气灶的梗,前两天的预热视频中,黄老板是从烤箱中扛出的此次发布会新品。而在14日晚上,备受期待的7nm Ampere GPU、基于该架构的两款EGX边缘AI平台产品以及第三代工作站DGX A100都在这个厨房里发布了……

由于新冠肺炎疫情的影响,每年一度的GTC大会,今年采用了线上发布会的形式,而英伟达(NVIDIA)创始人兼CEO黄仁勋变身主厨,将发布场地挪到了自家厨房。也不知道是不是显卡玩家圈里2080Ti像煤气灶的梗,前两天的预热视频中,黄老板是从烤箱中扛出的此次发布会新品……

据黄仁勋介绍,他已经在家工作四十五天了,这次的演讲视频是在家里的厨房提前录制的,本次2020 GTC的主题演讲和新品发布只用了用7个视频就完成了,也被他称作NVIDIA史上第一个“厨房 Keynote”。

5月14日晚间,在NVIDIA GTC2020大会上,英伟达发布备受期待的7纳米(nm)工艺安培(Ampere)架构GPU,以及基于该架构的两款EGX边缘AI平台产品。最后,NVIDIA还发布了相应的第三代工作站DGX A100,也可以叫个人超级计算机,支持在桌面端进行AI研究,并扩展到云端。

这次的GTC 2020大会演讲中,黄仁勋主要谈的就是HPC计算、AI人工智能、自驾驶等方面的内容。

世界上最大的7nm GPU

期盼已久的安培架构GPU——A100终于正式发布,跟2018年发布的上一代图灵(Turing)架构GPU一样,黄仁勋表示这是NVIDIA八代GPU史上最大的一次性能飞跃。

“A100 是迄今为止人类制造出的最大 7nm工艺芯片,集AI训练和推理于一身,并且其性能相比于前代产品提升了高达20倍。”黄仁勋说。就具体参数来看,A100 采用目前最先进的台积电(TSMC)7nm工艺,拥有 540 亿个晶体管,而且是一块CoWoS 3D 堆叠芯片,这种封装专为科学计算,云图形和数据分析而构建。芯片面积高达 826平方毫米,GPU的最大功率达到 400W

它除了拥有6912个CUDA核心,还采用第三代张量计算核心(Tensor Core
),支持TF32运算。黄仁勋对此解释道,无需任何代码改变,就可以让FP32精度下的AI性能比上一代Volta架构提升20倍,达到19.5 TFLOPS(万亿次/秒)。此外,TensorCore还支持FP64双精度运算,与HPC应用相比带来了2.5倍的性能。

除了性能提升,安培GPU也可以实现在一个平台上对横向扩展以及纵向扩展的负载的加速。“A100将在提高吞吐量的同时,降低数据中心的成本。” 黄仁勋说到。

凭借这些新功能,英伟达A100能够成为了AI训练和推理以及科学模拟、对话式AI、推荐系统、基因组学、高性能数据分析、地震建模和金融预测等各种高要求工作负载的理想选择。

上一次英伟达发布如此性能强大的GPU芯片还是2017年的Tesla V100。在英伟达看来,自Volta 架构的Tesla V100推出后,业界对AI模型训练算力的需求增长了 3000 倍。这显然也是英伟达放手增加算力和吞吐量的动力所在,而当时黄仁勋就强调英伟达未来的 GPU 将对训练、推理兼顾,这是革命性的突破。

今天看来,他兑现了自己三年前的承诺。如上图英伟达给出的数据显示,A100对比前代Telsa V100,进行BERT模型训练性能提升了6倍,BERT模型推理性能提升了7倍。可是以后应该管这个叫GPU还是TPU呢?

据介绍,安培将是NVDIA的新一代GPU核心,取代Turing和Volta架构。换言之,NVIDIA新一代图形产品只有这一套核心,覆盖GeForce、Quadro、Tesla等。

Tesla A100加速卡

首款基于A100 GPU的产品是Tesla A100加速卡,据介绍,该卡支持第三代NVLINK,与服务器的双向带宽为4.8 TB/s,GPU到GPU的互连带宽为600 GB/s。Tesla A100拥有40GB的HBM2内存,显存位宽为5120-bit,TDP为400W。

除了NVIDIA产品已经广泛采用的 Tensor Core核心,Tesla A100还用到了新GPU的几个重要特性:

其一是多实例GPU-MG(Multi-instance GPU,简称MIG),这是一项创新技术,可以将一个GPU划分为七个独立的GPU,针对不同的目标提供不同的运算,最大化提高计算效率。

第二是第三代NVIDIA NVLink 互联技术,能够将多个A100 GPU合并成一个巨大的GPU来执行更大规模的训练任务。

最后是结构化稀疏,这种全新效率技术利用AI数学固有的稀疏性,使性能提升了一倍。

这几个技术的创新使得Tesla A100加速卡成为苛刻工作负载的理想选择,不仅可以用于AI推理、AI训练,还可以用于科学仿真、AI对话、基因组、高性能数据分析、地震建模及财务计算等等。

DGX-A100超级计算机

与此同时,NVIDIA还宣布了基于Tesla A100的DGX A100超级计算机,有8路Tesla A100加速卡,性能高达5PFLOPS,阿里云、AWS云、谷歌云、微软Azure、甲骨文及腾讯云都将推出基于DGX A100的云服务。

黄仁勋表示,“AI已经被应用到云计算、汽车、零售、医疗等众多领域,AI算法也正变得越来越复杂和多样。ResNet模型的算力需求从2016年到现在已经增加了3000倍,我们需要更好的解决方案。”

DGX-A100搭载了AMD第二代EPYC“Rome”企业级处理器,两个AMD EPYC 7742加起来总计128核/256线程,最高可达3.40 GHz boost。

DGX A100配备了八颗安培架构的Tesla A100 GPU,每一颗整合40GB HBM2高带宽(12.4TB/s)显存,总容量达320GB。

据介绍,该系统除了具备10 PETAFLOPS的运算性能外,也具备创纪录的5 PETAFLOPS AI性能。每颗GPU均支持多达12路的NVLink互连总线,GPU-GPU带宽高达600GB/s,可保证八颗GPU彼此完全互连,同时还有6颗NVIDIA NVSwitch芯片,双向带宽高达4.8TB/s。

不过从示意图上可以看出,每颗GPU周围其实有六颗HBM2显存芯片,很显然有一颗没有启用,剩下的五颗单颗容量8GB从而组成40GB。

网络方面,配备了刚完成收购的Mellanox ConnectX-6 HDR 200Gb/s网络接口,包括八颗单端口ConnectX-6 VPI用于聚类,峰值性能200GB/s,以及一颗双端口ConnectX-6 VPI用于数据与存储网络,提供总计每秒3.6TB的双向带宽。MeLLanox网络计算和网络加速引擎,例如RDMA、GPUDirect,以 及SHARP技术,实现最高性能和可扩展性。

另外,利用A100的多实例GPU功能,每台DGXA100系统能够被分割为多达56个实例,用于加速多个小型工作负载的处理速度。凭借这些功能,企业可在一个完全集成的软件定义平台上根据自己的需求优化计算力和资源,加快数据分析、训练和推理等各种工作负载的速度。

有趣的是,搭配的CPU处理器这次抛弃了Intel至强,改而使用两颗AMD二代霄龙(Rome),且是顶级的64核心型号。同时搭配1TB DDR4内存、15TB PCIe Gen4.0 NVMe SSD固态硬盘,速度比 Gen3.0 NVMe SSDs 快 2 倍。

黄仁勋称这它配备了“世界上最大的显卡”,不算外壳单单是其中的计算板加散热器就有45斤的重量,集成超过3万个不同组件,钻孔数量多达100万个,连接电路长达1公里。

NVIDIA宣称,DGX A100相比于高端CPU服务器,它的AI计算性能要高出150倍,内存带宽高出40倍,IO带宽也高出40倍。

NVIDIA DGX A100个人超算现已上市,售价19.9万美元(约合人民币141万元)。

目前已经开始通过合作伙伴网络销售,包括DDN Storage,戴尔,IBM,NetApp,Pure Storage 和Vast等储存设备供应商也计划将 NVIDIA DGX A100整合到其产品内。

而美国能源局的阿贡国家实验室(Argonne National Laboratory)已经宣布采用DGX A100,该实验室将运用该集群的Al和计算力来更好地研究和应对新冠肺炎。

黄仁勋说,通过一个价值100万美元由5个DGX A100系统组成的机架,可以取代当下价值1100万美元,由50个DGX-1和600个CPU组成的25个机架AI训练和推理的数据中心。并且,功耗也可以由630kW大幅降低至28kW。

难怪云服务商们下单这么快,老省电费了,就像黄老板在发布会视频中说的:“你买得越多,你越省钱。”。

GPU + SoC 扩展自动驾驶平台

自动驾驶芯片也是这次发布的重头戏。

“自动驾驶汽车是我们这个时代面临的最大的计算挑战之一。”黄仁勋说,为此英伟达也在全力推进NVIDIA DRIVE平台迭代。

而且这一次,不再是单纯的算力叠加游戏,英伟达将借助全新的安培GPU和即将推出Orin系统级芯片(SoC),对对DRIVE AGX平台进行扩展,范围覆盖从ADAS系统到DRIVEAGX PegasusRobotaxi平台。“既可以为前挡风玻璃提供5瓦的ADAS系统,还能将规模扩大到L5级Robotaxi系统。”

后者配备两个Orin SoC和两块NVIDIA安培 GPU,可实现每秒2000万亿次运算,超过上一代平台性能的6倍。同时,也能够缩小到入门级ADAS/Level 2的案例,性能达到10TOPS,功耗低至5W。

据悉,Orin SoC系列将于明年开始提供样品,在2022年下半年投入生产并向汽车制造商供应,为下一代可编程软件定义NVIDIA DRIVE AGX系列奠定基础。

此前,小鹏汽车曾采用英伟达Xavier方案搭建L3自动驾驶计算平台,就昨天公布的信息来看,美国电动车新创企业Canoo的下一代电动汽车、法拉利未来的FF 91、小马智行都计划采用英伟达DRIVE AGX Xavier平台。

由于小鹏汽车与Xavier平台具有很强的架构兼容性,这家公司也在探索对NVIDIA Orin平台的应用机会。

两款EGX边缘AI平台新品

NVIDIA还发布了两款边缘AI平台新品,据称能够在边缘提供安全、高性能的AI处理能力。

EGX A100适用于较大型商业通用服务器 ,微型EGX Jetson Xavier NX适用于微型边缘服务器。这两款产品能够在边缘提供安全、高性能的AI处理能力,适用于制造、零售、电信、医疗等多个行业。

黄仁勋介绍说,EGX A100是首个基于NVIDIA 安培架构的边缘AI产品,借助英伟达的MeLLanox ConnectX-6 Dx板载网卡,EGXA100可以每秒接收200 Gb的数据并将其直接发送到GPU内存以进行AI或 5G信号处理。实时处理来自摄像头和其他物联网传感器的大量流式数据,可以更快地获得洞见并提高业务效率,例如同时管理机场中的数百台摄像头。

而EGX Jetson Xavier NX则没有采用最新GPU,但NVIDIA称其为全球体积最小、性能最强大的AI超级计算机,适用于微型服务器和边缘智能物联网盒。与被业界广泛采用的前代产品Jetson TX2相比,Jetson Xavier NX模块性能提高了10倍以上。通过运用云原生技术,开发人员即可利用这块仅有信用卡尺寸大小的高AI功能与高计算性能的模块。运行EGX云原生软件堆栈的EGX Jetson Xavier NX可以快速处理来自多个高分辨率传感器的流式数据,例如管理便利店中的少量摄像头。

具备云原生功能的Jetson Xavier NX已获得嵌入式生态系统的支持,据悉合作伙伴已提供了超过20种解决方案。Jetson Xavier NX开发者套件和Jetson Xavier NX模块现正通过NVIDIA分销渠道进行发售,售价399美元。

责编:Luffy Liu

本文综合自英伟达官方直播、新浪科技、36kr、雷锋网、量子位报道

阅读全文,请先
您可能感兴趣
Cadence 持续创新并开发了 Cadence Tempus 设计稳健性分析(DRA)套件,提供解决上述问题所需要的分析能力。该套件采用先进的建模算法,赋能工程师分析,识别并纠正对变化极为敏感的关键设计要素,包括适用于模块级的 Tempus ECO Options 和子系统/全芯片级的 Cadence Certus 收敛解决方案,两者皆可在 Innovus 设计实现系统中调用。
如果是做定制SoC,用什么CPU架构好?之前的厂商普遍采用Arm,而这一情况在近年开始改变,越来越多厂商开始尝试使用提供开源指令集架构(ISA)的RISC-V。
目前中国合作伙伴基于Arm架构芯片的总出货量已累计超过300亿颗,Arm在中国有近400家技术授权客户和超过400万名开发者,其所构建的Arm全面计算解决方案(Total Compute Solutions)、Arm Neoverse™平台、Arm Corstone™、SOAFEE等解决方案,为合作伙伴加快产品上市进程,并实现差异化提供了坚实的基础。
半导体IP领域排名前三中,有Synopsys和Cadence两大EDA公司,西门子EDA的前身 Mentor Graphics在创立早期也曾涉足 IP领域。但就国内来说,EDA公司和IP公司之间还是相对独立的。未来这一形势是否会进一步改变,EDA和IP公司之间是否能擦出更多火花?
韩国网站Naver称,苹果公司在多次尝试完善自研5G调制解调器(Modem)芯片失败后,决定停止开发该芯片。对此分析师Dylan Patel表示,苹果实际上并未取消5G基带研发项目,但相关项目推进困难,因此遭遇多次延迟……
在最近举行的第三届上海临港全球半导体大会上,Chiplet与先进封装技术论坛成为大会最为吸引人的论坛之一,这已经成为半导体业界值得关注的热点。那么,Chiplet与先进封装技术能否延续摩尔定律而成为未来10-30年持续提升计算性能密度和能效的可行技术呢?这对中国半导体的未来发展有什么启发和机遇? 本次论坛邀请到半导体封测、Chiplet及互联设计,以及先进封装的多物理仿真等技术领域的专家为现场观众带来了一场最新的Chiplet与先进封装技术和市场趋势讲座。
根据TrendForce集邦咨询最新OLED技术及市场发展分析报告统计,在近期发表的摺叠新机中,UTG的市场渗透率已逾九成,随着摺叠手机规模持续成长,预估2023年UTG产值将达3.6亿美元;2024年可望挑战6亿美元。
随着终端及IC客户库存陆续消化至较为健康的水位,及下半年iPhone、Android阵营推出新机等有利因素,带动第三季智能手机、笔电相关零部件急单涌现,但高通胀风险仍在,短期市况依旧不明朗,故此波备货仅以急单方式进行。此外,台积电(TSMC)、三星(Samsung)3nm高价制程贡献营收亦对产值带来正面效益,带动2023年第三季前十大晶圆代工业者产值为282.9亿美元,环比增长7.9%。
治精微推出具过压保护OVP、低功耗、高精度运放ZJA3018
无线技术每天都在拯救生命,有些非常方式是人们意想不到的。在美国加利福尼亚州Scotts Valley,一名路过的慢跑者发现一处住宅冒出火焰后,按响了门铃,试图通知屋主。屋主不在家中,但无线门铃连接到了智能家居中枢,提醒屋主慢跑者试图联系。屋主立即向他提供了安全密码,让他跑进房子,从火场中救出了宠物。
作者:Jackie Gao,AMD工程师;来源:AMD开发者社区前言当FPGA开发者需要做RTL和C/C++联合仿真的时候,一些常用的方法包括使用MicroBlaze软核,或者使用QEMU仿真ZYNQ
相信每个硬件工程师应该都用过DC-DC,那么分压反馈电阻的取值有没有想过呢?实际应用中大抵都是直接抄的手册中推荐的分压电阻阻值,就算没有正好对应输出电压的分压阻值,也一般是选择接近的电阻大小。但是,总
英伟达(Nvidia)CEO黄仁勋11日表示,将扩大与越南高科技业者的伙伴关系,支持在当地训练研发人工智能(AI)与数字化基础建设领域的人才。黄仁勋还透露在越南设立芯片中心的构想。根据白宫今年9月提升
要点2022 年中国的经济增长不如 2021 年强劲,COVID-19 限制令和持续封锁削弱了中国的经济和制造活动。2022 年,LV 变频器市场增长了 3%,其中大部分增长来自于上一年积压订单的交付
广告分割线12月11日,据台媒报道,群创(3481.TW)竹南T1厂员工向媒体爆料,群创竹南T1厂将裁员50%!据报道,群创竹南厂工程师预计将减少一半,在线作业员也预计砍一半。群创今天表示,已于第一时
点击左上角“锂电联盟会长”,即可关注!有需要联系,王经理:18058289318相关阅读:锂离子电池制备材料/压力测试!锂电池自放电测量方法:静态与动态测量法!软包电池关键工艺问题!一文搞懂锂离子电池
点击左上角“锂电联盟会长”,即可关注!文 章 信 息干法改性工艺新认识,助力锂离子电池高镍正极材料实现高结构稳定和热稳定性能第一作者:吴锋通讯作者:苏岳锋*,陈来*通讯单位:北京理工大学,北京理工大学
本文来源:物联传媒“2023‘物联之星’中国物联网行业年度榜单” 评选活动正在火热进行中!为深度挖掘物联网领域的优秀企业、创新产品和优秀项目,审读年度热门领域和发展方向,推动物联网行业的普及与宣传,促
芝能汽车出品11月,我国动力和储能电池合计产量为87.7GWh,实际拆解估算动力电池约为70.7GWh,同比上升11.5%,环比上升8.4%装车量44.9GWh,同比增长31.0%,环比增长14.5%
巨头动向腾讯今年回购金额已超过去10年总额12月11日,腾讯公告称,当日耗资约4.03亿港元,回购133万股股份。年初至今,腾讯已经出手113次,累计回购数量约1.28亿股,累计回购金额超过422亿港