广告

如何达成2.5亿倍的性能提升?黄仁勋的“夸张”预言

时间:2021-11-11 10:14:17 作者:黄烨锋 阅读:
黄仁勋在这两天的GTC上提到,实现所谓科学计算“Million-X百万倍”性能飞跃的几个重要条件。除了英伟达的“加速计算”之外,另一个重要的推动力是AI——深度学习编写软件能够具备高度并行性,这就更有助于挖掘GPU这样的硬件算力了。
广告

英伟达每年GTC上都在说,针对相同的硬件,只需要升级软件就能获得性能方面2倍以上的提升——比如对科研人员而言,通过升级软件物理模拟(simulation)时间就能缩短一半。这是比半导体行业摩尔定律还要彪悍的存在。

这其中应当存在一个前置条件,就是是否很多科学计算库原本就是不完善、低效的。在英伟达涉足这些行业之后,各种库、编译器、中间层得到优化,硬件性能才得以充分挖掘。2倍甚至更多的性能提升也就不足为奇了。此前HPC领域有业内人士告诉我们,的确是这样。比如做计算化学的研究人员,不要期望他们能够精通底层优化。这样的前置条件,为英伟达扩展生态创造了大有潜力的发展环境。

但事实上,情况可能比我们想象得还要复杂。黄仁勋在这两天的GTC上提到,实现所谓科学计算“Million-X百万倍”性能飞跃的几个重要条件。除了英伟达的“加速计算”之外,另一个重要的推动力是AI——深度学习编写软件能够具备高度并行性,这就更有助于挖掘GPU这样的硬件算力了。

我们认为,这一畅想未来还能扩展到科学计算之外的领域。虽然带来的性能提升在各行各业或许无法达到“Million-X百万倍”的程度,软件上的效率优化也将会显而易见。黄仁勋在主题演讲中说:“我们拥有超过150个SDK,为游戏与设计、生命与地球科学、量子计算、AI、网络安全、5G和机器人等行业提供服务。”

今年GTC,英伟达又推了65个新的(或更新的)SDK。举个例子,设计自动化是现在英伟达也在涉足的领域:Synopsys、Cadence、Ansys、Dassault如今都是英伟达这方面的客户——主要是对散热、机械结构及针对RFI与信号完整性的3D EM的模拟。

说起来,英伟达通过这样的生态扩展,构造巨无霸式的生态帝国,主力都是软件能力;GPU硬件在此倒显得没那么重要了。这也是GPU能够对如雨后春笋般涌现AI芯片实现降维打击的基础。这更坐实了英伟达不是家芯片公司的事实......

本周的GTC大会,我们自己总结黄仁勋的主题演讲主要涵盖了几个方向:科学计算加速、AI、Omniverse、虚拟形象(avatar)、机器人/自动驾驶汽车。本文我们主要谈谈科学计算加速、AI,其他几个部分可点击这里查看。后续针对黄仁勋的采访,我们还将做一篇报道。

2.5亿倍的性能提升

CUDA生态是众所周知的,就如文首提到的——其中各种资源应当是现如今英伟达GPU生态的核心所在。其实我们始终认为,GPU作为如今加速计算的通用硬件,服务于各行各业,AI只是其中的一个分支。只是因为AI涉及到的产业如此庞大,致AI被单独划分出来。所以AI部分,后面的段落还会做进一步解释。

有关加速计算,这次黄仁勋主题演讲中的发布包括有:

● 发布3个新的加速库:ReOpt(针对如车辆路线安排、仓库拣选与包装的加速求解器)、cuNumeric(针对NumPy的插入式加速库)、cuQuantum(以及发布cuQuantum DGX设备,用于加速量子电路模拟——cuQuantum DGX设备明年Q1推出)

● 宣布推出Nvidia Modulus,这是个用于开发Physics-ML模型的框架,使用物理原理以及principled physics model的观测数据来训练Physics-ML模型。(这个好像应该放在AI里面,不过因为它与科学计算紧密相关,所以就放在这部分讨论了)

简单说一说:cuQuantum DGX是为造量子计算机存在的东西。据说对于量子傅里叶变换、Shore算法、谷歌Sycamore的计算,传统方案要几月才能完成,cuQuantum DGX只需要几天。而针对Phython NumPy的cuNumeric加速库,能够实现任务级并行、且乱序执行,还支持GPU扩展,扩展效率也不错。ReOpt则可用于路径规划,比如达美乐送披萨,最后一公里配送就能实现最优路径规划。

看不懂是啥不要紧,毕竟GPU加速涉足各行各业,唯有相应行业的人才会知道英伟达发布的某个组件究竟是做什么用的(而且我们也经常怀疑,黄仁勋在演讲中常提到很多自然科学相关知识,他自己真的理解吗?划掉)。这些都是所谓“百万倍性能提升”的组成部分——当然这里的百万倍性能提升特指科学计算领域。

接下来就详细说说这次GTC上的一个大热门,“Million-X百万倍”性能飞跃——科学计算领域;它本质上也属于英伟达加速计算的组成部分。黄仁勋表示,实现科学计算百万倍性能提升,包含三个方面。

首先是加速计算,即上图中最下方的绿色线条(蓝色线条看起来或许是摩尔定律)。这其实是CUDA的基本实现。黄仁勋说:“加速计算正重塑从芯片和系统、加速库,到应用的全栈式计算,这会带给我们50倍的提升。”

第二,我们认为应该是数据中心的规模化扩张(图中的scale up & out,英伟达的官方翻译似乎有点问题)。这是实现AI的先决条件,也是改变编写软件范式的基础。

第三,就是AI。“从根本上改变了软件。深度学习编写的软件具有高度并行性,这是其更有助于GPU加速,并且可扩展到多GPU和多节点上。”如文首所述,这或许不仅是科学计算,而是全行业的发展趋势。

英伟达提供的数据是,如果扩展到DGX SuperPod这样的大型系统,则速度提高5000倍;而深度学习编写的AI软件,速度又会比人工编写的软件快1000-10000倍;那么加上前面的50倍,总共就是2.5亿倍的性能提升。

这虽然是很理想的一个预测,但大方向我们认为是相当正确的:即便2.5亿这个数字大概还可以再讨论讨论。而事实上HPC、科学计算领域有这样的性能需求,一点也不算贪婪。其一大价值就在于提高模拟/仿真性能。教AI模型学习物理,并做出符合物理定律的预测,也就让AI真正在模拟方面做出了贡献。

举两个例子。其一是药物研发中的“虚拟筛选(virtual screening)”。包括解码人类蛋白质、有效化合物与蛋白质结构相遇涉及到的分子模拟等过程。据说其中的某些过程,可以从原本需要3个月缩短到只需要3个小时。

黄仁勋有句话让人印象很深刻,“我们正在见证生物学革命的曙光。”此前生物学革命一直被很多人称作第四次科技革命。不过生物学的发展速度之缓慢,应该是很多人都了解的。或许AI真有这样的能力,实现某些尖端领域的快速突破。前提就是电子科技行业,“2.5亿倍”性能提升。

第二个例子是气候模拟与预测。目前人类没有能力预测几十年后的气候,因为算力限制,气候模拟的规模是现阶段电子科技无法想象的。长期气候预测需要对地球大气、海洋/水域、冰、土地和人类活动的物理特性及相互作用进行建模。而且需要1-10米的空间分辨率,加入大气云对太阳辐射反射回太空等的影响。

所以英伟达这次宣布推出Nvidia Modulus。这是个用于开发physics-ML模型的框架,可在多GPU、多节点上做训练。黄仁勋说,由此生成的模型,其物理仿真速度比模拟快1000-10万倍。用Modulus打造地球digital twin模型,就能解决气候科学的一些问题。

据说研究人员用ECMWF(欧洲中期天气预报中心)的ERA5大气数据去训练一个physics-ML模型,得到的模型能以30公里的空间分辨率来预测飓风的严重程度和路径。而且原本需要7天完成的预测,现在只需要1/4秒(?)。或许几年以后,Omniverse中的地球digital twin,加上一些Physics-ML模型,就能预测气候了。

这就是软件和AI的威力。

有关AI的一些新发布

AI始终是这两年英伟达发展的重头戏,毕竟现在谁家出个AI芯片都不忘在PPT上揶揄一下英伟达。这其实也从反面印证了,英伟达的GPU与AI生态对于一众AI芯片厂商而言,的确构成了白色恐怖。

本次GTC上,主要相关于AI的发布包括:

● 宣布与DGL(Deep Graph Library)社区合作,加速GNN(Graph Neural Network)处理——今年12月“提供抢先体验”;

● 宣布推出Nemo Megatron,这是个专门用于训练十亿、万亿量级参数LLM(large language model)模型的框架;

● 宣布TensorRT原生集成到TensorFlow和PyTorch中;(“1行代码,机器学习开发者就能获得3倍加速”)

● 宣布Triton推理服务器能够同时支持深度学习、机器学习模型;Triton推理服务器2.15适用于所有推理工作负载:包括“对所有模型、各种框架、多查询类型的推理,机器学习和深度学习、面向所有平台、云、本地、边缘和嵌入式系统,多GPU、多节点,在CUDA、x86和Arm平台上”;

● 宣布LaunchPad,这是与Equinix合作的服务项目,在全球范围内面向企业数据中心“预安装和提供Nvidia AI”。目前覆盖地区暂不包括中国。

英伟达在AI方面的生态扩张,是此前我们花了很多笔墨去描摹的。上个月的《国际电子商情》封面故事《AI芯片竞争红海之下的生存之道》,我们还提到了英伟达对于各AI芯片公司造成的阴影。英伟达FY2022 Q1/Q2的营收较去年同期分别增长84%和68%,净利润增长109%和282%。

如今英伟达在GTC之上的AI相关发布,绝大部分都是生态完善和补全。说穿了就是持续扩大市场覆盖范围和优势。比如说GNN(Graph Neural Network)主要是学习关系(relationships)的一种神经网络,目前已经是金融服务、药物研发、数字生物学和网络安全的首选模型。

所以英伟达在这方面很自然而然地有了动作。“我们正与DGL社区合作,以加速GNN处理,就像我们对CNN、RNN和Transformer所作的一样。”DGL是用于在现有深度学习框架之上,实施GNN的一个phython库。黄仁勋列举PayPal(欺诈检测)、亚马逊(滥用与欺诈检测)、Pinterest(搜索与推荐)都已经从中获益。

另一个AI能力补全的例子:黄仁勋这次特别谈到了Transformer。搞AI的应该都知道Transformer的价值。黄仁勋提到训练LLM(大型语言模型)是耗时、耗力,而且需要“强大的信念和专业知识和优化堆栈”的过程。

所以英伟达这次发布了Nemo Megatron。这是个训练“拥有数十亿、数百亿参数的语音和语言模型框架”。英伟达给的数据是,在500节点Selene DGX SuperPOD上,11天完成GPT-3训练。

在推理(inference)方面,“GPT-3有1750亿参数,需要至少350GB内存;Megatron有5300亿参数,需要超过1TB内存。”所以英伟达推出分布式推理引擎Triton,可在多GPU、多节点间进行分布式处理。原本双Xeon Platinum CPU服务器上,Megatron 530B模型推理需要超过1分钟,据说现在将其分布部署在2个DGX系统中,推理时间缩短至半秒。 

LLM的发展潜力还是相当之大,“为新语言和新的领域,定制LLM,可能是有史以来最大规模的超算应用。”像电子商务产品与服务推荐这种万亿市场价值的领域,显然是发展AI的必争之地。

事实上,AI领域中的推理部分越来越不再成为英伟达的主场——这个细分赛道将来极有可能被各路AI专用芯片占据。推理和训练,在生态要求上还是有着比较大的差异的。

这一次新的Triton及推理服务器被黄仁勋称为“推理工具至今最重大的一次发布”。“今天我们宣布,Triton推理服务器能对深度学习(DL)以及机器学习(ML)模型进行推理。”“我们将Nvidia GPU向经典机器学习推理的世界开放。”

“通过一个推理平台,Triton就能实现在CPU和GPU上做DL和ML的推理。”新版本的Triton推理服务器则是“对所有模型、各种框架、多查询类型的推理,机器学习和深度学习,面向所有平台、云、本地、边缘和嵌入式系统,多GPU、多节点,在CUDA、x86和Arm上。”似乎通用性,以及AI生态霸权,仍然是英伟达期望扩大这一市场的关键。

黄仁勋在此谈到英伟达的优势是“凭借我们的全栈优化,和丰富的生态系统……”“购买多年后,我们的芯片不断变得更快更好…”原汁原味的说辞,这些年老黄其实反复在说(还有“买得越多、省得越多”…)。

生态帝国的持续扩张

有关AI的部分,英伟达这次还着重谈到的UCF(Unified Computing Framwork,统一计算框架)。英伟达将其放在了“边缘AI”范畴之下。黄仁勋对边缘计算的定义:“边缘计算的统一概念,是需要处理一系列任务的组合。包括传感器、高速IO、数据处理、信号与物理处理(signal and physics processing)、AI推理和计算机图形等。”

这个定义其实更多把边缘定在了机器人之类的应用上。UCF框架实际上是把专用加速器、CUDA GPU、Tensor Core AI、RTX图形处理、网络安全、高速IO等处理过程都串联起来,对容器、微服务进行编排。我们理解,这是对英伟达眼中“边缘AI”开发的全链条打通。比如通过UCF,可以比较简单地扩展对于摄像头、LiDAR、depth传感器、超声波、红外等的支持。

谈到边缘计算芯片,总也感觉这并非英伟达主场。但在AI生态上的呼风唤雨,仍然是英伟达在AI每个环节上都能说上几句话的关键。针对这一点,还是建议去看一看系列文章的另一篇《在元宇宙实现之前,有哪些工作要做?》,里面谈到了英伟达在边缘机器人方面的布局,“端到端机器学习循环”。

似乎我们已经不是第一次用“英伟达生态帝国”来形容其AI发展了,但这仍是这些年的事实。前一阵苹果发布M1 Pro/Max芯片版MacBook Pro,我们在讨论异构系统生态被苹果玩得风生水起。集成到SoC芯片上的GPU,搭配UMA,就能发挥那么强大的芯片性能。

但另一个问题随之而来,M1 Max上的GPU究竟能拿来做什么?这才是体现GPU生态价值的时候。这大概也是英伟达现阶段的主要价值所在吧。2.5亿倍的性能提升,也就是这个链条中的一个组成部分罢了。

有关本次GTC上其他几项重点,包括Omniverse、虚拟形象、机器人,请关注系列报道另一篇文章《在元宇宙实现之前,有哪些工作要做?》。

最后稍补充GTC上相关networking与cybersecurity的发布,因为不是本次我们期望报道的重点,所以仅在文末简单带过:

● 宣布推出 Nvidia Quantum-2平台,这是个400Gbps的InfiniBand平台,由Quantum-2交换机、ConnectX-7 NIC/BlueField-3 DPU,以及一套面向新架构的软件组成。其网络速度、交换容量与可扩展性,对于HPC系统而言很适用。其中ConnectX-7版本样品明年1月问世;BlueField-3样品明年5月问世;

● 宣布推出DOCA 1.2,主要是能够支持全新的网络安全功能。

此处有个亮点,Checkpoint、Fortinet、Palo Alto Networks等网络安全公司的NGFW防火墙服务预计都将基于BlueField做部署。这也算是英伟达生态扩展相当重要的里程碑了。当然,这是DPU生态组成部分。

责编:Luffy Liu

本文为EET电子工程专辑 原创文章,禁止转载。请尊重知识产权,违者本司保留追究责任的权利。
黄烨锋
欧阳洋葱,编辑、上海记者,专注成像、移动与半导体,热爱理论技术研究。
  • “零信任”大势下,谈谈云权限管理(CPM)基础知识 "永远不要相信任何人和任何事。"是一句我们常在电影里听到的名言,其实这句话也同样适用于云端安全管理。疫情之后,随着云计算在世界上的进一步普及,保护云端环境下企业资产安全的需求日益增加,人们对预防性方法越来越感兴趣。先验的云安全立场背后的理念称为“零信任”……
  • “元宇宙”进展情况了解一下:谈谈今年的GTC 这篇文章来谈谈今年GTC上,Nvidia Omniverse的一些新发布——虽然叫它“元宇宙”其实并不准确,但Omniverse现阶段在做的事本身就是未来元宇宙成型的基础。总结起来,现阶段的Omniverse主要实现的是设计协作、模拟仿真。设计协作体现在,从不同位置、用不同的工具,在设计、建筑等领域内,就像……
  • 疫情导致云服务需求暴增,企业纷纷延长服务器使用年限 新冠疫情的出现,让人类社会原本很多需要在线下完成的活动,搬到了线上。由此带来的是数字化进程十倍速的加快,以及网络带宽、云上存储的需求暴增。无论八大云服务提供商,还是其他自有服务器的大中型企业,出于不同目的均选择了延长服务器使用年限来应对……
  • 美光眼中的未来数据中心 2022年,数据中心将会因为新的内存和存储体系而经历一场革命。在数据中心基础设施面临压力的情况下,各类不断创新的内存将是减轻数据密集型工作负载的关键。最激动人心的转变是……
  • 传统防火墙正被细分IT安全硬件取代,中国市场厂商市占一 IDC定义下的网络安全硬件市场分别由统一威胁管理(UTM)、基于UTM平台的防火墙(UTM Firewall)、安全内容管理(SCM)、入侵检测与防御(IDP)、虚拟专用网(VPN)、传统防火墙(Traditional Firewall) 构成。本文以图表形式归纳总结了2021年中国网络安全硬件市场的关键厂商表现……
  • 中国电信20万台服务器集采国产芯片占比27%,华为终端退 本次集采是迄今为止国内三大运营商最大规模服务器集采项目之一,总金额达131亿元,此外还有三大看点:一、以往的大供应商华为没有出现在名单中;二、国产芯片的占比;三、年轻的服务器品牌开始涌现……
  • 新款iPad Pro 2021成最受欢迎的 由于采用性能相对强大的M1处理器和mini-LED屏幕以及更多的创新,新款iPad Pro 2021已经成为消费者心目中最受欢迎。然而,iPad 2却已经在全球范围内被列入“复古和过时”的名单中。
  • 三星折叠屏手机Galaxy Z Fold 3 目前来看,折叠屏新机作为一种新的生产力工具,逐渐成为高端/平板的一种趋势,有报料称三星的Galaxy Z Fold 3发布时间或为7月,并且会引入新手势操控。
  • 类脑芯片与智能座舱深度融合,时识科 类脑智能与应用解决方案提供商SynSense时识科技宣布与宝马展开技术探索,推进类脑芯片与智能座舱应用场景的深度融合。双方将主要围绕SynSense时识科技基于类脑技术的“感算一体”动态视觉智能SoC——Speck,探索汽车内外相关车载智能应用创新。
  • 美光:智能边缘应用的供应链和汽车架 随着数十亿台设备产生的数据和洞察力不断激增,智能边缘也随之崛起
  • AMD在汽车领域能翻起多少风浪来? 2021年特斯拉的Model S Plaid搭载了AMD的Ryzen RDNA 2处理器,然后逐步替代英特尔A3950处理器,用在了Model 3和Model Y高配版本的车载信息娱乐系统上。在2月份
  • 手机出货量暴跌00后4年没换手机引热议 全球通胀,原材料越来越贵,手机厂商跟随涨价也是情理之中的事情,但是真正阻碍消费者换新的原动力,还是厂商在创新上的减速。有媒体调查显示,手机出货量暴跌三成,00后4年没换手机,还有从业者表示,幸运自己转
  • 俄罗斯第一芯片制造商被美国封杀! 最新消息,刚刚美国财政部外国资产控制办公室 (OFAC) 宣布对俄罗斯21家实体企业和13个个人实施制裁,其中包括俄罗斯第一芯片制造商、微电子制造商和出口商Mikron。美国财政部的声明指出,今天制裁
  • 西门子EDA直播报名|从设计到测试,如何应对2.5D/3D验证的挑战(4月21日免费) 异构封装虽好,这些问题解决了吗?一个芯片里面有成千上万个晶体管,电阻,电容,任何一个小错误都可能导致最终的流片失败。从设计、仿真验证、测试每一个步骤都充斥着未知的风险。首先设计过程中,传统的封装的ba
  • 瞎充集团启动“共享充电宝+共享电商”双引擎 瞎充集团,深耕互联网、金融、共享租物领域已经10年时间了,企业的发展经历了探索、电商创业、金融支付转型、研发、核心技术沉淀、扩张、数字化二次转型等 7个阶段。如今的瞎充集团,屹立在中国商业科
  • 柔宇科技已6个月发不出工资!  中国半导体论坛 振兴国产半导体产业!   点击链接:2022春季半导体线上招聘会开始啦!4月1日消息,曾经估值超过500亿的独角兽柔宇科技被曝出已拖欠员工6个月工资!据报道,柔宇科技一员工称,从去年
  • 亚化咨询推出《中国半导体大硅片年度报告2022》,欢迎索取目录! 来源:《中国半导体大硅片年度报告2022》亚化咨询数据显示,2021年全球半导体硅片市场快速增长,整体销售额达157.44亿元,过滤掉交叉部分仅计算销售到IDM/Fab部分的话(过滤部分为销售给纯外延
  • 珠联璧合!晶合集成发力车芯 面对汽车产业走向智能化、网联化、电动化时代,安徽省率先部署,以政策引领产业链协同发展,推动“芯”“端”加速联动。3月31日,“芯”“车”协同专场对接会在晶合集成顺利举办。安徽省经济和信息化厅、安徽省发
  • 大基金二期:入股杭州富芯半导体 3月29日消息,爱企查显示,杭州富芯半导体发生工商变更,新增股东国家集成电路产业投资基金二期股份有限公司、杭州富远企业管理合伙企业(有限合伙)。投资金额和持股比例未透露。公开资料显示,杭州富芯半导体有
  • 10年前,这位浙籍企业家就开始收购美国电池公司,我国有望统领全球动力电池 来源:投资界 作者:刘博封面/图虫创意动力电池进入中韩大战,而我们有望取得压倒性优势。3月29日,盈科资本宣布斥资9亿元入股万向一二三股份公司。同一天万向钱潮也发布公告称,拟出资40亿元投资万向一二三
广告
热门推荐
广告
广告
广告
EE直播间
在线研讨会
广告
广告
广告
向右滑动:上一篇 向左滑动:下一篇 我知道了