广告

如何达成2.5亿倍的性能提升?黄仁勋的“夸张”预言

时间:2021-11-11 作者:黄烨锋 阅读:
黄仁勋在这两天的GTC上提到,实现所谓科学计算“Million-X百万倍”性能飞跃的几个重要条件。除了英伟达的“加速计算”之外,另一个重要的推动力是AI——深度学习编写软件能够具备高度并行性,这就更有助于挖掘GPU这样的硬件算力了。
广告

英伟达每年GTC上都在说,针对相同的硬件,只需要升级软件就能获得性能方面2倍以上的提升——比如对科研人员而言,通过升级软件物理模拟(simulation)时间就能缩短一半。这是比半导体行业摩尔定律还要彪悍的存在。

这其中应当存在一个前置条件,就是是否很多科学计算库原本就是不完善、低效的。在英伟达涉足这些行业之后,各种库、编译器、中间层得到优化,硬件性能才得以充分挖掘。2倍甚至更多的性能提升也就不足为奇了。此前HPC领域有业内人士告诉我们,的确是这样。比如做计算化学的研究人员,不要期望他们能够精通底层优化。这样的前置条件,为英伟达扩展生态创造了大有潜力的发展环境。

但事实上,情况可能比我们想象得还要复杂。黄仁勋在这两天的GTC上提到,实现所谓科学计算“Million-X百万倍”性能飞跃的几个重要条件。除了英伟达的“加速计算”之外,另一个重要的推动力是AI——深度学习编写软件能够具备高度并行性,这就更有助于挖掘GPU这样的硬件算力了。

我们认为,这一畅想未来还能扩展到科学计算之外的领域。虽然带来的性能提升在各行各业或许无法达到“Million-X百万倍”的程度,软件上的效率优化也将会显而易见。黄仁勋在主题演讲中说:“我们拥有超过150个SDK,为游戏与设计、生命与地球科学、量子计算、AI、网络安全、5G和机器人等行业提供服务。”

今年GTC,英伟达又推了65个新的(或更新的)SDK。举个例子,设计自动化是现在英伟达也在涉足的领域:Synopsys、Cadence、Ansys、Dassault如今都是英伟达这方面的客户——主要是对散热、机械结构及针对RFI与信号完整性的3D EM的模拟。

说起来,英伟达通过这样的生态扩展,构造巨无霸式的生态帝国,主力都是软件能力;GPU硬件在此倒显得没那么重要了。这也是GPU能够对如雨后春笋般涌现AI芯片实现降维打击的基础。这更坐实了英伟达不是家芯片公司的事实......

本周的GTC大会,我们自己总结黄仁勋的主题演讲主要涵盖了几个方向:科学计算加速、AI、Omniverse、虚拟形象(avatar)、机器人/自动驾驶汽车。本文我们主要谈谈科学计算加速、AI,其他几个部分可点击这里查看。后续针对黄仁勋的采访,我们还将做一篇报道。

2.5亿倍的性能提升

CUDA生态是众所周知的,就如文首提到的——其中各种资源应当是现如今英伟达GPU生态的核心所在。其实我们始终认为,GPU作为如今加速计算的通用硬件,服务于各行各业,AI只是其中的一个分支。只是因为AI涉及到的产业如此庞大,致AI被单独划分出来。所以AI部分,后面的段落还会做进一步解释。

有关加速计算,这次黄仁勋主题演讲中的发布包括有:

● 发布3个新的加速库:ReOpt(针对如车辆路线安排、仓库拣选与包装的加速求解器)、cuNumeric(针对NumPy的插入式加速库)、cuQuantum(以及发布cuQuantum DGX设备,用于加速量子电路模拟——cuQuantum DGX设备明年Q1推出)

● 宣布推出Nvidia Modulus,这是个用于开发Physics-ML模型的框架,使用物理原理以及principled physics model的观测数据来训练Physics-ML模型。(这个好像应该放在AI里面,不过因为它与科学计算紧密相关,所以就放在这部分讨论了)

简单说一说:cuQuantum DGX是为造量子计算机存在的东西。据说对于量子傅里叶变换、Shore算法、谷歌Sycamore的计算,传统方案要几月才能完成,cuQuantum DGX只需要几天。而针对Phython NumPy的cuNumeric加速库,能够实现任务级并行、且乱序执行,还支持GPU扩展,扩展效率也不错。ReOpt则可用于路径规划,比如达美乐送披萨,最后一公里配送就能实现最优路径规划。

看不懂是啥不要紧,毕竟GPU加速涉足各行各业,唯有相应行业的人才会知道英伟达发布的某个组件究竟是做什么用的(而且我们也经常怀疑,黄仁勋在演讲中常提到很多自然科学相关知识,他自己真的理解吗?划掉)。这些都是所谓“百万倍性能提升”的组成部分——当然这里的百万倍性能提升特指科学计算领域。

接下来就详细说说这次GTC上的一个大热门,“Million-X百万倍”性能飞跃——科学计算领域;它本质上也属于英伟达加速计算的组成部分。黄仁勋表示,实现科学计算百万倍性能提升,包含三个方面。

首先是加速计算,即上图中最下方的绿色线条(蓝色线条看起来或许是摩尔定律)。这其实是CUDA的基本实现。黄仁勋说:“加速计算正重塑从芯片和系统、加速库,到应用的全栈式计算,这会带给我们50倍的提升。”

第二,我们认为应该是数据中心的规模化扩张(图中的scale up & out,英伟达的官方翻译似乎有点问题)。这是实现AI的先决条件,也是改变编写软件范式的基础。

第三,就是AI。“从根本上改变了软件。深度学习编写的软件具有高度并行性,这是其更有助于GPU加速,并且可扩展到多GPU和多节点上。”如文首所述,这或许不仅是科学计算,而是全行业的发展趋势。

英伟达提供的数据是,如果扩展到DGX SuperPod这样的大型系统,则速度提高5000倍;而深度学习编写的AI软件,速度又会比人工编写的软件快1000-10000倍;那么加上前面的50倍,总共就是2.5亿倍的性能提升。

这虽然是很理想的一个预测,但大方向我们认为是相当正确的:即便2.5亿这个数字大概还可以再讨论讨论。而事实上HPC、科学计算领域有这样的性能需求,一点也不算贪婪。其一大价值就在于提高模拟/仿真性能。教AI模型学习物理,并做出符合物理定律的预测,也就让AI真正在模拟方面做出了贡献。

举两个例子。其一是药物研发中的“虚拟筛选(virtual screening)”。包括解码人类蛋白质、有效化合物与蛋白质结构相遇涉及到的分子模拟等过程。据说其中的某些过程,可以从原本需要3个月缩短到只需要3个小时。

黄仁勋有句话让人印象很深刻,“我们正在见证生物学革命的曙光。”此前生物学革命一直被很多人称作第四次科技革命。不过生物学的发展速度之缓慢,应该是很多人都了解的。或许AI真有这样的能力,实现某些尖端领域的快速突破。前提就是电子科技行业,“2.5亿倍”性能提升。

第二个例子是气候模拟与预测。目前人类没有能力预测几十年后的气候,因为算力限制,气候模拟的规模是现阶段电子科技无法想象的。长期气候预测需要对地球大气、海洋/水域、冰、土地和人类活动的物理特性及相互作用进行建模。而且需要1-10米的空间分辨率,加入大气云对太阳辐射反射回太空等的影响。

所以英伟达这次宣布推出Nvidia Modulus。这是个用于开发physics-ML模型的框架,可在多GPU、多节点上做训练。黄仁勋说,由此生成的模型,其物理仿真速度比模拟快1000-10万倍。用Modulus打造地球digital twin模型,就能解决气候科学的一些问题。

据说研究人员用ECMWF(欧洲中期天气预报中心)的ERA5大气数据去训练一个physics-ML模型,得到的模型能以30公里的空间分辨率来预测飓风的严重程度和路径。而且原本需要7天完成的预测,现在只需要1/4秒(?)。或许几年以后,Omniverse中的地球digital twin,加上一些Physics-ML模型,就能预测气候了。

这就是软件和AI的威力。

有关AI的一些新发布

AI始终是这两年英伟达发展的重头戏,毕竟现在谁家出个AI芯片都不忘在PPT上揶揄一下英伟达。这其实也从反面印证了,英伟达的GPU与AI生态对于一众AI芯片厂商而言,的确构成了白色恐怖。

本次GTC上,主要相关于AI的发布包括:

● 宣布与DGL(Deep Graph Library)社区合作,加速GNN(Graph Neural Network)处理——今年12月“提供抢先体验”;

● 宣布推出Nemo Megatron,这是个专门用于训练十亿、万亿量级参数LLM(large language model)模型的框架;

● 宣布TensorRT原生集成到TensorFlow和PyTorch中;(“1行代码,机器学习开发者就能获得3倍加速”)

● 宣布Triton推理服务器能够同时支持深度学习、机器学习模型;Triton推理服务器2.15适用于所有推理工作负载:包括“对所有模型、各种框架、多查询类型的推理,机器学习和深度学习、面向所有平台、云、本地、边缘和嵌入式系统,多GPU、多节点,在CUDA、x86和Arm平台上”;

● 宣布LaunchPad,这是与Equinix合作的服务项目,在全球范围内面向企业数据中心“预安装和提供Nvidia AI”。目前覆盖地区暂不包括中国。

英伟达在AI方面的生态扩张,是此前我们花了很多笔墨去描摹的。上个月的《国际电子商情》封面故事《AI芯片竞争红海之下的生存之道》,我们还提到了英伟达对于各AI芯片公司造成的阴影。英伟达FY2022 Q1/Q2的营收较去年同期分别增长84%和68%,净利润增长109%和282%。

如今英伟达在GTC之上的AI相关发布,绝大部分都是生态完善和补全。说穿了就是持续扩大市场覆盖范围和优势。比如说GNN(Graph Neural Network)主要是学习关系(relationships)的一种神经网络,目前已经是金融服务、药物研发、数字生物学和网络安全的首选模型。

所以英伟达在这方面很自然而然地有了动作。“我们正与DGL社区合作,以加速GNN处理,就像我们对CNN、RNN和Transformer所作的一样。”DGL是用于在现有深度学习框架之上,实施GNN的一个phython库。黄仁勋列举PayPal(欺诈检测)、亚马逊(滥用与欺诈检测)、Pinterest(搜索与推荐)都已经从中获益。

另一个AI能力补全的例子:黄仁勋这次特别谈到了Transformer。搞AI的应该都知道Transformer的价值。黄仁勋提到训练LLM(大型语言模型)是耗时、耗力,而且需要“强大的信念和专业知识和优化堆栈”的过程。

所以英伟达这次发布了Nemo Megatron。这是个训练“拥有数十亿、数百亿参数的语音和语言模型框架”。英伟达给的数据是,在500节点Selene DGX SuperPOD上,11天完成GPT-3训练。

在推理(inference)方面,“GPT-3有1750亿参数,需要至少350GB内存;Megatron有5300亿参数,需要超过1TB内存。”所以英伟达推出分布式推理引擎Triton,可在多GPU、多节点间进行分布式处理。原本双Xeon Platinum CPU服务器上,Megatron 530B模型推理需要超过1分钟,据说现在将其分布部署在2个DGX系统中,推理时间缩短至半秒。 

LLM的发展潜力还是相当之大,“为新语言和新的领域,定制LLM,可能是有史以来最大规模的超算应用。”像电子商务产品与服务推荐这种万亿市场价值的领域,显然是发展AI的必争之地。

事实上,AI领域中的推理部分越来越不再成为英伟达的主场——这个细分赛道将来极有可能被各路AI专用芯片占据。推理和训练,在生态要求上还是有着比较大的差异的。

这一次新的Triton及推理服务器被黄仁勋称为“推理工具至今最重大的一次发布”。“今天我们宣布,Triton推理服务器能对深度学习(DL)以及机器学习(ML)模型进行推理。”“我们将Nvidia GPU向经典机器学习推理的世界开放。”

“通过一个推理平台,Triton就能实现在CPU和GPU上做DL和ML的推理。”新版本的Triton推理服务器则是“对所有模型、各种框架、多查询类型的推理,机器学习和深度学习,面向所有平台、云、本地、边缘和嵌入式系统,多GPU、多节点,在CUDA、x86和Arm上。”似乎通用性,以及AI生态霸权,仍然是英伟达期望扩大这一市场的关键。

黄仁勋在此谈到英伟达的优势是“凭借我们的全栈优化,和丰富的生态系统……”“购买多年后,我们的芯片不断变得更快更好…”原汁原味的说辞,这些年老黄其实反复在说(还有“买得越多、省得越多”…)。

生态帝国的持续扩张

有关AI的部分,英伟达这次还着重谈到的UCF(Unified Computing Framwork,统一计算框架)。英伟达将其放在了“边缘AI”范畴之下。黄仁勋对边缘计算的定义:“边缘计算的统一概念,是需要处理一系列任务的组合。包括传感器、高速IO、数据处理、信号与物理处理(signal and physics processing)、AI推理和计算机图形等。”

这个定义其实更多把边缘定在了机器人之类的应用上。UCF框架实际上是把专用加速器、CUDA GPU、Tensor Core AI、RTX图形处理、网络安全、高速IO等处理过程都串联起来,对容器、微服务进行编排。我们理解,这是对英伟达眼中“边缘AI”开发的全链条打通。比如通过UCF,可以比较简单地扩展对于摄像头、LiDAR、depth传感器、超声波、红外等的支持。

谈到边缘计算芯片,总也感觉这并非英伟达主场。但在AI生态上的呼风唤雨,仍然是英伟达在AI每个环节上都能说上几句话的关键。针对这一点,还是建议去看一看系列文章的另一篇《在元宇宙实现之前,有哪些工作要做?》,里面谈到了英伟达在边缘机器人方面的布局,“端到端机器学习循环”。

似乎我们已经不是第一次用“英伟达生态帝国”来形容其AI发展了,但这仍是这些年的事实。前一阵苹果发布M1 Pro/Max芯片版MacBook Pro,我们在讨论异构系统生态被苹果玩得风生水起。集成到SoC芯片上的GPU,搭配UMA,就能发挥那么强大的芯片性能。

但另一个问题随之而来,M1 Max上的GPU究竟能拿来做什么?这才是体现GPU生态价值的时候。这大概也是英伟达现阶段的主要价值所在吧。2.5亿倍的性能提升,也就是这个链条中的一个组成部分罢了。

有关本次GTC上其他几项重点,包括Omniverse、虚拟形象、机器人,请关注系列报道另一篇文章《在元宇宙实现之前,有哪些工作要做?》。

最后稍补充GTC上相关networking与cybersecurity的发布,因为不是本次我们期望报道的重点,所以仅在文末简单带过:

● 宣布推出 Nvidia Quantum-2平台,这是个400Gbps的InfiniBand平台,由Quantum-2交换机、ConnectX-7 NIC/BlueField-3 DPU,以及一套面向新架构的软件组成。其网络速度、交换容量与可扩展性,对于HPC系统而言很适用。其中ConnectX-7版本样品明年1月问世;BlueField-3样品明年5月问世;

● 宣布推出DOCA 1.2,主要是能够支持全新的网络安全功能。

此处有个亮点,Checkpoint、Fortinet、Palo Alto Networks等网络安全公司的NGFW防火墙服务预计都将基于BlueField做部署。这也算是英伟达生态扩展相当重要的里程碑了。当然,这是DPU生态组成部分。

责编:Luffy Liu

本文为EET电子工程专辑 原创文章,禁止转载。请尊重知识产权,违者本司保留追究责任的权利。
黄烨锋
欧阳洋葱,编辑、上海记者,专注成像、移动与半导体,热爱理论技术研究。
  • 论CPU核心数,为什么Intel会干不过AMD? AMD给自家处理器堆了这么多核心,Intel为什么不也这么干呢?偏要等到今年出了混合架构,才开始通过E-core堆出更多核心?很多同学首先想到的,应该是Intel工艺暂时落后于台积电的事实。这的确是一个因素,更大线宽的工艺,堆起核心来自然要耗费更多的芯片面积——也就是成本;而且对功耗也相当的不利。但实际上还有一些架构层面的原因,是相关于核心之间的连接方式的。
  • 传高通、AMD将率先采用三星2022年上半量产的3nm芯片制 11月22日消息,据外媒援引韩国业界人士消息指出,三星晶圆代工部门计划2022年上半年量产的第一代3nm制程,首发客户有望包涵高通以及AMD两大厂,同时自家三星电子Exynos下半年将亮相的芯片也将采用该制程。
  • IC Insights :2021全球半导体市场增长23%,盘点Top25企业 近日,市场研究及调查机构《IC Insights》最新研究报告公布了按销售增长率排名的前25家半导体供应商的预计排名。虽然新冠疫情影响全球半导体产业,不过 2021 年却出现意外大好,预计 2021 年全球半导体市场将增长 23%,半导体单位出货量强劲增长20%,半导体平均销售价格预计增长 3%。 23%市场增长将是自2010 年以来全球半导体市场的最大涨幅,曾在2008年和2009年金融危机和全球经济衰退后,全球半导体销售额飙升了34%。
  • 2021-2026年全球企业服务预测:到2026年市场规模达3万亿 Omdia预计,经济形势将逐渐从疫情阴影中走出来,从而推动未来5年全球企业服务支出加速增长。不过,各个地区和行业的复苏速度各不相同。所有企业的IT决策者愈发意识到对数字化转型进行投资的必要性,其中往往包括各种企业服务和新兴技术。虽然这种投资在某种程度上取决于企业分配的总体IT预算规模,但从长远的角度出发,企业也可能在经济困难时期增加服务预算来提高稳健性、灵活性和竞争优势。
  • DDR5内存还未普及,DDR6已经在路上了 DDR5预计会在2022年开始全面普及,普及将需要2-3年左右的时间。然而,三星研发的DDR6内存已经在路上,GDDR7显存也不远了。
  • 芯动科技首款国产高性能服务器级显卡GPU -- “风华1号 芯动科技潜心为5G数据中心定制的高性能显卡GPU芯片——“风华1号”回片测试成功。“风华1号”采用GDDR6X和chiplet技术,实现了数据中心国产高性能图形GPU零的突破,大幅提升了国产GPU图形渲染能力。
  • 新款iPad Pro 2021成最受欢迎的 由于采用性能相对强大的M1处理器和mini-LED屏幕以及更多的创新,新款iPad Pro 2021已经成为消费者心目中最受欢迎。然而,iPad 2却已经在全球范围内被列入“复古和过时”的名单中。
  • 三星折叠屏手机Galaxy Z Fold 3 目前来看,折叠屏新机作为一种新的生产力工具,逐渐成为高端/平板的一种趋势,有报料称三星的Galaxy Z Fold 3发布时间或为7月,并且会引入新手势操控。

  • 储能与电动汽车应用爆发下,安全可靠 随着汽车设计转向电气化,以及风能和太阳能等可再生能源的部署速度加快,并不断与新推出的储能和电池技术融合。高功率电子成为电池系统的关键部件。这些电子需要与低压数字控制器通信并由其控制,如何实现安全迅速的接口通信是设计可靠电池管理系统的一大挑战。
  • 中国芯应用创新32强出击,众多奖项花 11月16日,第三届IAIC中国芯应用创新设计大赛决赛在深圳前海举行,大赛组委会邀请了来自兆易创新、华大半导体等原厂专家、来自旦恩资本、一本基金、深创投等资深投资机构以及来自中电港、中科院深圳先进院、深半协、深圳中微电、健天电子、史河机器人科技、亚力盛等行业专家作为决赛的评委专家组。
  • 壹悟科技完成近亿元A轮融资! 本轮融资资金将用于产品研发和市场推广等方面。文|壹悟科技CMR产业联盟企业壹悟科技近日宣布完成近亿元的A轮融资,本轮融资由经纬创投领投,老股东创新工场、真格基金跟投,义柏资本担任独家财务顾问。壹悟科技
  • 【旧文回顾】深度揭秘,阻抗测试那些你所不知道的内幕 公众号:高速先生作者:周伟最近,新晋级的SI攻城狮雷豹运气有点霉,刚刚经受了Pin delay的折磨,现在又碰到一个怪异的事情,某客户产品性能有问题,经多次排查后,发现板内阻抗测试结果不达标,但是板厂
  • 近1000万元!山东天岳等发起碳化硅招标 近日,山东天岳、中电化合物半导体和季华实验室对外发布了碳化硅设备等采购招标需求,合计金额近1000万元。山东天岳招标11月24日,天岳先进科技对外发布了“110kV输变电工程清河站天岳站高压外线接入工
  • 维信诺发布日常经营重大合同公告:获荣耀订单累计超22亿 11月26日晚,维信诺(002387.SZ)发布日常经营重大合同公告。截至本公告披露日,公司连续十二个月与荣耀终端签署的日常经营类订单金额累计达到224,850.70万元,占公司2020年经审计主营业
  • 销量横扫!中国内存/SSD大厂获数亿B轮融资 11月26日最新消息,近日,深圳市嘉合劲威电子科技有限公司完成数亿元B轮融资,投资方包括招银国际、中信建投、易方达、高新投等。本轮融资资金主要用于技术研发、提升智能制造。同时,嘉合劲威即将启动B+轮融
  • 亚化咨询半导体研究系列报告 欢迎征订!如需索取目录欢迎联系亚化咨询朱经理MP: 17717602095(微信同号)Email: rita@asiachem.org
  • 信利 | 投资200亿!信利第六代TFT-LCD生产线项目签约汕尾 来源 :南方+日前结束的第二届汕尾市发展大会上,汕尾市高新共签约项目8个,总投资253.5亿元。这些项目分别为信利第六代TFT-LCD生产线、康冠平板显示终端产品研发与生产、名仕度高强高模聚
  • 最新!美光和联电和解 11月26日,美光科技与联电共同宣布,两家公司在全球范围内达成和解协议。两家公司将在全球范围内撤回对另一方的投诉,联电将一次性向美光支付一笔未公开的金额。联电和美光期待开展相互的商业合作机会。此案源于
  • 动图了解PCB整个古老制作过程! PCB( Printed Circuit Board),中文名称为印制电路板,是电子元器件的支撑体。由于它是采用电子印刷术制作的,故被称为“印刷”电路板。在PCB出现之前,电路是通过点到点的接线组成的
  • 王天琳:对半导体行业和投资的一些体会 本文转载自爱集微英特尔资本董事总经理、中国区总经理王天琳编者按:本文作者英特尔资本董事总经理和中国区总经理王天琳,集微网经授权首发。去年底曾写过一篇文章,分享芯片设计业投资的分析框架,引起一些反响。近
广告
热门推荐
广告
广告
广告
EE直播间
在线研讨会
广告
广告
广告
向右滑动:上一篇 向左滑动:下一篇 我知道了