现在的游戏显卡上,AI单元的占die面积越来越大——这些die size要是省下来,拿来堆图形渲染单元他不香吗?我们在近期的GeForce RTX 40系品鉴会上,看到了这些...

大部分关注GPU的同学都知道,近代NVIDIA GeForce RTX GPU,里面也充斥着所谓的Tensor core。一般我们说Tensor core是用于AI与HPC计算加速的,或者说用于加速矩阵乘运算。从Volta架构开始,到现在的Ada Lovelace/Hopper架构,Tensor core已经走到“第四代”了。

Tensor core并不是传统意义上的图形渲染单元——它的存在也一定程度让GPU变得不再那么Graphical...从我们能找到的数据来看,早在Turing架构时期,Frizchens Fritz公开TU106Turing)的高分辨率红外die shot,提到TU106的一个TPC(Texture Processing Cluster)占die面积约为10.89mm²,其中的Tensor core大约1.25mm²——包含ALU、scheduler、cache相关部分。

Turing架构TU106 die shot,来源:Frizchens Fritz

从整个GPU die的角度来看,TU106的Tensor core占die面积大约在10%左右——当然这个数字未必可靠,因为我们还从其他来源听说,Turing时代的这一数值可能在20%左右;无论如何,这起码说明了传统图形处理器上,至少已经有这么大一片晶体管是“不务正业”的了。

这已经是前两年的数字了,TU106的Tensor core单纯看核心数是288个;这一代AD102(Ada Lovelace)的Tensor core数量已经增加到576个(RTX 4090并未全部用上这些核心);换句话说现在的GeForce图形卡,用在AI上的料可着实不少了。

这就涉及到一个问题,AI对于游戏和图形视觉类应用究竟有什么价值?这些die size拿来堆shader core之类的图形单元他不香吗?现在的AI计算,于游戏应用的一个重要价值在于:生成(generate)像素与帧——它和图形单元的区别在于,后者是渲染(render)像素与帧。

“生成”和“渲染”有啥不同呢?说点儿实际的,NVIDIA最新的DLSS 3技术支持超分辨率(Super Resolution)和帧生成(Frame Generation):玩个1080p分辨率的游戏,如果超分辨率到4K分辨率,就有75%的像素和一半的帧是AI生成的,而不是由图形渲染单元算出来的。而Tensor core投入的die size,远远不到图形渲染单元的一半,功耗更是低了不止一个数量级,这笔投入是不是还挺划算的?

也就是说,如果这些像素和帧都要由图形单元去算,那所需的晶体管数量、显卡售价、功耗水平都会冲着爆炸级别而去。最近NVIDIA在上海办了一场GeForce RTX 40系显卡品鉴会——这次品鉴会的主题之一就是DLSS 3,当然相关的还有全景光线追踪,以及OEM产品展示。不过我们重点就关注一下和AI关系最大的DLSS 3,以及其他与GeForce显卡相关的AI技术。

 

做游戏、做动画也用AI的话...

去年NVIDIA GTC开发者大会上,我就写文章说游戏方面让眼前一亮的是一个叫RTX Remix的工具,这个工具能给一些DirectX 7/8老游戏做MOD,让老游戏也立马支持光线追踪、DLSS之类的新技术。NVIDIA演示的《上古卷轴3:晨风》加上RTX之后的效果,的确堪称惊艳。

这次我们在品鉴会上看到了当时NVIDIA亲自下场给游戏《传送门:序曲》,基于RTX Remix做的《传送门:序曲》RTX版,让这个2008年度最佳游戏,看起来跟现在的新游戏似的。就玩家层面来看,和AI技术最相关的自然是DLSS——不过有关DLSS 3的部分,我们放到后面再去谈。


这里NVIDIA 作为开发者与《传送门:序曲》(Portal Prelude) 的原创Nicolas "NykO18" Grevet以及著名Mod爱好者David "Kralich" Driver-Gomm合作对《传送门:序曲》RTX版进行现代重构时,本身也是受惠于AI的。如果你仔细阅读了我们剖析RTX Remix的技术文章会了解,RTX Remix并不单纯是给老游戏加上光追、DLSS之类的支持这么简单。

这套工具里面有个AI纹理工具——一方面能够将低分辨率的资源(asset)upscale为4倍高分辨率,比如1080p分辨率就upscale为4K;另一方面,AI可以对老游戏中的纹理进行inference,将比较老旧的纹理,转为某种材质精美的纹理,NVIDIA在此前的媒体会上称其为“Re-Texturing”,AI纹理工具“看到”画面以后,能够“理解画面原本想要呈现的材料”,比如看到一扇木头门,就能很快用高分辨率、高质量的木质纹理对原有纹理做替换。

那么很显然这里的AI纹理工具,是首先需要NVIDIA去做个网络模型的。NVIDIA方面说是对游戏纹理的大量图片做了训练,这样的网络可应用于纹理、物理属性之类的推理。是不是还感觉挺神奇的?


《上古卷轴3:晨风》开关RTX前后变化

我们在这次品鉴会上问了NVIDIA,除了DLSS这样的技术,在游戏对AI的利用上还有什么样的规划。NVIDIA谈到了NVIDIA Omniverse ACE(Avatar Cloud Engine)已经在和“开发者合作中”,“后续应该就会有比较好的呈现”。

去年GTC报道中我们谈过ACE,这两年在网上还挺火的Toy Jensen——就是那个黄仁勋3D卡通形象,也部分基于ACE;还有包括Violet、Tokkio之类的虚拟形象应用,都有ACE技术成分。去年我还撰文谈过Toy Jensen这个角色形象身上存在多少种不同的AI技术和“microservices”,包括Audio2Face生成式AI——基于音频就能构建脸部动画、Riva——将单纯的文本说出来的text-to-speech、Nemo生成式AI——可以理解为针对特定领域的定制版ChatGPT等等...


从最简化的工作框图来看,文字、音频、视频数据输入到ACE网络,就能输出2D或者3D形象(模型训练流程应该是在DGX Cloud上进行的)。从NVIDIA市场宣传老是爱换某些概念的名字和定位(不是...)的传统来看,ACE未来囊括的AI技术应该会持续扩展。

那么很容易想见,将这些应用到游戏开发中会有怎样的化学反应。前两个月的Computex上,黄仁勋特别发布了NVIDIA ACE 游戏开发版,用于构建游戏中的NPC,NPC的角色反应通过生成式 AI 变得更智能。想象游戏中的NPC都有ChatGPT般的聊天能力...

我们现在暂时还不清楚,将来基于ACE的网络模型inference具体会怎么做。不过听NVIDIA的意思,具体到玩家这一侧,与NPC对话的AI inference可能是由GeForce显卡的Tensor core来完成的。

我倒是觉得,这对Tensor core的利用相比DLSS更为充分了。虽然这东西一听就知道,又是个需要生态和开发者支持的大工程——好在从现有市场来看,NVIDIA生态构建能力,在图形和AI领域都是无出其右的,DLSS不是发展得就挺好么。


AI短片《Flower》

内容创作部分,最后再来谈一个品鉴会上的demo:NVIDIA请来了B站up主特效小哥008和拓星研究所的达威,展示他们用AI辅助制动的特效短片《Flower》——后续应该也会在B站发布。据说这个短片在AI辅助创作下,4个人只用了5天时间完成,008说按照以往的流程,这样一个短片可能需要长达1个月的时间去制作。

从现场听到的介绍来看,该短片制作至少用到两个AI相关的工具,其一是NVIDIA Canvas——这应该也是现在Omniverse生态里的工具,即在画布上,用笔刷简单画几笔,Canvas就能基于AI自动生成photorealitic真实风格的风景画。今年CES上,NVIDIA对此做了更新,新特性叫Canvas 360,即开始支持360°全景图——构成环绕场景。

《Flower》的创作应该就是基于Canvas 360特性,CG短片的背景是用Canvas完成的。感觉比较奇特的是,Canvas 360特性中,创作者可以构建等矩阵(equirectangular)环境图,导入到3D应用里——然后就能改变场景光照,增加反射之类的。008告诉我们,Canvas生成的山、云等背景,对于短片制作非常方便。


品鉴会现场用笔记本演示Canvas应用

其二是Stable Diffusion——这个text-to-image生成式AI,大部分同学应该也很熟悉了。“搭好场景,渲染好之后,丢进Stable Diffusion,让AI去做更进一步的工作。”“AI帮我们填充了很多东西”,比如机器人身上的金属划痕细节、“手部细节”,“这些都是原资产里没有的,AI填补出来的”;在模型精度较低的情况下,“AI帮我们填充了很多想要的细节”。

不过整个短片制作应当不仅限于这两个AI构成,包括动作捕捉(Move AI),以及文字脚本、视频最后总结的一行字甚至也都是AI完成的。全部工作流用上了“4张40系显卡,结果还是挺梦幻的”,008说。

NVIDIA现场也提到了自家AI工具的一些合作应用案例,比如Canvas已经在火星时代做应用;好像每年GTC或者包括SIGGRAPH、Computex之类的会,NVIDIA都要宣布一堆AI相关的新合作,多少也是要表明自家AI生态的构建情况。

我们在这部分谈《传送门:序曲》RTX版游戏、NVIDIA ACE 游戏开发版,以及《Flower》短片的这三个例子,都是要说明AI技术于游戏开发和内容创作,正在扮演越来越重要的角色,Tensor core在娱乐与生产力方向也正变得预发重要。

其实我们始终觉得,现在的AI应用,于创作流程仍然只呈现出了点状,就好像《Flower》短片制作,是某些地方用上AI做辅助;生产力、游戏,和多媒体创作上,AI的参与度未来还会越来越深入,尤其是在生成式AI为这个路径指明了方向以后。

从NVIDIA Omniverse和AI这两大板块的加速库到应用框架,仍然可以看到很多东西可在游戏、生产力上做应用的潜力;而且这里还没有谈到AR/VR之类的部分。举个例子,我记得去年GTC上,黄仁勋展示了某个AI-powered character,这些角色基于人类动作数据来学习人类的真实动作,包括走路、跑步、挥剑——据说角色训练机制原本要求10年期的模拟,但基于大规模并行GPU模拟,只需要现实世界3天就训练完成。

训练完成后的角色掌握各种技能,还能执行更复杂的任务,比如撞倒某个东西、往不同方向前进,甚至我们用自然语言能去控制它。不说这东西对Isaac之类有什么用,感觉于游戏3D角色的动作多样化、自然流畅都有相当的价值(虽然可能这东西云端和本地算力需求也十分巨大),远比现在的游戏体验更好、更丰富。

 

DLSS 3和游戏AI的生态推进

谈游戏AI嘛,自然少不了DLSS——相比前面谈到的内容,DLSS对玩家可产生的直观感受提升应该是更为显著的。大部分玩家对于DLSS 3应当都挺熟的了,这里不再细说其技术细节。

简单来说,DLSS 3是在原本DLSS 2能够做AI超分辨率的基础上,加入了帧生成和Reflex低延迟技术。如文首所述,DLSS 3帧生成是通过AI生成的——它更像是image图像领域的技术,而非由graphic图形计算获得。

具体是怎么补的,可以参见我之前撰写的文章,总结起来是运动矢量+光流。GPU硬件层面,这代Ada Lovelace是加入了光流加速器的。另外,配套的Reflex通过抹去渲染队列的延迟,不仅抵消了补帧在流程上增加的延迟,而且让输入到显示设备响应全链路的延迟降低到一个新的水平。

此前GTC上演示DLSS 3比较让人印象深刻的是Racer X,GeForce RTX 4090 + DLSS 3相比RTX 3090 + DLSS 2,设计场景实现了将近4倍的帧数提升。DLSS 3的帧生成在其中是起到了相当大的作用的。


这次品鉴会让我印象比较深刻的一是跑Unreal Engine虚幻引擎的实时渲染官方demo,现场工作人员说当场景变得非常复杂时,RTX 4090的实时渲染帧率也只有差不多20fps;引入DLSS 2做超分,则帧率能够提升到接近30fps;而藉由DLSS 3补帧,画面提升到接近60fps;

其二是NVIDIA与国内的建筑软件D5的合作,在D5加入DLSS 3支持以后,建筑场景实时渲染可以从30fps提升到60fps。这些对于创作者、设计师而言都是体验层面质的提升。

之前总有部分游戏玩家说,AI生成的像素和帧“不算数”,渲染算力才是“真正的”算力。这话或许得分两部分来看。其一是评价一个复杂系统的性能,应当以高抽象层级的性能表现为判断依据,而不是系统中的某一个组件。在游戏和设计类别的应用里,所谓的“高抽象层级”就是玩家和用户的体验。画面好不好看、动起来流畅不流畅、综合体验行不行是铁一般的判断标准。

实际上即便在传统的图形渲染管线里,也有各种诸如数据压缩之类的奇技淫巧在发挥作用——这些取巧的技术算不算数呢?何况在图形学生态变得复杂、多样时,衡量一个系统的优劣,早就脱离了FP32算力的范畴。图形加速卡发展的历史长河中诞生过很多不同的技术,AI现在作为其中一环,“怎么不算呢?”

另一个关键问题是,半导体行业的摩尔定律停滞。单纯靠堆shader core和存储资源,要达成品鉴会上Unreal Engine或者D5演示demo的60fps,现阶段所需付出的代价恐怕是任何玩家、工作室,乃至HPC数据中心都无法承担的;AI的诞生可以说是摩尔定律停滞时代的必然——因为这是系统层面提升面积与成本效益,外加能效的最佳选择。

这里面最应该担心的应该是DLSS的生态建设情况。因为要动用Tensor core加速,必然要求游戏和其他图形应用开发者在代码层面做支持。如果这个生态吸引不到足够多的开发者参与,那么Tensor core和AI技术才是白白浪费了。


好在品鉴会上,NVIDIA说DLSS 3在推出半年内的普及速度,相比于DLSS 2同期,已经快了7倍。到目前为止,支持DLSS 的游戏已经超过了300款,其中38款游戏和应用现已支持DLSS 3。

品鉴会现场展示了不少支持DLSS 3的游戏,不仅是《赛博朋克2077》这类在光追特性上需要耗费大量算力的3A游戏——尤其在overdrive超速模式诞生以后;还包括《暗黑破坏神IV》这样的网游——DLSS能够走进网游,应当也某种程度表明了这项技术大众化的开始。

现场工作人员说,《暗黑破坏神IV》1080p分辨率下,RTX 4060就能稳定在100fps以上;而“有些玩家期望做到极致,开4K分辨率,那么有了DLSS 3,也能达到60fps”。这是GPU这种大芯片在即将突破reticle limit的时代,AI在体验层面实打实的加成。

其实这次NVIDIA期望展示的重点,应该在国产网游对DLSS 3的积极支持上,包括《永劫无间》《鸣潮》的PC端,是尚未公开、未来很快就要加入DLSS 3支持的demo演示;现场还有尚未上线的《重生边缘》独家Demo,对光线追踪的完整支持引入,有了DLSS 3以后,RTX 4060玩2K分辨率也能有100+fps的帧率。

也有《无畏契约》这种追求低延迟,因此单独加入Reflex的FPS游戏——现场工作人员告诉我们目前排名前10的FPS游戏,9款都已经集成了Reflex。这些也都是NVIDIA图形生态的组成部分。

 

摩尔定律死了,显卡靠AI救赎

去年我们跟芯片行业内的不少企业高层聊元宇宙,大家都认同电子游戏就是元宇宙的某种雏形——玩家在里面消费、交流、游览…元宇宙作为虚拟世界,图形构建需要依托GPU——而元宇宙相比游戏会惠及更多人,GPU的市场还会有一次井喷。

也不光是元宇宙、电子游戏、专业视觉设计,社会数字化转型整体都对算力有着指数级增长的需求,则单靠摩尔定律支撑下GPU的图形和通用计算单元顶着,是真的不够看。何况摩尔定律还延续不下去了。

这时候我们看到,NVIDIA面向游戏在图形卡上加入用于AI计算的Tensor core,为游戏布局DLSS 3、ACE等各种AI技术。大体思路就是图形和AI一边渲染、一边生成像素,GeForce RTX 40系时代更像是未来世界的某种模板。GPU是在摩尔定律走不下去,单位面积再难成倍塞下晶体管时,获得了AI的救赎的。

当这种思路扩展到更大范围,不就是元宇宙和新时代的数字生活么?现阶段还真的只有NVIDIA这一家做到了牢牢把持图形与AI/HPC两边的生态,并且双方还正以相辅相成的姿态往前走。

责编:Illumi
阅读全文,请先
您可能感兴趣
《报告》显示,2023年上半年,中国人工智能服务器市场规模环比增长54.1%。IDC预计,全球人工智能硬件市场(服务器)规模将从2022年的195亿美元增长到2026年的347亿美元,五年年复合增长率达17.3%;在中国,预计2023年中国人工智能服务器市场规模将达到91亿美元,同比增长82.5%,2027年将达到134 亿美元,五年年复合增长率达21.8%。
尽管SK海力士利用TSV技术,使其HBM产品一直保持业界领先水平,但仍需解决产能偏低、成本过高的问题。为此,SK海力士持续研发主打封装技术TSV外,还在关注“扇出型晶圆级封装”,将其视为促使未来利润产生的新的增长动力和技术。
由于全球生成式AI的井喷式发展,作为AI芯片的主要生产商,英伟达第三财季的营收创造历史记录,同比增长超过一倍,净利润暴涨超12倍。11月22日,英伟达(NVIDIA)公布了截至2023年10月29日的2024财年第三财季的财报:营收创历史纪录达到181.2亿美元,同比增长206%,环比增长34%,净利润92.43亿美元,同比暴涨1259%;毛利率74%,同比提升20.4%;每股摊薄收益为3.71美元,较上年同期的0.27美元增长1274%。
11月23日,“2023 中国临港国际半导体大会” 在上海临港新片区成功举办,同期举办的“AI芯片与高性能计算论坛”邀请到来自芯片原厂、上游IP厂商、终端应用厂商以及研究机构的嘉宾,聚焦人工智能、云计算、物联网等领域的发展趋势,探讨如何利用先进的芯片技术来推动高性能计算的创新。
高通进入中国已经30多年,在过去30年历史中,高通帮助很多中国客户从生产数据卡、生产低端功能机的企业变成了世界知名的智能手机生产厂家。希望在今后的30年中,我们能够跟中国的合作伙伴精诚合作,把中国建成一个数字化转型的强国。
尽管成本更高,越来越多公司为了与竞争对手区隔,开始选择设计自己的SoC。对于标准化CPU与SoC的制造商来说,这个趋势并不有利,但对于其他产业参与者却大有好处。
据最新HBM市场研究显示,为了更妥善且健全的供应链管理,NVIDIA也规划加入更多的HBM供应商,其中三星(Samsung)的HBM3(24GB)预期于今年12月在NVIDIA完成验证。而HBM3e进度依据时间轴排列如下表所示,美光(Micron)已于今年7月底提供8hi(24GB)NVIDIA样品、SK海力士(SK hynix)已于今年8月中提供8hi(24GB)样品、三星则于今年10月初提供8hi(24GB)样品。
受智能手机产量下滑,以及品牌厂搭载趋势改变的影响,预估2023年智能手机相机模组出货量年减幅度将再扩大至8.9%,约40.65亿颗。而经过一年的库存去化,在2024年智能手机生产量有望恢复的预期下,明年智能手机相机模组市场有望恢复成长,出货量年增率预估3%,约41.71亿颗。
近日,武汉芯源半导体正式发布首款基于Cortex®-M0+内核的CW32A030C8T7车规级MCU,这是武汉芯源半导体首款通过AEC-Q100 (Grade 2)车规标准的主流通用型车规MCU产品。
1200 V分立器件提供出色的性能,有助于加速全球能源转型
杨浦区人大常委会党组书记、主任程绣明到访新思科技,共话以绿色数字经济开创未来之道11月7日,上海市杨浦区人大常委会党组书记、主任程绣明一行到访新思科技,交流企业如何充分利用政府提供的创新沃土,发挥数字
由亚化咨询主办的第六届半导体大硅片论坛将于12月7-8日在上海召开,来自新昇、超硅、上海集成电路协会、KLA等公司的专家将带来精彩报告工业参观:半导体大硅片企业上海新昇半导体与上海超硅半导体,目前新昇
昨日,比亚迪功率器件和传感控制器件研发及产业化项目一期竣工。这是滨海新区2023年重大项目竣工投产仪式上投资总额最大的项目。据了解,位于马山街道的比亚迪项目是省市县长项目、省千项万亿重大项目,项目总投
什么情况下网络安全问题会变成物理安全问题?换句话说,什么情况下半导体必须具有内置篡改检测器?对于为美国武装部队或任何其他武装部队打造下一代武器系统的公司来说,答案显而易见。他们必须假设这些设备会被遗留
点击上面“电动知家”↑关注,记得加“星标”!电动知家消息,11月30日,宁德时代首席科学家吴凯在2023国际汽车电子与软件大会·滴水湖峰会上透露,目前,宁德时代旗下时代智能开发的滑板底盘已实现技术突破
点击上面“电动知家”↑关注,记得加“星标”!电动知家消息,11月30日,宝马集团与梅赛德斯-奔驰官方均发布消息称,华晨宝马汽车有限公司与梅赛德斯-奔驰(中国)投资有限公司宣布签署合作协议,双方将以50
  大型电子工业洁净厂房的防火设计至关重要,以确保生产设备、人员和财产的安全。以下是合洁科技电子洁净工程公司总结的一些常见的防火设计分析要点。   
关注公众号,点击公众号主页右上角“ ··· ”,设置星标,实时关注智能汽车电子与软件最新资讯来源:电车汇                              --END--关注公众号,点击公众号
由亚化咨询主办的第六届半导体大硅片论坛将于12月7-8日在上海召开。来自新昇、超硅、上海集成电路协会、KLA等公司的专家将带来精彩报告工业参观:半导体大硅片企业上海新昇半导体与上海超硅半导体,目前新昇