最近在很多社区看到,越来越多的创作者开始用AI工具image-to-3D搞3D建模——和过去的工作流程大相径庭。AI PC似乎真的在革老一辈开发者和创作者的命...

可能大部分人对于AI PC于设计行业的印象,还停留在借助Stable Diffusion文生图的层面。而且几个月前,我们也的确看到,已经有数字艺术家借助RTX AI PC及各种AI工具来做严肃的商业设计,直接转化成生产力和钱的。

但在最近的GeForce RTX 40系列媒体品鉴会上,我们看到B站up主特效小哥008已经开始用生成式AI做3D建模了——一套丝滑工作流涵盖文生图(text-to-image)、图生3D模型(image-to-3D),而且真正用到了商业CG成品中。

结合前不久Computex上,NVIDIA发布RTX AI Toolkit,还有诸如面向RTX AI PC的ACE 、NIM等工具,NVIDIA眼中的AI PC能用来赚钱,或者说正儿八经用于生产力的属性显得愈发明朗。AI PC就不再是“有什么用”的问题,而应该是“能发挥多大作用”的问题。

 

从云走向端,用AI PC做3D设计

去年3月份的GTC开发者大会上,NVIDIA曾发布过一个名为“NVIDIA AI Foundations”的云服务。这个云服务有三个板块:Nemo、Picasso和BioNemo。

Nemo和BioNemo就不多谈了,这俩分别是定制LLM和用在药物发现方面的服务——跑在DGX Cloud上,企业客户借助这些服务,可以基于预训练模型,来做属于自己的定制模型。

而当时Picasso的演示是惊艳了不少人的——这是个文生图、文生视频、文生3D服务,也就是文字能转各种多媒体。首先当然还是借助服务做个定制模型。随后开发者可以在应用中调用Picasso,基于文字输入和元数据,就能生成图片、视频或者3D模型了。

NVIDIA演示的文生3D模型Demo,得到的3D几何体还相当细节化。生成的3D模型可以是基于USD格式的(NVIDIA现在在努力推动,应用在Omniverse生态内的一种开放3D格式)。也就是说通过Picasso服务,简单输入几行文字,得到3D模型——这个模型就能放进Omniverse中,不管是用于数字孪生(digital twin)还是3D协同设计。

往大了说,这叫为元宇宙填充内容。其时宣布的合作伙伴包括gettyimages, shutterstock, Adobe等。所以黄仁勋说生成式AI时代,人人都是艺术家。

这东西的初始形态之所以是云服务、跑在DGX Cloud上面,可能不单是基于前期扩大生成式AI应用的考量,还在于PC本地的AI算力或AI算法尚未全面准备就绪。

单看其中的文生3D模型部分,有没有感觉这次品鉴会上特效小哥008展示的图生3D模型,多少已经是相似应用,从云走向端呢?GeForce RTX 40系GPU的AI算力在200-1300 AI TOPS区间内,远高于PC领域任意集成在AP SoC内部的AI加速器。随这个系列GPU的逐渐普及,这种需求3D模型的生产力创作就成为可能。

特效小哥008在介绍他的工作流时说全流程依托于ComfyUI(Stable Diffusion的一个模块化GUI和后端)。去年7月的品鉴会上,他就已经向我们展示过借助生成式AI工具辅助完成的特效短片《Flower》。不过当时生成式AI主要是用于生成CG远处的背景图,和3D模型上的部分纹理。

这次除了AI生成场景氛围图,特效小哥008着重展示的就是图生3D模型。其流程大致上是这样的:比如要在3D图形场景中加入一把剑,则可以首先通过简笔画的方式,画个剑的形状——搭配文字部分的提示词描述,就能生成一张更为精细的剑的2D图片。

随后就是基于图片生成3D模型。“生成的结果不理想也没关系,我们可以接着‘抽卡’。”也就是多试几次,让AI给出更多结果,“效果满意之后就可以导入到场景里面了。”“场景中的远景,和一些并不是很重要、但又追求细节的东西,通过这种方式就能做出来。”

“想做近景也可以,但一般是作为参考,后续再由我们去做修改——这个过程还是比直接从零开始建模要快。”特效小哥008说,“以前要做概念图、三视图、建模,现在就方便多了。”如此一来,”整个画面,由AI生成参考图;根据参考图再用AI去做每个组成部分;最后我们做简单处理。”

“有些小伙伴有建模能力,但美术能力不怎么样。这种方式也就大幅提升了创作效率。”“而且现在‘抽卡’成本也不高,直接把需求丢进去看看结果是否符合预期,然后再去做调整。”这里的“抽卡”成本不高,实际上也是基于本地AI推理速度足够快(演示基于GeForce RTX 4090D)。

特效小哥008还提到,他平常出差还是更常用笔记本借助AI生图工具去提作品修改的直观建议

其一是GeForce RTX 40系GPU作为RTX AI PC的硬件基础;其二在于面向ComfyUI Stable Diffusion的TensorRT节点加速,应该也是从大半年前就开始的。虽然这次没有从具体数值上展示加速效果,不过现场演示的从简笔画到最终出3D模型速度,还是相当快的。

从演示来看,这套工作流的关键定制节点可能至少包括了PainterNode、TripoSR(似乎还有BRIA RMBG?)。尤其这里的TripoSR是个基于图像做3D重构的开源生成式AI模型——此前Stability AI发布TripoSR时还强调过这个模型性能远超同类模型,官方数据是A100在大约0.5秒内可生成草稿质量的3D输出。

现在Youtube和Reddit等社区有关利用ComfyUI构建图生3D模型工作流的教程还挺多。这个行业看起来的确是最先被AI技术推着走了。而显卡算力提升、中间件加速,和模型优化,都是端侧这番演示能够呈现在我们面前不可或缺的组成部分。

RTX AI PC好像也的确是现阶段,唯一能达成上述效果的解决方案——这端侧AI生产力还真妥妥地继续被NVIDIA拿捏了。


从ACE PC NIM谈起,RTX AI PC的开发生态

GeForce RTX 40系列媒体品鉴会展示了近一年的演示重点少不了NVIDIA ACE(Avator Cloud Engine)。这项技术反映在游戏中,就是游戏NPC能像ChatGPT那样,和玩家进行各种对话——一边体现交互的灵活性,一边还和游戏剧情密切相关。

这次活动上,NVIDIA又对ACE的游戏Demo做了强化:场景中出现了一个新的NPC人物。这个人物和Demo主线剧情关系并不算太大;但他能宣传NVIDIA和各家OEM、板卡厂商的产品和技术。

NVIDIA ACE演示新增的游戏NPC

当时据说NVIDIA和InWorld为包括七彩虹、华硕、技嘉等各厂商,在他们的展位上定制了不同版本的Demo。与图中展示的这个NPC人物对话,该NPC就能专门针对特定厂商的产品做宣传。比如让他介绍NVIDIA的DLSS 3技术,追问各种技术细节都不在话下。这名新NPC的加入,无疑是为了更明确地展示对开发者而言,角色NPC的可定制性。

Computex 2024上,NVIDIA特别发布了NVIDIA ACE PC NIM微服务。有关什么是NIM(NVIDIA Inference Microservice),此前我们也不止一次撰文探讨过。这是个面向企业客户或开发者的“AI in a box”——盒子里面包含各种模型、软件、工具、环境。

企业或者开发者用里面的工具,基于自家数据就能fine-tune这些模型,然后将这一堆东西部署到想部署的地方,包括AI PC。我们此前评价NIM,是大幅降低企业和开发者使用生成式AI难度的打包服务;对英伟达而言则是接下来要快速扩张生成式AI的产品。

换句话说AI开发者不再需要把太多注意力放在怎么搞AI、怎么搭环境之类的复杂问题上,而可以将注意力放在业务逻辑上。Computex上发布的NIM,其实不只有ACE或游戏。具体到ACE和游戏领域,自然就是便于游戏开发者去用生成式AI技术,能够把更多资源真正放在游戏内容、而不是AI技术开发上。

NVIDIA ACE本质上为开发者准备的是一种数字人技术——游戏NPC就是一种典型的数字人。这次新加的这名NPC角色,显然已经有行业零售应用那味儿了(推销嘛)。无论对行业客户,还是对游戏开发者,ACE都可以通过NIM融合到其现有应用的框架、引擎中。

另有一点值得一提。对ACE比较熟悉的读者应该很清楚,这是个端云结合的生成式AI应用:云上主要做LLM推理,PC端侧负责语音转文字、唇形同步等推理步骤。

有关端云协同问题,这次比较有趣的一则探讨是,我们此前普遍认为,LLM/SLM放在本地推理问题也不大——什么7b、13b规模的模型,借助GeForce RTX显卡跑起来,效果都不错;延迟也远低于数据去云上转一圈。

NVIDIA现场的工作人员说,游戏场景内显卡本身的大量算力需要用于图形渲染,还要考虑光追等算力密集型应用,DLSS则需要占用Tensor Core资源;如果同时还要做本地LLM推理,从带宽、功耗等角度可能都有商榷余地。所以端云协同是个很优的解决方案。

或许NVIDIA在最初构思ACE的技术框架时,就尝试过这套方案完全跑在本地的可行性。不过工作人员还说:“对于游戏来说,如果游戏开发者对NPC交互的要求并没有那么高,仅专注于游戏内容本身,其实数据量要求并不太大。比如我们可以通过SLM(小语言模型)来实现,那就有本地跑生成式AI的潜力。所以最终要看游戏开发商如何去平衡这个问题。”

最后,虽然本次品鉴会上并没有对应的展示,但Computex 2024上英伟达还面向AI PC做了两个比较重要的发布。其一是NVIDIA RTX AI Toolkit工具,帮助Windows应用和游戏开发者,去定制、优化和部署AI能力,并且能够在PC端侧和云之间去做推理的AI编排工作。

全流程这样的:基于预训练模型可以采用QLoRa工具来做模型定制;然后用TensorRT模型优化器做优化;再借助TensorRT Cloud做模型部署;在应用侧,开发者借助AIM(AI Inference Manager),外加前文提到的NIM,最终让模型推理在云或RTX AI PC之间进行。 

据说走这套流程,可以实现模型的大幅优化:比如如果用Llama 3适配游戏角色NPC对话,则首先这套流程能做游戏角色的模型定制;其次是原本GeForce RTX 4090D才能跑得起来,经过RTX AI Toolkit,用RTX 4050 Laptop就能跑。

当时NVIDIA给的数据是,优化前LLM需要17GB VRAM,推理性能48 tokens/s;用这套工具对模型做优化之后,显存需求降低到5GB,推理性能187 tokens/s。

还有G-Assist项目,此处也简略谈一谈:游戏接入这项特性,就能给玩家提供AI助手。玩家可以和该AI助手进行语音或文字交互。这个技术主要考虑的是当游戏玩法或系统较复杂、多样时,玩家可以快速获得相关游戏内容、游戏过程中的系统性能,乃至基于自己的PC配置怎么进行游戏设置才能达到最佳体验等信息...

这些都算得上是RTX AI PC生态构建的组成部分,尤其将注意力放在了NVIDIA现如今最擅长的生产力和游戏方面。

 

人人都是艺术家、人人都是程序员

以上两个Demo,是我们认为极具代表性的、现如今AI PC可以达成设计和开发的高水平应用——即便可能ACE和RTX AI Toolkit的使用和开发,本身未必是基于AI PC;但它们最终的产品形态都是要落地到AI PC(或其他边缘设备)的。

除此之外,本次GeForce RTX 40系品鉴会还有一些我们早就见过的Demo。比如说ChatRTX——可以一键安装的本地检索增强生成工具,现在也支持中文大语言模型ChatGLM 3-6B,配合RAG指向本地文件夹,可基于用户的本地资料进行对话;也支持CLIP,也就能够通过文字描述,精准找到图库中对应的图片...

用CLIP模型,基于输入的文字描述直接找到对应的图片

再比如已经进入beta测试阶段的NVIDIA App,用于替代以前的GeForce Experience和NVIDIA Control Panel。NVIDIA App本身加入了一些AI特性,比如两个基于AI的游戏滤镜RTX动态亮丽和RTX HDR。

还有RTX Video,在浏览器中看流播视频,就能进行本地的AI超分、SDR→HDR;乃至“万兴喵影”基于该SDK,已经支持将SDR视频转为HDR色彩空间的视频并导出...

其实这场品鉴会的重头戏还在于《三角洲行动》,《鸣潮》,《解限机》和《漫威争锋》这些即将支持DLSS 3的游戏Demo展示。游戏体验部分虽然不是我们关注的重点,不过看到《解限机》这类游戏呈现的机甲画面,我们也在慨叹现在的游戏建模、纹理和光影的精细程度,即便是即时演算呈现出来的效果,也远超早年的CG过场动画了。

《解限机》游戏Demo画面

要知道当年那些仅几分钟的CG动画,可是专业卡渲染几天才能最终出片的;而现在却能够在消费级显卡上以实时光线追踪+DLSS的方式,进行上百帧的游戏交互。一方面是体现出图形技术的发展,另一方面则是DLSS这样的AI技术着实为高画质+高帧率呈现立功不小——这些还真的不是光靠传统半导体技术和摩尔定律推动可发展至此的。

不知道现在有没有游戏工作室,大范围应用文生3D或图生3D模型的工作流,毕竟游戏交互和单纯的CG或广告片制作还是不同。不过像RTX Remix这样的Mod制作工具,借助AI来重塑高清和增强纹理大概已经提供了这种可能性。

而在RTX AI PC的加持下,生成式AI时代大概真的就是“人人都是艺术家”“人人都是程序员”的时代。

责编:Illumi
本文为EET电子工程专辑原创文章,禁止转载。请尊重知识产权,违者本司保留追究责任的权利。
阅读全文,请先
您可能感兴趣
Rambus的HBM4控制器IP还具备多种先进的特性集,旨在帮助设计人员应对下一代AI加速器及图形处理单元(GPU)等应用中的复杂需求。这些特性使得Rambus在HBMIP领域继续保持市场领导地位,并进一步扩展其生态系统支持。
2016-2023年中国独角兽企业总估值由近5000亿美元持续攀升至超1.2万亿美元,其中在2020年首破万亿美元。
HBM4作为第六代HBM芯片,不仅在能效上较现有型号提升40%,延迟也降低了10%,成为各大芯片厂商竞相追逐的焦点。
对于股价波动的原因,寒武纪表示,除了公司经营层面的因素外,还可能受到其他因素的影响。寒武纪还提醒投资者,应甄别信息来源,具体情况以公司公告为准。
此次财报也从侧面反应了半导体行业在AI业务上的强劲增长势头,但同时也暴露出非AI业务增长乏力的困境。
尽管CMA批准了交易,但业内专家指出,微软通过此次交易获得了Inflection AI的核心技术和团队,这相当于以较低的成本实现了对Inflection AI的变相收购,进一步加强了微软在AI领域的实力。
许多拥有大型语言模型(LLM)的供应商的收入运行率表明,2024 年的收入增长将达到三位数……
本次报告的测评涵盖了市面上最热门的八个Chatbot App:kimi智能助手、豆包、海螺AI、天工、通义、文心一言、讯飞星火以及智谱清言(按照公司拼音首字母顺序排列)。
9月10日,芯片行业年度嘉年华“2024新思科技开发者大会”在上海成功举办,汇聚全球科技领袖,与全场芯片开发者们一起探讨如何加速从芯片到更广泛科技领域的创新,共创万物智能时代。
新思科技40G UCIe IP 全面解决方案为高性能人工智能数据中心芯片中的芯片到芯片连接提供全球领先的带宽
尊敬的行业同仁:亚化咨询将于2024年9月26-27日在浙江丽水召开第七届中国半导体大硅片论坛2024。2023至2024上半年,由于需求疲软和经济发展的不确定性,全球硅晶圆出货量有所下滑,大硅片暂时
9月11日,大众汽车宣布终止自1994年以来就生效的长期就业保护协议,该协议已具有30年历史,旨在保护工作岗位至2029年。然而,大众决定在明年年中提前结束该协议,增加了其明年可能进行大幅裁员的可能性
随着人工智能时代的到来,客户对高性能NAND解决方案的需求不断增长。美通社消息,SK海力士公司宣布,该公司已开发出PEB110 E1.S (PEB110),用于数据中心的高性能固态硬盘。随着人工智能时
印度联邦电子和信息技术部长Ashwini Vaishnaw周二表示,苹果最新款 iPhone 16 正在印度生产并将供应全球,莫迪总理的“印度制造”计划正在推动为世界创造标志性产品。据悉,这些在印度制
是德科技和爱立信在2024年IEEE国际通信大会上展示Pre-6G网络原型,该网络使用爱立信为潜在新频谱量身定制的预标准协议栈,这也代表着验证6G协议栈的最初一步已经启动演示在爱立信基站测试床和是德科
第七届半导体大硅片论坛将于2024年9月26-27日在浙江丽水召开。会议由亚化咨询主办,工业参观浙江丽水中欣晶圆工厂(限名额)。沪硅产业、中欣晶圆、上海超硅、普兴电子、北方华创、大全半导体、南京晶能等
Flink Forward Asia 2024 倾情来袭!作为 Apache Flink 社区备受期待的年度盛会之一,本届大会将于 11 月 29 至 30 日在上海隆重举办。为了确保此次盛会能为开发
一凡 发自 副驾寺智能车参考 | 公众号 AI4AutoMobileye反复横跳,又放弃激光雷达了。最近,Mobileye发表声明,在审查技术路线后,决定放弃激光雷达的研发。Mobileye的决定,一
国内头部半导体存储器制造商,专业从事集成电路内存芯片的设计、研发、生产和销售,目前12英寸晶圆厂已建成投产。其在国内外拥有多个研发中心和分支机构,已推出多款不同类型的内存芯片,满足多种应用需求。
大联大控股宣布,其旗下诠鼎推出基于联咏科技(NOVATEK)NT98530芯片、思特威(SmartSens)SC850SL图像传感器和TDK ICM-42607 IMU(惯性传感模块)的电子防抖(EI