前不久的GTC上,英伟达发布了一个叫NIM的东西。而且发布会起码1/4的篇幅都在讲NIM。这东西可能与世界的未来有很大的关系...

过去1年内,英伟达的市值一直是媒体们关注的焦点:突破万亿、一夜间又涨了xx、打破记录...前不久的英伟达GTC大会采访期间,黄仁勋谈到:“有人说光是卖芯片,很难卖到2.5万亿市值水平。我无法不赞同这个观点。”“所以英伟达一定不是个芯片公司。”这是他的原话。

单从英伟达正在出售产品的角度来看,即便是硬件产品,芯片也的确并非英伟达唯一在卖的产品类型,板卡、超级计算机、交换机、机架和计算系统等等都是英伟达在推的产品;而且实际上英伟达的产品也远不限定在硬件方面,各类加速库、中间件、软件、云服务甚至算得上是英伟达生态的核心组成部分...

我们总结今年GTC,黄仁勋发布的几个核心产品包括Blackwell GPU及其系统,面向开发者提供Omniverse Cloud API,人形机器人Project GROOT项目,以及在我们看来本次产品发布最重要的NIM(NVIDIA Inference Microservice,英伟达推理微服务)。超过一半都不是硬件——NIM在我们看来还将是英伟达未来普及、巩固自家AI生态的关键。

这篇文章,我们借着NIM来谈谈现阶段英伟达眼中的生成式AI,及英伟达的生成式AI生意打算怎么做。

 

未来是“生成”的未来

黄仁勋在分析师问答会上提出了一个很有趣的想法。他说我们对于文本、图像、视频、声音等等内容的理解,实现了对于它们的数字化。之所以生成式AI能够与人进行文本和图像的对话沟通,前提在于文本与图像已经被数字化和理解。

“那还有什么是能够实现数字化的?其实我们还数字化了很多东西,包括蛋白质、基因、脑波等等——只要我们理解其结构,或者从中抽象出特定的模式,能够理解其内涵,就能做数字化。”黄仁勋说,“那么或许就能够对它们做‘生成’了。这就是生成式AI革命。”换句话说,如果万物皆可数字化(digitalized),那么万物就可tokenized

“很快会有个行业是专门生成token的。我知道这听起来很奇怪。”他用第二次工业革命,即电力革命做类比,“很久之前的工业革命产生了一种新的业务模式,产生的东西也是看不见的,但我们后来还需要专门掏钱购买这样的东西,单位是千瓦时,也就是电力。”和发电一样,“我们未来会需要生成信息,生成token”,而且是深刻“融入到生活中(for a living)”。

从计算机行业的角度来看,以前我们的使用习惯一直是对已存在信息的“检索/获取(retrieval)”,一切都是预先做好的(pre-recorded),“写入到了文件里面的”,“可能是图像、视频、声音等等”。“就像我今天早上看的新闻,都是由人们提前写好的。手机上弹出的广告也是。”

“而未来则会是生成的。基于种子信息(seeds information),由上下文做加强”,“最终呈现给你的都是生成的”。“现在我们看手机,上面展示的每个(图像)像素都是一种重新获取(retrieve)行为。但未来,这些像素都会是生成的。”“大部分计算体验都会是生成的”,“与你交互的大部分东西都会是生成的,因为它能够理解你,理解上下文。”

生成的“token可以是化学、医疗、动画、机器人、3D图形”,“如果我们能够生成文本的下一个token,那就能生成图像、视频、机械臂的下一个token。”黄仁勋说。其实用更通俗的话来说,现阶段就是基于文生图生成玩滑板的猫,或者让机器人倒杯咖啡这类最终实现。只不过现在共识的实现方法是生成式AI。

无疑要达成黄仁勋眼中的这种未来,英伟达现在要做的就是持续推广生成式AI,不仅要有Blackwell、GB200-NVL72这类能够算力支撑的硬件,为开发者提供AI开发工具,还需要引导不理解如何将AI引入到生产力及企业流程中的个人和企业。这应该是形如NIM这类工具诞生的基础。

 

让生成式AI设计芯片?

英伟达其实一直很清楚,很多企业对AI是存在困惑的,尤其是怎么用,能达成何种效果之类的问题;更不用说对模型做优化,将必要的计算栈都搭建起来。所以黄仁勋说“我们想了个办法”,“一种让你能够接收和操作软件的办法。软件就放在一个数字盒子里。”“这个盒子就是NIM。”

在谈NIM究竟是什么的问题之前,先聊一个英伟达自己内部已经在用的东西叫ChipNeMo。简单来说,这是个懂得芯片设计的LLM大语言模型。跟它聊天,就能得到很多相关芯片设计的回答。

其实在去年GPT大火以后,有关用生成式AI来设计芯片的讨论就时常冒出来。主打的就是不写一行代码,就靠聊、提需求,让LLM写出代码。不过过去一年我们问了好些EDA企业,这么做是不是真的可靠。大部分EDA企业的态度都是,真正走向量产的芯片设计真要这么搞,基本是天方夜谭。

不过起码表示LLM可以辅助芯片设计。英伟达首席科学家Bill Dally在分析师沟通会上说ChipNeMo在内部主要扮演3个角色。其一是让初级水平的芯片设计师,在有问题的时候就直接问ChipNeMo,这样不会浪费那些高级芯片设计的时间;其次是对bug报告做总结,因为硅工们写的bug报告有时又长又复杂,而且经常只有本人能看懂,那么ChipNeMo此时就可以为旁人理解bug报告起到很大的帮助作用;最后,ChipNeMo的确能生成Verilog,不过一般英伟达不会这么去用...

这个ChipNeMo是怎么做出来的呢?首先以Llama 2 70b为基础模型,放进NIM里面。“如果你此时问他们,CTL是什么。它给出的回答一般是一种常规知识储备,不是我们需要的。”因为此时的模型就是个普通的通用基础模型。英伟达要做的是告诉模型,在英伟达的语境中CTL是什么。之后再问它就能得到正确答案。

当然,要让模型专门适配芯片设计,要做的事情不止这一点。如果你关注过我们之前对NVIDIA AI的报道,一定知道NeMo。准备好相关数据,基于NeMo服务来对基础模型进行fine-tune, guardrail...具体的流程参见下图。

对用户来说,这其中三个核心组成部分,第一是要有个AI模型,以及能跑AI模型——这是英伟达要先打包给用户的;第二,需要有这样一个工具对模型做“修改”;第三是部署,不管是部署到DGX Cloud云上,还是部署在本地基础设施。完成以后,就能把这东西打包带走了。这就是NIM。

听起来是不是颇有一种企业版Chat with RTX的感觉——Chat with RTX是面向个人用户,可以一键安装,然后加入本地数据,基于你电脑上的个人信息,与AI对话的应用。不过Chat with RTX的外部数据结合,用的是RAG(retrieval augmented generation),前不久我们还在文章里提过

而且很巧的是,GTC期间,在一场面向分析师的问答会上,英伟达好几名高层都认为,企业最初还不确定对AI投入多少的时候,都倾向于选择RAG,因为这是企业自己应用生成式AI最简单的方式。甚至有人提到,RAG对于早期的企业AI应用而言是个PoC——概念验证。

“而今年人们会真的开始去打造有价值的AI产品,真正着眼在整体。”这仿佛就是NIM诞生的基础,也是英伟达推GB200-NVL72这类硬件产品的基础。换句话说,就是在英伟达看来,过了最早期的探索,企业逐渐要认真考虑用AI技术了,那就是时候给他们提供基础设施、提供工具了

 

有一种定位叫AI Foundry

这里把NIM再说得明确一些:英伟达给出一些LLM模型,其中有些是英伟达自己做的,有些是开源的,还有一些来自合作伙伴。企业客户可以直接拿来用,而且可以基于自家内部数据,借助英伟达的工具,来fine-tune这些模型,真正让模型为自己所用。形成像ChipNeMo这样的工具。这个服务叫做NIM。

不过如果要说NIM的确切构成,实际还是比较复杂的,包括各种预训练模型、及各种跑模型的依赖包,如CUDA, CuDNN, TensorRT-LLM, Triton Inference Server等等……上接AI API。这部分咱就不细说了,有兴趣的去研究下英伟达的博客与文档——不过从这些中间件,其实也能看出,英伟达要为企业解决模型优化之类的问题,而不单是提供和修改模型(当然关键也包括要卖跑在下面的硬件,和NVIDIA AI企业解决方案)。

尔后,企业可以建立很多个NIM,或者说很多个AI聊天机器人。某些工作是需要指派给不同的AI去分别完成的,不同的NIM可以配合工作。关于多个NIM间的协作,黄仁勋做了举例说明,但我们没能完全理解。不过框架大致就是这个样子了。

对于拥有大量数据,但不知道该怎么用来搞AI的企业而言,NIM理论上会是个不错的工具。因为NIM的价值之一,就是对企业专用的数据做出理解——构成专门的AI数据库,然后进行“re-index”——re-index这个词感觉用在这里特别合适。用户就可以和这样的AI对话了——它和ChatGPT有着很大不同。

这里提供给NIM的企业私有数据可以是多模态的,比如说PDF文档。至于具体是什么样的数据,比如说对于软件团队来说,可以是一堆平常写的bug报告和总结。那么工程师就能和AI对谈有关公司软件的bug问题,不管是现在有多少bug,还是解决情况怎么样等等。

黄仁勋在这里列举了一个多NIM的例子。比如你作为公司软件工程师,和这样一个bug聊天AI对话以后觉得非常受挫,就可以去和另一个专职心理健康的AI继续对话,接受安慰和心理辅导——后者也可以是基于NIM做出来的…

当然了,他举这个例子应该纯粹是为了谈Hippocratic AI的LLM,配合NVIDIA ACE打造的医疗健康数字人的;不过多NIM协作大概就是这么个意思了。医疗健康也是英伟达这次谈及的重点,本文就不做展开了。

如此一来,所有的企业都可以做出属于自己的Copilot,属于自己的对话AI——不管这个Copilot是面向企业内部,还是作为服务提供给客户。黄仁勋在主题演讲中宣布了不少NIM相关的首波企业合作,包括SAP, ServiceNow, Dell, Cohesity等。

值得一提的是,作为一种试用手段,英伟达还特别开放了ai.nvidia.com这么个网址,提供相对直观的NIM试用。

在此期间,黄仁勋反复提到了英伟达作为“AI foundry”的设定,说法上是对于LLM,“并非创造,而是生产(not create it, but manufacture it)”,是为英伟达作为AI foundry的定位。“你去跑这些模型,规模化运行的时候,向我们支付的其实只是AI操作系统的钱。”黄仁勋说,“操作系统也就是NVIDIA AI Enterprise”,“非常划算”…就差没讲“buy more, save more”了…

而AI foundry的本意,也在于让企业客户的AI模型用于生产环境。

 

GPU回归“生成”的最初使命

最后谈一谈NIM的潜在可能性。我们对于NIM的第一眼认知是,这是英伟达普及、巩固AI生态的产品。虽然这两年我们一直在谈AI,但各行各业对于AI,尤其是生成式AI的利用还非常早期。

就如前文谈到的,即便是最前沿的电子科技企业,初期都还在用RAG做AI的PoC。可见AI的发展之路还很长。英伟达一方面要把AI的蛋糕真正做大,另一方面则要尽可能利用现有资源,来持续巩固自己在AI领域的地位——不仅要降低企业用AI的门槛,同时借助与模型合作伙伴的合作,让更多的AI资源为自己所用。

NIM显然是肩负了这样的职责的。虽然听起来我们对NIM的定位似乎有些过于高估了。但我们可以等等看接下来英伟达对于NIM的推广会是怎么样。

回到最初谈世界最终会像需求电力一样,需求“生成token”的疯狂说法——其实黄仁勋的这一说法或许仍然无法被大多数人所接受,尤其从逻辑上要理解“生成”什么,人们又如何像消费电力一样消费“生成”内容的问题。这就只能交给时间去评断了。但千行百业都真正开始用AI、生成式AI,这才是世界、个人最终全面步入AI的开端。

有个有关“生成”和英伟达自己的说法很有趣。“30年后的今天,我们又回到了最初的那个我们。”黄仁勋所说的“最初的”英伟达,是指最初做图形渲染加速的英伟达。因为GPU曾经就是干“生成内容”这个活儿的。“我们生成了很多东西,就是计算机图形。”

“我们现在要回到那里了。只不过现在用来‘生成’的计算机更大了,而且是为每个人‘生成’。”这还真是有关AI和图形,相当浪漫主义的一种说法。

责编:Illumi
本文为EET电子工程专辑原创文章,禁止转载。请尊重知识产权,违者本司保留追究责任的权利。
阅读全文,请先
您可能感兴趣
过去所讨论的人工智能话题大都是有关系统开发人员和制造商如何在系统中植入人工智能以及相关方面的技术创新、突破、芯片、软件和工具,而对于人工智能的风险和危险,谈论得却远不够。
台湾地震牵引着整个半导体产业界的关注与担忧。据悉,由于地震影响,在晶圆代工方面,台积电受此影响造成的损失约达6200万美元;在存储器方面,由于美光的DRAM产能主要集中在台湾地区,因此率先停止对DRAM的报价,三星、SK海力士也跟进停止报价,美光暂停报价的产品线包括DDR4、DDR5以及HBM。
2023 年全球半导体行业的收入为 5,448 亿美元,相较于 2022 年的 5,977 亿美元下跌 9%。这波下滑结束了连续两年(2020-2021)创纪录的增长,突显了半导体市场的周期性特征。
OpenAI 和微软正在开发一个价值 1000 亿美元的数据中心项目,该项目将包含一台超级计算机,该计算机被命名为“Stargate(星际之门)”。与此同时,OpenAI已经改变了其支持人工智能初创企业的风险投资基金的治理结构,首席执行官Sam Altman不再拥有或控制该基金。
在过去两年多的半导体行业下行周期中,很多企业都基于自身发展优势以及现实客观情况,不断调整发展策略,在不断提升自身核心竞争力,练好“企业内功”的同时,还瞄准一些利基型市场,比如AI、新能源等领域,不断拓展新的发展机遇。
华为公布其2023年年度财报,华为在2023年实现销售收入人民币7041.74亿元,同比增长9.6%;净利润为人民币869.5亿元,同比增长144.5%。2023年,华为的ICT基础设施业务和终端业务占总营收的87.12%,营收分别为3619.97亿元和2514.96亿元,同比增长2.3%和17.3%。
此次GTC上新推出的用于AI/ML计算或者大模型的B200芯片有一个显著的特点,它与传统的图形渲染GPU大相径庭并与上一代用于AI/ML计算的GPU很不一样。
在现代制造业中,仅依靠制造执行系统(MES)、设备自动化系统(EAP)、高级计划排程系统(APS)、实时派工系统(RTD)等各种管理系统,还远远不够。工程智能(Engineering Intelligence, EI)作为半导体工业软件体系的核心环节,正扮演着越来越重要的角色……
凌华科技EGX-PCIE-A380E 集成了Intel Arc GPU,是一款性能强大且高效的PCIe Gen4独立显卡
支持软件开发团队在虚拟硬件平台上进行固件和MCAL开发
当前,随着自动驾驶、人工智能和先进存储等新兴领域的加速发展,SoC和软件的复杂性也呈指数级增长,芯片开发面临着加快产品上市时间等问题带来的持续压力。为此,开发者需要速度更快、调试性能更高的原型验证系统
4月6日,据韩媒报道,韩国釜山市正计划投建2座8英寸SiC/GaN功率半导体生产设施,最快将于明年下半年开始。据悉,釜山市政府计划投资400亿韩元(约合人民币2.2亿),在东南地区—放射线医科学产业园
插播:6月14日,行家说碳化硅大会即将在上海举办,报名请点击文末“阅读原文”。上周,“行家说三代半”剖析了小米汽车的SiC芯片用量和技术路线(点击查看),最近,比亚迪、上汽、北汽、奇瑞、吉利5家车企的
AI、机器人、大健康等产业的爆发,正在深刻改变人类社会发展进程。在这一重大历史变革的关键期,传感器作为纵深应用的基础,亟需拓展新的方向,为新一轮产业升级积聚更多发展动力。随着新的发展趋势不断显现,传感
这些天,随着小米汽车的上市、交付;似乎全网的热点都在国产造车新势力上了。但热搜头条无疑被小米汽车抢走了!一、一天近9万订单VS一年9万多辆交付根据小米官方的说法,小米汽车上市24小时,订单达到了888
智能驾驶芯片的市场竞争正在持续升级。4月9日,面向中央计算时代,AMD重磅推出了第二代Versal自适应SoC。据了解,该芯片采用7nm工艺制程,内置高达200.3k DMIPS算力的Arm Cort
插播:6月14日,行家说碳化硅大会即将在上海举办,报名请点击文末“阅读原文”。昨天,士兰微发布了最新财报,其中SiC业务成绩亮眼,预计2024年销售额将达到 10 亿元人民币。据了解,天岳先进、天科合
此前研究机构预测:当前笔记本电脑整体需求偏弱,品牌缺乏出货动能,因此预计2024年一季度全球笔记本电脑出货季减5.4%,主要原因是中国台湾代工厂一季度整体衰退幅度大于整体市场。但实际根据研究机构IDC
插播:6月14日,汽车碳化硅大会即将在上海举办,报名请扫上方二维码随着全球新能源汽车市场的蓬勃发展,比亚迪、宝马近日均宣布了其在电池技术及生产领域的重大进展:比亚迪:一汽弗迪旗下PA75动力总成电池项