广告

为加速AI落地企业IT,英伟达布下一盘超大棋局

时间:2021-10-25 19:34:34 作者:邵乐峰 阅读:
NVIDIA EGX平台将计算和图形加速、高速安全网络和企业级管理引入到领先的企业数据中心服务器中,支持大量加速应用程序,为客户提供了一种在高性能、经济高效且可扩展的统一基础架构上运行各种传统和现代应用的方式,使用户能够立即提高产品化效率。
广告

企业在部署和管理AI应用时,面对不同工作负载或是大规模AI模型部署时,普遍面临着运营成本高、开发周期长、对开发人员/IT运维人员技术能力要求高、易用性和对不同场景的适配能力差等挑战,严重阻碍了AI落地企业基础设施应用的速度和效果。

让AI触手可及

为此,英伟达(NVIDIA)日前宣布综合性AI工具和框架软件套件AI Enterprise全球上市,用以帮助成千上万正在使用VMware vSphere的公司在NVIDIA认证系统上实现AI工作的虚拟化。截至目前,浪潮、H3C、联想、戴尔科技、源讯等全球领先的制造商,都在提供通过NVIDIA AI Enterprise对VMware vSphere上AI工作负载进行了优化的NVIDIA认证系统。

图1:NVIDIA AI Enterprise是一款经过认证的端到端套件

VMware是戴尔旗下的软件公司,提供云计算和虚拟化软件和服务,也是英伟达在企业端到端AI平台方面的重要合作伙伴。近年来,两家公司在广泛的技术层面实现了兼容,通过将VMware数据中心软件和英伟达GPU芯片、软件实现兼容,降低了企业级AI工作负载的应用门槛。 

NVIDIA AI Enterprise属于经过认证、易于部署和操作的端到端AI就绪型企业级平台,其早期使用者包括全球数十家汽车、教育、金融、医疗、制造和科技公司。但随着AI的日益普及,NVIDIA希望改变这种“只有行业先驱者才有机会使用AI”的现状,让数十万家使用vSphere进行计算虚拟化的中小型企业,也有机会使用在全球最广为应用的服务器来开发种类丰富的应用,以此部署和扩展数据科学、对话式AI、计算机视觉、推荐系统等。

除了“端到端”特点外,可扩展多节点虚拟化AI性能则是该软件平台的另一大亮点。简单而言,就是NVIDIA AI Enterprise可以使AI工作负载扩展到多个节点,能够在vSphere上以接近裸金属的性能运行,并通过NVIDIA A100 GPU在AI和数据科学领域获得突破性性能。

图2:虚拟化为AI提供裸机水平的性能

这一合作是业内首创,NVIDIA方面将其称作“开启AI时代新篇章的变革力量”。因为对企业中的AI研究人员、数据科学家和开发者来说,他们获得了成功交付AI项目所需的软件;对企业IT运维人员来说,则能够使用他们最熟悉的大规模数据中心管理工具为AI提供支持。可以说,这一组合为双方加速CUDA应用、AI框架、模型和SDK实现了扩展性、多节点性能和兼容性。

企业IT的福音

尽管NVIDIA对AI Enterprise不吝赞美之词,但如果我们只关注AI Enterprise,则会陷入“一叶障目,不见森林”的境地,忽视了其身后更宏伟的AI计算加速平台——NVIDIA EGX平台。

平台化思维

之所以能被称之为“平台”,顾名思义,其基本属性是可复制、可规模化部署的。但AI应用场景非常复杂和多元化,NVIDIA并不太可能去关注所有的应用场景,也不可能构建出所有差异化的方案,只可能在生态系统合作伙伴诉求的基础之上构建具备共性的技术,尽量考虑可复制性,使得合作伙伴能够将平台落地到不同的应用场景中。

英伟达中国区EGX产品总监王永祥以计算机视觉类应用为例,为我们剖析了这一思路。在图1 AI Enterprise套件中的架构优化一层中,我们能看到NVIDIA CUDA-X AI SDK,这是建立在CUDA之上的软件加速库集合,包括cuDNN(用于加速深度学习基元)、cuML(用于加速数据科学工作流程和机器学习算法)、cuGraph(用于在图形上执行高性能分析)等多种库,它们能够与NVIDIA Tensor Core GPU无缝地配合工作,加快基于 AI的应用程序的开发和部署速度。

这样,无论面对零售、智慧城市、医疗、音视频和图像处理中的哪一类应用,用户都可以通过AI Enterprise中所包含的CUDA-X AI、TensorFlow、TensorRT、RAPIDS、Triton、vGPU、GPU/Network Operator组成的完整工具链条,实现至少60-70%的工作部署,而剩余的30-40%工作则可以用来进行差异化开发。

EGX平台详解

NVIDIA EGX平台将计算和图形加速、高速安全网络和企业级管理引入到领先的企业数据中心服务器中,支持大量加速应用程序,为客户提供了一种在高性能、经济高效且可扩展的统一基础架构上运行各种传统和现代应用的方式,使用户能够立即提高产品化效率。同时,EGX平台还可以轻松集成到现有的行业标准IT和DevOps框架中,便于用户管理、部署、操作和监控。

下图展示了NVIDIA EGX平台的基本架构,从底层通过NVIDIA认证的企业服务器和一系列的优化硬件,到裸金属、虚拟化GPU、容器编排和管理集成软件,再到上层通过NVIDIA GPU Cloud(NGC)提供的加速应用程序和框架的生态系统,构成了一整套完整的解决方案。 

图3:NVIDIA EGX平台的基本架构

  • 端到端硬件

EGX硬件组合包含从可在数据中心执行实时语音识别、精密商业预测、身临其境的绘图运算体验的NVIDIA认证系统,到支持边缘端影像辨识和传感器融合,节能小巧的 NVIDIA Jetson系列。EGX聚合加速器更是结合了NVIDIA Ampere GPU效能和NVIDIA Mellanox SmartNIC和DPU技术,可打造出更快速、效率更高且更安全的数据中心。

NVIDIA认证系统是王永祥特别强调的。“在AI实际落地的过程中,为了确保用户无论是在边缘端还是企业数据中心部署时都能获得‘开箱即用’的体验,NVIDIA制定了一系列的认证规范、标准和流程,涉及数据获取、产品性能、功耗、安全、合规等各个方面。”他说。

图4:NVIDIA认证系统

英伟达中国区高级架构师经理何萍负责的团队,主要负责支持主流服务器企业合作认证事宜,包括对现在市场上2U/刀片服务器进行认证测试,以加速AI在制造、零售、金融、电信等传统行业,以及元宇宙、远程协作、专业级音视频等新兴领域的落地速度。而在以往,这些工作往往由业务部门直接发起,导致偏离企业IT管理范围,不能融入企业数据机房,从而造成混乱。

在谈及GPU、SmartNIC和DPU的协同使用话题时,何萍回应称,用户完全可以根据实际应用场景选择GPU+SmartNIC/DPU。典型的场景有:以5G信号处理为代表的超低延迟应用;具有独特安全要求的客户,例如,系统可能在物理位置上不安全的地方,但是客户数据仍然需要受到保护,需要数据传输中实时加密;还有企业如果面临计算存储分离的超融合架构应用,需要对计算节点和存储节点独立进行扩展等。但无论选择何种形式,NVIDIA都在EGX平台中对主要的工作负载进行了充分的测试和验证。

  • 适用于人工智能的企业级软件

除了前文谈及的NVIDIA AI Enterprise端对端云端原生套件,这一层还包括了使用标准数据中心以及DevOps工具和框架进行管理的企业管理集成平台,以及将服务器和桌面虚拟化的管理和安全优势与GPU加速性能优势相结合的虚拟GPU(vGPU)软件。

图5:NVIDIA EGX平台中的容器编排和管理集成功能

为什么需要虚拟GPU?王永祥解释称,多家调研机构的数据显示,虚拟化服务器平台在很多企业的IT基础设施架构中仍然占据着相当高的份额,2020年仅在中国市场的市值就高达40亿元人民币,加之容器微服务化、云原生等新型场景的不断涌现,行业内对诸如裸金属、云原生的服务和支持能力提出了更高的要求。

而将GPU虚拟化,可以帮助分担服务器负载,提高应用程序的性能表现,适用于更多种类型的用户。也可以在多个虚拟机之间共享和分配虚拟GPU,从而允许任何工作流、设备或任意办公地点创建软件定义的GPU加速。对于企业来说,可以更为经济高效地将性能扩展到所有员工。

此外,NVIDIA EGX也透过GitHub上的NVIDIA EGX堆栈,与Red Hat OpenShift和其他领先业界的混合式云端平台合作伙伴兼容,包含NVIDIA GPU Operator和 NVIDIA Network Operator,所有必要的组件均可实现标准化和自动部署,以针对 Kubernetes丛集加以布建。

NVIDIA Fleet Command是一项专为AI打造,可在分布式边缘基础设施中安全地部署、管理和扩展AI应用程序的托管云服务,可提供简化部署、分层安全保护和详尽监控功能,适用于AI全生命周期管理,用户只需花几分钟的时间便可零基础实现 AI。

  • 加速应用程序的生态系统

众所周知,AI在当前企业数字化、智能化转型过程中扮演者“开路先锋”的角色,从数据中心AI训练和推理、边缘AI推理、数据分析和机器学习,到专业视觉、远程协作,均是如此。不过,王永祥指出,各家企业由于各自情况不同,在AI实际落地过程中面临着各种不同类型的挑战,为了降低准入门槛,实现快速落地,NVIDIA通过NGC提供优化的加速应用程序和框架,以端到端的方案呈现在客户面前。

图6:NVIDIA面向众多行业提供优化的加速应用程序和框架

以数据中心AI训练和推理应用为例,王永祥表示,根据他们的实际观察与接触,发现很多行业客户会首先选择公有云或是混合云平台进行AI落地测试,但随着重数据业务场景的涌现,考虑到实际数据量的增长和数据安全的保障,越来越多的用户正在转向自建服务器场景。

再来看一下边缘AI推理。零售、5G、医疗、制造、汽车与AI的结合,开启了一大批新型应用,但这些传统行业在加速AI落地方面仍存在各种困难。为此,NVIDIA在NGC中提供了大量容器镜像软件栈,用户可以直接将其下载至认证服务器中,就能快速获得算法框架和应用场景。

具体而言,GPU加速应用程序目录中列出了数百个经过优化的加速应用程序,可以部署在任何使用GPU的本机、云端和边缘系统上。同时,NVIDIA NGC目录还提供用于编写加速代码的库、软件开发套件(SDK)和工具包;用于构建加速应用程序的预训练模型和框架;以及用于将应用程序投入生产的基于容器的部署服务。

为什么需要EGX平台?

相较以往,各行各业中的开创型和技术技术型专业人士需要更快生成更多数据和创建更高质量的内容,他们正面临着日益复杂的问题。随着分布在全球各地的团队持续地远程工作,这些挑战也在呈指数级的增加。数据中心现在必须提供所需的图形和计算能力, 以便专业人士可以在虚拟工作站上处理跨企业的多种可视化计算工作负载——从渲染和工程模拟,到虚拟工作站上的交互式图形等。

为推动可视化计算工作流程,专业人士需要具有强大算力的解决方案,以支持最新的技术,并能够支持来自数据中心的各种应用程序和多种工作负载。随后,为这些专业人士提供支持的IT团队需要一个安全、可扩展且易于管理的解决方案,以提供物理工作站的性能、实现实时协作,并提供随时随地工作的灵活性。

现代应用对IT的挑战

  • 现代应用程序需要大量资源。AI训练需要大量的计算周期,而AI推理通常需要实时响应。数据分析需要跨多个系统进行海量的数据传输。产品设计师比以往更加需要的图形处理能力。只有CPU和商业网点的传统服务器无法提供运行这些应用程序所需的计算能力。
  • 现代应用程序通常需要云原生架构,即由许多微服务组织成复杂的工作流程。这对管理、可扩展性、安全性和可视化都带来了挑战。
  • 企业通常将这些应用程序部署到一次性的、单一用途的集群或云端。这会增加运营开销,而且这些孤岛并不总是遵守可视化、安全性和治理的企业IT标准。

而EGX平台的出现,恰好解决了上述“痛点”。

例如通过在共享资源池上运行现代和传统应用程序,可以消除计算孤岛并减少系统需求,从而降低成本;企业IT可以购买优化配置的主流服务器,以实现加速计算。而单一架构的设计理念,则可加速处理多种工作负载的现代应用程序,各行各业的开发人员可借助框架、优化的库、SDK、集成编译器、预训练模型、推理优化器和其他软件,快速提高产品开发效率; 

发力边缘AI

几乎每个行业都在对边缘计算进行投资,以加速AI工作负载。根据IDC 2020年边缘支出指南,未来四年,企业在边缘硬件、软件和服务方面的支出将以12.5%的年复合增长率快速增长,预计到2024年将达到2500亿美元。

没有一家企业会对此无动于衷,黄仁勋领导下的NVIDIA也不例外。他在今年的多个场合都特别强调了对边缘市场的重视,外界也普遍将EGX平台视作NVIDIA发力边缘AI市场的一把利器。

众所周知,遍布零售店、医院、工厂车间等位置的数十亿个物联网传感器可生成大量数据,几乎所有现代企业都想24小时不间断的利用这些数据来进行充分的建模、推理和决策。不过,要做到这一点,边缘计算解决方案需要提供强大的分布式计算、安全简单的远程管理以及与具备行业领先技术的兼容性,要在低延迟、安全性、可扩展性、远程管理和弹性修复五大方面具备足够优势。

以更低的延迟为例,这一点非常容易理解。边缘计算在本地而不是云端或数据中心处理数据,因此能大幅降低延迟和减少带宽需求,从而实时获得反馈和做出决策。例如,物联网设备内嵌的智能传感器可以处理工厂车间装设的自主机器和摄像头的数据,并即时提醒工人注意异常现象、故障等问题。除了嵌入式设备之外,企业还可以将边缘服务器放在传感器附近(通常放在商店、医院或仓库的服务器机房或机柜中),以进一步降低延迟。

再比如,由于海量数据需要在本地处理,企业可充分利用局域网,提供比云计算选项更高的带宽能力,实现更广泛的基础架构可扩展性,这也使得企业能够避免在云端传入或传出大型数据集这一耗时过程。

此外,近年来,随着边缘分布式计算的发展,安全和数据隐私问题随之而来,如何保护好本地的数据以及训练好的AI模型成为许多企业的头等大事。此时,具备全栈安全功能的边缘计算平台就显得至关重要,尤其是在面对传输中数据和静态数据时,应密切关注数据加密和防篡改功能。

NVIDIA的做法是“两翼齐飞”——一是利用EGX平台,让客户在一个统一架构上实现标准化,轻松实现管理、部署、操作和监控,从而为满足未来需求做好准备,同时降低成本;二是利用混合云平台NVIDIA Fleet Command,在数十台到数百万台服务器或边缘设备上管理和部署AI。这样,IT 部门既可以安全地远程管理已部署的大规模系统,也无需花费数周时间进行规划和执行部署计划。

在王永祥看来,当前一些非常热门的应用,包括5G、智能驾驶等,其核心特点之一就是要面对高速数据的交换和吞吐,如果不发力边缘计算/边缘AI,就不可能实现毫秒级甚至更短时间的服务需求。而如果面对一些“轻边缘”市场,例如摄像头、传感器、雷达等,受制于有限的算力,更高层级的数据分析、推理和决策仍然需要在云端实现。

“所以,准确的说,NVIDIA应该是一家全栈型的计算加速公司,我们的方案完全可以覆盖从边缘到云端的全场景应用。”他补充说,其实NVIDIA AGX也正在被不断纳入EGX的管理框架内,从而使功耗5W-30W,算力0.5T-30T的嵌入式设备也能够受益于完整的软件堆栈,使得“边缘端—轻边缘端—云端”闭环回路中的多个应用场景都能实现云边协同效应。

但根据何萍的观察,尽管云边协同是大势所趋,但在实际落地过程中,很多企业却面临一些实际问题:如何确保那些远离数据中心的AI设备上的数据安全?在设备改造更新过程中,是否需要在现场派驻人员保护和升级数据?云-边设备如何实现统一管理?AI模型中的知识产权如何不被侵犯或盗用?等等。因此,如果想取得比较好的实时性、安全性和可扩展性效果,获得类似EGX平台的支撑非常必要。

本文为EET电子工程专辑 原创文章,禁止转载。请尊重知识产权,违者本司保留追究责任的权利。
邵乐峰
ASPENCORE 中国区首席分析师。
  • “零信任”大势下,谈谈云权限管理(CPM)基础知识 "永远不要相信任何人和任何事。"是一句我们常在电影里听到的名言,其实这句话也同样适用于云端安全管理。疫情之后,随着云计算在世界上的进一步普及,保护云端环境下企业资产安全的需求日益增加,人们对预防性方法越来越感兴趣。先验的云安全立场背后的理念称为“零信任”……
  • “元宇宙”进展情况了解一下:谈谈今年的GTC 这篇文章来谈谈今年GTC上,Nvidia Omniverse的一些新发布——虽然叫它“元宇宙”其实并不准确,但Omniverse现阶段在做的事本身就是未来元宇宙成型的基础。总结起来,现阶段的Omniverse主要实现的是设计协作、模拟仿真。设计协作体现在,从不同位置、用不同的工具,在设计、建筑等领域内,就像……
  • 俄罗斯手机厂商BQ被安卓“拉黑”称将改用鸿蒙,华为回应 俄罗斯BQ公司的智能手机由于美国制裁,已经不能使用安卓OS。对此该公司总经理表示,已经在测试中国华为的鸿蒙操作系统,搭载鸿蒙操作系统的新智能手机可能会在2022年下半年发布。华为方面在回应媒体时则称……
  • 条形码运作原理和主要类型:常见编码系统技术概述 首个条形码是20世纪70年代在一包口香糖上被扫描的,后来它成为了一种提供机器可读UPC(通用产品代码)的强大方法,在工业中被广泛应用。如今我们的生活中处处离不开扫码,读码器制造商也在不断寻求突破创新……
  • 4G + Harmony > 5G ? 华为2022新品发布会,带来P50E 4G手机,让大家哗然,但是华为有决心能够在鸿蒙加持下获得非凡用户体验。
  • "上天入地",揭秘自主操作系统RT-Thread的起飞之路 俄乌冲突,打乱了世界秩序,包括科技行业。即使一直宣称处于中立地位的开源软件也是如此。前段时间,两个顶级的 Linux 开源力量:Red Hat和SUSE也宣布撤出俄罗斯。 可见,开源的自主化也非常重要。 Aspencore对RT-Thread物联网操作系统创始人兼CEO 熊谱翔先生(Bernard)做了一场独家访谈……
  • 新款iPad Pro 2021成最受欢迎的 由于采用性能相对强大的M1处理器和mini-LED屏幕以及更多的创新,新款iPad Pro 2021已经成为消费者心目中最受欢迎。然而,iPad 2却已经在全球范围内被列入“复古和过时”的名单中。
  • 三星折叠屏手机Galaxy Z Fold 3 目前来看,折叠屏新机作为一种新的生产力工具,逐渐成为高端/平板的一种趋势,有报料称三星的Galaxy Z Fold 3发布时间或为7月,并且会引入新手势操控。
  • 类脑芯片与智能座舱深度融合,时识科 类脑智能与应用解决方案提供商SynSense时识科技宣布与宝马展开技术探索,推进类脑芯片与智能座舱应用场景的深度融合。双方将主要围绕SynSense时识科技基于类脑技术的“感算一体”动态视觉智能SoC——Speck,探索汽车内外相关车载智能应用创新。
  • 美光:智能边缘应用的供应链和汽车架 随着数十亿台设备产生的数据和洞察力不断激增,智能边缘也随之崛起
广告
热门推荐
广告
广告
广告
EE直播间
在线研讨会
广告
广告
广告
向右滑动:上一篇 向左滑动:下一篇 我知道了