广告

为加速AI落地企业IT,英伟达布下一盘超大棋局

时间:2021-10-25 作者:邵乐峰 阅读:
NVIDIA EGX平台将计算和图形加速、高速安全网络和企业级管理引入到领先的企业数据中心服务器中,支持大量加速应用程序,为客户提供了一种在高性能、经济高效且可扩展的统一基础架构上运行各种传统和现代应用的方式,使用户能够立即提高产品化效率。
广告
EETC https://www.eet-china.com

企业在部署和管理AI应用时,面对不同工作负载或是大规模AI模型部署时,普遍面临着运营成本高、开发周期长、对开发人员/IT运维人员技术能力要求高、易用性和对不同场景的适配能力差等挑战,严重阻碍了AI落地企业基础设施应用的速度和效果。

让AI触手可及

为此,英伟达(NVIDIA)日前宣布综合性AI工具和框架软件套件AI Enterprise全球上市,用以帮助成千上万正在使用VMware vSphere的公司在NVIDIA认证系统上实现AI工作的虚拟化。截至目前,浪潮、H3C、联想、戴尔科技、源讯等全球领先的制造商,都在提供通过NVIDIA AI Enterprise对VMware vSphere上AI工作负载进行了优化的NVIDIA认证系统。

图1:NVIDIA AI Enterprise是一款经过认证的端到端套件

VMware是戴尔旗下的软件公司,提供云计算和虚拟化软件和服务,也是英伟达在企业端到端AI平台方面的重要合作伙伴。近年来,两家公司在广泛的技术层面实现了兼容,通过将VMware数据中心软件和英伟达GPU芯片、软件实现兼容,降低了企业级AI工作负载的应用门槛。 

NVIDIA AI Enterprise属于经过认证、易于部署和操作的端到端AI就绪型企业级平台,其早期使用者包括全球数十家汽车、教育、金融、医疗、制造和科技公司。但随着AI的日益普及,NVIDIA希望改变这种“只有行业先驱者才有机会使用AI”的现状,让数十万家使用vSphere进行计算虚拟化的中小型企业,也有机会使用在全球最广为应用的服务器来开发种类丰富的应用,以此部署和扩展数据科学、对话式AI、计算机视觉、推荐系统等。

除了“端到端”特点外,可扩展多节点虚拟化AI性能则是该软件平台的另一大亮点。简单而言,就是NVIDIA AI Enterprise可以使AI工作负载扩展到多个节点,能够在vSphere上以接近裸金属的性能运行,并通过NVIDIA A100 GPU在AI和数据科学领域获得突破性性能。

图2:虚拟化为AI提供裸机水平的性能

这一合作是业内首创,NVIDIA方面将其称作“开启AI时代新篇章的变革力量”。因为对企业中的AI研究人员、数据科学家和开发者来说,他们获得了成功交付AI项目所需的软件;对企业IT运维人员来说,则能够使用他们最熟悉的大规模数据中心管理工具为AI提供支持。可以说,这一组合为双方加速CUDA应用、AI框架、模型和SDK实现了扩展性、多节点性能和兼容性。

企业IT的福音

尽管NVIDIA对AI Enterprise不吝赞美之词,但如果我们只关注AI Enterprise,则会陷入“一叶障目,不见森林”的境地,忽视了其身后更宏伟的AI计算加速平台——NVIDIA EGX平台。

平台化思维

之所以能被称之为“平台”,顾名思义,其基本属性是可复制、可规模化部署的。但AI应用场景非常复杂和多元化,NVIDIA并不太可能去关注所有的应用场景,也不可能构建出所有差异化的方案,只可能在生态系统合作伙伴诉求的基础之上构建具备共性的技术,尽量考虑可复制性,使得合作伙伴能够将平台落地到不同的应用场景中。

英伟达中国区EGX产品总监王永祥以计算机视觉类应用为例,为我们剖析了这一思路。在图1 AI Enterprise套件中的架构优化一层中,我们能看到NVIDIA CUDA-X AI SDK,这是建立在CUDA之上的软件加速库集合,包括cuDNN(用于加速深度学习基元)、cuML(用于加速数据科学工作流程和机器学习算法)、cuGraph(用于在图形上执行高性能分析)等多种库,它们能够与NVIDIA Tensor Core GPU无缝地配合工作,加快基于 AI的应用程序的开发和部署速度。

这样,无论面对零售、智慧城市、医疗、音视频和图像处理中的哪一类应用,用户都可以通过AI Enterprise中所包含的CUDA-X AI、TensorFlow、TensorRT、RAPIDS、Triton、vGPU、GPU/Network Operator组成的完整工具链条,实现至少60-70%的工作部署,而剩余的30-40%工作则可以用来进行差异化开发。

EGX平台详解

NVIDIA EGX平台将计算和图形加速、高速安全网络和企业级管理引入到领先的企业数据中心服务器中,支持大量加速应用程序,为客户提供了一种在高性能、经济高效且可扩展的统一基础架构上运行各种传统和现代应用的方式,使用户能够立即提高产品化效率。同时,EGX平台还可以轻松集成到现有的行业标准IT和DevOps框架中,便于用户管理、部署、操作和监控。

下图展示了NVIDIA EGX平台的基本架构,从底层通过NVIDIA认证的企业服务器和一系列的优化硬件,到裸金属、虚拟化GPU、容器编排和管理集成软件,再到上层通过NVIDIA GPU Cloud(NGC)提供的加速应用程序和框架的生态系统,构成了一整套完整的解决方案。 

图3:NVIDIA EGX平台的基本架构

  • 端到端硬件

EGX硬件组合包含从可在数据中心执行实时语音识别、精密商业预测、身临其境的绘图运算体验的NVIDIA认证系统,到支持边缘端影像辨识和传感器融合,节能小巧的 NVIDIA Jetson系列。EGX聚合加速器更是结合了NVIDIA Ampere GPU效能和NVIDIA Mellanox SmartNIC和DPU技术,可打造出更快速、效率更高且更安全的数据中心。

NVIDIA认证系统是王永祥特别强调的。“在AI实际落地的过程中,为了确保用户无论是在边缘端还是企业数据中心部署时都能获得‘开箱即用’的体验,NVIDIA制定了一系列的认证规范、标准和流程,涉及数据获取、产品性能、功耗、安全、合规等各个方面。”他说。

图4:NVIDIA认证系统

英伟达中国区高级架构师经理何萍负责的团队,主要负责支持主流服务器企业合作认证事宜,包括对现在市场上2U/刀片服务器进行认证测试,以加速AI在制造、零售、金融、电信等传统行业,以及元宇宙、远程协作、专业级音视频等新兴领域的落地速度。而在以往,这些工作往往由业务部门直接发起,导致偏离企业IT管理范围,不能融入企业数据机房,从而造成混乱。

在谈及GPU、SmartNIC和DPU的协同使用话题时,何萍回应称,用户完全可以根据实际应用场景选择GPU+SmartNIC/DPU。典型的场景有:以5G信号处理为代表的超低延迟应用;具有独特安全要求的客户,例如,系统可能在物理位置上不安全的地方,但是客户数据仍然需要受到保护,需要数据传输中实时加密;还有企业如果面临计算存储分离的超融合架构应用,需要对计算节点和存储节点独立进行扩展等。但无论选择何种形式,NVIDIA都在EGX平台中对主要的工作负载进行了充分的测试和验证。

  • 适用于人工智能的企业级软件

除了前文谈及的NVIDIA AI Enterprise端对端云端原生套件,这一层还包括了使用标准数据中心以及DevOps工具和框架进行管理的企业管理集成平台,以及将服务器和桌面虚拟化的管理和安全优势与GPU加速性能优势相结合的虚拟GPU(vGPU)软件。

图5:NVIDIA EGX平台中的容器编排和管理集成功能

为什么需要虚拟GPU?王永祥解释称,多家调研机构的数据显示,虚拟化服务器平台在很多企业的IT基础设施架构中仍然占据着相当高的份额,2020年仅在中国市场的市值就高达40亿元人民币,加之容器微服务化、云原生等新型场景的不断涌现,行业内对诸如裸金属、云原生的服务和支持能力提出了更高的要求。

而将GPU虚拟化,可以帮助分担服务器负载,提高应用程序的性能表现,适用于更多种类型的用户。也可以在多个虚拟机之间共享和分配虚拟GPU,从而允许任何工作流、设备或任意办公地点创建软件定义的GPU加速。对于企业来说,可以更为经济高效地将性能扩展到所有员工。

此外,NVIDIA EGX也透过GitHub上的NVIDIA EGX堆栈,与Red Hat OpenShift和其他领先业界的混合式云端平台合作伙伴兼容,包含NVIDIA GPU Operator和 NVIDIA Network Operator,所有必要的组件均可实现标准化和自动部署,以针对 Kubernetes丛集加以布建。

NVIDIA Fleet Command是一项专为AI打造,可在分布式边缘基础设施中安全地部署、管理和扩展AI应用程序的托管云服务,可提供简化部署、分层安全保护和详尽监控功能,适用于AI全生命周期管理,用户只需花几分钟的时间便可零基础实现 AI。

  • 加速应用程序的生态系统

众所周知,AI在当前企业数字化、智能化转型过程中扮演者“开路先锋”的角色,从数据中心AI训练和推理、边缘AI推理、数据分析和机器学习,到专业视觉、远程协作,均是如此。不过,王永祥指出,各家企业由于各自情况不同,在AI实际落地过程中面临着各种不同类型的挑战,为了降低准入门槛,实现快速落地,NVIDIA通过NGC提供优化的加速应用程序和框架,以端到端的方案呈现在客户面前。

图6:NVIDIA面向众多行业提供优化的加速应用程序和框架

以数据中心AI训练和推理应用为例,王永祥表示,根据他们的实际观察与接触,发现很多行业客户会首先选择公有云或是混合云平台进行AI落地测试,但随着重数据业务场景的涌现,考虑到实际数据量的增长和数据安全的保障,越来越多的用户正在转向自建服务器场景。

再来看一下边缘AI推理。零售、5G、医疗、制造、汽车与AI的结合,开启了一大批新型应用,但这些传统行业在加速AI落地方面仍存在各种困难。为此,NVIDIA在NGC中提供了大量容器镜像软件栈,用户可以直接将其下载至认证服务器中,就能快速获得算法框架和应用场景。

具体而言,GPU加速应用程序目录中列出了数百个经过优化的加速应用程序,可以部署在任何使用GPU的本机、云端和边缘系统上。同时,NVIDIA NGC目录还提供用于编写加速代码的库、软件开发套件(SDK)和工具包;用于构建加速应用程序的预训练模型和框架;以及用于将应用程序投入生产的基于容器的部署服务。

为什么需要EGX平台?

相较以往,各行各业中的开创型和技术技术型专业人士需要更快生成更多数据和创建更高质量的内容,他们正面临着日益复杂的问题。随着分布在全球各地的团队持续地远程工作,这些挑战也在呈指数级的增加。数据中心现在必须提供所需的图形和计算能力, 以便专业人士可以在虚拟工作站上处理跨企业的多种可视化计算工作负载——从渲染和工程模拟,到虚拟工作站上的交互式图形等。

为推动可视化计算工作流程,专业人士需要具有强大算力的解决方案,以支持最新的技术,并能够支持来自数据中心的各种应用程序和多种工作负载。随后,为这些专业人士提供支持的IT团队需要一个安全、可扩展且易于管理的解决方案,以提供物理工作站的性能、实现实时协作,并提供随时随地工作的灵活性。

现代应用对IT的挑战

  • 现代应用程序需要大量资源。AI训练需要大量的计算周期,而AI推理通常需要实时响应。数据分析需要跨多个系统进行海量的数据传输。产品设计师比以往更加需要的图形处理能力。只有CPU和商业网点的传统服务器无法提供运行这些应用程序所需的计算能力。
  • 现代应用程序通常需要云原生架构,即由许多微服务组织成复杂的工作流程。这对管理、可扩展性、安全性和可视化都带来了挑战。
  • 企业通常将这些应用程序部署到一次性的、单一用途的集群或云端。这会增加运营开销,而且这些孤岛并不总是遵守可视化、安全性和治理的企业IT标准。

而EGX平台的出现,恰好解决了上述“痛点”。

例如通过在共享资源池上运行现代和传统应用程序,可以消除计算孤岛并减少系统需求,从而降低成本;企业IT可以购买优化配置的主流服务器,以实现加速计算。而单一架构的设计理念,则可加速处理多种工作负载的现代应用程序,各行各业的开发人员可借助框架、优化的库、SDK、集成编译器、预训练模型、推理优化器和其他软件,快速提高产品开发效率; 

发力边缘AI

几乎每个行业都在对边缘计算进行投资,以加速AI工作负载。根据IDC 2020年边缘支出指南,未来四年,企业在边缘硬件、软件和服务方面的支出将以12.5%的年复合增长率快速增长,预计到2024年将达到2500亿美元。

没有一家企业会对此无动于衷,黄仁勋领导下的NVIDIA也不例外。他在今年的多个场合都特别强调了对边缘市场的重视,外界也普遍将EGX平台视作NVIDIA发力边缘AI市场的一把利器。

众所周知,遍布零售店、医院、工厂车间等位置的数十亿个物联网传感器可生成大量数据,几乎所有现代企业都想24小时不间断的利用这些数据来进行充分的建模、推理和决策。不过,要做到这一点,边缘计算解决方案需要提供强大的分布式计算、安全简单的远程管理以及与具备行业领先技术的兼容性,要在低延迟、安全性、可扩展性、远程管理和弹性修复五大方面具备足够优势。

以更低的延迟为例,这一点非常容易理解。边缘计算在本地而不是云端或数据中心处理数据,因此能大幅降低延迟和减少带宽需求,从而实时获得反馈和做出决策。例如,物联网设备内嵌的智能传感器可以处理工厂车间装设的自主机器和摄像头的数据,并即时提醒工人注意异常现象、故障等问题。除了嵌入式设备之外,企业还可以将边缘服务器放在传感器附近(通常放在商店、医院或仓库的服务器机房或机柜中),以进一步降低延迟。

再比如,由于海量数据需要在本地处理,企业可充分利用局域网,提供比云计算选项更高的带宽能力,实现更广泛的基础架构可扩展性,这也使得企业能够避免在云端传入或传出大型数据集这一耗时过程。

此外,近年来,随着边缘分布式计算的发展,安全和数据隐私问题随之而来,如何保护好本地的数据以及训练好的AI模型成为许多企业的头等大事。此时,具备全栈安全功能的边缘计算平台就显得至关重要,尤其是在面对传输中数据和静态数据时,应密切关注数据加密和防篡改功能。

NVIDIA的做法是“两翼齐飞”——一是利用EGX平台,让客户在一个统一架构上实现标准化,轻松实现管理、部署、操作和监控,从而为满足未来需求做好准备,同时降低成本;二是利用混合云平台NVIDIA Fleet Command,在数十台到数百万台服务器或边缘设备上管理和部署AI。这样,IT 部门既可以安全地远程管理已部署的大规模系统,也无需花费数周时间进行规划和执行部署计划。

在王永祥看来,当前一些非常热门的应用,包括5G、智能驾驶等,其核心特点之一就是要面对高速数据的交换和吞吐,如果不发力边缘计算/边缘AI,就不可能实现毫秒级甚至更短时间的服务需求。而如果面对一些“轻边缘”市场,例如摄像头、传感器、雷达等,受制于有限的算力,更高层级的数据分析、推理和决策仍然需要在云端实现。

“所以,准确的说,NVIDIA应该是一家全栈型的计算加速公司,我们的方案完全可以覆盖从边缘到云端的全场景应用。”他补充说,其实NVIDIA AGX也正在被不断纳入EGX的管理框架内,从而使功耗5W-30W,算力0.5T-30T的嵌入式设备也能够受益于完整的软件堆栈,使得“边缘端—轻边缘端—云端”闭环回路中的多个应用场景都能实现云边协同效应。

但根据何萍的观察,尽管云边协同是大势所趋,但在实际落地过程中,很多企业却面临一些实际问题:如何确保那些远离数据中心的AI设备上的数据安全?在设备改造更新过程中,是否需要在现场派驻人员保护和升级数据?云-边设备如何实现统一管理?AI模型中的知识产权如何不被侵犯或盗用?等等。因此,如果想取得比较好的实时性、安全性和可扩展性效果,获得类似EGX平台的支撑非常必要。

EETC https://www.eet-china.com
本文为EET电子工程专辑 原创文章,禁止转载。请尊重知识产权,违者本司保留追究责任的权利。
邵乐峰
ASPENCORE 中国区首席分析师。
  • 北交所的“芯”未来(EDA) 当前,半导体行业成为科技行业的新风口,且受到国家的高度关注,北交所的快速成立与火速开市就体现了国家政策对半导体行业在金融方面的支持。长期以来,回报周期长,利润率低,技术难度大的半导体细分产业链中的中小企业的融资非常困难……
  • 我们又搭了一台平价PC:体验12代酷睿CPU 此前对于12代酷睿两种不同核心微架构,处理器理论性能,以及配套12代酷睿出现的核心调度技术(Intel Thread Director),我们都已经做过比较完整的解读。这篇文章就从三方的角度,来简单谈谈12代酷睿处理器的使用体验,算是提供选购和理解当代PC处理器的参考。
  • 如何编写有利于编译器优化的代码 在嵌入式开发中,代码的体积和运行效率非常重要,代码体积往往和芯片的FLASH、RAM容量对应,程序的运行效率也要求在相应能力的处理器上运行。在大多数情况下,成熟的开发人员都希望降低代码体积、提高代码运行效率,然而具体该怎么做呢?
  • EDA全球冠军!ICCAD 2021华中科技大学战队夺CAD Contest 在11月4日结束的EDA领域国际会议ICCAD 2021上,华中科技大学计算机学院吕志鹏教授团队获得了CAD Contest布局布线(Routing with Cell Movement Advanced)算法竞赛的第一名。据悉,今年是该团队首次参加ICCAD竞赛,成员非常年轻,平均年龄仅24岁,包括苏宙行博士,硕士研究生罗灿辉、梁镜湖和谢振轩……
  • 5G SA初始部署后要如何发展?Omdia谈5G SBA格局 鉴于截至2021年下半年,仅有不到10家运营商推出了商用5G SA服务,随着2022年SBA部署在5G SA中加速,以及一些标准推动SBA理念用于5G网络核心之外的领域,对于大多数运营商及其供应商来说,现在是时候去了解SBA对其网络和业务意味着什么了。
  • 4个问题,来谈谈OpenHarmony工业项目是否靠谱 我们在拿到有关OHI项目的资料时,感觉其明确的愿景和目标都非常庞大。做工业操作系统以及相关软件组件的开源开放,形成通用的开源软件组件,以及扩展生态、为OpenHarmony贡献代码,这些都算是此类项目的常规目标。
  • 新款iPad Pro 2021成最受欢迎的 由于采用性能相对强大的M1处理器和mini-LED屏幕以及更多的创新,新款iPad Pro 2021已经成为消费者心目中最受欢迎。然而,iPad 2却已经在全球范围内被列入“复古和过时”的名单中。
  • 三星折叠屏手机Galaxy Z Fold 3 目前来看,折叠屏新机作为一种新的生产力工具,逐渐成为高端/平板的一种趋势,有报料称三星的Galaxy Z Fold 3发布时间或为7月,并且会引入新手势操控。

  • 重磅新品| 纳芯微推出车规LIN收发 纳芯微(NOVOSNS)推出了全新通用车规LIN收发器芯片---NCA1021,可广泛适用于汽车电子子系统的总线接口设计,如电动门锁,电动窗,电动座椅,电动后视镜,玻璃刮水器,座椅加热器等模块,具有线间干扰小,线束少,传输距离长,成本低等优点。
  • 猎豹移动2021年Q3财报:AI和其他收入 本季度猎豹移动持续提升运营效率,Non-GAAP营业总成本及费用同比下降47.4%。其中互联网业务环比扭亏为盈,实现Non-GAAP营业利润180万元。截止到2021年9月30日,公司持有的现金及现金等价物、受限资金及短期投资18.53亿元,长期投资24.23亿元。
  • 突发!现场黑烟滚滚,隆基股份一工厂起火 财联社消息,11月25日,一张厂房浓烟滚滚的起火照片和多个现场视频传出,有消息称,起火点为隆基股份厂区。画面显示,现场黑烟冲天,明火冲出房顶,并伴有消防车鸣笛声,有多辆消防车到场处置。 来源
  • AWS也在用的实时视频转码方案 行业挑战实时转码是视频流分发最为重要的阶段之一。此时实时视频流进入网络,为大规模分发做准备。这一转码过程不仅需要快速进行,同时还要保持高画质。AWS 拥有大量处理电视网络视频转码工作负载的客
  • 快来领取CDC + RDC超全攻略
  • ​GE解体了,多元化公司都不值得投资了吗? 作者 |  icefighter来源 | 天玑情报局 多元化战略也是需要随着环境变化不断演进的。看到一篇文章讨论美国通用电气这个工业巨头的解
  • 怪兽星座欲并购,运动饮料成为新战场? 怪兽与星座,1+1>2?作者 | 朱茱编辑 | 何缘提及怪兽,除了能想到电影里面的张牙舞爪的生物,还可能是健身圈的“宠儿”,自带绿色爪子的运动饮料。随着健身热潮的来临,运动饮料也将成为
  • 泰国首富募150亿"养猪",牧原的头号对手要来了? 作者 | 吴中霞来源 | 全天候见闻 在当下猪企”减产瘦身期“迎来新巨头,行业未来能否消化新增产能,仍未可知。短短一年不到的时间,多家猪企由盈转亏,“
  • 疯狂的ASML 总部位于荷兰的ASML市值约为 3500 亿美元。在以前,这是一家鲜为人知的科技巨头,但因为各种原因,他们最近声名大噪。而随着对半导体的永不满足的需求的增加,他们正在迎来高速增长。这家拥有 37 年历
  • ASIC和FPGA其实是两个行业 ASICer遇到FPGAer,驴唇不对马嘴。ASIC还是FPGA,这是个问题。很多人都觉得同样都是写Verilog的,对于前端设计来说,FPGA和ASIC没什么区别,那么今天我就来告诉你这两个到底有什
  • 中国微控制器(MCU)厂商盘点 北京兆易创新科技股份有限公司   主要内核:M23   主要产品:闪存、微控制器、DRAM   主要应用
  • 写软件帮抢TI芯片要6.8万!啥业务啊有矿吗? 最近有读者向芯世相反映,芯片大厂TI(德州仪器)官网到了一批货,不过紧缺的芯片仍然难抢,听说有人写软件帮抢,竟然需要6.8万元的费用。芯片原厂如今纷纷玩转线上购买,颇高的直销比例让TI把现货(芯片)掌
广告
热门推荐
广告
广告
广告
EE直播间
在线研讨会
广告
广告
广告
向右滑动:上一篇 向左滑动:下一篇 我知道了