GTC23|3月22日预告—点击解锁GTC特别活动ChinaAIDay

原创 英伟达NVIDIA中国 2023-03-21 20:18

3 月 22 日下午 1 点开始,本届 GTC 专门面向中国 AI 从业者的特别活动 China AI Day 将在线上举行,11 位来自阿里巴巴、百度、快手、腾讯、网易,字节跳动,以及 NVIDIA GPU 计算专家团队的技术专家将进行专题报告,围绕互联网搜索、推荐、广告业务、数字孪生、短视频应用、元宇宙和数字人等热门应用场景分享专业见解。


推荐业内关注数据、算法、架构和运维的工程师、开发人员以及 AI 从业者预约观看!


以下为 11 个演讲的详细介绍:


加速计算助力云上业务场景


会议代码:[SE52359]

演讲时间:3 月 22 日 1:00 PM - 1:30 PM


演讲嘉宾:

李曦鹏

NVIDIA 开发与技术部门亚太区总经理


主要内容:


加速计算是未来必经之路,极致化性能,并提高能效。NVIDIA AI 平台涵盖了从基础设施、调度、加速库以及加速框架、部署工具和最上层的应用框架。NVIDIA 也提供了从数据预处理、大规模训练、推理优化到大规模部署的端对端软件。加速计算需要应用导向来进行整个环节的优化,是软硬件协同,需要业务、算法、工程师和加速工程师密切合作。

 

本演讲将以推荐系统的演变为例,来阐述加速计算的旅程。加速计算也正是 China AI Day 的主旨所在。非常欢迎并诚挚感谢 China AI Day 的演讲者,分享在数字孪生、元宇宙、短视频、以及搜索、广告、推荐等领域,借助 NVIDIA GPU 和全栈 AI 解决方案,最新鲜的优化加速的精彩成果。



李星澜:一个基于实时智能交互系统打造的

“真实” 数字生命


会议代码:[SE51461]

演讲时间:3 月 22 日 1:30 PM -2:00 PM


演讲嘉宾:

四道

朝夕光年江南工作室 AI 技术负责人


主要内容:


智能 NPC 和数字人已经在娱乐行业和社交媒体平台被广泛应用,包括人工智能驱动的主持人、评论员和网红等。但开发具有高视觉保真度的逼真智能 AI 通常需要大量时间,而且成本很高,很难扩大规模。


朝夕光年江南工作室提出了一个 GPU 驱动的系统,包括文本到语音模块、音频到全身动画模块、视频分析模块、渲染模块和聊天机器人模块,基于这些模块可以构建一个逼真的实时交互数字人。在 NVIDIA Omniverse 的支持下,可以实时高效地渲染李星澜,而且其中的动画模块将根据后端聊天机器人的输出自动驱动角色模型的运动。动画模块和后台聊天机器人都是基于自定义开发的深度神经网络。使用 NVIDIA Omniverse ACE,能够在两天内完全训练 audio2motion 和 text2speech 模型,并在 5 天内训练超大参数的 Chatbot 神经网络模型,使用了超过 10tb 的训练数据。


本演讲将介绍如何利用 NVIDIA Omniverse 和 NVIDIA GPU,以及如何借助计算机图形学和人工智能功能来构建 Lydia 数字人项目。



飞桨深度学习平台高效支持

大规模生产及应用


会议代码:[S52366]

演讲时间:3 月 22 日即可在线观看

(自选点播)


演讲嘉宾:

马艳军

百度 AI 技术生态总经理


主要内容:


源于百度业务对人工智能技术的广泛应用,飞桨深度学习平台结合应用持续创新,研发了业界领先的大规模分布式训练技术。飞桨先后发布了 4D 混合并行训练、端到端自适应分布式训练、超大规模图训练引擎等核心技术,并基于这些技术支持文心大模型的训练和部署。目前,文心大模型已经覆盖基础大模型、任务大模型、行业大模型的三级体系,飞桨+文心大模型赋能千行百业的智能化升级。本演讲将分享飞桨深度学习平台如何高效支持大规模生产及应用。



机器学习模型中访存密集型计算 STITCH 

融合优化技术


会议代码:[SE51289]

演讲时间:3 月 22 日 2:00 PM – 2:30 PM


演讲嘉宾:

郑祯

阿里巴巴高级技术专家


主要内容:


近年来,访存密集型计算日益成为影响机器学习模型性能的重要因素。由于机器学习模型计算图日趋复杂,传统的机器学习编译器面对复杂的数据依赖关系时很难执行高效的计算融合优化。同时,动态张量形状(dynamic tensor shape)的模型优化需求开始兴起,缺失的张量形状使得访存密集型计算子图的性能优化变得更加困难。 


本演讲将讲述阿里巴巴针对机器学习任务中访存密集型计算性能优化的关键技术:STITCH 融合技术。该技术支持将任意类型及任何数量的机器学习访存密集型算子进行融合,最终将大粒度的访存密集型计算子图转化为单个的 GPU 核函数,以减少片外访存、框架调度及 GPU 核函数调用开销。



GPU 加速大规模向量索引构建


会议代码:[SE51475]

演讲时间:3 月 22 日 2:30 PM – 3:00 PM


演讲嘉宾:

李晨

腾讯高级工程师


主要内容:


大规模向量检索引擎在腾讯诸多业务中有所应用,在百亿级召回场景中提供低延迟、高召回率的在线服务。但随着索引规模的增加,向量索引的构建已经成为日常索引的更新瓶颈。离线向量 IVF 索引构建,在引入 GPU 优化之前,索引构建工作依托 Hadoop 平台进行,引入 NVIDIA GPU 改造后索引构建成本降低 60%。索引构建的优化工作主要由两部分组成:1. IVF KMeans 聚类;2. 百亿向量在海量聚类中心上的 FIT 过程。本次演讲将介绍如何基于 GPU 构建大规模向量索引及其优化过程。



多模态超大模型在短视频场景落地应用


会议代码:[SE52361]

演讲时间:3 月 22 日 3:00 PM – 3:30 PM


演讲嘉宾:

张胜卓,快手算法引擎专家

韩青长,快手算法引擎工程师

李杰,快手算法引擎工程师

门春雷,快手算法引擎专家


主要内容:


以 ChatGPT 为代表的大模型面世,带来了 AI 大模型技术热潮,研究表明,知识密集任务中越大的模型学习效率越高(相同训练数据量下,模型越大任务效果越好),主流大模型的参数大都超过了千亿 (100B) 规模,同时也给模型的高效训练和推理部署带来严峻挑战。快手围绕提高模型计算效率和可部署开展技术攻关,沉淀了一套通用的混合并行训练、压缩、推理整体解决方案,并联合业务实现百亿参数 Dense 模型和千亿参数 MOE 大模型落地,取得显著业务收益。本演讲将分享多模态超大模型在短视频场景的落地应用。



PGLBox:百度基于 GPU 的

超大规模图模型训练框架


会议代码:[SE51302]

演讲时间:3 月 22 日 3:30 PM – 4:00 PM


演讲嘉宾:

焦学武

百度主任架构师

百度 MEG 商业模型中台技术负责人


主要内容:


PGLBox 是百度研发的基于 GPU 的大规模图模型训练框架,支持数百亿节点和边的图模型全 GPU 训练,已在百度广泛部署。相比业界主流的分布式 CPU 解决方案,PGLBox 具有以下几大优势:1. 超高性能:业界首个分布式 GPU 图学习训练框架,相比分布式 CPU 方案,训练速度提升 27 倍;2. 超大规模:业界首个多级存储图引擎,单机可支持数百亿节点数百亿边的超大图规模;3. 算法丰富:预置丰富的图表示学习算法,支持跨场景异构图建模和复杂图属性建模;4. 灵活易用:用户仅需简单配置,即可一键启动大规模图表示学习训练任务;5. 落地广泛:百度内部多业务体系广泛落地,为业务带来了显著业务收益。



视频场景中的音频理解推理加速解决方案


会议代码:[SE51166]

演讲时间:3 月 22 日 4:00 PM – 4:30 PM


演讲嘉宾:

陈炳州

字节跳动音频理解视频方向引擎负责人


主要内容:


音频理解是指通过语音识别、事件检测、语种识别、声纹识别等技术从音频数据中解析出多维度信息。在视频场景上,比较经典的落地技术,比如视频字幕生成、视频字幕打轴等等。这些技术应用极大地提高了人效,也带来生活的便利。伴随短视频和音频类应用的兴起,用户请求量、音频数据正呈几何级别增长,这些都为大规模数据处理,以及高并发低延迟的推理带来诸多挑战。比如机器有限的情况下如何处理更多的音频,多语种的场景中单卡处理单语种模型存在利用率较低的问题。本演讲将基于 NVIDIA 提供的推理 GPU(T4, A10, A30),介绍音频理解如何做推理加速,以及如何广泛应用于抖音等大流量场景。



CUTLASS 极致性能优化探索

及在阿里巴巴推荐系统中的应用


会议代码:[SE51305]

演讲时间:3 月 22 日 4:30 PM – 5:00 PM


演讲嘉宾:

董纪莹

阿里巴巴高级工程师


主要内容:


在大规模推荐系统中,点击率(Click-Through Rate, CTR)和 转化率(ConVersion Rate, CVR)预测任务的深度神经网络模型通过由 Embedding 层,Attention 层和 MLP 层组成。然而,在 TensorFlow 上执行时,Attention 层和 MLP 层中数量众多的算子和大量耗时的计算成为了性能瓶颈。


通过 NVIDIA 开源的高性能矩阵乘(general matrix multiplication, GEMM)应用框架 CUTLASS,能够实现将与 GEMM 相连的算子融合进 GEMM,并且将级联的 GEMM 进一步融合成一个算子。通过这种方式,在理想情况下,可以将整个Attention 模块融合成一个算子。在计算 MLP 时,将纵向相连的 GEMM 融合成 back-to-back GEMM,然后继续将横向相连的 GEMM 融合成 Batch GEMM,从而实现性能提升。这些优化已经在阿里巴巴预测引擎平台上线,很好地提升了预测性能,更好地发挥了硬件算力。



NVIDIA CUDA 技术助力网易瑶台

神经隐式曲面建模 20 倍加速


会议代码:[SE52360]

演讲时间:3 月 22 日 5:00 PM – 5:30 PM


演讲嘉宾:

李林橙

网易伏羲视觉计算负责人


主要内容:


网易瑶台提供大型的沉浸式会展服务。在与客户的沟通中,我们了解到,客户期望将线下物体生成 3D 模型,导入瑶台,从而降低定制化制作的成本。2020 年以来神经渲染 3D 建模技术快速发展,重建精度有了显著的提升,但耗时却限制了实际的应用。网易瑶台充分利用了 NVIDIA 的 tiny-cuda-nn 与 CUDA 渲染技术,对神经隐式曲面建模进行了 20 多倍加速,实现了高效、高质量的 3D mesh 重建。本演讲将分享项目过程中的实践经验与心得。



在 GPU 上使用 Video Codec SDK,CV-CUDA 和 TensorRT 加速现代云上视频应用


会议代码:[SE51229]

演讲时间:3 月 22 日 5:30 PM – 6:00 PM


演讲嘉宾:

王倬遥

NVIDIA 开发与技术部工程师


主要内容:


人工智能技术广泛应用于云和 on-prem 数据中心的短视频和直播应用当中,覆盖了超分辨率、直播视频特效、旧视频修复、自动像素化、视频内容理解等。然而,当部署这些应用程序时,传统视频处理管线混合了 CPU 和 GPU 负载,其性能将受到以下因素的限制:1) h2d 和 d2h 内存拷贝;2) CPU 上的前处理和后处理;3) CPU 上的视频编解码;4) 未充分优化的 AI 推理框架。


针对以上限制, NVIDIA 提供了丰富的视频处理相关的 SDK。如何在实践中高效地在云上使用这些工具是搭建基于人工智能的新式视频处理管线的关键。本演讲将介绍如何使用这些 SDK 来解决应用中的低效部分,并构建一个全 GPU 的视频处理管线。



马上注册,预约观看China AI Day



想要预约以上精彩内容?扫描海报二维码或点击“阅读原文”,打开 China AI Day 专题页面,按照会议代码或标题,找到对应演讲。通过点击“Add to Schedule”右上角“五角星”,将该演讲内容添加至您的日程,大会开始后登录即可在线观看。



进入 GTC 2023特别活动:China AI Day 专题页面




按照 会议代码 或者 演讲标题,找到感兴趣的内容。点击“Add to Schedule”,添加至您的日程。




如无“Add to Schedule”按钮,说明该演讲为点播,从 3 月 22 日开始即可在线观看。点击右上方的五角星,将该演讲添加至您的日程。




如点击“Add to Schedule”五角星时,出现如下界面。


如果您已注册,请点击“Login”登录,激活账户,继续操作;如果您尚未注册,请点击“Create Account”,详情参看 GTC23 注册教程。


扫描下方海报二维码,锁定 NVIDIA 创始人兼首席执行官黄仁勋的 GTC 主题演讲!北京时间 3 月 21 日 23:00 全球首播,3 月 22 日 10:00 中国重播。深度解读 NVIDIA 加速计算平台如何推动人工智能、元宇宙、云技术和可持续计算的下一波浪潮。加入 GTC23,切勿错过 AI 的决定性时刻!


评论 (0)
  • 苹果如何重新定义AR?在如今以智能手机为主的消费电子市场下行阶段,市场急需开辟一个新的领域带来新的增长点,以往被寄予厚望的VR/AR等头显设备在经历了数年发展后,依旧难堪大任,业界都把希望寄托在苹果身上。简单来说,Vision Pro本质上其实还是VR设备,不过所有操作界面可以结合头显摄像头捕捉的外界环境,在头显内部显示出来,即一款数字内容无缝融入真实世界的VR显示设备。同时Vision Pro的操作方式无需手柄,完全通过眼睛、双手和语音,通过苹果为Vision Pro打造的空间操作系统Visi
    华秋商城 2023-06-08 10:32 147浏览
  • 近期有点全身心投入到了嵌入式驱动的开发意思了,起早贪黑的学习。不过也是,人生的路都是在不断地学习中度过的。对于干了几年的硬件工程师而言,不说硬件是不是很牛了,就是想换换脑子,整天三极管、电阻、电容的,确实让人乏味。思来想去,硬件是软件的基座,驱动是软件沟通硬件的桥梁。倒不如自己整点知识,也方便自己以后调试硬件不是,再说了从软件角度去理解硬件思维,会有很多不同的收获不是。 奋战了一个月,倒是把驱动的基本框架了解七七八八了,兴致使然,图像采集感觉还不错,公司有产品当开发板,也是省下了大部分的学
    二月半 2023-06-08 12:09 617浏览
  • 电源适配器CE认证标准测试项目,电子产品现在用的是相当的广,常见的产品就一大堆,比如说手机电脑等都会使用到电源适配器。电源适配器适用范围很广,不仅在移动设备端,在其它领域也会应用到。电源适配器CE认证,一般会做CE认证中的低电压指令LVD和电磁兼容指令EMC,欧洲能效认证ERP,RoHS等。下面具体来看看认证这么做吧。电源适配器为什么要做CE认证?CE认证制度下的LVD低电压指令涵盖了交流50V-1000V,直流75V-1500V的所有带电产品,EMC指令涵盖了所有有电路板产生电磁辐射的带电产品
    陈丽莎 2023-06-08 14:09 223浏览
  • 半导体制冷片是电子器件中重要的辅助元件,用于控制器件的温度,从而保证器件的稳定性和可靠性。在半导体制冷片的制造过程中,半导体制冷片的基板材料选择是非常关键的,因为基板材料的性能会直接影响到制冷片的性能。同时作为精密制冷片新型技术,对陶瓷基板的要求也高于普通基板。1.外观要求:严格的铜面平整度,粗糙度要求控制在0.5um以内,铜面上不允许有凹坑、铜颗粒、氧化、任何形式的外观划伤等。2.尺寸要求:完成板厚控制公差在10-20um以内,而陶瓷板材的来料公差就有±30un公差,这就意味着需要挑选公差范围
    斯利通陶瓷电路板 2023-06-08 11:50 181浏览
  • MSDS中干电池、铅酸蓄电池、锂电池正负极材料介绍191-0751-6775一、干电池干电池也叫锰锌电池,所谓干电池是相对于伏打电池而言,所谓锰锌是指其原材料。针对其它材料的干电池如氧化银电池,镍镉电池而言。锰锌电池的电压是15V。干电池是消耗化学原料产生电能的。它的电压不高,所能产生的持续电流不能超过1安培。锌锰干电池:正极材料:锰、石墨棒负极材料:锌镁锰干电池:正极材料:二氧化锰粉、氯化铵及碳黑组成的一个混合糊状物负极材料:镁筒锌空气电池:正极材料:用活性炭吸附空气中的氧或纯氧作为正极活性物
    陈丽莎 2023-06-09 16:43 134浏览
  • 最近在使用串口读一些数据,但是总会出现些发、送之间的冲突问题,为了弄清楚问题的所在,于是产生了想法,做了一个日志保存。[code]void Widget::SaveLogTxt(QString dat ){ QDateTime currenttime = QDateTime::currentDateTime(); QString strDate = currenttime.toString("yyyy/MM/dd"); QString strTime = currenttime
    E_ARM 2023-06-09 10:31 138浏览
  • 前段时间出了接近一个月的差,没来得及及更新试用报告,有点不好意思,今天抽空过来写一下自己的看书的心得以及对于整个书籍的一些认知和看法,希望对大家能够有一定的帮助,也希望可以和大家一起探讨进步。以前自己都是使用的Altium Designer做开发设计的,大学的时候就开始接触,作为个人爱好延续至今,对于PADS也是有所耳闻,只是一直没有机会来了解,根据我个人的经验来看,按照以前使用Altium 的经验来说,PADS设计指南 无论说是从流程步骤上以及类容的细致程度上都还是很不错的,从设计流程、原理图
    君莫笑啊 2023-06-08 11:21 190浏览
  • 近年来,伴随着智慧化港口的大潮流,经纬恒润L4高级别智能驾驶业务产品也陆续扎根港口自动驾驶多个项目中,帮助港口实现无人水平运输自动化,达到降本增效的效果,助力客户实现智慧化绿色港口。   在整个港口水平运输场景中,经纬恒润提供了端到端的车、路、网、云、图全栈式自研解决方案,包含自动驾驶系统、路侧车路协同、基于5G网络的远程遥控驾驶、车队调度管理平台、数字孪生、仿真系统、高精地图等专业模块,组成了一套完整的智慧港口解决方案。本篇专门介绍其中的自动驾驶系统。  
    hirain 2023-06-09 11:29 158浏览
  • 增加电池寿命的秘诀 1.新买的电车要先充满几次吗?把电车电池完全充满这个操作,在专业上叫锂电池化成,是电车在出厂之前激活电池的一道工序,车主完全没必要这样做。《汽车大数据应用研究报告》里明确指出充放电深度是表征电池健康度的重要参数,充放电深度增加,释放电量变大,使电池的健康度衰减非常明显。所以在日常用车的时候我们尽量把电池的电量维持在20%~80%之间,这样能显著提升电池的使用寿命。1. 电池寿命会受温度影响吗?锂电池的理想工作温度为25摄氏度,工作温度过高或者过低都会引发电
    四川英特丽科技有限公司 2023-06-08 10:42 176浏览
  • CS5466支持dsc1.1/12a压缩视频传输,是一款Type-C转HDMI8K30HZ或者4K144HZ方案芯片,Type-C/DP1.4转HDMI2.1的显示协议转换芯片, 内部集成了PD3.0及DSC decoder.CS5466电路原理图参考:CS5466芯片产品参数特性:1. Type-C/DP(2lanes)to HDMI2.1 8K30或者4K144产品。2. 支持HDMI2.1 FRL。3. 集成DSC1.2a decoder。4. DSC支持RGB, YCbCr4:4:4,
    QQ1540182856 2023-06-09 09:52 145浏览
  • 在过去的20年,传感器厂商不断研究创新的测量原理和敏感材料,这些成果能让我们用到高集成、低成本的传感器,其中,最成功也是最具颠覆性的,无疑是MEMS技术在传感器制造中的应用。MEMS技术在传感器的大规模应用,让传感器的小型化、低功耗、智能化成为可能,从而推动了传感器在物联网、消费电子、汽车电子等领域的广泛应用,促进了数字经济的发展和智能时代的到来。可以说,在过去20年,MEMS颠覆和扩展了传感器。传感器专家网https://www.sensorexpert.com.cn专注于传感器技术领域,致力
    传感器专家网 2023-06-08 19:28 174浏览
  • 低温型产品概述:霍尔效应测试仪由电磁铁、电磁铁电源、高精度恒流源、高精度电压表、霍尔效应样品支架、标准样品、高低温杜瓦,控温仪,系统软件组成。为本仪器系统专门研制的JH10效应仪将恒流源,六位半微伏表及霍尔测量复杂的切换继电器——开关组装成一体,大大减化了实验的连线与操作。JH10可单独做恒流源、微伏表使用。用途:用于测量半导体材料的载流子浓度、迁移率、电阻率、霍尔系数等重要参数,而这些参数是了解半导体材料电学特性必须预先掌控的,因此霍尔效应测试系统是理解和研究半导体器件和半导体材料电学特性必*
    锦正茂科技 2023-06-09 13:16 108浏览
我要评论
0
1
点击右上角,分享到朋友圈 我知道啦
请使用浏览器分享功能 我知道啦