奥特曼再放大招!OpenAI首个文生视频模型Sora技术详解!

谈思汽车 2024-02-17 10:30

 智能汽车安全新媒体 

北京时间16日凌晨,全球人工智能模型领跑者OpenAI推出了一款能根据文字指令即时生成短视频的模型,命名为Sora。

此前在2023年轰轰烈烈的多模态AI模型竞赛中,谷歌、Meta和初创公司Runway、Pika Labs都发布过类似的模型。但本次OpenAI展示的视频仍然以高质量获得关注。

目前OpenAI官网上Sora相关的信息有限,OpenAI没有给出训练模型的素材来源,仅表示:“我们正在教AI理解和模拟运动中的物理世界,目的是训练模型,帮助人们解决需要真实世界交互的问题。”

并称Sora能够从文本说明中生成长达60秒的视频,并能够提供具有多个角色,特定类型的动作和详细的背景细节的场景。Sora还能在一个生成的视频中创建多个镜头,体现人物和视觉风格。

此外,Sora可以一次性生成整个视频,也可以扩展生成的视频,使其更长。OpenAI表示:通过让模型一次生成多帧画面,我们解决了一个具有挑战性的问题,即:即使生成的主体暂时离开视线内,也能确保主体不变。

来自OpenAI Sora的AI生成视频图像:

一位女性在东京路灯的霓虹灯下行走

本文就基于Sora 详细的技术报告,找了一些要点来做分析。简单来说,Sora 的训练量足够大也产生了类似涌现的能力。

01

技术特点

三维空间的连贯性:Sora可以生成带有动态相机运动的视频。随着相机移动和旋转,人物和场景元素在三维空间中保持连贯的运动。

模拟数字世界:Sora还能模拟人工过程,如视频游戏。Sora能够同时控制Minecraft中的玩家,并高保真地渲染游戏世界及其动态。通过提及“Minecraft”的提示,可以零样本地激发Sora的这些能力。

长期连续性和物体持久性:对视频生成系统来说,Sora通常能够有效地模拟短期和长期的依赖关系。同样,它能在一个样本中生成同一角色的多个镜头,确保其在整个视频中的外观一致。

与世界互动:Sora有时能够模拟对世界状态产生简单影响的行为。例如,画家可以在画布上留下随时间持续的新笔触,或者一个人吃汉堡时留下咬痕。

02

训练过程

Sora 的训练受到了大语言模型(Large Language Model)的启发。这些模型通过在互联网规模的数据上进行训练,从而获得了广泛的能力。

Sora实际上是一种扩散型变换器模型(diffusion transformer)。

首先将视频压缩到一个低维潜在空间19中,然后将这种表现形式分解成时空区块,从而将视频转换为区块。

训练了一个用于降低视觉数据维度的网络。这个网络以原始视频为输入,输出在时间和空间上都被压缩的潜在表示。Sora在这个压缩的潜在空间上进行训练,并在此空间中生成视频。还开发了一个对应的解码器模型,它能将生成的潜在表示映射回到像素空间。

对于给定的压缩输入视频,提取一系列时空区块,它们在变换器模型中充当标记(token)。这种方案同样适用于图像,因为图像本质上是单帧的视频。

基于区块的表示方法使Sora能够针对不同分辨率、持续时间和纵横比的视频和图像进行训练。在推理过程中,可以通过在适当大小的网格中排列随机初始化的区块来控制生成视频的大小。

随着 Sora 训练计算量的增加,样本质量有了显著提升。

Sora训练时没有对素材进行裁切,使得Sora能够直接为不同设备以其原生纵横比创造内容。

针对视频的原生纵横比进行训练,还可以提高构图和取景的质量。

训练文本到视频的生成系统需要大量配有相应文本提示的视频。应用了在DALL·E 3中引入的重新字幕技术到视频上。

与DALL·E 3相似,也利用了GPT技术,将用户的简短提示转换成更详细的提示,然后发送给视频模型。Video generation models as world simulators

03

论文关键点

OpenAI 的研究论文《Video generation models as world simulators》探讨了在视频数据上进行大规模训练生成模型的方法。

这项研究特别关注于文本条件扩散模型,这些模型同时在视频和图像上进行训练,处理不同时长、分辨率和宽高比的数据。研究中提到的最大模型 Sora 能够生成长达一分钟的高保真视频。以下是论文的一些关键点:

  • 统一的视觉数据表示:研究者们将所有类型的视觉数据转换为统一的表示,以便进行大规模的生成模型训练。Sora 使用视觉补丁(patches)作为其表示方式,类似于大型语言模型(LLM)中的文本标记。

  • 视频压缩网络:研究者们训练了一个网络,将原始视频压缩到一个低维潜在空间,并将其表示分解为时空补丁。Sora 在这个压缩的潜在空间中进行训练,并生成视频。

  • 扩散模型:Sora 是一个扩散模型,它通过预测原始“干净”的补丁来从输入的噪声补丁中生成视频。扩散模型在语言建模、计算机视觉和图像生成等领域已经显示出了显著的扩展性。

  • 视频生成的可扩展性:Sora 能够生成不同分辨率、时长和宽高比的视频,包括全高清视频。这种灵活性使得 Sora 能够直接为不同设备生成内容,或者在生成全分辨率视频之前快速原型化内容。

  • 语言理解:为了训练文本到视频生成系统,需要大量的视频和相应的文本标题。研究者们应用了在 DALL·E 3 中引入的重新描述技术,首先训练一个高度描述性的标题生成器,然后为训练集中的所有视频生成文本标题。

  • 图像和视频编辑:Sora 不仅能够基于文本提示生成视频,还可以基于现有图像或视频进行提示。这使得 Sora 能够执行广泛的图像和视频编辑任务,如创建完美循环的视频、动画静态图像、向前或向后扩展视频等。

  • 模拟能力:当视频模型在大规模训练时,它们展现出了一些有趣的新兴能力,使得 Sora 能够模拟物理世界中的某些方面,如动态相机运动、长期一致性和对象持久性等。

  • 讨论:尽管 Sora 展示了作为模拟器的潜力,但它仍然存在许多局限性,例如在模拟基本物理交互(如玻璃破碎)时的准确性不足。研究者们认为,继续扩展视频模型是开发物理和数字世界模拟器的有前途的道路。

这篇论文提供了对 Sora 模型的深入分析,展示了其在视频生成领域的潜力和挑战。通过这种方式,OpenAI 正在探索如何利用 AI 来更好地理解和模拟我们周围的世界。

论文报告地址:https://openai.com/research/video-generation-models-as-world-simulators

内容来源: 

https://mp.weixin.qq.com/s/MyWPPY19wwsJv8zdBMxdFg

-  THE END  -


 精品活动推荐 


因文章部分文字及图片涉及到引用,如有侵权,请及时联系17316577586,我们将删除内容以保证您的权益。

谈思汽车 智能汽车安全新媒体
评论 (0)
  • 科技云报道原创。最简单的方式,往往是最有效的,勒索软件攻击就属于这类。近两年,随着人类社会加速向数字世界进化,勒索软件攻击成为网络安全最为严重的威胁之一。今年以来,勒索软件攻击在全球范围内呈现快速上升态势。11月10日,澳大利亚第二大港口运营商环球港务集团(DP World Australia)声称,其发现“系统遭到入侵”,并于下午关闭港口,采取切断网络等行动,阻止未经授权的访问。此举导致“支持澳大利亚港口运营的关键系统无法正常运行”,墨尔本、悉尼、布里斯班、弗里曼特尔等地多个主要城市港口货物运
    科技云报到 2024-04-23 15:21 112浏览
  • 一、实验目的学习G711音频的格式和G711A音频解码的原理,并实现将BIT格式解码为PCM格式。二、实验原理G711G711是国际电信联盟订定出来的一套语音压缩标准,主要用于电话。它主要用脉冲编码调制对音频采样,采样率为8k每秒。它利用一个 64Kbps 未压缩通道传输语音讯号。起压缩率为1:2,即把16位数据压缩成8位。G711是主流的波形声音编解码器。PCM是对模拟的连续信号进行抽样,G711则是对PCM数据进行再一次的抽样。G711主要是对16bit的PCM进行抽样,取到PCM的高位数据
    创龙教仪 2024-04-24 14:48 75浏览
  • 本视频来自凤凰卫视《世纪大讲堂》,演讲人是中国工程院院士、中国仪器仪表学会理事长尤政院士,主题是《传感器:亟待攻克的关键“卡脖子”技术》。尤政院士是中国传感器与微米纳米技术著名专家,本视频基于其深厚的专业素养,同时深入浅出,向我国大众科普传感器知识,提到中国传感器产业一些比较尖锐的问题,向许多甚少了解我国科技发展情况的朋友,阐述了我国传感器产业面临的情况。强烈推荐!专家档案尤政 ,中国工程院院士,华中科技大学校长,中国仪器仪表学会第十届理事长,中国微米纳米技术学会理事长,主要研究方向为微米纳米技
    传感器专家网 2024-04-23 10:09 115浏览
  • STC89C52RC比普通89C52多了后缀“RC”,虽然它们都是单片机芯片,但是带有“RC”字样的单片机自带RC时钟振荡电路(有的频率可调有的频率不可调),可以在不接外部晶振就能使用,没有带“RC”这个字样的芯片一般必须安装外部晶振电路。STC89C52RC是宏晶公司的增强型MCS-51单片机,与Atmel公司的AT89C52相比,有以下优点:支持STC的2线制下载方式,下载程序更方便;支持6T模式(在6T模式下,6个时钟周期就是一个机器周期);片内集成了4kB容量的E²PROM;带有P4口,
    丙丁先生 2024-04-23 10:39 99浏览
  • 当你用手机进行刷脸解锁,当你用浏览器以图搜图,当你使用扫一扫识别物品,当你用摄像头探视家中猫狗的一日,当你沉浸在VR游戏中感受未来……这些不同的视觉场景应用背后,计算机视觉都在发挥重要作用,通过图像处理、模式识别、机器学习等方式,成为现代科技的“眼睛”,扩大人类“视界”。计算机视觉是AI的一个重要领域,使得计算机和系统能够从图像、视频或其他视觉输入中获得有价值信息,并根据信息采取行动和智能决策。计算机视觉包含图像分类与识别、物体检测与分割、人体分析、3D识别与重建、视频理解与分析等重要任务,适用
    物吾悟小通 2024-04-23 18:03 106浏览
  • 科技云报道原创。超融合作为一种云时代的IT基础架构,诞生已有十余年,如今已是一种非常成熟且主流的应用。多年的技术发展和市场需求的快速增长,让超融合成了一个非常“卷”的市场,云服务商、HCI创业公司、综合IT供应商,甚至运营商、安全公司等跨界供应商都广泛参与其中。如此“卷”的中国超融合市场,给行业用户们带来的变化是非常明显的:一方面,超融合“计算存储网络资源池”的概念已烂熟于心,市场接受度逐步达到顶峰;另一方面,超融合产品同质化严重,在选型时容易陷入“乱花渐欲迷人眼”。但值得注意的是,在云原生、A
    科技云报到 2024-04-22 18:06 117浏览
  • 科技云报道原创。云服务市场再现降价潮。从上个月开始,各大云厂商开启了新一轮降价,尤其是到双十一期间降价幅度达到了顶峰。比如说,阿里云的“金秋创云季”,华为云的多样化优惠,腾讯云对轻量云服务器的聚焦。回头来看,头部云厂商主降价的背后,是市场策略的调整,更是对未来市场趋势的深思熟虑。随着各大云厂商纷纷加入战场,一场关于价格和服务的角逐再一次展开。今年第二波云厂商主动降价今年的双十一,成了云厂商们的竞技场,降价,促销,好不热闹。阿里云作为中国最大的云计算服务提供商,其在今年双十一的表现尤为引人注目。其
    科技云报到 2024-04-23 14:55 128浏览
  • 科技云报道原创。没有小的市场,只有还没有被发现的大生意。随着企业数字化转型的逐级深入,市场需求进一步向PaaS和SaaS层进发,使之成为公有云服务市场增长的主要动力。根据IDC最新发布的报告显示,2022-2027五年间中国公有云市场年复合增长率将达到26.9%,其中PaaS(平台即服务)增速最快,为30.5%,SaaS(软件即服务)紧随其后为28.7%。当云计算的基础设施建设完成后,中国公有云市场正在从资源驱动型延伸至技术和业务驱动。与此同时,生成式AI和大模型的快速发展,也在加速推动PaaS
    科技云报到 2024-04-22 17:24 283浏览
  • 科技云报道原创。2023年12月3日, Citrix(思杰)发布的公告将全面生效,中国市场(包括香港地区和澳门地区)也会停止所有新的交易。这个消息,无疑是引起了业界的热议,毕竟Citrix可以说是曾经凭借一己之力开拓了中国的桌面云市场。Citrix的主动退出,让市场遗憾的同时,也不由的抛出疑问,Citrix留下的空位,国产厂商中,谁的产品能够满足现有Citrix用户的替换需求?谁又能在这激烈的竞争中脱颖而出?Citrix退出后留下什么样市场机遇不可否认的是,Citrix一直是业内的标杆,曾经也一
    科技云报到 2024-04-23 15:41 131浏览
  • 【一文秒懂】Linux ADB调试环境搭建指南1、ADB介绍ADB:Android Debug Bridge,安卓调试桥,是用的最多的一种命令行工具,它能够在电脑端和安卓支持的设备端进行通信,其通信方式有两种:USB或者TCP/IP。它能够支持多种设备端的操作,包括:网络,脚本,安装和调试应用,文件传输等,同时也支持访问unix shell。adb命令行工具,随着安卓SDK平台工具一起发布,是安卓SDK的一个组件。 2、ADB架构及组成它是一个C/S(client-server)架构的
    _嵌入式艺术_ 2024-04-23 07:52 143浏览
我要评论
0
0
点击右上角,分享到朋友圈 我知道啦
请使用浏览器分享功能 我知道啦