sora已发布,现实不存在了?

原创 老徐的技术专栏 2024-02-17 22:58

编辑:小黑   版面:梁静

2024年216号,openAI发布了其新的研究成果Sora,从其官网介绍可知,sora可以基于详细的文本描述生成60s的视频,并且包含高度细致的背景、复杂的多角度镜头,以及富有情感的多个角色,和之前各家发布的文生图工具生成的各种各样抽象的图片不同,Sora几乎可以达到电影级别的效果。

不过目前openAI并没有向大众开放这一功能,截止目前也只向一部分专业人士开放,我们也只能在openAI官网上欣赏已经生成好的视频。

下面的这段sora生成的视频里,一位女士身穿黑色皮衣、还有多镜头,包括从大街景慢慢的切入到对女士的脸部表情的特写,以及潮湿的街道反射霓虹灯的光影效果,总体上效果非常惊艳!

sora的基本原理

OpenAI 也发布了一份关于 Sora 详细的技术报告,介绍了其背后的技术原理和应用。

那么,Sora 是如何实现这一突破的呢?受到 LLM 成功实践经验的启发,OpenAI 引入了视觉块嵌入代码(patches),这是一种高度可扩展且有效的视觉数据表现形式,能够极大地提升生成模型处理多样化视频和图像数据的能力。

在高维度空间中,OpenAI 首先将视频数据压缩至一个低维潜在空间,然后再将其分解为时空嵌入,从而将视频转化为一系列编码块。

接下来,OpenAI 训练了一个专门用于降低视觉数据维度的网络。该网络以原始视频作为输入,输出的潜在表示在时间和空间上都经过了压缩。Sora 正是在这个压缩后的潜在空间中进行训练,并在该空间内生成视频。

此外,OpenAI 还训练了一个解码器模型,能够将这些潜在表征还原为像素级的视频图像。

通过对压缩后的视频输入进行处理,研究人员能够提取出一系列的时空 patchs,这些 patchs 在模型中扮演着类似于 Transformer Tokens 的角色。

采用基于 patchs 的表现形式,Sora 能够适应不同分辨率、持续时间及宽高比的视频和图像,在生成新视频内容时,可以通过将这些随机初始化的 patchs 按照需要的大小排列成网格,来控制最终视频的大小和形式。


尽管上述原理听起来颇为复杂,但实际上 OpenAI 所用到的这项新技术——视觉块嵌入代码(简称视觉块),就好比是将一堆杂乱无章的积木整理好放入一个小盒子中。如此一来,即便面对众多积木,只要找到了这个小盒子就能轻松找到所需积木。

由于视频数据被转化为了一个个小方块的形式,当 OpenAI 向 Sora 提供一个新的视频任务时,他们首先会从该视频中提取出一些包含时间和空间信息的小方块。随后将这些小方块交给 Sora 让其根据这些信息生成新的视频。

这样就可以像拼拼图一样,把视频重新组合起来。这样做的好处是,计算机可以更快地学习和处理各种不同类型的图片和视频。

随着 Sora 的训练越来越深入,OpenAI 的研究人员还发现随着训练计算量的增加,样本质量得到了显著提高。

OpenAI 发现直接在数据的原始尺寸上进行训练具有诸多优势:


  • Sora 训练时没有对素材进行裁切,使得 Sora 能够直接按照不同设备的原生宽高比创建内容。


  • 在视频的原生宽高比上进行训练,能够显著提升视频的构图与布局质量。

此外,Sora 还具有以下特性:

训练文本到视频生成系统需要大量带有文字标题的视频。OpenAI 将在 DALL·E 3 中引入的重新标注技术应用到视频上。

类似于 DALL·E 3,OpenAI 利用 GPT 将用户的简短提示转换成更长的详细说明,然后发送给视频模型,从而使得 Sora 能够生成高质量的视频。

除了可以从文字转化而来,Sora 还能接受图片或已有视频的输入。这项功能让 Sora 能够完成各种图片和视频编辑任务,比如制作无缝循环视频、给静态图片添加动画效果、延长视频的播放时间等。 

现实和虚拟的界限正在消失

sora基于对语言的深刻理解,可以准确理解用户的指令,把握这些元素在现实世界中的表现形式,可以对角色、动作类型、视角、背景的细节进行精确的描绘,现实和虚拟之间的界面几乎达到了无法分辨的程度。

在sora之前,网络有个梗“众所周知,视频是不能P的”,sora之后,新的时代已经来临,视频完全可以从无到有,眼见不一定为实。

当然,sora现在仍然有很大的缺陷,比如不能准确的模拟真实的物理现象,比如下图,玻璃跌落之后,仍然没有碎裂,不过这些问题的解决都是时间问题。

sora时代的机会

sora的诞生是一个里程碑式的进步,各行各业都有非常大的应用潜力。

首先影响最大的就是视频应用行业,比如自媒体up主、广告行业,原先需要专业团队进行使用专业的软件工具进行渲染而成的素材,一个普通的个体户就可以通过关键词引导AI生成电影级别的画面,提高自己的内容质量;

只要有照片,借助sora也可以帮助一些想念的亲人在视频里“生活”以缓解思念之情;

sora可以给游戏开发者提供丰富的视觉素材,加速游戏内容的创作过程;可以应用在交互式的游戏内容生成中,增强玩家的用户体验。

应用在AR/VR/MR中,sora可以为用户搭建复杂而逼真的虚拟环境(再也不用看虚拟的动画场景了),在虚拟世界里,用户就是虚拟世界的上帝,可以生成任何用户想看到的场景;戴上MR眼镜,如果觉得对象的颜值不满意,可以直接让AI将人脸替换成刘亦菲、古天乐的脸,每天和不同的帅哥美女谈恋爱。。。

在科学研究和工程应用上,可以生成复杂的物理现象,比如流体动力学、天体运动等。

sora也让伪造视频变得更加容易,肖像权的保护更为重要,打个比方,谁也不想看到有一天被仇家拿自己的照片使用AI生成一段在吃“shi”的视频在网上传播。

所以在积极推动人工智能技术应用的同时,加强对其负面影响的监控,在法律上及时跟上,才能更好的迎接AIGC时代的来临。

老徐的技术专栏 专注于手机、IOT等领域的高速PCB电路、基带、RF以及BSP领域的开发知识的分享。
评论
  • 速卖通,作为阿里巴巴集团旗下的跨境电商平台,于2010年横空出世,彼时正值全球电商市场蓬勃发展,互联网的普及让跨境购物的需求日益增长,速卖通顺势而为,迅速吸引了全球目光。它以“让天下没有难做的生意”为使命,致力于打破国界限制,搭建起中国商家与全球消费者之间的桥梁。在其发展的黄金时期,速卖通取得的成绩令人瞩目。在欧洲市场,速卖通一度成为第一大电商平台。根据第三方机构《欧洲跨境商务》的评选,速卖通凭借出色的服务和消费者口碑,在“欧洲十大跨境电商平台”中脱颖而出,力压来自美国的亚马逊和eBay等电商巨
    用户1742991715177 2025-04-26 20:23 91浏览
  • 2025年全球人形机器人产业迎来爆发式增长,政策与资本双重推力下,谷歌旗下波士顿动力、比亚迪等跨国企业与本土龙头争相入局,产业基金与风险投资持续加码。仅2025年上半年,中国机器人领域就完成42笔战略融资,累计金额突破45亿元,沪深两市机器人指数年内涨幅达68%,印证了资本市场对智能终端革命的强烈预期。值得关注的是,国家发展改革委联合工信部发布《人形机器人创新发展行动计划》,明确将仿生感知系统、AI决策中枢等十大核心技术纳入"十四五"国家重大专项,并设立500亿元产业引导基金。技术突破方面,本土
    电子资讯报 2025-04-27 17:08 46浏览
  •     今天,纯电动汽车大跃进牵引着对汽车电气低压的需求,新需求是48V。车要更轻,料要堆满。车身电子系统(电子座舱)从分布改成集中(域控),电气上就是要把“比12V系统更多的能量,送到比12V系统数量更少的ECU去”,所以,电源必须提高电压,缩小线径。另一方面,用比传统12V,24V更高的电压,有利于让电感类元件(螺线管,电机)用更细的铜线,缩小体积去替代传统机械,扩大整车电气化的边界。在电缆、认证行业60V标准之下,48V是一个合理的电压。有关汽车电气低压,另见协议标准第
    电子知识打边炉 2025-04-27 16:24 41浏览
  • 在给别人审查PCB的时候,有时产生这样的感觉:说是一回事,但自己做又是另一回事了。也就是有时候对别人的标准就非常严格,而对自己就相对放宽些。不知道你是否会有这样的感觉呢?对于给别人审查PCB而言,这就是找茬,无论具细,都会一 一列出。这是工作应有的态度,也是对板子的负责,这不是故意为难别人。当然,可能也有点“饱汉不知饿汉饥”的意味。如果遇到执行力强的人,那这些审查意见,只会对最终的板子有好处,增强稳定性。如果遇到的是执行力差的人,但多少也会改变点,这也并不会造成坏的结果。那么对自己而言,当自己亲
    wuliangu 2025-04-26 15:26 92浏览
  •   基于图像识别技术的数据库检索系统平台解析   北京华盛恒辉基于图像识别技术的数据库检索系统平台融合计算机视觉与数据库管理技术,实现智能化图像检索。以下从架构、功能、技术、应用及发展方向展开解析。   应用案例   目前,已有多个基于图像识别技术的数据库检索系统在实际应用中取得了显著成效。例如,北京华盛恒辉和北京五木恒润基于图像识别技术的数据库检索系统。这些成功案例为基于图像识别技术的数据库检索系统的推广和应用提供了有力支持。   一、系统架构设计   数据采集层:收集各类图像数据,
    华盛恒辉l58ll334744 2025-04-26 16:02 145浏览
  • 探针台作为半导体制造与测试的核心设备,通过精密定位与多环境适配能力,支撑芯片研发、生产及验证全流程。以下是其关键应用领域与技术特性:一、核心功能支撑1.‌电性能测试与分析‌l 在晶圆切割前,探针台直接接触芯片电极,测量阈值电压、漏电流、跨导等200余项参数,用于评估良品率及优化工艺设计。l 支持单晶体管I-V曲线测量,定位栅极氧化层厚度偏差(精度达0.2nm),为器件性能分析提供数据基础。2.‌纳米级定位与测量‌l 定位精度达±0.1μm,满足5nm及以下制程芯片的
    锦正茂科技 2025-04-27 13:09 40浏览
  •   无人机部件仿真与模型验证平台系统解析   北京华盛恒辉无人机部件仿真与模型验证平台系统是无人机研发的核心工具,通过多元功能、创新架构和广泛应用,推动无人机技术发展。以下从核心功能、技术架构、应用场景、优势及发展趋势展开解析。   应用案例   目前,已有多个无人机部件仿真与模型验证平台在实际应用中取得了显著成效。例如,北京华盛恒辉和北京五木恒润无人机部件仿真与模型验证平台。这些成功案例为无人机部件仿真与模型验证平台的推广和应用提供了有力支持。   一、核心功能   三维建模与可视化
    华盛恒辉l58ll334744 2025-04-26 16:39 175浏览
  •  集成电路封装测试是确保芯片性能与可靠性的核心环节,主要包括‌晶圆级测试(CP测试)‌和‌封装后测试(FT测试)‌两大阶段,流程如下:一、晶圆级测试(CP测试)1.‌测试目的‌:在晶圆切割前筛选出功能缺陷或性能不达标的晶粒(Die),避免后续封装环节的资源浪费,显著降低制造成本。2.‌核心设备与操作‌l ‌探针台(Prober)‌:通过高精度移动平台将探针与晶粒的Pad jing准接触,实现电气连接。l ‌ATE测试机‌:提供测试电源、信号输入及功能向量,接收晶粒反
    锦正茂科技 2025-04-27 13:37 41浏览
  •   北京华盛恒辉电磁环境适应性测试系统是针对复杂电磁环境进行仿真、测试与评估的关键设备,以下从系统功能、技术架构、应用场景、核心优势、发展趋势五个维度展开全面解析:   应用案例   目前,已有多个电磁环境适应性测试系统在实际应用中取得了显著成效。例如,北京华盛恒辉和北京五木恒润电磁环境适应性测试系统。这些成功案例为电磁环境适应性测试系统的推广和应用提供了有力支持。   一、系统功能   复杂电磁环境构建   全生命周期测试能力   实时监测与反馈   二、技术架构   模块化设
    华盛恒辉l58ll334744 2025-04-26 17:21 174浏览
  • 探针台作为高精度测试设备,在光电行业的关键器件研发、性能测试及量产质量控制中发挥核心作用,主要涵盖以下应用场景与技术特性:一、光电元件性能测试1.‌光电器件基础参数测量‌l 用于LED、光电探测器、激光器等元件的电流-电压(I-V)特性、光功率、响应速度等参数测试,支撑光通信、显示技术的器件选型与性能优化。l 支持高频信号测试(如40GHz以上射频参数),满足高速光调制器、光子集成电路(PIC)的带宽与信号完整性验证需求。2.‌光响应特性分析‌l 通过电光转换效率测
    锦正茂科技 2025-04-27 13:19 46浏览
我要评论
0
点击右上角,分享到朋友圈 我知道啦
请使用浏览器分享功能 我知道啦