Sora之后,视频生成模型的中国牌局

原创 脑极体 2024-12-10 17:44


Sora,自2月16日OpenAI发布后一直被吐槽是“技术期货”,终于在12月10日,正式版Sora露面了,可以生成最高 1080p 分辨率、最长 20 秒的视频。



OpenAI CEO奥特曼称,Sora正式版是视频生成领域的GPT-1时刻。


但国内AI企业,并没有像跟进GPT时期一样,在视频生成领域也与OpenAI保持同步,而是呈现出更复杂的态度。


有人选择跟进,比如Sora问世之后,互联网公司如阿里、字节跳动、快手、腾讯等,AI公司如智谱AI、MiniMax、爱诗科技、生数科技等,都陆续发布了视频生成模型,不少都表示达到或超越了预览版Sora。


也有人选择不跟进,包括互联网公司中的百度,李彦宏曾明确表示,“无论Sora多么火爆百度都不去做”。AI公司如百川智能,也明确表示不会做类Sora模型,月之暗面、商汤科技、零一万物虽然都有文生视频模型,但都不作为重点。


视频生成赛道,不再延续GPT时代的发展模式,即OpenAI打出一张王牌,国内科技企业抢着要跟。Sora之后,国内AI牌局开始有了自己的节奏,也呈现出更为复杂的局势。


有能力做通用基础大模型的国内科技公司,在技术路线、商业前景等判断上,开始出现明显分野。我们就从国内企业跟进Sora的选择与否,聊聊视频生成的中国牌局。



首先我们要明确一下,国内对标Sora模型的科技公司,到底在做什么?


简单来说,Sora视频生成模型的核心技术路线是Diffusion+Transformer相结合,通过文本(自然语言)、图片、视频作为提示词prompts进行视频生成。



对标Sora的模型,至少要具备几个特点:


1.通用性,不针对某一类风格、行业、角色等,任意内容的视频都可以生成。


2.高质量,画质精度高(达到1080p)、视频时间长(最长达一分钟)、画面一致性强(理解物理规律)。


面对Sora,国内科技企业不像ChatGPT推出时那样毫无准备。但到底跟or不跟,却不再像ChatGPT那样高度一致,而是分化成了三类:


第一类,明确跟进。


互联网公司阵营中,以视频为核心业务的字节跳动、快手等,以及综合科技公司腾讯,数字基建成熟,技术人才资源充沛,内部有视频产品基因,几乎第一时间选择了跟进。字节跳动推出了即梦Dreamnia,快手也发布了可灵大模型。腾讯以混元大模型作为核心,发布并开源了混元多模态生成模型,被认为是腾讯版Sora。



大模型初创企业中,智谱AI的行动最为敏捷,今年7月发布了AI视频生成工具清影,支持用户通过文本/图片,生成10秒、4K、60帧视频。MiniMax的海螺AI也在十月增加了视频生成能力,支持文本提示词生成6秒视频片段。



第二类,坚决不跟。


与第一类企业的态度截然相反,互联网公司和大模型创企中也有坚决不跟Sora的。比如Sora问世之后,百川智能的王小川就表示,团队有人提出要做Sora,但他明确表态称不会跟进这个方向。


同样想法的还有百度李彦宏,尽管百度已经在视频生成领域取得了一定的成果,但他不做Sora的态度也非常坚决,原因是Sora的商业化可能要五年甚至十年,目前百度更聚焦在大语言模型、多模态大模型,没有类Sora的产品化尝试。


第三类,浅尝辄止。


除此之外,还有大量国内企业对于Sora,出于FOMO“恐惧错过”心理有所布局,但并不重点投入,处于一种浅尝辄止的状态。



比如阿里系中的阿里妈妈团队发布了tomoVideo,试水电商营销的视频生成场景;“大模型六小虎”中,月之暗面也推出了视频生成模型,但仍聚焦在kimi产品上;零一万物入局B端业务,而视频生成模型面向的影视制作行业正处于调整期,类Sora产品也很难成为核心增长点。


总结一下,如果说全球大模型是一场“斗地主”,那么游戏规则不再是OpenAI打出一张王炸,国内科技公司纷纷跟上,而是各自按照自己手里的牌面、业务重要性和优先级,来确定Sora的出牌策略。


为什么到了Sora,大模型行业的游戏规则就变了?



国内科技企业的表现说明,对于Sora存在非共识,整体还是比较混乱、规则模糊的阶段。迷雾中的领域,游戏规则自然只能自行探索。


如今视频生成领域的现状,笼罩着三重迷雾。


技术迷雾:OpenAl认为Sora是世界模拟器、通往AGl的一条有前途的途径,这一技术路线目前存在不少争议。


比如李飞飞、lecun等人认为,Sora不能实现AGI。李飞飞提出,Sora仍是二维图像,只有三维空间智能才能实现AGI。Sora预览版展示的“日本女性走过霓虹闪烁东京街头”的生成视频,就无法把摄像机放在女子背后,说明Sora并没有真的理解三维世界。学术大神Lecun也点名不看好Sora,说它根本不是真正的世界模型,并且仍会面临GPT4的巨大瓶颈。



确实,即使是正式版Sora,生成的手部细节不准确,动态过程中的一致性等问题,依然存在。


而国内公司坚定不跟进Sora的原因之一,也是对这一技术路线保留意见。比如百川智能的王小川就认为,Sora只是阶段性产物,技术高度、突破性以及应用价值均不及GPT。总之,实现AGI、模拟物理世界的技术路线的开放性,决定了Sora并非唯一解。


商业迷雾:视频生成模型的商用前景、投资回报比,在短期内都不明朗,成为劝退国内企业的另一重阻碍。



预览版和正式版Sora,都延续了OpenAI的“暴力美学”,OpenAI 研究科学家 Noam Brown 表示,Sora是scale力量最直观的展示,也就是通过堆算力、对数据、对参数量的方式,来尝试让大模型涌现出理解物理世界的能力。这种方法成本高、资源投入大。是否跟进Sora,就取决于各家对模型的商用预期和投资回报比。


如果视频生成模型面向ToB收费,通过API或SaaS服务,都需要基础模型厂商投入大量人力去优化业务流程、开发交互页面,而影视行业正处于调整周期,AI影视制作业务的增长有限。这就在无形中增加了AI企业的机会成本,因为同样的人力、物力、算力,投入到金融AI、教育AI、大型政企等领域,显然收效更大。所以,百度、零一万物等公司,都将视频生成领域作为边缘业务,并不重点投入。



而ToC场景中,一方面个人付费意愿不高,视频生成并不是大众日常使用的高频场景,而且生成成本和订阅费一般都比文本模型高,加上Sora模型都没能解决幻觉、一致性难题,未必能创造实际价值,所以C端付费规模十分有限。另一方面,模型完全免费,把视频生成模型产品作为企业的流量入口,这一商业模式只适合将视频作为核心业务的企业。


比如快手、字节跳动,本身就有核心的视频业务,可以快速实现模型的规模化。面向C端用户或B端生产力工具,这类企业能够快速将视频生成能力与现有产品进行集成与整合,模型研发的边际成本是会随着规模商用而下降的。


整体来看,对国内绝大多数基础模厂,视频生成领域都是一个相对边缘、投资回报比不高的业务。


第三重迷雾,就是市场格局的竞争迷雾。


虽然视频生成模型现在商业前景不明,但有没有可能以后会爆发,企业悄悄投入然后惊艳所有人?这种押注边缘赛道“捡大漏”的商业神话,在大模型身上恐怕很难发生。


当前,大模型的产品化、商业化前景普遍比较模糊,通用模型厂商都需要尽快从一大堆不甚明朗的产品中,选出一个更高成功概率和更大市场潜力的选项,重点投入。而在所有产品中,视频生成模型是一个尤为沉重且具有挑战性的项目。这种情况下,肯定要优先考虑成功率更高的产品,降低视频生成模型的业务优先级。



换一个角度,即便企业将视频生成模型的优先级放到最高,恐怕也很难建立起竞争优势。因为当前大模型的市场竞争情况跟GPT时期不太一样,如今各家在基础训练设施、核心架构设计与技术储备等方面都有了一定积累,复现Sora并上线类Sora应用的技术壁垒,其实没有ChatGPT时期那么难了。这也意味着,即使企业先发布了视频生成模型,也未必能长期保持竞争优势和市场垄断地位,这种竞争态势也削弱了Sora的商业想象空间。


技术迷雾、商业迷雾、竞争迷雾,仍然笼罩在视频生成领域,导致Sora这一场牌局有着太多的不确定,和太多可能。哪种理解是对的,哪条路线是最终赢家,目前都言之过早,各家只能按照自己的游戏规则玩下去。



大模型技术必须继续发展下去,但从Sora开始,国内科技企业不再紧跟着OpenAI亦步亦趋,开始有了自己的节奏感。


具体表现在,对于Sora这样一鸣惊人的新东西,国内企业在大模型产品化、商业化上都有了自己的理解与思考,开始自己定义玩法,跟进Sora展现的是实力,不跟进Sora展现的是心态与战略定力。


此外,不一味跟进产品,但OpenAI的叙事能力仍然值得学习。



无论是2月用Sora抢走谷歌风头,还是近期Sora正式上线,OpenAI总能一次次带动节奏、设置议题、吸引关注,这对于资本密集型AI企业是非常重要的能力。


可以不跟进Sora,但不能遗漏关键技术。


以百度为例,虽然没有推出Sora产品的计划,但自身也没有缺席关键技术,比如自研了多模态可控生图技术,能够在保持实体特征不变的情况下,实现图像的高泛化生成,而可控性的提升,恰恰是视频生成下一阶段核心中的核心。此外,百度也没有完全无视视频生成领域,目前投资了视频生成初创公司生数科技、AI视频短剧公司井英科技等。



聚焦主赛道,以自身核心业务、商业优先级等多元因素来确定追赶Sora的轻重缓急。大模型的牌局,国内企业正在找到自己的节奏感。


·
·

·

脑极体 从技术协同到产业革命,从智能密钥到已知尽头
评论
  • Ubuntu20.04默认情况下为root账号自动登录,本文介绍如何取消root账号自动登录,改为通过输入账号密码登录,使用触觉智能EVB3568鸿蒙开发板演示,搭载瑞芯微RK3568,四核A55处理器,主频2.0Ghz,1T算力NPU;支持OpenHarmony5.0及Linux、Android等操作系统,接口丰富,开发评估快人一步!添加新账号1、使用adduser命令来添加新用户,用户名以industio为例,系统会提示设置密码以及其他信息,您可以根据需要填写或跳过,命令如下:root@id
    Industio_触觉智能 2025-01-17 14:14 125浏览
  • 2024年是很平淡的一年,能保住饭碗就是万幸了,公司业绩不好,跳槽又不敢跳,还有一个原因就是老板对我们这些员工还是很好的,碍于人情也不能在公司困难时去雪上加霜。在工作其间遇到的大问题没有,小问题还是有不少,这里就举一两个来说一下。第一个就是,先看下下面的这个封装,你能猜出它的引脚间距是多少吗?这种排线座比较常规的是0.6mm间距(即排线是0.3mm间距)的,而这个规格也是我们用得最多的,所以我们按惯性思维来看的话,就会认为这个座子就是0.6mm间距的,这样往往就不会去细看规格书了,所以这次的运气
    wuliangu 2025-01-21 00:15 194浏览
  • 嘿,咱来聊聊RISC-V MCU技术哈。 这RISC-V MCU技术呢,简单来说就是基于一个叫RISC-V的指令集架构做出的微控制器技术。RISC-V这个啊,2010年的时候,是加州大学伯克利分校的研究团队弄出来的,目的就是想搞个新的、开放的指令集架构,能跟上现代计算的需要。到了2015年,专门成立了个RISC-V基金会,让这个架构更标准,也更好地推广开了。这几年啊,这个RISC-V的生态系统发展得可快了,好多公司和机构都加入了RISC-V International,还推出了不少RISC-V
    丙丁先生 2025-01-21 12:10 118浏览
  • 高速先生成员--黄刚这不马上就要过年了嘛,高速先生就不打算给大家上难度了,整一篇简单但很实用的文章给大伙瞧瞧好了。相信这个标题一出来,尤其对于PCB设计工程师来说,心就立马凉了半截。他们辛辛苦苦进行PCB的过孔设计,高速先生居然说设计多大的过孔他们不关心!另外估计这时候就跳出很多“挑刺”的粉丝了哈,因为翻看很多以往的文章,高速先生都表达了过孔孔径对高速性能的影响是很大的哦!咋滴,今天居然说孔径不关心了?别,别急哈,听高速先生在这篇文章中娓娓道来。首先还是要对各位设计工程师的设计表示肯定,毕竟像我
    一博科技 2025-01-21 16:17 105浏览
  • 本文介绍瑞芯微开发板/主板Android配置APK默认开启性能模式方法,开启性能模式后,APK的CPU使用优先级会有所提高。触觉智能RK3562开发板演示,搭载4核A53处理器,主频高达2.0GHz;内置独立1Tops算力NPU,可应用于物联网网关、平板电脑、智能家居、教育电子、工业显示与控制等行业。源码修改修改源码根目录下文件device/rockchip/rk3562/package_performance.xml并添加以下内容,注意"+"号为添加内容,"com.tencent.mm"为AP
    Industio_触觉智能 2025-01-17 14:09 167浏览
  • 现在为止,我们已经完成了Purple Pi OH主板的串口调试和部分配件的连接,接下来,让我们趁热打铁,完成剩余配件的连接!注:配件连接前请断开主板所有供电,避免敏感电路损坏!1.1 耳机接口主板有一路OTMP 标准四节耳机座J6,具备进行音频输出及录音功能,接入耳机后声音将优先从耳机输出,如下图所示:1.21.2 相机接口MIPI CSI 接口如上图所示,支持OV5648 和OV8858 摄像头模组。接入摄像头模组后,使用系统相机软件打开相机拍照和录像,如下图所示:1.3 以太网接口主板有一路
    Industio_触觉智能 2025-01-20 11:04 157浏览
  •  万万没想到!科幻电影中的人形机器人,正在一步步走进我们人类的日常生活中来了。1月17日,乐聚将第100台全尺寸人形机器人交付北汽越野车,再次吹响了人形机器人疯狂进厂打工的号角。无独有尔,银河通用机器人作为一家成立不到两年时间的创业公司,在短短一年多时间内推出革命性的第一代产品Galbot G1,这是一款轮式、双臂、身体可折叠的人形机器人,得到了美团战投、经纬创投、IDG资本等众多投资方的认可。作为一家成立仅仅只有两年多时间的企业,智元机器人也把机器人从梦想带进了现实。2024年8月1
    刘旷 2025-01-21 11:15 502浏览
  • 数字隔离芯片是一种实现电气隔离功能的集成电路,在工业自动化、汽车电子、光伏储能与电力通信等领域的电气系统中发挥着至关重要的作用。其不仅可令高、低压系统之间相互独立,提高低压系统的抗干扰能力,同时还可确保高、低压系统之间的安全交互,使系统稳定工作,并避免操作者遭受来自高压系统的电击伤害。典型数字隔离芯片的简化原理图值得一提的是,数字隔离芯片历经多年发展,其应用范围已十分广泛,凡涉及到在高、低压系统之间进行信号传输的场景中基本都需要应用到此种芯片。那么,电气工程师在进行电路设计时到底该如何评估选择一
    华普微HOPERF 2025-01-20 16:50 76浏览
  • 临近春节,各方社交及应酬也变得多起来了,甚至一月份就排满了各式约见。有的是关系好的专业朋友的周末“恳谈会”,基本是关于2025年经济预判的话题,以及如何稳定工作等话题;但更多的预约是来自几个客户老板及副总裁们的见面,他们为今年的经济预判与企业发展焦虑而来。在聊天过程中,我发现今年的聊天有个很有意思的“点”,挺多人尤其关心我到底是怎么成长成现在的多领域风格的,还能掌握一些经济趋势的分析能力,到底学过哪些专业、在企业管过哪些具体事情?单单就这个一个月内,我就重复了数次“为什么”,再辅以我上次写的:《
    牛言喵语 2025-01-22 17:10 68浏览
  •     IPC-2581是基于ODB++标准、结合PCB行业特点而指定的PCB加工文件规范。    IPC-2581旨在替代CAM350格式,成为PCB加工行业的新的工业规范。    有一些免费软件,可以查看(不可修改)IPC-2581数据文件。这些软件典型用途是工艺校核。    1. Vu2581        出品:Downstream     
    电子知识打边炉 2025-01-22 11:12 77浏览
我要评论
0
点击右上角,分享到朋友圈 我知道啦
请使用浏览器分享功能 我知道啦