投资人圈子里今天流传一个段子:今天终于可以睡个好觉了,因为再也不用担心哪天我投资的那些视频生成公司被别人超过了。

上个月接受甲子光年采访《AI 一天,人间一年:我与 AI 的 2023|甲子光年》的时候,我预测了 2024 年的四大趋势,第一条就是视频生成,没想到这么快就成真了。(当然,目前 Sora 生成的视频包含的语义还并不复杂,而且也做不到实时生成,所以大家还有机会)

  1. 多模态大模型能够实时理解视频,实时生成包含复杂语义的视频;
  2. 开源大模型达到GPT-4 水平;
  3. GPT-3.5 水平开源模型的推理成本降到 GPT-3.5 API 的百分之一,让应用在集成大模型的时候不用担心成本问题;
  4. 高端手机支持本地大模型和自动 App 操控,每个人的生活都离不开大模型。

视频生成模型是世界模拟器

OpenAI 的技术报告标题也很有深意:视频生成模型是世界模拟器。(Video generation models as world simulators)

技术报告的最后一句话我觉得写得也很好:我们相信,Sora 如今所展现出的能力表明,持续扩展视频模型是一条通往强大模拟器的希望之路,可以模拟物理世界、数字世界以及生活在这些世界中的对象、动物和人。

其实 OpenAI 早在 2016 年,就明确提出生成模型是让计算机理解世界最有潜力的方向。还专门引用了物理学家费曼的一句话:What I cannot create, I do not understand. (我不能创作出来的,我就没有理解)

去年底听了一个 panel,好几个大佬讨论大模型到底需不需要是世界模型,竟然有几位大佬认为大模型不需要对世界的理解也能做好生成。所以我感觉国内大模型差距最大的是 vision 或者说 research taste,什么东西能做,什么东西不能做,什么技术路径靠谱,什么技术路径不靠谱,很多人的 research taste 真的跟 OpenAI 有很大差距。他们喜欢四处搜集一些 OpenAI 的小道消息,说,GPT-4 估计用了这些 trick,我们照着做就能少走些弯路。这就像是清末的 “师夷长技以制夷”,还停留在 “器物” 的阶段。

2018 年,我博士毕业找工作的时候,也面试了好几家自动驾驶公司。当了解到当时的自动驾驶技术是用几万个 if-else 之后,就对这条技术路线是否能达到 L4 自动驾驶产生了深深的怀疑。我当时就说,比如路上有一个掉落的东西,是可以压过去还是要绕路或者刹车,必须有个世界模型,了解各种物体的性质,才可能以足够高的概率做对。可惜,2018 年并没有多少人认为世界模型是可能的,也没有多少人认为世界模型是必要的。

有些人看到这次 Sora 下面这个 4 秒钟的视频,就觉得好像 RunwayML 的 Gen2 也能做到类似质量的视频呀。但其实看看 OpenAI Sora 发布页面上其他视频细节中所体现的一致性和物理规律遵循程度,就能发现 Sora 的能力明显超过了现有的所有视频生成模型。

OpenAI Sora 发布页面上的众多惊艳视频可能大家都看过。技术报告很多人就不会翻到最后一章了,但我觉得最后一章的 “仿真能力涌现” 才是 Sora 的精华。

模拟虚拟世界

我认为最能体现 Sora 实力的其实是技术报告里的倒数第二组视频,就是给定一个文本 prompt 就能生成 Minecraft 游戏的视频。如果它不是简单把训练数据里面的 Minecraft 视频稍微改了改输出的话,那就说明 Sora 真的理解了 Minecraft 游戏,而且理解了游戏物理引擎里面包含的物理规律和世界常识。

Sora 技术报告里面的最后一组视频是一个失败的例子。打破杯子的时候水的流动明显不符合物理规律。技术报告认为这是 Sora 主要的局限性。这也再次说明 Sora 最关心的是模型对世界的仿真是否准确。

“仿真能力涌现” 一章中除了仿真虚拟世界以外,还讲了三个重要特性:

3D 一致性

Sora 能够生成具有动态摄像机运动的视频。随着摄像机的移动和旋转,人物和场景元素在三维空间中一致地移动。

远程连贯性和物体常在性

对于视频生成系统来说,一个重大挑战一直是在采样长视频时保持时间上的一致性。我们发现 Sora 通常能够(尽管不总是)有效模拟短期和长期的依赖关系。例如,我们的模型即使在人物、动物和物体被遮挡或离开画面时,也能持续地呈现它们。同样,它可以在单个样本中生成同一个角色的多个镜头,贯穿整个视频保持他们的外观。

与世界互动

Sora 有时能够以简单的方式模拟影响世界状态的行为。例如,画家可以在画布上留下随时间持续的新笔触。

Sora 是一个数据驱动的物理引擎

我很久之前就说,视频生成可以用现实视频加上游戏视频来训练,关键是理解物理引擎中的世界模型。就像自动驾驶的很多 corner case 都是在类似游戏的仿真器里面模拟的。很多人对这种 Sim2Real 的方法不认同,认为游戏里面的场景跟真实世界不一样,游戏视频是垃圾数据,肯定不如仅使用现实世界的视频训练出来的效果更好。我认为视频生成的关键不在于模型贴图是否精细,而在于是否理解物理规律和各种物体的性质。

NVIDIA 研究科学家 Jim Fan 跟我的观点一致。他在 Twitter 上说:

如果你以为 OpenAI Sora 只是一个像 DALLE 这样的创意玩具,…那你就得重新认识它了。Sora 是一个数据驱动的物理引擎。它模拟了许多真实或幻想的世界。这个模拟器通过一些去噪技术和梯度数学学会了复杂的渲染、”直观”的物理学、长视角推理和语义理解。

如果说 Sora 是用使用了 Unreal Engine 5 的大量合成数据进行训练,我一点也不奇怪。它必须这么做!

让我们解析以下视频。文本 prompt:“一个杯子里两艘海盗船战斗的逼真近距离视频。”

  • 模拟器实例化了两个精致的 3D 场景:装饰各异的海盗船。Sora 必须在其潜在空间中隐式解决文本到 3D 的问题。
  • 这些 3D 对象在航行时能够一致地进行动画处理,避开彼此的路径。
  • 咖啡的流体动力学,甚至是围绕船只形成的泡沫。流体模拟是计算机图形学的一个完整子领域,传统上需要非常复杂的算法和方程式。
  • 几乎可以与光线追踪渲染的逼真效果媲美。
  • 模拟器考虑到杯子的小尺寸与海洋相比,运用倾斜移轴摄影技术给人一种 “微观” 的感觉。
  • 场景的语义在现实世界中并不存在,但是引擎仍然实现了我们期望的正确物理规则。

接下来:添加更多模态和条件,然后我们有了一个完整的数据驱动的 UE(Unreal Engine),它将替代所有手工制作的图形管线。

后来,Jim Fan 又补充道:

显然,有些人不太理解 “数据驱动的物理引擎” 是什么,所以让我来澄清一下。Sora 是一个端到端的、扩散变换模型。它输入文本/图像,直接输出视频像素。Sora 通过梯度下降法在神经网络参数中隐式学习物理引擎,这一切都是通过大量视频数据实现的。

Sora 是一个可学习的模拟器,或者说是 “世界模型”。当然,它在循环中并没有显式调用UE5,但很可能向训练集中添加了 UE5 生成的(文本,视频)对作为合成数据。

详细技术分析

关于 Sora 更多的技术分析,可以看我们 co-founder @SIY.Z 的回答:如何看待 openai 最新发布的 sora?

Sora 的成本与 OpenAI 的 7 万亿美金豪赌

我发现很少有人提到 Sora 视频生成的成本。我初步估计,用 Sora 生成 1 分钟的视频估计需要几十美金的成本,比 Runway ML 的 Gen2(大约一分钟 10 美金)还贵。

很多人会选择性的忽略成本。比如 GPT-4 支持 128K 上下文的时候,很少有人提到用一次 128K 上下文需要 1.28 美金。今天 Gemini 1.5 说支持 10M 上下文了,我们还不知道这 10M 上下文的成本是多少。视频生成如果成本高达一分钟几十美金,就只能受限于专业的影片和游戏制作人,没法用来生成抖音短视频。

这就是为什么 OpenAI 要搞 7 万亿美金来造芯片。很多人觉得 Sam Altman 疯了,但我觉得他看到了 AI 真正的瓶颈——算力。

现在 AI 训练和推理大部分的成本还是在 GPU 上。很多公司在训练 GPT-4 级别模型的时候都遇到了 GPU 荒,更不用说搞 AGI 了。熟悉芯片制造的同学不难算出,A100/H100 这些芯片的售价是台积电流片成本价的 10 倍左右。这么高的溢价一方面来自芯片和软件生态的巨大研发成本,一方面来自垄断溢价。

曾几何时,FPGA 也是非常贵的东西。微软要在数据中心的每台服务器上部署 FPGA 的时候,给 Altera 下了几十万甚至上百万片的订单,直接把那款 FPGA 的批量订购价压到了零售价的十分之一。后来,连 Altera 公司本身都高价被 Intel 收购了。我们就有一个说法,芯片的产量只要足够大,芯片本身就是沙子的价格。

我 7 年前也租了个地下室,自己攒了几十台各种矿机来挖矿。挖矿成本的大头是电费,而不是 ASIC 或者 GPU 的成本。我在去年 5 月的一次采访中就表示,算力是制约 AI 的关键,现在所有的数据中心占据到人类能源的消耗已经在 1%~2% 左右,人类的能源目前还没有很明显的突破,所以说,目前能源和芯片技术所制约的算力能不能支撑得起这么大的一个需求,是一个很挑战的问题。

现在 AI 算力占用的能源只是数据中心的一小部分。如果 AI 算力占用的能源占到人类能源消耗的 10%,那么可能有需要 100 倍于当前能源消耗的 AI 芯片,这个需求远远超过了台积电等所有芯片厂商的制造能力。

那么有人要问,搞 7 万亿美金造芯片,练出来的 AI 能创造出 7 万美金的价值吗?如果觉得 AI 只是创造了下一个移动互联网,那就格局小了。

AGI 真正的价值在于创造新的生命形式,创造将能源转化成智能更高效的方式。

目前,人类大脑以不到 30W 的功率,达到的智能程度超过 10 千瓦的 8 卡 H100 推理服务器。但我相信,随着大模型和芯片技术的进步,硅基生命的能源利用效率一定会比碳基生命更高。在能源有限的这个宇宙中,AGI 不仅可能更高效地利用能源,以信息的形式更方便地把智能传播到整个宇宙,还可能为我们找到彻底解决能源问题的钥匙。为了创造硅基生命,AGI 一定需要是个世界模型,能够与真实世界交互,在自主学习中不断增强智能。

Sora 这个熟悉的名字

看到 Sora 这个名字,感觉好熟悉,MSRA 的软件无线电项目也叫 Sora,Sora 在日语里是 “天空” 的意思。当时这个项目有个机器翻译的中文版网页,还把 Sora 给翻译成了 “苍井空”。

MSRA 的 Sora 软件无线电项目MSRA 的 Sora 软件无线电项目

MSRA 的 12 楼就有个 Sora Lab,里面是各种软件无线电的实验设备。做无线的师兄叮嘱我们,进 Sora Lab 的时候千万不要乱动桌上的天线,要是弄乱了,要重新调好这些天线少则几天,多则一周。有时候 Sora Lab 里面的空间不够大,还要临时借用 12 楼的大会议室来做软件无线电的实验,在 MSRA 呆过的同学们对这个大会议室应该都很熟悉。

在 MSRA 大会议室里调软件无线电 Sora在 MSRA 大会议室里调软件无线电 Sora

Sora 是当时最先进的软件无线电平台,当时影响力也很大,很多高校和研究机构都在用 Sora 做软件无线电的研究。我的导师谭博还送过我一本他写的书《认知软件无线电系统——原理与实验》,就是讲 Sora 的。

希望 Sora 这个名字能够给我们带来一片广阔的天空,把文明的种子播撒到天空中每颗闪亮的星。

Comments