OpenAI发布首款视频生成模型Sora

ChatGPT开发团队OpenAI发布了最新的视频生成模型“Sora”，此模型可以根据文字指令能生成长达1分钟的高清视频，并且有一定的“现实模拟”能力，相比制作游戏的物理引擎，其上限要高得多，下面带来详细介绍。

1.他们能训练出这个模型的基础是：找到了一种统一的用文本描述视频材料的范式，得以让大量的视频以及对应的描述材料去训练模型，得到这个模型能力就是文本和视觉呈现之间的某种互相生成关系（能力），那如何得到大量带有相应文本字幕的视频呢？

他们应用了 DALL·E 3 中的重构字幕技术（原来是针对图片的）到视频。首先训练一个高度描述性的字幕生成器模型，然后使用它为训练集中的所有视频生成文本字幕。可以想见，训练及使用模型耗费的算力惊人，所以不太可能在短期内大范围开放；

OpenAI发布首款视频生成模型Sora

2.大的框架是：扩散模型时空补丁，基于深度学习的扩散模型，让一个随机噪声分布（指向图像的）转变成有意义的图像或视频内容，而时空补丁，定义了一个时间序列，使画面的的变化符合时间逻辑；

3.Sora 可以采样宽屏 1920x1080p 视频、垂直 1080x1920 视频以及介于两者之间的所有视频。因为是直接生成而不是裁剪视频，在取景，动态效果上也有一定优势；

4.这个模型还有几个出人意料但合理的能力：

a.它可以从一个时间点，向前或者向后去延伸视频，也就是说以某个画面为基点，生成这个时点之前的一段视频或之后的一段视频；

b.自如改变视频的风格和环境；

c.通过插值方式自然的将两个视频连接起来；

d.这一点非常重要，就是这个模型涌现出了一定的“现实模拟”能力，在展示视频中我们看到的不同的镜头运用，包括 3D画面的一致性（比如同一物体因为镜头变化，呈现出的在视觉上保持形状的一致），还包括现实物体的交互（比如要面包后面包上的咬痕）并非刻意设计,或者“建模”的结果，而是自然涌现的，这点我们在纯语言模型上已经见识过了。

而在这个模型上面涌现出的能力，用文章中的原话来描述“是开发物理和数字世界以及生活在其中的物体、动物和人的强大模拟器的一条有前途的道路。”