Sora: 视频生成的物理世界模拟器

01. 技术概览

Sora 是 OpenAI 发布的文生视频模型，它不仅是一个视频生成工具，更被定义为“世界模拟器”（World Simulator）。与传统的视频生成模型不同，Sora 展现出了对物理世界运动规律的初步理解能力。

它能够生成长达 60 秒的高清视频，同时保持画面主体的一致性和复杂的运镜效果。其核心突破在于将大语言模型（LLM）的成功经验——即使用 Transformer 架构处理 Token——成功迁移到了视频数据上。

Sora 的成功建立在两个关键技术支柱之上：时空补丁 (Spacetime Patches) 和扩散 Transformer (DiT)。

为了训练一个能够处理不同分辨率、时长和宽高比的通用模型，Sora 借鉴了 LLM 中 Token 的概念。它将视频视为一个三维的数据块（时间 x 高度 x 宽度），并将其切分为一个个小的“补丁”（Patches）。

图 1: 视频数据到时空补丁（Spacetime Patches）的转化流程

Sora 摒弃了传统视频生成模型常用的 U-Net 架构，转而采用了 DiT 架构。这使得模型具有极强的扩展性（Scalability）。

图 2: Sora 的 Diffusion Transformer 架构概览

随着计算量（Compute）的增加，视频生成的质量呈现出明显的缩放定律（Scaling Laws）。Sora 证明了通过扩大模型参数和训练数据，视频生成的质量、连贯性和物理模拟能力都会显著提升。

Sora 能够生成带有动态摄像机运动的视频。当摄像机移动和旋转时，人物和场景元素在三维空间中保持一致的移动，这表明模型在潜空间中构建了某种形式的 3D 几何结构。

图 3: 多镜头一致性示意图

尽管 Sora 表现惊人，但它并非完美的物理引擎。它目前倾向于通过概率来模拟世界，而非真正理解物理公式。

图 4: 物理模拟的局限性对比

快速生成分镜脚本和动态预览（Pre-viz），大幅降低前期制作成本。

生成动态背景、NPC 行为甚至程序化生成关卡纹理。

将抽象的历史事件或科学原理转化为直观的视频内容。