深度解析 Sora 如何通过时空补丁与扩散模型,重新定义视频生成的边界。
Sora 是 OpenAI 发布的文生视频模型,它不仅是一个视频生成工具,更被定义为“世界模拟器”(World Simulator)。与传统的视频生成模型不同,Sora 展现出了对物理世界运动规律的初步理解能力。
它能够生成长达 60 秒的高清视频,同时保持画面主体的一致性和复杂的运镜效果。其核心突破在于将大语言模型(LLM)的成功经验——即使用 Transformer 架构处理 Token——成功迁移到了视频数据上。
Sora 的成功建立在两个关键技术支柱之上:时空补丁 (Spacetime Patches) 和 扩散 Transformer (DiT)。
为了训练一个能够处理不同分辨率、时长和宽高比的通用模型,Sora 借鉴了 LLM 中 Token 的概念。它将视频视为一个三维的数据块(时间 x 高度 x 宽度),并将其切分为一个个小的“补丁”(Patches)。
Sora 摒弃了传统视频生成模型常用的 U-Net 架构,转而采用了 DiT 架构。这使得模型具有极强的扩展性(Scalability)。
随着计算量(Compute)的增加,视频生成的质量呈现出明显的缩放定律(Scaling Laws)。Sora 证明了通过扩大模型参数和训练数据,视频生成的质量、连贯性和物理模拟能力都会显著提升。
Sora 能够生成带有动态摄像机运动的视频。当摄像机移动和旋转时,人物和场景元素在三维空间中保持一致的移动,这表明模型在潜空间中构建了某种形式的 3D 几何结构。
尽管 Sora 表现惊人,但它并非完美的物理引擎。它目前倾向于通过概率来模拟世界,而非真正理解物理公式。
快速生成分镜脚本和动态预览(Pre-viz),大幅降低前期制作成本。
生成动态背景、NPC 行为甚至程序化生成关卡纹理。
将抽象的历史事件或科学原理转化为直观的视频内容。