OpenAI Sora 发布：视频生成

阿轩字数: 1790 阅读耗时: 4 分钟 2024/02/15 博客独享热度: 0 评论: 0

2024年春节期间，OpenAI 发布了首个文生视频模型 Sora，瞬间引爆了全球科技圈。Sora 的震撼之处不在于它能生成 60 秒的高清视频，而在于它所展现出的对物理世界的深刻理解力。不同于 Runway 或 Pika 等早期基于“扩散模型+插帧”的方案，Sora 采用了 Diffusion Transformer (DiT) 架构，将视频压缩为“时空补丁”（Spacetime Patches）。这种架构创新使得 AI 不再是简单地处理二维像素的流动，而是在某种程度上构建了一个三维的、符合物理规律的“世界模型”。

Sora 生成的视频展现了惊人的一致性：当摄像机移动时，物体保持了正确的三维透视关系；水中的倒影、复杂的遮挡关系、甚至材质的物理纹理都能被精准还原。OpenAI 在技术报告中明确提出，Sora 的终极目标并非仅仅是视频制作工具，而是 “物理世界的通用模拟器”（General Purpose Simulator of the Physical World）。这意味着 AI 开始尝试理解重力、碰撞和物体恒存性。

这一技术突破对影视行业、游戏开发和仿真领域产生了核弹级的影响。虽然 Sora 并未立即对公众开放，但它引发了关于“现实定义权”的哲学探讨。当 AI 能够以零成本生成无法辨伪的现实场景时，数字内容的信任体系面临重构。Sora 的出现也迫使 Google（Veo）和国内大厂（快手可灵等）加速跟进，开启了视频生成领域的“军备竞赛”。**