🌐 官网https://openai.com/sora

2024年春节期间,OpenAI 发布了首个文生视频模型 Sora,瞬间引爆了全球科技圈。Sora 的震撼之处不在于它能生成 60 秒的高清视频,而在于它所展现出的对物理世界的深刻理解力。不同于 Runway 或 Pika 等早期基于“扩散模型+插帧”的方案,Sora 采用了 Diffusion Transformer (DiT) 架构,将视频压缩为“时空补丁”(Spacetime Patches)。这种架构创新使得 AI 不再是简单地处理二维像素的流动,而是在某种程度上构建了一个三维的、符合物理规律的“世界模型”。

Sora 生成的视频展现了惊人的一致性:当摄像机移动时,物体保持了正确的三维透视关系;水中的倒影、复杂的遮挡关系、甚至材质的物理纹理都能被精准还原。OpenAI 在技术报告中明确提出,Sora 的终极目标并非仅仅是视频制作工具,而是 “物理世界的通用模拟器”(General Purpose Simulator of the Physical World)。这意味着 AI 开始尝试理解重力、碰撞和物体恒存性。

这一技术突破对影视行业、游戏开发和仿真领域产生了核弹级的影响。虽然 Sora 并未立即对公众开放,但它引发了关于“现实定义权”的哲学探讨。当 AI 能够以零成本生成无法辨伪的现实场景时,数字内容的信任体系面临重构。Sora 的出现也迫使 Google(Veo)和国内大厂(快手可灵等)加速跟进,开启了视频生成领域的“军备竞赛”。**