我们最新发布的视频生成模型在物理特性准确度、画面真实感以及可操控性方面,均较以往系统实现了质的飞跃。与此同时,该模型还支持音画同步的对白与音效处理。欢迎下载全新 Sora 应用,开启创作之旅。
> Sora 产品已于 2026 年 4 月 26 日正式关停。
今天,我们正式发布旗舰级音视频生成模型 — Sora 2。
2024 年 2 月发布的 Sora 初始版本,堪称视频生成领域的"GPT‑1 时刻":视频生成首次展现出可行性,且通过扩展预训练算力实现了诸如"物体持久性"等简单行为。自那时起,Sora 团队便致力于训练具备更高级"世界模拟"能力的模型。我们坚信,此类系统对于培养深度理解物理世界的 AI 模型至关重要。其中的关键里程碑在于攻克大规模视频数据的预训练与后训练技术。相比于语言模型,视频领域的这些技术目前仍处于起步阶段。
依托 Sora 2,我们实现了跨越式发展,迎来了视频生成的"GPT‑3.5 时刻"。Sora 2 能够胜任此前模型极难实现、甚至完全无法完成的任务:无论是复杂的奥运体操动作,还是在划桨板上精准模拟浮力与刚度动态的后空翻,亦或是猫咪紧紧依附下的三周跳,它都能应对自如。
早期的视频模型往往表现得"过于乐观"— 为了响应文本指令,它们不惜扭曲现实或令物体变形。例如,当篮球运动员投篮不中时,球可能会凭空"传送"进篮筐。但在 Sora 2 中,如果球员投篮不中,篮球会真实地从篮板上反弹。有趣的是,模型经常出现的"错误"看起来更像是 Sora 2 在隐式建模的内部智能体所犯的错误;尽管仍不完美,但相比以往系统,它在遵循物理定律方面已有了长足进步。对于任何实用的世界模拟器而言,这都是一项核心能力:你必须能够模拟失败,而不仅仅是成功。
此外,Sora 2 在可操控性上也有了质的飞跃。它能够遵循涵盖多个镜头的复杂指令,同时精准维持世界状态的一致性。无论是在写实、电影感还是动漫风格上,Sora 2 都有着卓越表现。
作为一个通用的音视频生成系统,它还能创作出具有高度真实感的复杂背景声场、语音及音效。
你甚至可以将现实世界元素直接植入 Sora 2。例如,通过观察一位团队成员的视频,模型就能将其置入任何生成的环境,并精准还原其外貌与声音。这种能力具有普适性,适用于任何人、动物或物体。
虽然模型远非完美、仍会犯错,但它印证了一个观点:通过在视频数据上进一步扩展神经网络规模,我们将更接近于模拟真实世界。
Sora 2 的部署
在通往通用模拟器及物理世界 AI 系统的道路上,我们认为人们可以从这些模型中获得不少乐趣。
几个月前,Sora 团队内部开始试用"上传自我"这一功能,大家都玩得不亦乐乎。这感觉就像是沟通方式的自然演变 — 从文字到表情包,再到语音消息,最后进化到了这一步。
因此,今天我们将推出一款由 Sora 2 驱动的全新社交 iOS 应用,名为"Sora"。在 App 中,你可以创作内容、对他人的作品进行二次创作 (remix)、在定制化的 Sora 动态信息流 (feed) 中探索新视频,并通过"角色 (character)"功能将自己或朋友带入视频世界。通过"角色"功能,你只需在应用内进行一次简短的音视频录制(用于验证身份并采集肖像数据),即可在任何 Sora 场景中以高保真的方式呈现自己的形象。
上周,我们在 OpenAI 内部上线了这款应用。同事们反馈说,因为这个功能,他们在公司结识了不少新朋友。我们相信,围绕"角色"功能构建的社交应用,是体验 Sora 2 神奇魅力的最佳方式。
践行负责任的发布
针对"无止境末日刷屏 (Doomscrolling)"、成瘾、社交隔阂及 RLHF 优化的动态信息流 (feed) 等问题,我们正采取以下措施:
我们赋予用户充分的工具与选择权,让其自主掌控动态信息流 (feed) 内容。依托 OpenAI 现有的语言大模型,我们开发了一类新型推荐算法,用户可以通过自然语言对其下达指令。同时,我们建立了内置机制,定期了解用户的身心健康状况,并主动提供调整动态信息流 (feed) 的选项。
默认情况下,系统会优先展示你关注或互动过的内容,并重点推荐模型认为能为你带来创作灵感的视频。我们并不追求用户在动态信息流 (feed) 中的停留时长,应用设计的初衷是助力创作,而非消费。
这款应用专为与友同乐而设计。绝大多数测试者的反馈都认为,"角色"功能是让这款产品与众不同且充满乐趣的核心。只有亲身体验,你才能领略这种独特的新型沟通方式。目前我们采取邀请制,以确保你与好友共同入驻。当主流平台纷纷远离传统社交关系链时,我们认为"角色"将重新凝聚社区。
保护青少年的身心健康对我们至关重要。我们对青少年每日可观看的动态信息流 (feed) 数量设置了默认限制,并针对该群体实施了更严格的"角色"功能权限。除自动化安全栈外,我们还扩充了人工审核团队,以快速处理可能出现的霸凌行为。此外,我们正通过 ChatGPT 推出 Sora 家长控制功能,家长可以覆盖无限滚动限制、关闭算法个性化推荐,并管理私信设置。
通过"角色"功能,用户可以全方位掌控自己在 Sora 中的肖像。只有你本人能决定谁可以使用你的"角色",并可随时撤销权限或删除相关视频。任何包含你肖像的视频(包括他人的草稿),你都拥有随时查看的权限。
在开发过程中,我们应对了诸多安全挑战 — 包括肖像授权、溯源、预防有害内容生成等。
许多应用存在的问题源于其变现模式,这往往会导致决策与用户利益相悖。坦率地说,我们目前唯一的计划是:当需求超出计算资源负荷时,允许用户付费生成额外的视频。随着应用的发展,我们将公开沟通模式的任何转变,并始终将用户福祉视为首要目标。
这段旅程才刚刚开始。凭借 Sora 2 强大的创作与二次创作能力,我们坚信一个"协同创作"的新时代已然开启。我们乐观地认为,相比现有平台,这将是一个更健康的娱乐与创意家园。愿你玩得开心 :)
Sora 2 的可用性及未来展望
目前,Sora iOS 应用已开放下载。你可以在应用内注册并开启推送通知,当你的帐户获得访问权限时,我们将第一时间告知。从今天起,我们首先在美国和加拿大开启首轮推送,并计划迅速扩展至更多国家/地区。获得邀请后,你也可以通过 sora.com 访问 Sora 2。
在初期,Sora 2 将免费提供给用户使用。为了让大家能尽情探索其各项功能,我们设置了较为宽松的使用额度,但具体仍受限于整体算力水平。同时,ChatGPT Pro 用户将能通过 sora.com 抢先体验画质更高、性能更强的实验性版本 — Sora 2 Pro(随后也将在 Sora 应用中上线)。此外,我们还计划在 API 中提供 Sora 2 接口。
Sora 1 Turbo 将保持可用,你之前创作的所有内容也将继续保留在 sora.com 的个人库中。
视频模型的能力正在快速迭代。通用世界模拟器和机器人智能体将从根本上重塑社会面貌,并加速人类文明进化的进程。Sora 2 的诞生,标志着我们在实现这一目标上迈出了关键一步。秉承 OpenAI 的使命,确保全人类在这些模型的开发过程中受益至关重要。我们坚信,Sora 将为世界带来更多的欢乐、创意与情感连接。
— Sora 团队