推出 4o 图像生成

在 OpenAI,我们始终坚信图像生成应成为语言模型的核心能力。为此,我们将迄今最先进的图像生成器集成于 GPT‑4o 之中。最终结果是,所生成的图片不仅更加精美,也极具实用性。

实用型图像生成

从远古洞穴壁画到现代信息图,人类一直借助视觉图像进行沟通、说服与分析,而不仅仅是装饰。当今的生成式模型虽能创造超凡脱俗的惊艳场景,却在处理人们日常用于分享与创造信息的"工作型"图像时显得力不从心。从徽标到图表,图像在融合指向共同语言与经验的符号后,便能传达精准含义。

GPT‑4o 的图像生成擅长精确渲染文字、严格遵循提示,并能充分利用 4o 模型的内置知识库与对话上下文 — 包括转换上传的图片或以其为视觉灵感进行创作。有了这些能力,你可以更轻松地生成完全符合设想的图像,让视觉表达更高效,并将图像生成真正升级为一款更可控、更强大的实用工具。

能力增强

我们对模型进行了网络图像与文本的联合分布训练,使其不仅理解图像与语言的关联,更掌握了图像彼此间的关系。再结合强化的后期训练,最终模型展现出卓越的视觉表现力,能够生成更实用、更一致、更理解上下文的图像。

文本渲染

一张图片胜过千言万语,但有时在恰当位置生成寥寥数字,便能极大提升图像的表现力。4o 将精确符号与图像融合的能力,使图像生成成为真正的视觉沟通工具。

多轮对话生成

由于图像生成已原生集成于 GPT‑4o,你可以通过自然对话持续优化图像。GPT‑4o 能够基于聊天上下文中的图像和文本进行迭代,确保一致性。例如,在设计视频游戏角色时,即使经过多轮修改和尝试,角色的外观也能始终保持连贯。

遵守指令

GPT‑4o 的图像生成能够细致遵循复杂提示。当其他系统处理约 5-8 个物体已显吃力时,GPT‑4o 可同时协调多达 10-20 个不同物体。物体与其属性、关系之间更紧密的绑定,带来了更出色的控制力。

上下文学习

GPT‑4o 可分析并学习用户上传的图片,将其细节无缝融入生成上下文中,为图像生成提供参考。

世界知识

原生图像生成使 4o 模型能够将其文本与图像知识无缝链接,带来更智能、高效的体验。

照片级写实与多样风格

通过对海量多样图像风格的训练,模型能够逼真地创建或转换各种风格的图像。

限制

我们的模型并不完美。我们意识到当前存在若干局限,并将在正式发布后通过持续改进模型来解决。

我们注意到,GPT‑4o 偶尔会将较长图片(如海报)裁剪过紧,尤其是底部区域。

安全

根据我们的《模型规范》,我们致力于在维持高标准安全的前提下,最大限度支持游戏开发、历史探索、教育等高价值用例。同时,拦截违反这些标准的请求至关重要。以下是我们正在评估的其他风险领域,旨在安全地支持高实用性内容与更广泛的创意表达。

通过 C2PA 与内部溯源工具保障来源透明

所有生成图像均携带 C2PA 元数据,用以标识其来源于 GPT‑4o。我们还构建了内部搜索工具,利用生成图像的技术特征辅助验证内容来源。

拦截有害内容

我们将持续拦截违反内容政策的生成请求,例如涉及儿童性虐待材料与色情深度伪造的内容。当对话涉及真实人物图像时,我们对可生成的内容类型设有更严格的限制,尤其在裸露与暴力内容方面设有特别强大的防护措施。与任何发布一样,安全从来不是一次性工作,而是一项持续投入。随着对模型实际应用的深入了解,我们将相应调整政策。

如需详细了解我们的方法,请访问 GPT‑4o 系统卡中关于图像生成的附录。

利用推理提升安全性

类似于我们的深思对齐方法,我们训练了一个推理专用 LLM,直接依据人类编写、可解释的安全规范工作。在开发过程中,该推理 LLM 帮助我们识别并解决了政策中的模糊地带。结合我们在多模态领域的进展以及为 ChatGPT 和 Sora 开发的现有安全技术,我们能够依据政策对输入的文本和输出的图像进行审核。

访问和可用性

4o image generation rolls out starting today to Plus, Pro, Team, and Free users as the default image generator in ChatGPT, with access coming soon to Enterprise and Edu. It's also available to use in Sora. For those who hold a special place in their hearts for DALL·E, it can still be accessed through a dedicated DALL·E GPT.

Developers will soon be able to generate images with GPT‑4o via the API, with access rolling out in the next few weeks.

Creating and customizing images is as simple as chatting using GPT‑4o - just describe what you need, including any specifics like aspect ratio, exact colors using hex codes, or a transparent background. Because this model creates more detailed pictures, images take longer to render, often up to one minute.

credit creator: Alex Duffy

直播回放

ESC

输入关键词开始搜索

支持搜索标题、内容、标签