DevDay 发布的新模型和开发者产品 - ChatGPT

更新：我们此前表示，使用 gpt-3.5-turbo 名称的应用将于 12 月 11 日自动升级到新模型版本。我们已编辑博客文章删除了这一行，因为这将不再发生。

今天，我们分享了数十项新增功能和改进，并降低了平台许多部分的定价。这些包括：

全新 GPT-4 Turbo 模型，功能更强大、价格更便宜，并支持 128K 上下文窗口
全新 Assistants API，让开发者能够更轻松地构建自己的辅助 AI 应用，这些应用具有目标，可以调用模型和工具
平台中新的多模态能力，包括视觉、图像创建（DALL·E 3）和文本转语音（TTS）

我们将从太平洋时间今天下午 1 点开始向 OpenAI 客户推出新功能。

GPT-4 Turbo 与 128K 上下文

我们在 3 月发布了 GPT-4 的第一个版本，并在 7 月向所有开发者正式发布了 GPT-4。今天，我们将推出该模型下一代的预览版——GPT-4 Turbo。

GPT-4 Turbo 功能更强大，并且了解截至 2023 年 4 月的世界事件。它拥有 128k 的上下文窗口，因此可以在单个提示中容纳相当于 300 多页的文本。我们还优化了其性能，因此与 GPT-4 相比，我们能够以 3 倍更便宜的输入 token 价格和 2 倍更便宜的输出 token 价格提供 GPT-4 Turbo。

所有付费开发者都可以通过在 API 中传入 gpt-4-1106-preview 来试用 GPT-4 Turbo，我们计划在未来几周内发布稳定的生产就绪模型。

函数调用更新

函数调用允许您向模型描述应用或外部 API 的功能，并让模型智能地选择输出包含参数的 JSON 对象来调用这些函数。我们今天发布了几项改进，包括在单条消息中调用多个函数的能力：用户可以发送一条消息请求多个操作，例如"打开车窗并关闭空调"，这在以前需要与模型进行多次往返（了解更多）。我们还提高了函数调用的准确性：GPT-4 Turbo 更有可能返回正确的函数参数。

改进的指令遵循和 JSON 模式

GPT-4 Turbo 在需要仔细遵循指令的任务上比我们以前的模型表现更好，例如生成特定格式（例如，"始终以 XML 响应"）。它还支持我们新的 JSON 模式，可确保模型将使用有效的 JSON 进行响应。新的 API 参数 response_format 使模型能够约束其输出，以生成语法正确的 JSON 对象。JSON 模式对于在函数调用之外的聊天完成 API 中生成 JSON 的开发人员非常有用。

可重现的输出和对数概率

新的 seed 参数通过使模型大部分时间返回一致的完成来实现可重现的输出。此测试版功能对于重放调试请求、编写更全面的单元测试以及通常对模型行为具有更高程度的控制等用例非常有用。我们 OpenAI 内部一直在使用此功能进行我们自己的单元测试，并发现它非常宝贵。我们很高兴看到开发者将如何使用它。了解更多。

我们还将在未来几周推出一项功能，返回 GPT-4 Turbo 和 GPT-3.5 Turbo 生成的最可能输出 token 的对数概率，这对于在搜索体验中构建自动完成等功能非常有用。

更新的 GPT-3.5 Turbo

除了 GPT-4 Turbo，我们还发布了新版本的 GPT-3.5 Turbo，默认支持 16K 上下文窗口。新的 3.5 Turbo 支持改进的指令跟踪、JSON 模式和并行函数调用。例如，我们的内部评估显示，在生成 JSON、XML 和 YAML 等格式遵循任务上有 38% 的改进。开发者可以通过在 API 中调用 gpt-3.5-turbo-1106 来访问此新模型。旧模型将继续可以通过在 API 中传入 gpt-3.5-turbo-0613 来访问，直到 2024 年 6 月 13 日。了解更多。

Assistants API、检索和代码解释器

今天，我们发布了 Assistants API，这是我们帮助开发者在自己的应用程序中构建类代理体验的第一步。助手是一种专门构建的 AI，具有特定的指令，利用额外的知识，并可以调用模型和工具来执行任务。新的 Assistants API 提供了代码解释器和检索等新功能，以及函数调用，以处理您以前必须自己完成的大量繁重工作，并使您能够构建高质量的 AI 应用。

此 API 旨在实现灵活性；用例范围从基于自然语言的数据分析应用、编码助手、AI 驱动的假期规划器、语音控制 DJ、智能视觉画布——不胜枚举。Assistants API 建立在实现我们新的 GPTs 产品的相同能力之上：自定义指令和工具，如代码解释器、检索和函数调用。

此 API 引入的一个关键变化是持久且无限长的线程，这允许开发者将线程状态管理移交给 OpenAI，并解决上下文窗口限制。使用 Assistants API，您只需将每条新消息添加到现有的 thread 中即可。

助手还可以根据需要调用新工具，包括：

代码解释器：在沙盒执行环境中编写和运行 Python 代码，可以生成图形和图表，并处理具有各种数据和格式的文件。它允许您的助手迭代地运行代码以解决具有挑战性的代码和数学问题等。

检索：用我们模型之外的知识增强助手，例如专有领域数据、产品信息或用户提供的文档。这意味着您不需要为文档计算和存储嵌入，也不需要实现分块和搜索算法。Assistants API 基于我们在 ChatGPT 中构建知识检索的经验，优化使用哪种检索技术。

函数调用：使助手能够调用您定义的函数，并将函数响应合并到其消息中。

与平台的其余部分一样，传递给 OpenAI API 的数据和文件绝不会用于训练我们的模型，开发者可以在认为合适时删除数据。

您可以前往助手 playground，无需编写任何代码即可试用 Assistants API 测试版。

Assistants API 处于测试阶段，从今天开始向所有开发者提供。请与我们分享您构建的内容（@OpenAI）以及您的反馈，我们将在未来几周内继续构建时纳入这些反馈。Assistants API 及其工具的定价可在我们的定价页面上找到。

API 中的新模态

带视觉功能的 GPT-4 Turbo

GPT-4 Turbo 可以在聊天完成 API 中接受图像作为输入，从而实现生成字幕、详细分析现实世界图像以及阅读带图表的文档等用例。例如，BeMyEyes 使用这项技术帮助盲人或低视力人士完成日常任务，如识别产品或在商店中导航。开发者可以通过在 API 中使用 gpt-4-vision-preview 来访问此功能。我们计划在稳定版本发布时，将视觉支持推出到主要的 GPT-4 Turbo 模型中。定价取决于输入图像的大小。例如，将 1080×1080 像素的图像传递给 GPT-4 Turbo 的成本为 0.00765 美元。请查看我们的视觉指南。

DALL·E 3

开发者可以通过我们的图像 API 指定 dall-e-3 作为模型，将我们最近向 ChatGPT Plus 和企业用户推出的 DALL·E 3 直接集成到他们的应用和产品中。Snap、可口可乐和 Shutterstock 等公司已使用 DALL·E 3 以编程方式为其客户和活动生成图像和设计。与之前版本的 DALL·E 类似，该 API 包含内置审核功能，帮助开发者保护其应用程序免遭滥用。我们提供不同的格式和质量选项，价格从每张生成图像 0.04 美元起。请查看我们的 DALL·E 3 API 入门指南。

文本转语音（TTS）

开发者现在可以通过文本转语音 API 从文本生成人类质量的语音。我们新的 TTS 模型提供六种预设语音可供选择，以及两种模型变体：tts-1 和 tts-1-hd。tts 针对实时用例进行了优化，而 tts-1-hd 针对质量进行了优化。定价从每输入 1,000 个字符 0.015 美元起。请查看我们的 TTS 指南以开始使用。

模型定制

GPT-4 微调实验性访问

我们正在为 GPT-4 微调 创建一个实验性访问计划。初步结果表明，与 GPT-3.5 微调实现的实质性收益相比，GPT-4 微调需要更多工作才能在基础模型之上实现有意义的改进。随着 GPT-4 微调的质量和安全性提高，积极使用 GPT-3.5 微调的开发者将在其微调控制台中看到申请 GPT-4 计划的选项。

定制模型

对于需要比微调所能提供的更多定制的组织（特别适用于拥有极其庞大专有数据集的领域——至少数十亿 token），我们还推出了 定制模型计划，为选定的组织提供与 OpenAI 研究人员专门团队合作的机会，以针对其特定领域训练定制的 GPT-4。这包括修改模型训练过程的每一步，从进行额外的领域特定预训练，到运行针对特定领域定制的 RL 后训练过程。组织将拥有其定制模型的独家访问权。根据我们现有的企业隐私政策，定制模型不会提供给其他客户或与其他客户共享，也不会用于训练其他模型。此外，提供给 OpenAI 用于训练定制模型的专有数据不会在任何其他情况下重复使用。这一开始将是一个非常有限（且昂贵）的计划——有兴趣的组织可以在此申请。

更低的价格和更高的速率限制

更低的价格

我们正在降低整个平台的多个价格，以将节省的成本传递给开发者（以下所有价格均以每 1,000 个 token 表示）：

GPT-4 Turbo 输入 token 比 GPT-4 便宜 3 倍，为 0.01 美元；输出 token 便宜 2 倍，为 0.03 美元。

GPT-3.5 Turbo 输入 token 比之前的 16K 模型便宜 3 倍，为 0.001 美元；输出 token 便宜 2 倍，为 0.002 美元。以前使用 GPT-3.5 Turbo 4K 的开发者将受益于输入 token 33% 的降低，至 0.001 美元。这些较低价格仅适用于今天推出的新 GPT-3.5 Turbo。

微调后的 GPT-3.5 Turbo 4K 模型输入 token 降低了 4 倍，为 0.003 美元；输出 token 便宜 2.7 倍，为 0.006 美元。微调还支持 16K 上下文，价格与使用新 GPT-3.5 Turbo 模型的 4K 相同。这些新价格也适用于微调后的 gpt-3.5-turbo-0613 模型。

更高的速率限制

为了帮助您扩展应用程序，我们将为所有付费 GPT-4 客户将每分钟 token 限制提高一倍。您可以在您的速率限制页面中查看您的新速率限制。我们还发布了我们的使用层级，用于确定自动速率限制增加，这样您就可以知道您的使用限制将如何自动扩展。您现在可以从您的账户设置中请求增加使用限制。

版权护盾

OpenAI 致力于通过我们系统中的内置版权保护措施来保护我们的客户。今天，我们更进一步，推出了版权护盾——如果您面临版权侵权相关的法律索赔，我们现在将介入为我们的客户辩护，并支付所产生的费用。这适用于 ChatGPT Enterprise 和我们开发者平台的正式可用功能。

Whisper v3 和一致性解码器

我们正在发布 Whisper large-v3，这是我们开源自动语音识别模型（ASR）的下一个版本，具有跨语言改进的性能。我们还计划在不久的将来在我们的 API 中支持 Whisper v3。

我们还将开源一致性解码器，这是 Stable Diffusion VAE 解码器的直接替代品。此解码器改进了所有与 Stable Diffusion 1.0+ VAE 兼容的图像，在文本、面部和直线方面有显著改进。

详细了解我们的 ChatGPT 的 OpenAI DevDay 公告。