ChatGPT 现在能看、能听、能说了 - ChatGPT

我们开始在 ChatGPT 中推出新的语音和图像功能。它们提供了一种新的、更直观的界面，允许您进行语音对话或向 ChatGPT 展示您在谈论的内容。

语音和图像为您在生活中使用 ChatGPT 提供了更多方式。旅行时拍一张地标照片，然后就其有趣之处进行实时对话。在家时，拍下冰箱和食品储藏室的照片，弄清楚晚餐吃什么（并询问后续问题以获取分步食谱）。晚饭后，帮孩子做一道数学题，拍张照片，圈出题目集，让它为你们俩分享提示。

我们将在未来两周内向 Plus 和 Enterprise 用户推出 ChatGPT 中的语音和图像功能。语音功能将在 iOS 和 Android 上推出（在您的设置中选择加入），图像功能将在所有平台上可用。

与 ChatGPT 语音对话，让它回话

您现在可以使用语音与您的助手进行来回对话。在旅途中与它交谈，为您的家人请求一个睡前故事，或解决餐桌上的争论。

要开始使用语音功能，请前往移动应用程序中的「设置 → 新功能」，然后选择加入语音对话。然后，点击主屏幕右上角的耳机按钮，从五种不同的声音中选择您喜欢的声音。

新的语音功能由一个新的文本转语音模型提供支持，该模型仅需文本和几秒钟的样本语音就能生成类似人类的音频。我们与专业配音演员合作，创建了每一种声音。我们还使用 Whisper——我们的开源语音识别系统——将您的口语转录为文本。

故事食谱演讲诗歌解说

从前，在一片宁静的林地里，住着一只毛茸茸的猫妈妈，名叫莱拉。一个阳光明媚的日子，她在一棵老橡树的树荫下依偎着她顽皮的小猫米洛。

「米洛，」莱拉开口说道，声音温柔而轻柔，「你很快就会有一个新玩伴了。」

米洛的耳朵竖了起来，充满好奇。「新玩伴？」

莱拉咕噜着说：「是的，一个小妹妹。」

米洛的眼睛因兴奋而睁大。「妹妹？她会像我一样追尾巴吗？」

莱拉轻笑起来。「哦，她会有自己的小癖好。你会教她的，对吗？」

米洛急切地点点头，已经开始梦想着他们将一起经历的冒险。

杜松（Juniper）天空（Sky）海湾（Cove）余烬（Ember）微风（Breeze）

您现在可以向 ChatGPT 展示一张或多张图片。排查为什么你的烤架不工作，探索冰箱里的东西来计划一顿饭，或分析复杂的图表以获取工作相关数据。要专注于图像的特定部分，您可以在我们的移动应用程序中使用绘图工具。

要开始使用，请点击照片按钮来拍摄或选择一张图像。如果您在 iOS 或 Android 上，请先点击加号按钮。您还可以讨论多个图像或使用我们的绘图工具来引导您的助手。

图像理解由多模态 GPT-3.5 和 GPT-4 提供支持。这些模型将它们的语言推理技能应用于广泛的图像，如照片、截图以及包含文本和图像的文档。

OpenAI 的目标是构建安全且有益的通用人工智能（AGI）。我们相信逐步提供我们的工具，这使我们能够随着时间的推移进行改进和完善风险缓解措施，同时也为每个人迎接未来更强大的系统做好准备。随着涉及语音和视觉的高级模型的出现，这一策略变得更加重要。

这项新的语音技术——仅需几秒钟的真实语音就能制作出逼真的合成声音——为许多创意和无障碍应用打开了大门。然而，这些功能也带来了新的风险，例如恶意行为者可能冒充公众人物或实施欺诈。

这就是为什么我们将这项技术用于一个特定的用例——语音聊天。语音聊天是由我们直接合作的配音演员创建的。我们也在以类似的方式与其他人合作。例如，Spotify 正在利用这项技术的力量试点他们的语音翻译功能，该功能通过用播客主播自己的声音将播客翻译成更多语言，帮助播客主播扩大其故事讲述的影响力。

基于视觉的模型也带来了新的挑战，从关于人的幻觉到在高风险领域依赖模型对图像的解读。在更广泛部署之前，我们与红队测试人员一起测试了模型在极端主义和科学能力等领域的风险，并与多样化的 alpha 测试人员进行了测试。我们的研究使我们能够就负责任使用的几个关键细节达成一致。

#### 让视觉既实用又安全

与 ChatGPT 的其他功能一样，视觉功能旨在帮助您的日常生活。当它能看到您所看到的东西时，它就能最好地做到这一点。

这种方法直接得益于我们与 Be My Eyes 的合作，Be My Eyes 是一款为盲人和低视力人群打造的免费移动应用程序，旨在了解用途和局限性。用户告诉我们，他们发现对恰好包含背景中人物的图像进行一般性对话很有价值，比如当您试图弄清楚遥控器设置时，有人出现在电视上。

我们还采取了技术措施，大幅限制 ChatGPT 分析人物并对人物做出直接陈述的能力，因为 ChatGPT 并不总是准确的，这些系统应该尊重个人隐私。

真实世界的使用和反馈将帮助我们在保持工具实用性的同时，使这些保障措施变得更好。

#### 关于模型局限性的透明度

用户可能会依赖 ChatGPT 处理专业话题，例如在研究等领域。我们对模型的局限性保持透明，并劝阻在没有适当验证的情况下进行高风险用例。此外，该模型擅长转录英文文本，但在某些其他语言上表现不佳，尤其是那些使用非罗马字母的语言。我们建议非英语用户不要为此目的使用 ChatGPT。

您可以在图像输入系统卡片中阅读更多关于我们的安全方法以及我们与 Be My Eyes 合作的信息。

Plus 和 Enterprise 用户将在未来两周内体验语音和图像功能。我们很高兴能在不久之后将这些功能推广到其他用户群体，包括开发者。

语音模式核心研究

Alec Radford、Tao Xu、Jong Wook Kim

视觉部署核心研究

Raul Puri、Jamie Kiros、Hyeonwoo Noh、Long Ouyang、Sandhini Agarwal