OpenAI 语音能力再升级：Realtime API 新模型真正让 AI “能听会想会做事”

5月7日，OpenAI 低调但重磅地更新了 Realtime API，推出了三个新语音模型：GPT-Realtime-2、GPT-Realtime-Translate 和 GPT-Realtime-Whisper。这次更新不是简单的小修小补，而是把实时语音从“听起来像人”真正推向“像个聪明靠谱的助手”。

我仔细看了他们的官方演示和文档，感觉这次的进步特别实用，尤其对开发者、客服、出海团队和想做语音产品的团队来说，门槛又降低了一大截。

GPT-Realtime-2：目前最强的实时语音大脑

这是这次更新的绝对主角。OpenAI 直接说它是目前最智能的语音模型，推理能力达到了 GPT-5 级别。

以前的语音模型常常让人觉得“聪明但别扭”--要么反应慢，要么被打断就傻眼，要么聊着聊着就忘前面说了什么。GPT-Realtime-2 在这些痛点上做了明显改进：

上下文记忆大幅提升，从之前的 32K 直接跳到 128K，长对话不再容易忘事。
中断处理更自然：用户随时插话，它能优雅接住，而不是卡壳或重复。
工具调用能力：真正能干活。可以连日历、CRM、数据库等外部系统，边聊边帮你查、改、总结。
思考透明度：新增了 Preambles 机制，会先说“我查一下你的日历”而不是默默操作，让用户有掌控感。
推理努力可调：开发者能通过 reasoning.effort 参数（minimal 到 xhigh）自己平衡速度和深度。着急的时候选低，复杂问题就开高。

演示里有个场景特别打动我：用手机语音呼叫个人助理，它不仅能查日历、更新客户信息，还会在后台操作时自然告诉你“我正在更新记录，请稍等”。这种“边想边说”的流畅度，以前很少见到。

GPT-Realtime-Translate：实时跨语言对话终于靠谱了

这个模型解决的是全球沟通的真实痛点。它支持 70+ 种输入语言 转 13 种输出语言 的实时语音翻译，而且是端到端的语音到语音，不是传统那种 STT+翻译+TTS 拼起来的生硬版本。

部分内容已折叠，查看完整文章请先登录。登录后查看完整文章

API地址：https://developers.openai.com/api/docs/guides/realtime

文章链接：https://openai.com/index/advancing-voice-intelligence-with-new-models-in-the-api/

更多AI科技内容，微信搜索橙市播客小程序

微信扫描下方的二维码阅读更多精彩内容

热门话题

实时跨语言翻译技术对全球化团队的实际价值有多大？
GPT-Realtime-2 的上下文记忆提升对长对话体验意味着什么？
实时语音模型如何改变企业与用户的交互方式？

声明：本站所有文章，如无特殊说明或标注，均为橙市播客原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。如果你是AI总结，务必加上此版权说明

GPT-Realtime-2：目前最强的实时语音大脑

GPT-Realtime-Translate：实时跨语言对话终于靠谱了

热门话题 实时跨语言翻译技术对全球化团队的实际价值有多大？ GPT-Realtime-2 的上下文记忆提升对长对话体验意味着什么？ 实时语音模型如何改变企业与用户的交互方式？

OpenAI 语音能力再升级：Realtime API 新模型真正让 AI “能听会想会做事”

热门话题

实时跨语言翻译技术对全球化团队的实际价值有多大？
GPT-Realtime-2 的上下文记忆提升对长对话体验意味着什么？
实时语音模型如何改变企业与用户的交互方式？