
5月7日,OpenAI 低调但重磅地更新了 Realtime API,推出了三个新语音模型:GPT-Realtime-2、GPT-Realtime-Translate 和 GPT-Realtime-Whisper。这次更新不是简单的小修小补,而是把实时语音从“听起来像人”真正推向“像个聪明靠谱的助手”。
我仔细看了他们的官方演示和文档,感觉这次的进步特别实用,尤其对开发者、客服、出海团队和想做语音产品的团队来说,门槛又降低了一大截。
GPT-Realtime-2:目前最强的实时语音大脑
这是这次更新的绝对主角。OpenAI 直接说它是目前最智能的语音模型,推理能力达到了 GPT-5 级别。
以前的语音模型常常让人觉得“聪明但别扭”--要么反应慢,要么被打断就傻眼,要么聊着聊着就忘前面说了什么。GPT-Realtime-2 在这些痛点上做了明显改进:
- 上下文记忆大幅提升,从之前的 32K 直接跳到 128K,长对话不再容易忘事。
- 中断处理更自然:用户随时插话,它能优雅接住,而不是卡壳或重复。
- 工具调用能力:真正能干活。可以连日历、CRM、数据库等外部系统,边聊边帮你查、改、总结。
- 思考透明度:新增了 Preambles 机制,会先说“我查一下你的日历”而不是默默操作,让用户有掌控感。
- 推理努力可调:开发者能通过
reasoning.effort参数(minimal 到 xhigh)自己平衡速度和深度。着急的时候选低,复杂问题就开高。
演示里有个场景特别打动我:用手机语音呼叫个人助理,它不仅能查日历、更新客户信息,还会在后台操作时自然告诉你“我正在更新记录,请稍等”。这种“边想边说”的流畅度,以前很少见到。
GPT-Realtime-Translate:实时跨语言对话终于靠谱了
这个模型解决的是全球沟通的真实痛点。它支持 70+ 种输入语言 转 13 种输出语言 的实时语音翻译,而且是端到端的语音到语音,不是传统那种 STT+翻译+TTS 拼起来的生硬版本。
API地址:https://developers.openai.com/api/docs/guides/realtime
文章链接:https://openai.com/index/advancing-voice-intelligence-with-new-models-in-the-api/
更多AI科技内容,微信搜索橙市播客小程序
微信扫描下方的二维码阅读更多精彩内容

声明:本站所有文章,如无特殊说明或标注,均为橙市播客原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。如果你是AI总结,务必加上此版权说明