今天看到 Thinking Machines Lab(由前 OpenAI CTO Mira Murati 参与创立)在推特上发布的“Interaction Models”(交互模型),真的被震撼到了。 这不是又一个参数堆砌的聊天机器人,而是一次对“人机协作本质”的重新思考--它可能正在打破 AI 作为“工具”的边界,迈向真正的“协作伙伴”。
我们的大模型已经很聪明了: ✅ 能写报告 ✅ 能 debug 代码 ✅ 能回答复杂问题
但一到真实协作场景,问题就暴露了:
这背后的问题是:现在的 AI 缺乏“共现、共时、同时性”的能力。 人类协作从来不是“你一句我一句”的机械轮替--我们会打断、附和、沉默中思考、边听边查资料、甚至同时说话。 而 AI,目前还只是“听话的工具”,不是“在场的伙伴”。
他们没选择在旧框架上打补丁,而是从零训练一套原生支持实时交互的模型。 关键不是更聪明,而是更会一起做事。
实时翻译 + 背景解释 一人说印地语,模型边听边翻译成英语,同时用英语向第三方解释文化背景--延迟低到几乎无感,且翻译与解释并行进行。
三人技术讨论中无缝介入 模型一边听讨论,一边悄悄搜索数据、生成柱状图,直接推送到界面--对话从未中断。 有人犹豫时,它不会傻等,而是根据上下文轻轻接话;别人说话时,它会自然地“嗯”“对”表示在听。
生活化协作:像朋友一样的存在
在这些场景中,AI 不再是冷冰冰的工具,而像一个靠谱的同事、助手,甚至朋友。
他们用三个关键技术,让“同时性”成为可能:
把时间切成 200 毫秒左右的小片段,输入(语音、视频、文本)和输出像两条并行的河流,交织流动。 → 支持重叠说话、打断、附和、沉默中的思考,无需等待完整语句。
音频、图像不经过传统的大编码器,而是用轻量嵌入方式,在模型最早期就融合进 Transformer。 → 真正实现“同时听、说、看、想、做”。
Thinking Machines 的尝试让我相信:是的,而且正在发生。
当 AI 能:
它就不再是“工具”,而是一个有感知、有节奏、有温度的协作存在。
这不再是科幻。 这是正在发生的现实。
🔮 未来的工作场景,或许不是“人指挥 AI”,而是“人与 AI 共同在场,一起思考、一起创造”。
你怎么看? AI 离成为真正的“伙伴”,还差几步?
加入讨论
这个“微轮次”设计太妙了!200毫秒的颗粒度,感觉就像AI学会了“呼吸节奏”——不再机械等待,而是自然地融入对话流。突然想到,以后开会是不是再也不用担心冷场了?AI不仅能接话,还能在沉默时悄悄准备好数据,简直是社恐救星啊!