最近,Thinking Machines Lab 在推特上发布了一条令人兴奋的线程,展示了他们从零训练的“交互模型”(Interaction Models)。这不仅仅是又一个参数更大、回答更聪明的聊天模型,而是彻底重新思考了“人机怎么一起做事”这个根本问题。
我们现在用的大模型,虽然智能已经很强,但在真实协作场景中却显得力不从心:
目前的AI要么在你说话时“冻结”,等你说完再统一回应;要么靠外部规则(比如语音活动检测 VAD)勉强实现实时。但这些补丁式的方案,注定会被更聪明的模型甩开。
人类协作从来不是轮流发言那么简单。我们会同时说话、打断对方、发出附和声,一边听一边查资料、画图、改主意。真正的共事,需要共现、共时、同时性。
有人用印地语说话,模型一边实时用英语翻译,一边还用英语向观众解释背景。翻译不是等说完再给,而是同步进行,延迟低到几乎感觉不到。
三人讨论技术问题时,模型一边听着,一边悄悄搜索相关数据,生成柱状图,直接扔到界面上。整个过程对话完全没中断,还会自然地“嗯”两声表示在听。
帮人讲故事时自然互动、提醒用户改掉坏习惯(那种温和又坚持的“唠叨”)、阻止不切实际的想法、一起玩 trivia 游戏边听边查知识……AI 不再是冷冰冰的工具,而像一个靠谱的同事或朋友。
传统模型以“完整一轮对话”为单位处理。他们把时间切成 200 毫秒左右的小片段,输入(音频、视频、文本)和输出像两条并行的河流一样交织在一起。这样就能自然地支持重叠、中断、沉默、附和。
音频和图像不经过笨重的大编码器,而是直接用轻量化的嵌入方式和 Transformer 从头一起训练。所有模态在最早的阶段就融合了,让模型能真正“同时听、说、看、想、做”。
前台是一个专门负责实时交互的模型,后台是一个负责深度思考和工具调用的模型。两者协同工作,实现低延迟 + 高智能。
这套系统让我看到:AI 不再只是回答问题的工具,而是能真正“在场”的协作伙伴。
想象一下:
这不是科幻,而是正在发生的现实。
实时多模态交互,正在打破“人机隔阂”的最后一道墙。 未来的工作与生活方式,将因为这种“共在感”而彻底改变。
你怎么看?欢迎在评论区聊聊你的想法 👇
加入讨论
这个“微轮次”概念太妙了!200毫秒的颗粒度,感觉就像AI真的在“呼吸”一样。不过有点好奇,如果三个人同时说话还带口音,它能分清谁在讲啥吗?毕竟现实开会时连人脑都容易串台啊😂