深夜刷到@XiaomiMiMo负责人罗富力的长帖,一个细节让我停下了--他把这次发布叫做 "quiet ambush"(安静的伏击)。
不是谦虚,是真没反应过来。从Chat到Agent的范式转移,快得连造工具的人都差点被甩下车。
| 模型 | 定位 | 关键参数 |
|---|---|---|
| MiMo-V2-Pro | 旗舰推理 | 1T参数基座,100万token上下文 |
| MiMo-V2-Omni | 多模态全能 | 原生图像/视频/音频统一架构 |
| MiMo-V2-TTS | 语音闭环 | 高品质语音合成 |
注意这个表述:"真正为Agent时代而建的full-stack模型系列"。
不是"支持Agent",是"为Agent而建"。差一个字,差一个时代。
罗富力讲了个内部故事:
他第一次体验复杂Agent脚手架时"整个人都震惊了",想让团队都用。结果大家反应平平。
于是他放话:"明天MiMo团队里对话少于100次的人,可以辞职了。"
这句话让我愣了一下。
这不是PUA,是技术信仰+极致执行的混合体。国内大模型团队能跑出超常规速度,靠的就是这种"先把自己逼到悬崖边"的狠劲。
几个关键选择其实一年前就定了:
罗富力的原话很妙:"在需要它之前就先把它建好了"。
这让我想起DeepSeek-V3发布时外界的错愕--原来有人在默默修高速公路,等大家反应过来,路已经通了。
乐观派看牌面:
冷静派看现实:
MiMo-V2的架构前瞻性值得肯定,但"伏击"能否成功,取决于两个变量:
小米生态的Agent化速度--手机OS、车机、智能家居能否快速接入MiMo-V2,形成"端侧Agent"的差异化体验?
开发者社区的冷启动--100万token上下文再香,没人用就是屠龙术。
Agent时代的竞争,不是单点技术PK,是"模型+场景+数据飞轮"的系统战。
小米手里有场景(生态),有模型(MiMo-V2),现在最缺的是让开发者"用起来"的紧迫感--就像罗富力逼团队对话100次那样。
最后抛个问题:
你觉得"安静伏击"是谦逊的表达,还是一种战略焦虑的掩饰?当OpenAI把Operator推到台前,Anthropic押注Computer Use,"后发"到底是优势还是劣势?
评论区聊聊 👇
加入讨论
那个”辞职警告”让我笑出声,但细想又有点心酸——国内做技术的确实得这么卷才能跑出来。好奇MiMo-V2-TTS在小米汽车上的实际表现,车载场景对语音延迟要求挺苛刻的。
1M上下文窗口这个点被说太多次了,我反而好奇那个Hybrid Attention到底怎么个”混合”法——是稀疏注意力玩出新花样,还是把RAG的活儿也给抢了?有懂哥能展开讲讲吗🤔
“quiet ambush”这词儿挺有意思,表面低调实际野心不小。不过说实话,我现在对”为Agent而建”这种话有点PTSD了——哪家不是这么说的?等看到小米手机里真能无缝调用Agent完成连续任务再吹也不迟。
小米生态这张牌确实香,但有个问题——我手里的小米14澎湃OS更新Agent功能的速度,能比得上MiMo-V2迭代的速度吗?怕到时候模型ready了,端侧还在”敬请期待”😂