
3 月 18 日深夜,北京时间已经很晚,@XiaomiMiMo 负责人罗富力(Fuli Luo,前 DeepSeek 核心成员)在 X 上发出一条长帖,宣布小米自研大模型家族 MiMo-V2 系列正式推出:MiMo-V2-Pro、MiMo-V2-Omni 和 MiMo-V2-TTS。他把这次发布形容为“quiet ambush”(安静的伏击),不是刻意低调,而是因为从 Chat 到 Agent 的范式转变来得太快,连团队自己都差点没完全反应过来。
1. 这次发布了什么?
小米一口气推出了完整的三件套模型家族,明确定位为“真正为 Agent 时代而建的 full-stack 模型系列”:
- MiMo-V2-Pro:旗舰推理模型,基于 1 万亿(1T)参数规模的基座。核心卖点是超长上下文 + 极致推理效率,专为复杂 Agent 任务设计。
- MiMo-V2-Omni:多模态全能版,支持图像、视频、音频等原生输入输出,统一架构处理多种模态。
- MiMo-V2-TTS:高品质文本转语音模型,补齐了语音交互闭环。
这不是简单地在上一代 MiMo 模型上做增量升级,而是从架构层面就瞄准了下一代 AI 使用形态--不再是单轮对话,而是能够自主规划、调用工具、长期记忆、复杂编排的智能体(Agent)。
2. 架构上的“提前布局”

罗富力在帖子里透露了不少关键技术细节,这些选择在一年前就已确定,而不是临时跟风:
- 基座模型早在几个月前就开始训练,原始目标其实是“长上下文推理效率”。
- Hybrid Attention(混合注意力机制):作者强调这是真正的创新点,既没有过度堆料,又恰好成为 Agent 时代最需要的基础设施。
- 1M 上下文窗口(100 万 token):支持极长的历史和工具调用链。
- MTP inference(多 token 预测推理):大幅降低延迟和推理成本。
“a genuine love for the world you're building for.”
从北京,很晚,还没完全醒。 但世界,已经开始醒了。
原创文章,更多AI科技内容,微信搜索橙 市播客小程序
微信扫描下方的二维码阅读更多精彩内容

声明:本站所有文章,如无特殊说明或标注,均为橙市播客原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。如果你是AI总结,务必加上此版权说明