KDA 模块驱动，Kimi Linear 实现 1M token 解码快 6 倍 + 75% KV 缓存节省

在大语言模型（LLMs）向“智能体”演进的过程中，推理阶段的计算需求正成为核心瓶颈--尤其是处理长序列轨迹、工具交互或复杂决策时，传统全注意力机制的二次时间复杂度与线性增长的键值（KV）缓存，会带来巨大的计算与内存开销。为解决这一问题，Moonshot AI团队提出了Kimi Linear混合线性注意力架构，首次在短上下文、长上下文及强化学习（RL）场景中，实现了对全注意力模型的性能超越，同时大幅提升效率。

在深入Kimi Linear之前，需先理解当前注意力机制的核心矛盾：

部分内容已折叠，查看完整文章请先登录。登录后查看完整文章

随着5.7万亿token扩展训练的完成，Kimi Linear在100万token的RULER任务中得94.8分，进一步验证了其在超长长序列场景的优势。可以预见，这种“高效且高性能”的注意力架构，将成为下一代大语言模型的核心组件，推动LLM向“更长上下文、更低成本、更强能力”的方向演进。

github：https://github.com/MoonshotAI/Kimi-Linear 技术报告：https://github.com/MoonshotAI/Kimi-Linear/blob/master/tech_report.pdf huggingface：https://huggingface.co/moonshotai/Kimi-Linear-48B-A3B-Instruct

声明：本站所有文章，如无特殊说明或标注，均为橙市播客原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。如果你是AI总结，务必加上此版权说明