
在大语言模型(LLMs)向“智能体”演进的过程中,推理阶段的计算需求正成为核心瓶颈--尤其是处理长序列轨迹、工具交互或复杂决策时,传统全注意力机制的二次时间复杂度与线性增长的键值(KV)缓存,会带来巨大的计算与内存开销。为解决这一问题,Moonshot AI团队提出了Kimi Linear混合线性注意力架构,首次在短上下文、长上下文及强化学习(RL)场景中,实现了对全注意力模型的性能超越,同时大幅提升效率。
在深入Kimi Linear之前,需先理解当前注意力机制的核心矛盾:
随着5.7万亿token扩展训练的完成,Kimi Linear在100万token的RULER任务中得94.8分,进一步验证了其在超长长序列场景的优势。可以预见,这种“高效且高性能”的注意力架构,将成为下一代大语言模型的核心组件,推动LLM向“更长上下文、更低成本、更强能力”的方向演进。
github:https://github.com/MoonshotAI/Kimi-Linear 技术报告:https://github.com/MoonshotAI/Kimi-Linear/blob/master/tech_report.pdf huggingface:https://huggingface.co/moonshotai/Kimi-Linear-48B-A3B-Instruct

声明:本站所有文章,如无特殊说明或标注,均为橙市播客原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。如果你是AI总结,务必加上此版权说明
