
在大语言模型(LLMs)向“智能体”演进的过程中,推理阶段的计算需求正成为核心瓶颈--尤其是处理长序列轨迹、工具交互或复杂决策时,传统全注意力机制的二次时间复杂度与线性增长的键值(KV)缓存,会带来巨大的计算与内存开销。为解决这一问题,Moonshot AI团队提出了Kimi Linear混合线性注意力架构,首次在短上下文、长上下文及强化学习(RL)场景中,实现了对全注意力模型的性能超越,同时大幅提升效率。
一、核心痛点:全注意力与线性注意力的“两难困境”
在深入Kimi Linear之前,需先理解当前注意力机制的核心矛盾:
- 全注意力(如Transformer的Softmax Attention):能捕捉全局信息,表现力强,但计算复杂度随序列长度(T)呈$O(T^2)$增长--若处理100万token的长文档,计算量会是1万token的10000倍,且KV缓存需存储所有token的键和值,内存占用极高。
- 传统线性注意力(如Linear Attention):通过“键值对累积”将复杂度降至$O(T)$,但因内存管理粗糙(如仅用单一遗忘率),表现力远逊于全注意力,甚至在短序列任务中都难以达标。
举例来说:若用全注意力处理一本1000页的小说(约50万token),GPU可能因KV缓存不足而崩溃;若换传统线性注意力,虽能运行,但会因“遗忘过多关键信息”,无法准确回答“第10页提到的人物在第500页的结局”这类跨章节问题。Kimi Linear的核心目标,就是打破这种“效率与性能不可兼得”的困境。
二、核心创新:Kimi Delta Attention(KDA)的“细粒度记忆管理”
Kimi Linear的基石是Kimi Delta Attention(KDA)--一种优化后的线性注意力模块,通过“细粒度门控”与“硬件友好的分块算法”,解决了传统线性注意力的“记忆混乱”与“计算低效”问题。
1. 从“粗放遗忘”到“精准调控”:细粒度门控机制
传统线性注意力(如Gated DeltaNet,GDN)采用“头级标量遗忘门”--一个注意力头下的所有特征维度,共享同一个“遗忘速率”(类似用一个开关控制所有房间的灯光)。这种设计会导致“该忘的没忘,该留的被删”:比如处理对话时,可能误删用户的核心需求,却保留了无关的语气词。
KDA则采用通道级对角门(Diag(αₜ)),为每个特征维度分配独立的遗忘速率(类似每个房间有独立开关)。具体来说:
- 假设“用户咨询手机续航”的句子中,“手机”“续航”是关键特征,“你好”“请问”是次要特征;
- KDA会为“手机”“续航”对应的特征维度设置低遗忘率(αₜ≈0.9),让这些信息长期保留;为“你好”“请问”设置高遗忘率(αₜ≈0.1),快速清除无关信息。
这种设计的数学表达为KDA的核心状态更新公式: $S{t}=(I-\beta{t} k{t} k{t}^{\top}) Diag(\alpha{t})S{t-1}+\beta{t} k{t} v_{t}^{\top}$ 其中:
- $S_t$:注意力的“记忆矩阵”,存储键值对的关联信息;
- $Diag(αₜ)$:对角矩阵,每个对角元素对应一个特征维度的遗忘率;
- $β_t$:学习率门控,控制新键值对($k_t v_t^\top$)对记忆的更新强度,避免“新信息冲击旧记忆”。
2. 让硬件“跑满”:KDA的分块并行算法
线性注意力虽复杂度低,但传统实现因“逐token递归计算”,无法充分利用GPU的并行计算能力(类似用单车道公路运输,即使有10辆卡车也只能排队走)。KDA通过特殊化对角加低秩(DPLR)过渡矩阵,设计了“分块并行算法”,将长序列拆分成固定长度的“块”(如64个token/块),实现“块内并行、块间递归”。
(1)分块逻辑:把长序列“切蛋糕”
假设处理一个256token的序列,按64token/块拆分,可分成4个块(块1:1-64,块2:65-128,块3:129-192,块4:193-256):
- 块内并行:每个块内部的64个token同时计算,GPU的Tensor Core可满负荷运行(类似4车道公路同时通车);
- 块间递归:前一个块的“最终记忆”($S_{[t]}$)传递给下一个块,作为初始记忆,确保序列的连贯性(类似接力赛,上一棒的终点是下一棒的起点)。
(2)效率优化:比传统DPLR快1倍
传统DPLR(如S4模型)的分块计算需要4次“二级分块矩阵运算”,且需在对数域处理以保证数值稳定,导致GPU半精度计算(FP16)利用率低。KDA通过两个关键优化解决这一问题:
- 减少冗余计算:将二级分块运算从4次减至2次,消除3次额外矩阵乘法--相当于原本需要4步完成的工作,现在2步就能搞定,算子效率提升约100%;
- UT变换稳定数值:通过“上三角变换(UT transform)”减少非矩阵乘法的计算量,避免对数域处理,让GPU能以半精度高效计算(类似用更轻便的容器装货,提升运输效率)。
其分块更新的核心公式为: $S{[t+1]}=Diag(\gamma{[t]}^{C}) S{[t]}+(\Gamma{[t]}^{i \to C} \odot K{[t]})^{\top}(U{[t]}-W{[t]} S{[t]})$ 其中:
- $\gamma_{[t]}^{C}$:块内所有token的累积遗忘率,确保块间记忆的衰减合理;
- $U{[t]}/W{[t]}$:块内计算的辅助向量,类似“临时计算器”,减少重复运算;
- $\odot$:元素级乘法,确保每个特征维度的计算独立。
更多内容请搜索橙市播客小程序 原创文章,橙市播客小程序:https://csbk.dcsnet.cn/archives/737.html三、Kimi Linear整体架构:3:1混合比例的“黄金平衡”
仅有高效的KDA模块还不够--纯线性注意力在长序列全局检索(如“找出文档中所有与‘AI安全’相关的段落”)中仍有短板。Kimi Linear采用“KDA+全注意力(MLA)”的混合架构,通过3:1的层比例(3层KDA+1层MLA循环堆叠),实现“局部效率+全局表现力”的平衡。
1. 分层分工:让“专业的模块做专业的事”
- KDA层(3层):负责处理局部信息与内存管理。比如阅读文章时,KDA层会逐段理解语义,同时快速遗忘冗余内容(如重复的过渡句),减少KV缓存占用;
- MLA层(1层):周期性插入以捕捉全局关联。比如每读3段后,MLA层会“回顾”前面所有段落,建立“第1段的问题”与“第3段的答案”之间的联系,避免“只见树木不见森林”。
这种设计的优势可通过一组数据直观体现:相比纯全注意力,Kimi Linear的KV缓存占用减少75%(若纯全注意力需4GB缓存,Kimi Linear仅需1GB),100万token上下文下的解码吞吐量提升最高6倍(原本1秒生成10个token,现在能生成60个)。
2. 关键组件:细节决定性能上限
除了混合比例,Kimi Linear还有三个关键组件优化,进一步提升性能与效率:
(1)神经参数化:让特征更“有辨识度”
KDA对查询(q)、键(k)、值(v)的处理采用“ShortConv+Swish激活+L2归一化”的组合:
- ShortConv(短卷积):捕捉局部语义关联。比如“智能手表”中,“智能”与“手表”的搭配关系,通过3-5个token的短卷积可快速识别;
- Swish激活:引入非线性,让模型能区分“手机续航”与“续航手机”的语义差异(类似人类能理解“我吃饭”和“饭吃我”的不同);
- L2归一化:避免特征值过大导致的计算不稳定(类似将不同身高的人转换为“身高/平均身高”的比例,方便统一比较)。
(2)Sigmoid输出门:避免“注意力Sink”
传统线性注意力常出现“注意力Sink”问题--模型过度关注序列开头的几个token(如文档标题),忽略后续关键内容。KDA采用Sigmoid输出门,通过“数据依赖的门控”动态调整输出权重:
- 若当前token是关键信息(如“解决方案”),门控值接近1,让该信息充分输出;
- 若当前token是冗余内容(如“综上所述”),门控值接近0,抑制该信息输出。
实验证明,Sigmoid门控比GDN使用的Swish门控,在验证集上的困惑度(PPL,越低表示模型越稳定)降低0.14(9.25→9.11),有效缓解了“注意力Sink”。
(3)NoPE:让位置编码“交给KDA”
传统全注意力依赖RoPE(旋转位置编码)来捕捉序列顺序,但RoPE在长序列外推(如训练时用1万token,推理时用10万token)时,会因“固定频率”导致位置信息混乱(类似用时钟记录超过12小时的时间,会分不清上午和下午)。
Kimi Linear的全注意力层(MLA)采用NoPE(无位置编码),将位置信息捕捉完全交给KDA层:
- KDA通过“细粒度遗忘率”自然编码位置--比如序列中 earlier 的token,因经历更多遗忘步骤,其记忆强度会低于 later 的token,模型可通过记忆强度差异判断位置;
- 这种设计避免了RoPE的外推问题,同时简化训练(无需调整RoPE的频率参数)。
四、实验验证:从短序列到100万token,Kimi Linear全面领先
为验证Kimi Linear的性能,团队基于1.4万亿token预训练(最终版本扩展至5.7万亿token),对比了全注意力(MLA)、混合GDN(GDN-H)等基线,覆盖短上下文、长上下文、SFT(监督微调)、RL(强化学习)四大场景。
1. 短上下文任务(4k-128k):全场景性能碾压
在通用知识、数学&代码、中文任务中,Kimi Linear均大幅领先基线:
- 通用知识:MMLU(多任务语言理解)得73.8分,比MLA(71.6分)高2.2分,比GDN-H(72.2分)高1.6分;BBH(大语言模型推理基准)得72.9分,领先MLA 1.3分;
- 数学&代码:GSM8K(数学解题)得83.9分,与MLA持平(83.7分),远超GDN-H(81.7分);CRUXEval-O-cot(代码推理)得62.0分,领先MLA 0.5分、GDN-H 3.9分;
- 中文任务:C-Eval(中文能力测评)得79.5分,CMMLU(中文多任务理解)得80.8分,均为三者最高。
举例来说:在MMLU的“计算机科学”子任务中,Kimi Linear能更准确回答“分布式系统中CAP定理的含义”,而MLA因计算资源限制,可能混淆“一致性(Consistency)”与“可用性(Availability)”的定义。
2. 长上下文任务(128k-1M):检索能力与效率双优
在长文档理解(RULER)、代码仓库分析(RepoQA)等任务中,Kimi Linear的优势更明显:
- RULER(长上下文检索):128k token场景下得84.3分,比MLA(81.3分)高3分,比GDN-H(80.5分)高3.8分;100万token场景下,解码速度比MLA快6倍(每输出1个token仅需1.84ms,MLA需11.48ms);
- RepoQA(代码仓库问答):得68.5分,比MLA(63.0分)高5.5分,能准确找到“某个函数在100个代码文件中的调用位置”。
举例:若用Kimi Linear处理一个100万token的开源项目代码库,它能在1秒内生成“如何修改登录模块的密码加密逻辑”的步骤,而MLA可能因内存不足崩溃,或因速度太慢需要等待6秒以上。
3. 强化学习(RL)场景:推理能力持续提升
在数学推理的RL训练中,Kimi Linear的收敛速度与最终性能均优于MLA:
- 训练端:相同步数下,Kimi Linear的数学题准确率比MLA高10%-15%(如训练100步后,Kimi Linear准确率80%,MLA仅65%);
- 测试端:MATH500(500道数学题)准确率86%,比MLA(78%)高8个百分点;AIME 2025(美国数学邀请赛)平均得分20分,比MLA(15分)高5分。
这意味着:在需要持续学习的场景(如AI助教通过用户反馈优化解题能力)中,Kimi Linear能更快适应需求,提供更准确的答案。
五、开源资源:让每个人都能用上高效注意力
为推动后续研究,Moonshot AI开源了Kimi Linear的核心组件,且确保兼容性--可直接替换现有全注意力流水线,无需修改缓存或调度接口:
- KDA内核:集成vLLM(高效LLM推理框架),支持GPU并行计算,代码地址:https://github.com/fla-org/flash-linear-attention/tree/main/fla/ops/kda;
- 模型Checkpoint:发布480亿总参数(30亿激活参数)的预训练与指令微调模型,地址:https://huggingface.co/moonshotai/Kimi-Linear-48B-A3B-Instruct;
- 技术文档:提供分块算法、参数设置的详细说明,帮助开发者快速上手。
六、总结:Kimi Linear为何是下一代LLM的关键一步
Kimi Linear的突破并非“单点优化”,而是通过“细粒度门控+混合架构+硬件优化”的组合拳,解决了长期困扰LLM的“效率-性能”矛盾:
- 技术层面:首次证明线性注意力架构可超越全注意力,打破“线性注意力只能做效率补充”的认知;
- 实用层面:100万token上下文下,KV缓存省75%、解码快6倍,可直接应用于长文档分析、代码仓库管理、AI智能体交互等场景;
- 生态层面:开源资源降低了混合注意力的研究门槛,为更多开发者提供“高效LLM”的解决方案。
随着5.7万亿token扩展训练的完成,Kimi Linear在100万token的RULER任务中得94.8分,进一步验证了其在超长长序列场景的优势。可以预见,这种“高效且高性能”的注意力架构,将成为下一代大语言模型的核心组件,推动LLM向“更长上下文、更低成本、更强能力”的方向演进。
github:https://github.com/MoonshotAI/Kimi-Linear 技术报告:https://github.com/MoonshotAI/Kimi-Linear/blob/master/tech_report.pdf huggingface:https://huggingface.co/moonshotai/Kimi-Linear-48B-A3B-Instruct
微信扫描下方的二维码阅读更多精彩内容

声明:本站所有文章,如无特殊说明或标注,均为橙市播客原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。
