MoE与Dense架构的视觉对比:从海报看大模型演进趋势

1 参与者

MoE与Dense架构的视觉对比:从海报看大模型演进趋势

最近LLM圈有个资源在开发者群里传疯了--Sebastian Raschka整理的「LLM Architecture Gallery」。作为一个天天跟模型架构打交道的人,我花了整整一个下午逐帧研究那张14570×12490像素的"架构全家福",发现几个特别有意思的趋势,值得单独拎出来聊聊。


一、MoE不是简单的"参数堆砌",而是结构性重构

很多人以为MoE(混合专家)就是"把FFN换成8个专家,加个路由门",但对比海报上DeepSeek V3Llama 3的并排结构后,你会发现差别远不止于此:

维度Dense架构(如Llama 3)Sparse MoE(如DeepSeek V3)
计算图复杂度线性堆叠,每层单一FFN并行专家池+动态路由,计算图呈分支结构
内存访问模式可预测的连续内存读取条件化稀疏访问,对显存带宽极敏感
归一化位置清一色Pre-norm开始出现Post-norm实验(如部分变体)
位置编码RoPE几乎成为标配部分尝试NoPE(无位置编码),靠注意力本身捕捉位置

关键洞察:MoE的"稀疏激活"特性,实际上把整个Transformer从静态计算图变成了动态数据流图。这也是为什么DeepSeek V3能在671B总参数下,保持与Dense模型相近的推理成本--不是魔法,是架构层面的重新设计。


二、从海报看注意力机制的"收敛"与"分化"

Qwen3全系列(4B到235B-A22B)横向对比,能清晰看到一条演进主线:

2022-2023:多头注意力(MHA)→ 分组查询注意力(GQA)

  • 目的:压缩KV Cache,服务长上下文
  • Llama 2/3、Qwen2都是典型代表

2024:GQA → 多头潜在注意力(MLA)

  • DeepSeek V2/V3引入,把KV Cache压到极致
  • 海报上MLA的模块颜色明显不同--绿色"MoE路由"区域和粉色"注意力"区域有重叠设计

2025:注意力与MoE的融合实验

  • MiniMaxKimi K2的卡片显示,部分模型开始在注意力层本身引入专家路由
  • 不再是"Attention + FFN"的固定三明治结构,而是每层内部的多专家竞争

一个细节:海报上Gemma 3的注意力模块标注了"Sliding Window + Global Attention"混合,说明长上下文处理正在从"统一方案"走向"分层策略"。


三、被低估的"基础设施"创新:归一化与位置编码

海报用颜色区分Pre-norm/Post-norm,乍看是细节,实则暴露了大模型的训练稳定性博弈

  • Pre-norm(粉色标注):绝对主流,梯度流更稳定
  • Post-norm实验(少量橙色标注):在超大规模MoE中出现,可能为了保留残差连接的原始信号强度

更值得关注的是NoPE(无位置编码)的回归:

  • 早期Transformer用正弦/可学习位置编码
  • RoPE几乎"一统江湖"后,部分MoE模型开始尝试完全移除显式位置编码
  • 原理假设:足够深的注意力网络+专家 specialization,可能隐式学习到位置信息

这在海报上体现为:某些模型的"输入层"(灰色)和"注意力块"(粉色)之间,少了RoPE标注的旋转符号


四、开发者视角:这张海报为什么比论文更高效

作为实际动手训模型的人,我觉得这个Gallery解决了三个痛点:

  1. 架构对比的"时空压缩"

    • 读10篇论文 vs 看一张海报的并排模块,信息获取效率差10倍
  2. 参数规模的"幻觉破除"

    • 235B-A22B这种命名(Qwen3),一眼看出是总参数235B、激活参数22B的MoE
    • 避免被"参数量营销"误导
  3. 快速定位"可迁移设计"

    • 想给现有Dense模型加MoE?看DeepSeek V3的路由负载均衡标注
    • 想优化长上下文?对比MLA和GQA的KV头数差异

五、一个开放性问题

海报收录了GLM-4.5/5的架构,其"双向注意力+单向生成"的混合设计,在颜色标注上呈现出独特的"粉灰交错"模式。这引出一个问题:

下一代架构会不会打破"纯解码器"的共识? 编码器-解码器结构是否在MoE时代迎来复兴?

目前看,Mistral Small 3.1的卡片显示其仍在坚持纯解码器,但Kimi K2的架构图中有疑似"前缀编码器"的模块。这个趋势值得持续跟踪。


资源链接https://sebastianraschka.com/llm-architecture-gallery/

建议下载那张56MB的PNG原图,放大到400%看模块连线--比任何文字描述都直观。


你们在实际项目中遇到过哪些架构选型陷阱?MoE的负载均衡和通信开销,有没有好的工程解法?欢迎讨论。

加入讨论

1 条评论

延伸阅读