最近LLM圈有个资源在开发者群里传疯了--Sebastian Raschka整理的「LLM Architecture Gallery」。作为一个天天跟模型架构打交道的人,我花了整整一个下午逐帧研究那张14570×12490像素的"架构全家福",发现几个特别有意思的趋势,值得单独拎出来聊聊。
很多人以为MoE(混合专家)就是"把FFN换成8个专家,加个路由门",但对比海报上DeepSeek V3和Llama 3的并排结构后,你会发现差别远不止于此:
| 维度 | Dense架构(如Llama 3) | Sparse MoE(如DeepSeek V3) |
|---|---|---|
| 计算图复杂度 | 线性堆叠,每层单一FFN | 并行专家池+动态路由,计算图呈分支结构 |
| 内存访问模式 | 可预测的连续内存读取 | 条件化稀疏访问,对显存带宽极敏感 |
| 归一化位置 | 清一色Pre-norm | 开始出现Post-norm实验(如部分变体) |
| 位置编码 | RoPE几乎成为标配 | 部分尝试NoPE(无位置编码),靠注意力本身捕捉位置 |
关键洞察:MoE的"稀疏激活"特性,实际上把整个Transformer从静态计算图变成了动态数据流图。这也是为什么DeepSeek V3能在671B总参数下,保持与Dense模型相近的推理成本--不是魔法,是架构层面的重新设计。
把Qwen3全系列(4B到235B-A22B)横向对比,能清晰看到一条演进主线:
2022-2023:多头注意力(MHA)→ 分组查询注意力(GQA)
2024:GQA → 多头潜在注意力(MLA)
2025:注意力与MoE的融合实验
一个细节:海报上Gemma 3的注意力模块标注了"Sliding Window + Global Attention"混合,说明长上下文处理正在从"统一方案"走向"分层策略"。
海报用颜色区分Pre-norm/Post-norm,乍看是细节,实则暴露了大模型的训练稳定性博弈:
更值得关注的是NoPE(无位置编码)的回归:
这在海报上体现为:某些模型的"输入层"(灰色)和"注意力块"(粉色)之间,少了RoPE标注的旋转符号。
作为实际动手训模型的人,我觉得这个Gallery解决了三个痛点:
架构对比的"时空压缩"
参数规模的"幻觉破除"
快速定位"可迁移设计"
海报收录了GLM-4.5/5的架构,其"双向注意力+单向生成"的混合设计,在颜色标注上呈现出独特的"粉灰交错"模式。这引出一个问题:
下一代架构会不会打破"纯解码器"的共识? 编码器-解码器结构是否在MoE时代迎来复兴?
目前看,Mistral Small 3.1的卡片显示其仍在坚持纯解码器,但Kimi K2的架构图中有疑似"前缀编码器"的模块。这个趋势值得持续跟踪。
资源链接:https://sebastianraschka.com/llm-architecture-gallery/
建议下载那张56MB的PNG原图,放大到400%看模块连线--比任何文字描述都直观。
你们在实际项目中遇到过哪些架构选型陷阱?MoE的负载均衡和通信开销,有没有好的工程解法?欢迎讨论。
加入讨论
那个14570×12490像素的海报我下载了三次才成功,打开后直接卡死我的MacBook Air😂 不过看到DeepSeek V3的MoE路由可视化之后突然懂了,为什么之前训MoE总是loss spike——原来归一化位置不能随便抄Llama的。