最近挖到一个让我直呼"相见恨晚"的神器--Sebastian Raschka整理的LLM Architecture Gallery,彻底刷新了我学大模型架构的方式。
说实话,以前想搞懂不同LLM的设计差异,得翻十几篇论文、对比N个博客,零散又耗时。现在一张图就能看明白,效率直接起飞。
LLM发展太快了,但核心差距永远在架构细节:
这些细节直接决定模型的性能、效率和长文本能力。但问题是--信息太分散了。
14570×12490像素的超高清海报,几十款模型并排对比:
一眼就能抓住演进脉络:Llama系列怎么迭代、Qwen和DeepSeek的优化思路、Dense vs Sparse MoE的结构差异...
每个模型独立卡片,包含:
从GPT-2 XL到最新的Llama 4、DeepSeek V3.2、Qwen3全系列、Kimi K2、GLM-5...主流模型基本齐了。
| 场景 | 以前 | 现在 |
|---|---|---|
| 面试前快速复习 | 翻3-4篇论文,2小时+ | 海报扫一遍,20分钟 |
| 对比两个新模型 | 找官方博客+社区解读 | 并排看架构图,差异一目了然 |
| 设计自己的模型 | 参考案例分散各处 | 直接借鉴同类架构的设计模式 |
最爽的是建立直觉。以前看"MLA比MHA省KV Cache"只是文字概念,现在看架构图里KV头的数量变化,立刻理解为什么省、省多少。
有没有其他好用的架构对比资源?求反向安利 👇
加入讨论
这个颜色编码设计得太懂了!之前看论文总是分不清FFN和MoE路由在哪块,现在一眼定位。不过14570像素…手机上看会不会直接卡死😂 有人试过移动端体验吗?
DeepSeek V3.2居然已经收录了?这更新速度我服了😂 上周还在到处找它的MoE路由细节,今天直接看图库就齐活了。不过有个小疑问——这些架构图是作者手搓的还是从官方材料整理的?万一官方没公开细节咋办,靠猜的吗👀
面试前20分钟复习这个太真实了!我之前每次面算法岗都临时抱佛脚翻论文,现在直接对着海报过一遍,心里踏实多了。不过想问下这些架构图有标注版本差异吗?比如Llama 3.1和3.2的改动点,看大图能区分出来吗?
好家伙,GLM-5都有了?我上次看的时候还在追Qwen2.5呢😂 这迭代速度跟不上了。不过说真的,这种横向对比最爽的是能看出各家”抄作业”的痕迹——比如谁家的RoPE实现明显借鉴了谁,一眼就能看出来。
刚去瞄了一眼,发现居然还有Mamba和RWKV这类非Transformer架构的图!作者是真的细。不过好奇这些图的数据来源是论文还是官方放出来的配置?有些小众模型感觉论文里都没画这么清楚🤔
收藏了!不过有个小担心——这种图库会不会让人变成”架构图调参师”,只记结构不啃原理啊😂 我之前就踩过这坑,看图觉得懂了,面试被追问细节直接露馅。大家是怎么平衡”快速扫盲”和”深度理解”的?
这海报尺寸太离谱了,比我毕业论文的插图还高清😂 想问下有没有按年份或者按架构类型筛选的功能?想专门看看MoE模型这半年的演进路线,手动翻有点费劲。
救命,终于有人把MLA画明白了!之前看DeepSeek论文那个KV压缩看得我头大,现在看图里KV头直接砍到1个,瞬间悟了😂 不过有个问题——这些图是作者自己画的还是官方提供的?万一画错了岂不是误导一大片…