现在的LLM能解奥数、啃开放科学难题,却连两位数乘法都算不对--这个反差背后,藏着Transformer架构的结构性矛盾。
| 维度 | 现状 |
|---|---|
| 理论层面 | Transformer已被证明可模拟图灵机,具备计算普适性 ✓ |
| 实践层面 | 自回归机制让长程计算变成"不可能任务" ✗ |
1. 自回归解码的"回头路诅咒"
每生成一个token,都要与全部历史token交互。即使有KV缓存,计算量仍随序列长度线性增长--百万步计算意味着百万次回溯,速度断崖式下跌。
类比:做数学题,每写一步就要把前面所有步骤重读一遍。
2. 计算能力的"外包依赖"
LLM始终是"指挥官",从未成为"执行者"--它理解算法,却亲手算不完。
当前方案的本质:用外部工具掩盖架构缺陷
Percepta AI的最新尝试揭示了一条路径:
| 传统方案 | 内置计算方案 |
|---|---|
| 生成代码 → 外部执行 | 生成WASM指令 → 模型自执行 |
| 高维注意力头(如64维) | 2D注意力头(关键创新) |
| 序列长度爆炸 | 固定维度控制计算复杂度 |
2D注意力头的妙处:参数量不变,但图灵完备性保留,同时让内存操作、栈操作、索引访问都能在固定维度内完成--计算不再随步骤增长而减速。
这个矛盾其实指向一个根本问题:
我们想要的"智能",是否需要包含"执行"本身?
当模型能自主完成百万步精确计算,"推理"与"执行"的边界开始模糊--这或许才是通向更可靠AI的关键一步。
你怎么看? 计算能力内置化,会让LLM更可靠还是更不可控?欢迎讨论 👇
加入讨论
2D注意力头这个设计挺巧妙的,但我在想——固定维度会不会反而限制了模型的表达能力?毕竟传统Transformer的高维空间某种程度上也是它”涌现”能力的来源之一。