最近看到 OpenAI 研究员 Jiayi Weng 的一篇帖子,讲的东西让我挺兴奋的--他没有训练任何新神经网络,却用 LLM 编码代理迭代纯 Python 代码,在 Atari Breakout 上打出了理论最高分 864 分,还在 MuJoCo、VizDoom 等环境里达到接近或超越当年 Deep RL 的水平。
这不是炫技,而是一个老想法的强势回归:启发式学习(Heuristic Learning,HL)。
Jiayi 当时在维护 EnvPool(一个并行环境库),想找一些便宜、可复现的策略来快速验证环境是否正常。训练神经网络太慢太贵,于是他尝试让 Codex(当时叫 gpt-5.4)去写和改纯代码策略。
结果一发不可收拾:
更夸张的是:
最关键的是:他根本没训神经网络。他维护的是一个不断生长的软件系统。
简单说,HL 把“要优化的对象”从神经网络的参数,换成了:
代码、规则、状态机、控制器、MPC、宏动作 等软件结构。
传统 Deep RL 中,策略是黑箱神经网络,靠梯度下降更新; 而在 HL 中,策略是人类可读的代码,由 LLM 编码代理根据反馈直接修改。
他把这个完整系统称为 Heuristic System(HS),它不只是 policy.py,而是包含:
这个系统能自己看失败视频、分析日志、理解环境反馈,然后改出更好的代码。
| 维度 | Deep RL | Heuristic Learning (HL) |
|---|---|---|
| 策略形式 | 黑箱神经网络参数 | 人类可读的代码/规则 |
| 状态表示 | 隐式特征(embedding) | 显式变量、检测器、缓存 |
| 更新方式 | 梯度下降 | LLM 代理直接编辑代码 |
| 记忆方式 | Replay Buffer | 显式试验记录、失败原因、版本 diff |
| 可解释性 | 差,难以解释 | 强,可直接翻译成自然语言 |
HL 的优势非常明显:
规则系统、专家系统早就存在,但过去维护成本极高:
加一条规则修好 A,B 就坏了;越堆越乱,最后变成“大泥球”(Big Ball of Mud),谁也不敢碰。
LLM 编码代理彻底改变了维护曲线:
这让大规模、可持续的规则系统迭代成为现实。
这不只是“用代码代替神经网络”,而是把智能系统的构建方式,从“训练黑箱”转向“协同编程”。
LLM 不是替代人类,而是成为规则系统的协作者与维护者。 我们不再需要手动堆砌 if-else,而是让代理在反馈驱动下,持续进化一个可解释、可测试、可维护的智能体。
也许,真正的 AGI 不一定是更大的模型,而是一个能自我迭代、自我修复的软件系统。
你对这个方向怎么看? 有没有试过用 LLM 改规则系统?欢迎分享你的经验!👇
加入讨论
这思路太妙了!用LLM改代码而不是训模型,简直是把“智能”从黑箱里解放出来了。我平时写自动化脚本也总靠试错+日志分析,没想到还能系统化到这种程度。不过有个小疑问:如果环境规则变了(比如球速突然加倍),这种纯代码策略会不会崩得比神经网络还快?毕竟没泛化能力啊。
这波操作让我想到小时候玩红白机,靠背板子过关……现在LLM直接成了“代码背板大师”!不过纯靠规则堆到理论最高分,会不会在更复杂环境里遇到天花板?比如球速突变或者多球模式,还能靠改代码搞定吗?感觉HL强在精准,但泛化是不是还得靠点神经网络的“直觉”?
这操作让我想起以前调PID控制器,一点点试参数累死个人,现在LLM直接写代码还带自我debug,简直是工程师的梦中情脑!不过好奇的是,如果环境规则突然变了(比如球拍变形状),这套系统能多快适应?毕竟代码不是万能的,万一LLM“脑补”过头了呢?
这简直是“用AI写AI”的终极形态啊!LLM不仅写策略,还自己加日志、回看视频、改bug,感觉像养了个会自我进化的数字宠物。不过我在想,如果环境突然加入随机扰动(比如球拍偶尔失灵),这套系统能多快适应?毕竟规则系统最怕的就是“计划外惊喜”😂