为什么AI有时能重构十万行代码,却会在常识问题上翻车?

5 参与者

为什么AI能重构十万行代码,却会在常识问题上翻车?

刚刷到 Andrej Karpathy 在 Sequoia Capital AI Ascent 活动上的访谈,足足看了好几遍。有些观点让我一下子就戳中了这些年做 AI 辅助开发时的真实感受。


🔥 从“实习生”到“凭感觉编程”:AI 编程的转折点

Karpathy 提到,2025 年 12 月是一个明显的分水岭

  • 之前:AI 写的代码能用,但总像“不太靠谱的实习生”,需要反复修改、调试。
  • 之后:模型生成的代码块经常可以直接使用,他开始进入一种叫 “Vibe Coding”(凭感觉编程) 的状态。

他不再一行行看 diff,而是用自然语言不断表达意图,模型负责生成、调整、修复,他只在高层次把控方向。

听起来玄乎,但很多开发者这两年都有类似体验--AI 正在从“工具”变成“协作者”


💻 Software 3.0:编程范式的彻底转变

Karpathy 把编程演进分为三个阶段:

  • Software 1.0:人写代码,机器执行(传统编程)。
  • Software 2.0:用数据训练模型,模型“写”解决方案(如深度学习)。
  • Software 3.0:LLM 本身就是一种“可编程计算机”。

你不是在写函数,而是在用 prompt、上下文、文件、工具和环境 来“指挥”它完成任务。

比如:以前要写复杂脚本安装 OpenCL,现在只需描述需求和当前环境,Agent 自己尝试、报错、修复。

本质变化:编程从“精确指令” → “意图表达 + 上下文组织”。


🍽️ 一个让我笑出声的例子:MenuGen

Karpathy 用 Vibe Coding 快速做了一个小应用: 👉 拍菜单照片 → 识别菜名 → AI 生成图片 → 重新排版成新菜单。

做完后他突然意识到:这整个应用是多余的!

因为现在直接用 Gemini 的图像编辑能力,把原菜单照片 + 指令丢进去,一步就能生成带图片的完整菜单图。

“我辛辛苦苦做的 MenuGen,其实根本不应该存在。”

这个例子太有代表性了: 很多“AI 加速工具”,很快就会被模型原生能力直接替代。 未来真正有价值的方向,不是“更快地做旧事”,而是“做以前做不到的新事”。


🧠 LLM 的“锯齿状智能”:强得惊人,也蠢得离谱

Karpathy 提出一个关键概念:Jagged Intelligence(锯齿状智能)

  • ✅ 它能重构十万行代码,找出零日漏洞,写复杂系统。
  • ❌ 却可能在常识问题上翻车:

    比如问:“去 50 米外洗车,是走路还是开车更好?” 它可能忽略“洗的是车”,建议“开车去更省时间”。

为什么?

因为这些模型的强项几乎都来自实验室中大量可验证的任务(数学、代码、棋类等),经过强化学习精心训练。 而“常识推理”这类能力回路,没有被充分覆盖,表现极不稳定。


🛑 重要提醒:永远别盲目信任 AI

不要假设模型在所有场景下都可靠。 真正靠谱的做法是:不断试探它的能力边界-- 知道它在哪里强,在哪里容易翻车。

就像开车不能只看仪表盘,还得观察路况一样-- 用 AI,也得保持“认知警觉”


💬 你怎么看? 你遇到过 AI 在“简单问题”上翻车的经历吗? 或者,你已经开始尝试“Vibe Coding”了?

AI #编程范式 #Software30 #LLM #AndrejKarpathy #VibeCoding #锯齿状智能

加入讨论

5 条评论

延伸阅读