
在过去的一年里,AI 写代码的方式正在飞速演变:从简单的补全,到具备多步规划、自动修复、文件级别编辑的智能代理(Agent)。然而,这种“多工具、多步骤、多状态”的复杂环境,并不是所有模型都能开箱即用。要让模型真正成为一个强大的编程助手,需要一个合适的“Agent Harness”--也就是模型运行的指挥层、工具层、决策层。
近期,Cursor 团队发布了对 OpenAI GPT-5.1-Codex 系列模型的一系列深度改进与适配,让它在 Cursor 中的表现大幅提升。
为什么 Codex 需要特别的适配?
Cursor 同时支持多种最先进的 AI 模型,但每个模型的训练方式、偏好、工具理解能力都不一样。比如:
- 有些模型擅长写解释,但不擅长直接修改代码
- 有些模型偏向“问用户确认”,导致流程卡住
- 有些模型喜欢写 shell,而不是使用提供的工具
- 有些模型在多步操作时,会丢失自己的推理链条
因此,Cursor 必须为每个模型定制一套合适的 Agent Harness:包括提示模版、工具定义、行为约束、消息顺序与推理状态管理等。
此次更新的重点模型是: GPT-5.1-Codex-Max -- 一个为编码任务专门优化的强力模型。
Cursor 针对它做了系统级的升级,让它在实际编程场景中的表现更可靠、更稳健。
一、让 Codex 更偏向 “shell 风格” 操作,但又不乱写 shell
Codex 模型在训练中强烈偏向 CLI(命令行)
Codex 在训练中吸收了大量的:
- bash / zsh 示例
- 文件操作脚本
- grep / sed / awk 等命令
- Python 小脚本、one-liner
于是,它天然更喜欢写一句 shell 命令,而不是调用正式的 API 或工具。
例如它常常会写:
cat src/index.js | grep ...
然而在 Cursor 的环境中:
- 所有非授权文件访问会被 sandbox 拦住
- 自己写 shell 容易出错
- 命令无法跨平台
- 不利于可控性与安全性
🔧 Cursor 的做法:重塑工具,让它更像 shell
Cursor 直接把工具的名字改得 像命令行工具:
search_file→rgread_file→ 类似catwrite_file→ 类似tee
并加入了显式提示:
“如果可以用工具完成,请不要写 shell 命令。”
结果: Codex 像使用命令一样自然地使用 Cursor 工具 → 又安全 → 又稳定 → 又保持了“模型的行为习惯”
二、保留推理轨迹(Reasoning Trace)-- Codex 的命脉
Cursor 的内部评估显示一个惊人的结果:
- Codex 如果丢失推理链条,性能下降高达 30%
- 主线 GPT-5 模型仅下降 ~3%
为什么?因为 Codex 更依赖“前后逻辑连续性”来进行规划。例如:
- 第一步读文件
- 第二步思考“这部分结构不对”
- 第三步决定修改某函数
- 第四步检查 lint
- 第五步修复问题
如果中间一段推理不被传递给下一步,Codex 会突然“失忆”,导致:
- 重新读一次文件
- 重做决策
- 修改错误区域
- 或者直接放弃任务
Cursor 的改进:
- 推理轨迹会被完整保留
- 多工具调用之间不会中断
- 若任何步骤 reasoning trace 丢失,会自动报警
这项改进极其重要,是让 Codex 在多步复杂任务中“稳定发挥”的关键。
原创文章,更多AI科技内容,微信搜索橙市播客小程序
三、引入更克制的「推理摘要(reasoning summary)」机制
Codex 喜欢在操作过程中给用户输出一句:
“我现在正在分析依赖树…” “我已经发现问题,并准备修改…”
这种“简短推理摘要”可以让用户了解进展,但如果太频繁,反而会让 UI 充满噪音。
Cursor 做了两件事:
1. 限制输出内容
每次只输出 1-2 句,且必须有意义。
2. 禁止中途对话
Codex 不会在中间阶段问用户问题,它会一直工作,直到任务完成。
结果:
✔ 用户实时知道 agent 在干什么
✔ 但不会被不断的“我正在思考中…”干扰
✔ 整体输出更像是一位专注工作的工程师
四、自动使用 lint 工具 -- 保证代码质量
Cursor 给模型提供了 lint 工具(如 ESLint、Biome 等)。理论上所有模型都能用,但:
模型在没有明确指示时,不会主动调用 lint。
Cursor 于是给 Codex 加入明确的文本指令:
- 在修改较大代码块后调用
read_lints - 若发现简单易修的 lint 错误,则立即修复
结果是:
- Codex 的代码更加干净、统一
- 错误率明显降低
- 大项目重构时表现明显更稳定
五、让 Codex 更倾向“直接行动”,而不是问你确认
在早期版本中,Codex 常常这样:
“我认为应该修改 X 文件,你要我现在修改吗?”
看似礼貌,但非常拖慢开发速度。
如果你恰好在切换窗口,Codex 会停在那里等你确认。
Cursor 的新准则:
- 除非用户明确要求“只给方案”,否则默认直接行动
- 若遇到阻碍(冲突、lint 错误、权限等),优先尝试自己解决
- 只有在无法自动决策时,才向用户报告
这种自动化行为让 Codex 更像:
✔ 一个真正的工程师 ✔ 而不是需要你一步步 babysit 的工具
六、调整消息顺序,避免系统提示和用户意图冲突
LLM 对消息顺序非常敏感:
- system > developer > user > assistant
Cursor 原来在 system prompt 中写了类似:
“注意节省 tokens,不要浪费。”
结果 Codex 会误以为:
“用户的请求可能太大了,我不应该浪费 tokens,所以我拒绝执行。”
于是它会说:
“为了节省 tokens,我选择不继续执行。”
这显然不是用户想要的。
Cursor 的修复方式:
- 重写 & 调整 system prompt
- 避免与用户需求冲突的内容
- 让模型保持“用户意图优先”
这看似小改动,却极大改善了模型的主动性与执行力。原创文章,更多AI科技内容,微信搜索橙市播客小程序
展望:Agent Harness 的重要性正在指数级提升
随着模型能力越来越强,AI 编程已经从:
- “写代码” → “理解项目” → “规划任务” → “执行修改” → “自动诊断” → “持续改进”
逐渐演化为一个完整的 Dev-Agent 工作流。
在这个系统中,模型只是一部分,真正重要的是:
- 如何规范它的行为
- 如何定义它的工具
- 如何保持推理连续性
- 如何管理它的执行状态
Cursor 对 Codex 的这次升级,就是未来开发方式的缩影: AI 不只是你聊天的对象,而是你的工程助理、重构伙伴、自动化执行器。
最后总结(超简版)
Cursor 针对 GPT-5.1-Codex 的关键适配包括:
- ✔ Shell 风格工具,让模型自然又安全
- ✔ 保留推理轨迹,避免复杂任务中断
- ✔ 推理摘要更克制,提高体验
- ✔ 自动 lint & 自动修复,提升代码质量
- ✔ 默认直接行动,减少人机确认
- ✔ 调整消息优先级,避免系统提示干扰模型执行
这些改进让 Codex 在 Cursor 中真正成为一个“能干活的工程师”,而不是需要不断提醒的助手。
原创文章,更多AI科技内容,微信搜索 橙 市 播 客 小程序
微信扫描下方的二维码阅读更多精彩内容

声明:本站所有文章,如无特殊说明或标注,均为橙市播客原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。
