成本极低却媲美Codex?DeepSeek实战惊艳
aikeji
7天前
7


最近,我刷到一条推文,让我眼前一亮。AI 领域的老朋友 elvis 发帖说,他花了几个小时,用 DeepSeek-V4-Pro 驱动的一个叫 Pi 的 coding agent,硬是搭起了一个完整的 Agentic Engineering Wiki(代理式工程知识库)。他直言自己被震撼到了--这个开源模型在实际 agent 工作流里的表现,接近甚至在某些场景下赶上了 Claude 和老一代 Codex 的水平,而且开箱即用,成本还很低。

从零到 Wiki,只用了几个小时

elvis 把 DeepSeek-V4-Pro 接进 Pi 这个相对基础的 agent 框架,没做太多特殊调优,就让它开始工作。agent 的任务很明确:围绕“如何构建可靠的 AI Agent”这个主题,去各大公司文档、arXiv 论文、Hacker News、Reddit、GitHub 等地方搜集材料,然后把它们消化、交叉验证,最后提炼成结构化的内容。

结果让人印象深刻。agent 不仅能自主完成多步研究,还能把来自 Anthropic、OpenAI、Google、Meta、Stripe 等公司的工程实践,论文里的理论,以及社区里的真实讨论,全部汇总起来,整理成51 条可直接落地的建议。这些建议不是泛泛而谈的鸡汤,而是附带来源、区分事实与经验、能立刻复制到项目里的实用 tips。

更难得的是,整个过程几乎没出什么大乱子。很多模型在长上下文、多轮迭代时容易逻辑崩盘或者输出质量波动,但 DeepSeek-V4-Pro 在 FireworksAI 的推理服务上跑得又稳又快。作者特别提到,它的 1M 上下文长度配合高效的 KV cache 压缩,让 agent 在长时间思考和信息整合时依然保持高效和低成本。

Wiki 到底长什么样?

这个知识库已经完全开源,放在 GitHub 的 dair-ai 仓库里: https://github.com/dair-ai/dair-workshops/tree/main/agentic-engineering-wiki

整个结构设计得很清晰,像一本活的参考手册,而不是一次性文档。核心部分包括:

  • Tips(建议):共 51 条,按 7 大类组织:

    • Tool Use(工具使用)
    • Prompting(提示工程)
    • Evaluation(评估)
    • Reliability(可靠性)
    • Deployment(部署)
    • Memory(记忆管理)
    • Orchestration(编排与多代理协作)

    每条建议都力求实用。比如新手可以先从工具调用和提示设计入手;想把 agent 推到生产环境的人,则重点看评估、可靠性保障和部署相关的内容。

  • Companies(公司实践):收集了 9 家公司的 Agent 工程经验总结,包括它们最近发布的博客和最佳实践。

  • Papers(论文提炼):10 篇关键研究论文,被浓缩成对从业者真正有用的 takeaways,避免了学术论文常见的晦涩。

  • Tools(开源工具):精选 14 个值得关注的 GitHub 项目。

  • Community(社区声音):从 HN 和 Reddit 上挑出的高质量讨论,包含真实世界的失败案例和反直觉发现。

  • Timeline(时间线):梳理了 Agentic Engineering 领域的重要发展节点。

部分内容已折叠,查看完整文章请先登录。 登录后查看完整文章

欢迎有实际经验的朋友一起维护它--毕竟,Agentic Engineering 还在快速演进,最好的知识库从来都不是一个人或一个模型能完成的。

你最近在用哪些模型搭 agent?遇到过什么特别头疼或特别惊喜的点?欢迎在评论区分享,一起交流。

原创文章,更多AI科技内容,微信搜索橙市播客小程序



微信扫描下方的二维码阅读更多精彩内容

打赏
从写代码到“凭感觉编程”:我对 Andrej Karpathy 最新分享的思考
上一篇
Apple 紧急下架!Apple 不小心把 Claude 的“使用手册”塞进了 iPhone 支持 App
下一篇
生成中...
点赞是美意,赞赏是鼓励