AI能否真正完成需要持续几周的长时程任务?

2 参与者

AI能否真正完成需要持续几周的长时程任务?--从唐杰教授的思考看2026年AI的突破方向

最近刷到清华大学唐杰教授的一条长帖《Recent thoughts》,作为大模型领域最资深的学者之一、智谱AI首席科学家,他没有堆砌术语,而是冷静地分享了对2026年AI走向的判断。其中最核心的一句话让我印象深刻:

AI真正的价值,不再是回答问题,而是能在复杂、长期的任务里自主干活。

这让我重新思考一个关键问题:AI能否真正完成需要持续几周甚至几个月的长时程任务?


🔍 什么是“长时程任务”?为什么它是今年的突破口?

唐杰指出,2024年最值得关注的进展不是参数翻倍,而是 长时程任务(Long-Horizon Tasks) 的突破。

这类任务不再是“问答”或“单次生成”,而是像人类一样: ✅ 持续工作数天、数周甚至数月 ✅ 自主规划、执行、监控、纠错 ✅ 面对不确定性时动态调整策略

举个震撼的例子: 在网络安全领域,AI可以24小时不间断扫描系统漏洞,利用黑客级方法论发起攻击测试,自动在HackerOne、BugCrowd等平台提交报告并领取赏金。 人类会疲劳、会分心,但AI不会--这不仅是效率问题,更是能力范式的跃迁


🤖 从“一人公司”到“无人公司”:自主代理正在成熟

去年我们还在热议“One Person Company”(一人公司),今年已经开始讨论“None-Person Company”(无人公司)。

唐杰半开玩笑地说:“我们可能都快变成这个新生态里的NPC了。”

但这背后是清晰的趋势:

  • AI代理(Autonomous Agents)正在快速成熟
  • 它们能自己制定目标、拆解任务、调用工具、评估结果
  • 创业门槛将进一步降低,但人的角色将从“执行者”转向“协作者”或“监督者”

未来的公司,可能不再需要大量人力处理日常运营--AI会自己干。


⚙️ 技术上是如何“硬堆”出长时程能力的?

唐杰原本以为,要实现长时程任务,需要等待记忆、持续学习、自我判断等根本性突破。但现实是:工程创新正在快速逼近理论极限

能力当前进展实际效果
记忆(Memory)百万级上下文窗口 + RAG(检索增强生成)可回溯数周的操作记录,形成“工作记忆”
持续学习模型更新周期从“月级”缩短到“周级”虽非真正终身学习,但体验已接近“边做边学”
自我判断Claude Opus 4.7 等模型展现较强自我纠错能力能评估输出质量,主动要求重试或调整策略
自我进化前沿团队让AI自己写代码、清洗数据、生成合成数据再训练自己虽浪费算力,但极大加速迭代--速度即壁垒

💡 关键洞察:谁迭代得更快,谁就拉开差距。 人力不再是瓶颈,算力+自动化才是。


🌌 AGI的新定义:不只是“像人”,而是“超越人类集体智慧”

唐杰赞同DeepMind联合创始人Demis Hassabis的观点:

AGI不应只是达到单个人类的智能水平,而应能汇聚人类集体智慧,做出“相对论”级别的原创贡献。

这意味着:

  • 会考试、写代码 ≠ AGI
  • 能推动科学发现、产业变革 ≈ 真正的智能飞跃

而通向这一目标的路径越来越清晰: 长上下文 → 强记忆 → 持续学习 → 自我判断 → 自我训练

我们正在一步步逼近。


🌍 行业与生活将被如何重塑?

读完唐杰的思考,最大的感受是:

变化比我们想象的更快,且不可逆。

未来几年可能发生:

  • 所有App都将被重构成 AI-native 应用,甚至不再需要传统App形式
  • 工作流不再是“人操作工具”,而是“AI代理协同完成目标”
  • 教育、科研、医疗、金融等领域将出现“AI研究员”“AI医生”“AI基金经理”
  • 人类的核心竞争力转向:提出好问题、设定价值观、跨域整合、伦理判断

❓ 那么,回到最初的问题:AI真的能完成持续几周的任务吗?

答案是:正在成为现实。

虽然目前仍处于早期阶段,但技术栈的成熟速度远超预期。 我们不再需要等待“奇迹式突破”--通过工程优化、系统设计和代理架构,AI已经能在特定领域(如安全测试、代码生成、数据分析)中稳定运行数周,自主完成复杂目标

而这,才只是开始。


📌 结语: 我们正站在一个拐点上。 AI不再只是“助手”,而是逐渐成为“同事”,甚至“继任者”。 与其担心被取代,不如思考: 如何与AI共同进化?如何在新的生态中找到不可替代的位置?

欢迎在评论区分享你的看法: 👉 你认为哪个行业会最先被“长时程AI代理”颠覆? 👉 你准备好和AI“共事”了吗?

加入讨论

2 条评论

延伸阅读