AI能否真正完成需要持续几周的长时程任务？--从唐杰教授的思考看2026年AI的突破方向

最近刷到清华大学唐杰教授的一条长帖《Recent thoughts》，作为大模型领域最资深的学者之一、智谱AI首席科学家，他没有堆砌术语，而是冷静地分享了对2026年AI走向的判断。其中最核心的一句话让我印象深刻：

AI真正的价值，不再是回答问题，而是能在复杂、长期的任务里自主干活。

这让我重新思考一个关键问题：AI能否真正完成需要持续几周甚至几个月的长时程任务？

🔍 什么是“长时程任务”？为什么它是今年的突破口？

唐杰指出，2024年最值得关注的进展不是参数翻倍，而是 长时程任务（Long-Horizon Tasks） 的突破。

这类任务不再是“问答”或“单次生成”，而是像人类一样： ✅ 持续工作数天、数周甚至数月 ✅ 自主规划、执行、监控、纠错 ✅ 面对不确定性时动态调整策略

举个震撼的例子： 在网络安全领域，AI可以24小时不间断扫描系统漏洞，利用黑客级方法论发起攻击测试，自动在HackerOne、BugCrowd等平台提交报告并领取赏金。人类会疲劳、会分心，但AI不会--这不仅是效率问题，更是能力范式的跃迁。

🤖 从“一人公司”到“无人公司”：自主代理正在成熟

去年我们还在热议“One Person Company”（一人公司），今年已经开始讨论“None-Person Company”（无人公司）。

唐杰半开玩笑地说：“我们可能都快变成这个新生态里的NPC了。”

但这背后是清晰的趋势：

AI代理（Autonomous Agents）正在快速成熟
它们能自己制定目标、拆解任务、调用工具、评估结果
创业门槛将进一步降低，但人的角色将从“执行者”转向“协作者”或“监督者”

未来的公司，可能不再需要大量人力处理日常运营--AI会自己干。

⚙️ 技术上是如何“硬堆”出长时程能力的？

唐杰原本以为，要实现长时程任务，需要等待记忆、持续学习、自我判断等根本性突破。但现实是：工程创新正在快速逼近理论极限。

能力	当前进展	实际效果
记忆（Memory）	百万级上下文窗口 + RAG（检索增强生成）	可回溯数周的操作记录，形成“工作记忆”
持续学习	模型更新周期从“月级”缩短到“周级”	虽非真正终身学习，但体验已接近“边做边学”
自我判断	Claude Opus 4.7 等模型展现较强自我纠错能力	能评估输出质量，主动要求重试或调整策略
自我进化	前沿团队让AI自己写代码、清洗数据、生成合成数据再训练自己	虽浪费算力，但极大加速迭代--速度即壁垒

💡 关键洞察：谁迭代得更快，谁就拉开差距。 人力不再是瓶颈，算力+自动化才是。

🌌 AGI的新定义：不只是“像人”，而是“超越人类集体智慧”

唐杰赞同DeepMind联合创始人Demis Hassabis的观点：

AGI不应只是达到单个人类的智能水平，而应能汇聚人类集体智慧，做出“相对论”级别的原创贡献。

这意味着：

会考试、写代码 ≠ AGI
能推动科学发现、产业变革 ≈ 真正的智能飞跃

而通向这一目标的路径越来越清晰： 长上下文 → 强记忆 → 持续学习 → 自我判断 → 自我训练

我们正在一步步逼近。

🌍 行业与生活将被如何重塑？

读完唐杰的思考，最大的感受是：

变化比我们想象的更快，且不可逆。

未来几年可能发生：

所有App都将被重构成 AI-native 应用，甚至不再需要传统App形式
工作流不再是“人操作工具”，而是“AI代理协同完成目标”
教育、科研、医疗、金融等领域将出现“AI研究员”“AI医生”“AI基金经理”
人类的核心竞争力转向：提出好问题、设定价值观、跨域整合、伦理判断

❓ 那么，回到最初的问题：AI真的能完成持续几周的任务吗？

答案是：正在成为现实。

虽然目前仍处于早期阶段，但技术栈的成熟速度远超预期。我们不再需要等待“奇迹式突破”--通过工程优化、系统设计和代理架构，AI已经能在特定领域（如安全测试、代码生成、数据分析）中稳定运行数周，自主完成复杂目标。

而这，才只是开始。

📌 结语： 我们正站在一个拐点上。 AI不再只是“助手”，而是逐渐成为“同事”，甚至“继任者”。与其担心被取代，不如思考： 如何与AI共同进化？如何在新的生态中找到不可替代的位置？

AI能否真正完成需要持续几周的长时程任务？

智谱创始人唐杰：一人公司过时了？现在流行“无人公司”

AI能否真正完成需要持续几周的长时程任务？--从唐杰教授的思考看2026年AI的突破方向

🔍 什么是“长时程任务”？为什么它是今年的突破口？

🤖 从“一人公司”到“无人公司”：自主代理正在成熟

⚙️ 技术上是如何“硬堆”出长时程能力的？

🌌 AGI的新定义：不只是“像人”，而是“超越人类集体智慧”

🌍 行业与生活将被如何重塑？

❓ 那么，回到最初的问题：AI真的能完成持续几周的任务吗？

加入讨论

延伸阅读

100万tokens长上下文对法律条款比对和金融报告分析的实际价值有多大？

16位商界巨头随行，特朗普此行经贸成果会超预期吗？

2D注意力头如何实现指数级速度提升

9类Skills应用场景中，哪一类最能解决你团队的实际痛点？

AI Agent的记忆设计是否应该模仿人类大脑？

AI工具频繁调整参数是否该更透明？从Claude事件看产品迭代的边界