最近刷到清华大学唐杰教授的一条长帖《Recent thoughts》,作为大模型领域最资深的学者之一、智谱AI首席科学家,他没有堆砌术语,而是冷静地分享了对2026年AI走向的判断。其中最核心的一句话让我印象深刻:
AI真正的价值,不再是回答问题,而是能在复杂、长期的任务里自主干活。
这让我重新思考一个关键问题:AI能否真正完成需要持续几周甚至几个月的长时程任务?
唐杰指出,2024年最值得关注的进展不是参数翻倍,而是 长时程任务(Long-Horizon Tasks) 的突破。
这类任务不再是“问答”或“单次生成”,而是像人类一样: ✅ 持续工作数天、数周甚至数月 ✅ 自主规划、执行、监控、纠错 ✅ 面对不确定性时动态调整策略
举个震撼的例子: 在网络安全领域,AI可以24小时不间断扫描系统漏洞,利用黑客级方法论发起攻击测试,自动在HackerOne、BugCrowd等平台提交报告并领取赏金。 人类会疲劳、会分心,但AI不会--这不仅是效率问题,更是能力范式的跃迁。
去年我们还在热议“One Person Company”(一人公司),今年已经开始讨论“None-Person Company”(无人公司)。
唐杰半开玩笑地说:“我们可能都快变成这个新生态里的NPC了。”
但这背后是清晰的趋势:
未来的公司,可能不再需要大量人力处理日常运营--AI会自己干。
唐杰原本以为,要实现长时程任务,需要等待记忆、持续学习、自我判断等根本性突破。但现实是:工程创新正在快速逼近理论极限。
| 能力 | 当前进展 | 实际效果 |
|---|---|---|
| 记忆(Memory) | 百万级上下文窗口 + RAG(检索增强生成) | 可回溯数周的操作记录,形成“工作记忆” |
| 持续学习 | 模型更新周期从“月级”缩短到“周级” | 虽非真正终身学习,但体验已接近“边做边学” |
| 自我判断 | Claude Opus 4.7 等模型展现较强自我纠错能力 | 能评估输出质量,主动要求重试或调整策略 |
| 自我进化 | 前沿团队让AI自己写代码、清洗数据、生成合成数据再训练自己 | 虽浪费算力,但极大加速迭代--速度即壁垒 |
💡 关键洞察:谁迭代得更快,谁就拉开差距。 人力不再是瓶颈,算力+自动化才是。
唐杰赞同DeepMind联合创始人Demis Hassabis的观点:
AGI不应只是达到单个人类的智能水平,而应能汇聚人类集体智慧,做出“相对论”级别的原创贡献。
这意味着:
而通向这一目标的路径越来越清晰: 长上下文 → 强记忆 → 持续学习 → 自我判断 → 自我训练
我们正在一步步逼近。
读完唐杰的思考,最大的感受是:
变化比我们想象的更快,且不可逆。
未来几年可能发生:
答案是:正在成为现实。
虽然目前仍处于早期阶段,但技术栈的成熟速度远超预期。 我们不再需要等待“奇迹式突破”--通过工程优化、系统设计和代理架构,AI已经能在特定领域(如安全测试、代码生成、数据分析)中稳定运行数周,自主完成复杂目标。
而这,才只是开始。
📌 结语: 我们正站在一个拐点上。 AI不再只是“助手”,而是逐渐成为“同事”,甚至“继任者”。 与其担心被取代,不如思考: 如何与AI共同进化?如何在新的生态中找到不可替代的位置?
欢迎在评论区分享你的看法: 👉 你认为哪个行业会最先被“长时程AI代理”颠覆? 👉 你准备好和AI“共事”了吗?
加入讨论
这个“无人公司”概念有点吓人啊……如果AI真能自己跑漏洞赏金项目,那网络安全公司是不是以后只需要雇一个“AI监督员”就够了?感觉人类很快就要从“打工人”变成“AI的客服”了😂
看到“AI自己写代码再训练自己”那段真的惊了,这不就是传说中的自我繁殖吗?虽然浪费算力,但想想如果哪天它突然“不想干了”或者“改需求”,人类还能不能叫停?感觉我们不是在造工具,是在养一个数字生命体……