
哇,最近AI圈真是炸锅了,就在2025年9月29号晚上,anthro突然扔出了一个超级大炸弹,cloud sonnet 4.5和cloud 2。零同步上线,而且一点预热都没有,直接就来了个王炸。
没错,这个动作确实很突然,但最让人震惊的不是它的突然性,而是它带来的那些实打实的突破。
你想想看,他在sweet奔verify.
的这个权威榜单上直接拿下了82%的分数,比GPT t5的72.8%高了将近十个百分点。
80%这简直就是把最强变成了负数。不过我更好奇的是,它是怎么做到这么强的,是不是有什么黑科技?
其实背后有几个关键技术突破。首先是那个叫上下文编辑的功能,它能自动识别哪些信息已经过期了,然后就把这些没用的东西给裁剪掉。这样一来在处理长任务的时候,token消耗直接降低了84%。
我明白了,就是说它不是简单的记住所有东西,而是会主动清理自己的工作台,只留下真正有用的信息。这就像一个特别有条理的程序员,桌面永远干干净净的对。
就是这个意思。还有一个叫记忆工具的功能,它能把关键数据保存在窗口外面,支持跨会画检索。你可以把它想象成给模型外接了一个便迁数据库。
这功能听起来太实用了。那在实际测试中它的表现怎么样?不会是实验室里的完美成绩吧?
恰恰相反,它的实战表现更加惊人。官方做了一个极限测试,让模型独立开发一款slack级别的聊天应用,结果呢cloud sonate 4.5连续运行了31小时17分钟,生成了11423行有效代码31个小时。
这简直就是个不知疲倦的马农啊。而且中间没有任何人工干预,也没有状态回滚。
是的。
内存泄露为零,单元测试通过率达到了97%。作为对比,GPT t4欧在7个小时后就出现了上下文漂移,而之前的op 4已在9个小时后幻觉率就显著上升了。
天呐,这差距太大了。那价格方面呢?这么强的能力会不会很贵?
这可能是最让人惊喜的地方了。它的输入价格是每百万token三点美元,输出是15美元,跟sonate 4持平,但是只有o p 41的5分之1。对于重度用户来说,同样的预算可以获得3到4倍的调用量。
哇,这性价比也太高了吧,等于说加量不加价,甚至可以说是降价提质了。不过话说回来,这么强大的AI会不会有什么安全隐患?
这个问题他们也考虑到了。
anpic.
把机械可解释性首次纳入了安全流水线,用稀疏自编码器实时监控模型的内部表征,一旦检测到欺骗性,链式思维就会立即触发熔断。把prome的注入的成功率降低了87%.
就是说他自己会给自己装个防火墙,这想法真不错。那除了这些技术上的突破,它在实际使用体验上有什么变化吗?
变化非常大。Cloud code 2.0引入了检查点功能,每完成一个子任务都会自动快照,支持df预览和一键回滚,开发者们开玩笑说。
这简直是AI版的greset.
这个比喻太形象了,那对于普通用户来说,使用起来方便吗。
非常方便,它有原生的vs code插件。侧边栏对话行内diff接受拒绝按钮。跟GitHub Copilot同屏竞技完全不违和,而且还有新的终端UI支持会计命令远程容器S隧道官方还直接放出了主题配色文件,可以一键切换暗黑护眼、高对比。
这些模式。听起来真的是把模型变成了一个完整的操作系统,那对于非技术用户,比如产品经理或者设计师。
Cloud for chrome向所有max订阅者开放了,可以直接读取dom执行浏览器级的rpa实测。在SAP .
sales.
这些重型cr 2m系统中运行的很稳定。而且anpic还把内部用来搭建cloud code的脚手架开源了。
叫cloud agent SDK.
脚手架这个词听起来有点专业,能说的通俗点吗?
其实就是一套开发工具包,开发者可以用30行代码就拼出一个会自己开notion、写汇报、发邮件的数字员工有个用户vaseman在直播间只用了42分钟,就用自然语言描述需求,就让AI I做出了一个包含实时协作快编辑器sklight向量检索的外部应用。
42分钟,这效率也太高了。不过我注意到redit上有人质疑说30个小时连续编码是不是有点鸡肋,毕竟现实中没人敢让AI一口气写一万行代码,然后直接合并到主分支。
吧嗯这个质疑很有道理。但checpoints功能的出现确实改变了游戏规则。它让长任务失败的成本从重新跑变成了秒级回滚,编辑效益还是很显著的。而且官方也说了,更实用的场景是夜间批量CRUD数据迁移或者回归测试。
这么说来,cloud 4.5的出现确实把AI编程推向了一个新高度,它不只是变强了,而是把模型、工具、生态和安全这四张拼图一次性拼完了。
是的,它让AI编程从辅助驾驶进入了自动驾驶时代,30小时连续编码check .
points、agent、SDK.
这三大杀招相当于把一台F1赛车、全套维修团队和赛道数据同时交给了开发者。
这让我想到了一个词,超级个体时代。现在一个开发者带着AI I助手,可能就能完成以前需要一个团队才能完成的工作了。
没错,而且竞争格局也在加速变化,opai I被曝将在十月底发布codex Gemini,谷歌也预告了Gemini 2.5 pro的无线上下文版,模型层、基础设施层、应用层三线战场同时开火,开发者可能会成为最大的赢家。
是啊,属于个体开发者的黄金时代真的来了。好了,今天就聊到这里,感谢大家的收听。
微信扫描下方的二维码阅读更多精彩内容

声明:本站所有文章,如无特殊说明或标注,均为橙市播客原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。
