“30小时写1万行代码,还能一键反悔!”Claude 4.5炸场,程序员直接原地封神
一个老翁
09-30
59

“30小时写1万行代码,还能一键反悔!”Claude 4.5炸场,程序员直接原地封神

哇,最近AI圈真是炸锅了,就在2025年9月29号晚上,anthro突然扔出了一个超级大炸弹,cloud sonnet 4.5和cloud 2。零同步上线,而且一点预热都没有,直接就来了个王炸。

没错,这个动作确实很突然,但最让人震惊的不是它的突然性,而是它带来的那些实打实的突破。

你想想看,他在sweet奔verify.

的这个权威榜单上直接拿下了82%的分数,比GPT t5的72.8%高了将近十个百分点。

80%这简直就是把最强变成了负数。不过我更好奇的是,它是怎么做到这么强的,是不是有什么黑科技?

其实背后有几个关键技术突破。首先是那个叫上下文编辑的功能,它能自动识别哪些信息已经过期了,然后就把这些没用的东西给裁剪掉。这样一来在处理长任务的时候,token消耗直接降低了84%。

我明白了,就是说它不是简单的记住所有东西,而是会主动清理自己的工作台,只留下真正有用的信息。这就像一个特别有条理的程序员,桌面永远干干净净的对。

就是这个意思。还有一个叫记忆工具的功能,它能把关键数据保存在窗口外面,支持跨会画检索。你可以把它想象成给模型外接了一个便迁数据库。

这功能听起来太实用了。那在实际测试中它的表现怎么样?不会是实验室里的完美成绩吧?

恰恰相反,它的实战表现更加惊人。官方做了一个极限测试,让模型独立开发一款slack级别的聊天应用,结果呢cloud sonate 4.5连续运行了31小时17分钟,生成了11423行有效代码31个小时。

这简直就是个不知疲倦的马农啊。而且中间没有任何人工干预,也没有状态回滚。

是的。

内存泄露为零,单元测试通过率达到了97%。作为对比,GPT t4欧在7个小时后就出现了上下文漂移,而之前的op 4已在9个小时后幻觉率就显著上升了。

天呐,这差距太大了。那价格方面呢?这么强的能力会不会很贵?

这可能是最让人惊喜的地方了。它的输入价格是每百万token三点美元,输出是15美元,跟sonate 4持平,但是只有o p 41的5分之1。对于重度用户来说,同样的预算可以获得3到4倍的调用量。

哇,这性价比也太高了吧,等于说加量不加价,甚至可以说是降价提质了。不过话说回来,这么强大的AI会不会有什么安全隐患?

这个问题他们也考虑到了。

anpic.

把机械可解释性首次纳入了安全流水线,用稀疏自编码器实时监控模型的内部表征,一旦检测到欺骗性,链式思维就会立即触发熔断。把prome的注入的成功率降低了87%.

就是说他自己会给自己装个防火墙,这想法真不错。那除了这些技术上的突破,它在实际使用体验上有什么变化吗?

变化非常大。Cloud code 2.0引入了检查点功能,每完成一个子任务都会自动快照,支持df预览和一键回滚,开发者们开玩笑说。

这简直是AI版的greset.

这个比喻太形象了,那对于普通用户来说,使用起来方便吗。

非常方便,它有原生的vs code插件。侧边栏对话行内diff接受拒绝按钮。跟GitHub Copilot同屏竞技完全不违和,而且还有新的终端UI支持会计命令远程容器S隧道官方还直接放出了主题配色文件,可以一键切换暗黑护眼、高对比。

这些模式。听起来真的是把模型变成了一个完整的操作系统,那对于非技术用户,比如产品经理或者设计师。

Cloud for chrome向所有max订阅者开放了,可以直接读取dom执行浏览器级的rpa实测。在SAP .

sales.

这些重型cr 2m系统中运行的很稳定。而且anpic还把内部用来搭建cloud code的脚手架开源了。

叫cloud agent SDK.

脚手架这个词听起来有点专业,能说的通俗点吗?

其实就是一套开发工具包,开发者可以用30行代码就拼出一个会自己开notion、写汇报、发邮件的数字员工有个用户vaseman在直播间只用了42分钟,就用自然语言描述需求,就让AI I做出了一个包含实时协作快编辑器sklight向量检索的外部应用。

42分钟,这效率也太高了。不过我注意到redit上有人质疑说30个小时连续编码是不是有点鸡肋,毕竟现实中没人敢让AI一口气写一万行代码,然后直接合并到主分支。

吧嗯这个质疑很有道理。但checpoints功能的出现确实改变了游戏规则。它让长任务失败的成本从重新跑变成了秒级回滚,编辑效益还是很显著的。而且官方也说了,更实用的场景是夜间批量CRUD数据迁移或者回归测试。

这么说来,cloud 4.5的出现确实把AI编程推向了一个新高度,它不只是变强了,而是把模型、工具、生态和安全这四张拼图一次性拼完了。

是的,它让AI编程从辅助驾驶进入了自动驾驶时代,30小时连续编码check .

points、agent、SDK.

这三大杀招相当于把一台F1赛车、全套维修团队和赛道数据同时交给了开发者。

这让我想到了一个词,超级个体时代。现在一个开发者带着AI I助手,可能就能完成以前需要一个团队才能完成的工作了。

没错,而且竞争格局也在加速变化,opai I被曝将在十月底发布codex Gemini,谷歌也预告了Gemini 2.5 pro的无线上下文版,模型层、基础设施层、应用层三线战场同时开火,开发者可能会成为最大的赢家。

是啊,属于个体开发者的黄金时代真的来了。好了,今天就聊到这里,感谢大家的收听。



微信扫描下方的二维码阅读更多精彩内容

打赏
OpenAI“AI抖音”浮出水面:Sora 2主打10秒纯AI视频,社交、电商双线开战
上一篇
DeepSeek-V3.2-Exp:开启 AI 长文本处理新时代
下一篇
标签
#AI #AI生图 #Nano Banana #即梦 #可灵 #科技 #豆包 #人像 #chatgpt #产品设计 #OpenAI #模型 #开源 #城市名片 #Gemini #马斯克 #Google #3D #写真 #AI视频 #UI #claude #计算机视觉 #苹果 #DeepSeek #电商 #iPhone #播客 #谷歌 #AI设计 #腾讯 #特斯拉 #grok #阿里 #sora #tesla #IDE #买车 #选车 #干货 #搜索 #汽车 #机器人 #Anthropic #通义 #space #星舰 #智慧城市 #OCR #Atlas #微信 #AI手办 #混元 #英伟达 #NVIDIA #宇宙 #veo #百度 #浏览器 #地理空间 #Agent #工作流 #自动化 #AI编码 #iPhone17 #AI搜索 #手办 #小米 #具身智能 #Gemma #火山引擎 #古风美学 #kimi #Qwen #小鹏 #李飞飞 #芯片 #思维链 #Meta #人工智能 #摄影艺术 #AI推理 #商业思维 #罗永浩 #西贝 #食品 #预制菜 #AI文字 #微软 #壁纸 #雷军 #智谱 #星际 #彗星 #Figure #数码 #旅游 #Broadcom #MacBook #Vision Pro #iPad #抖音 #多模态 #VR #RTFM #飞桨 #PaddlePaddle #Qoder #LLM #游戏 #海报 #卫星影像 #复古 #定格 #节日 #万圣节 #工具 #黄仁勋 #肖像 #Apple #金融 #量化 #炒股 #早报 #世界模型 #表情包 #百度世界 #文心 #萝卜快跑 #数字人 #千帆 #小程序 #群聊 #社交 #Optimus #擎天柱 #神经网络 #DeepMind #Antigravity #Cloudflare #bug #运维 #技术事故 #AI教育 #超级计算 #核能源 #AI数学 #小红书 #创业思维 #第一性原理 #问题拆解 #副业增长 #吴恩达 #行业洞察 #行业分析 #产业机遇 #投资方向 #AI手机 #安全对齐 #奖励机制 #插件 #Cursor #可穿戴 #AI硬件 #交流 #攻略 #资料 #脑机
生成中...
点赞是美意,赞赏是鼓励