从日耗200刀到10刀,我的Token省钱实战手册
很多人把AI用成了"高级搜索引擎"--每查个天气、算个日期都要调用GPT-4,这就像开着法拉利去买菜。真正的AI高手,都在做一件事:让大模型"闭嘴",让脚本"干活"。
大模型内置了几个零Token消耗的快捷键,优先级高于模型推理:
| 命令 | 场景 | 省钱原理 |
|---|---|---|
/new | 话题切换时 | 清空历史上下文,避免"翻旧账"耗Token |
/restart | 模型"走神"时 | 只加载USER.md+SOUL.md,甩掉包袱 |
/stop | 任务跑偏时 | 及时止损,砍掉无效推理链 |
/compress | 记忆臃肿时 | 压缩MEMORY.md,去芜存菁 |
💡 关键认知:这些命令走的是系统层,不经过LLM推理管道--相当于人体的膝跳反射,比大脑反应更快、更便宜。
反模式:让大模型每5分钟检查邮件 → 持续消耗Token 正解:大模型写脚本 → 脚本自动巡检 → 有异常才唤醒大模型
工作流程重构:
[重复性任务] ──→ 脚本自动化 ──→ 异常/决策点 ──→ 大模型介入
↑______________________________________________|
(闭环优化,脚本迭代也由大模型生成)
适用场景:新闻简报、数据监控、定时报告、文件批处理...
本质:把大模型从"执行层"提升到"决策层",符合经济学里的比较优势原理。
| 任务类型 | 推荐模型 | 成本对比 |
|---|---|---|
| 复杂代码架构、深度推理 | Claude Opus / GPT-4 | 基准 |
| 日常简报、格式整理、基础调研 | 国产模型(文心/通义/智谱) | ↓ 80%+ |
| 纯信息中转、命令传达 | 最便宜的可用模型 | ↓ 95% |
进阶玩法:多Agent团队
这篇文章揭示了一个被忽视的真相:大模型的"智能"是有边界的,而工程化的"愚蠢"(脚本)往往更高效。
三种能力层级:
原文作者:橙市播客 | 日耗从200刀→10刀的实战经验
加入讨论
第三条那个Token预算管理系统,我第一反应是搞个”余额不足自动降级”——比如剩20%预算时强制切到国产模型,剩5%直接禁掉GPT-4。不过这样会不会被同事追杀啊😂