Claude Code 费用管理与成本追踪指南
记录时间:2026-05-19
问题
Claude Code 用一段时间后,账单看不太懂——/cost 显示的金额到底是什么口径?订阅用户和 API 用户的费用追踪方式有何不同?怎么把日常使用成本压到合理水位?需要一份对照官方文档的速查笔记。
一、/cost 命令:会话级费用快照
在 Claude Code 中输入 /cost,会得到当前会话的 token 用量与估算费用,典型输出包含:
- Total cost:当前会话累计成本(美元)
- Total duration (API):API 调用耗时
- Total duration (wall):实际墙钟时长(含等待)
- Total code changes:本会话改动行数
- 按模型拆分的 token 用量:输入、输出、cache read、cache write、各自小计
注意几点:
- 这个金额是 Claude Code 在本地按公开费率估算的,与最终账单可能有差异;权威数据看 Claude Console Usage。
- 如果会话中切过模型(如先 Opus 分析、后 Sonnet 实现),每个模型分别列出。
/resume恢复会话时成本数据会被一起恢复,保持连续;新会话从零开始。
二、订阅 vs API:用对命令
官方文档明确:/cost 主要为 API 计费用户设计。Pro / Max 订阅用户用错命令会被金额误导。
| 你想知道什么 | 用哪个命令 | 适用对象 |
|---|---|---|
| 本会话花了多少美元 | /cost |
API 用户 |
| 订阅配额还剩多少 | /usage 或 /status |
Pro / Max 订阅 |
| 历史使用模式 | /stats |
所有用户 |
口诀:花费看 /cost,配额看 /usage,模式看 /stats。
三、成本计算公式
Cost = 输入 tokens × 输入单价
+ 输出 tokens × 输出单价
+ cache read × (输入单价 × 10%)
+ cache write × cache write 单价
+ Web 搜索请求数 × $0.01
几个值得记住的细节:
- Cache read 只算输入价的 10%。Claude Code 会大量缓存系统 prompt、CLAUDE.md 等长上下文,重复加载几乎免费。
- Opus 4.6
/fast模式单价是 6 倍——同模型、更快输出、但每 token 贵 6 倍。短任务可用,长会话别开。 - 每次 API 调用结束后,Claude Code 从响应里读取实际 token 数,乘以模型单价累加到会话总额。
四、真实成本水位(企业部署数据)
参考 Anthropic 公布的企业部署数据:
- 开发者日均成本约 13 美元
- 90% 的用户日均 < 30 美元
- 单会话差异极大:用 Sonnet 4.6(输入 $3/M,输出 $15/M)读 10 万 token 代码 + 生成 2 万 token,约 $0.60
单个会话只要不失控,整月开销并不夸张。
五、压低 Token 消耗的杠杆
1. 用 /effort 调推理深度
四档:low / medium / high(默认)/ max(仅 Opus 4.6)。低 effort 每次互动消耗的 thinking token 显著降低,适合机械任务。
2. 把 context window 当成持续计费的电表
每条消息、每次文件读取、每个工具输出都留在 context 里,后续每轮互动都重新发送一次。2 小时的会话累积 10 万+ token 很常见。
实用节奏:
- 70% 水位
/compact:压缩历史,降低后续输入 token - 任务切换时
/clear:彻底清空,避免无关上下文继续被计费 - 一整天保持 context 在 40–60% 区间,单日成本能压下来一大截
3. 写好 CLAUDE.md 让 prompt cache 干活
把项目规则、技术栈、命令清单等稳定内容放进 CLAUDE.md,每轮调用都走 cache read(10% 价),相当于把固定上下文成本打了一折。
4. 谨慎用 subagent
每个 subagent 是独立 Claude 实例,有独立 context window。主 agent + 3 个 subagent 的 token 消耗约等于单会话的 4 倍。只在真的需要并行 / 隔离 context 时用。
六、团队部署的费用治理
Anthropic Team 计划提供个人订阅没有的费用管控能力:
- 集中计费、统一发票
- 使用仪表板(按成员、按工作区维度)
- 工作区支出限制:管理员可对单个 workspace 设上限
- 域名捕获自动加入团队成员
- 管理员可控制成员能访问哪些模型 / 功能
TPM(tokens per minute)配额规划参考:
| 团队规模 | 建议每位用户 TPM |
|---|---|
| 5–20 人 | 100,000 – 150,000 |
| 50–100 人 | 25,000 – 35,000 |
人多了反而单人 TPM 可以下调——并发使用率随团队规模下降。
七、跨会话历史追踪
/cost 只看当前会话。要做跨日 / 跨项目分析,可以借助社区工具:
- ccusage:读取本地 JSONL 日志,按日期、会话、项目聚合
- Claude-Code-Usage-Monitor:实时仪表板,含 token 曲线和限额预测
小结
- 把
/cost、/usage、/stats三个命令分清楚 - 默认开
/effort medium,长会话 70% 水位/compact、切任务/clear - CLAUDE.md 写好走 cache,比省任何技巧都狠
- subagent 是 4 倍油耗的工具,按需启动
- 团队部署用 workspace 限额 + TPM 规划,不要靠人肉自觉
把这五条变成肌肉记忆,月底账单基本就能稳定在可预测区间。