Claude Code 费用管理与成本追踪指南

记录时间：2026-05-19

参考：Claude Code 官方文档 - 有效管理成本

问题

Claude Code 用一段时间后，账单看不太懂——/cost 显示的金额到底是什么口径？订阅用户和 API 用户的费用追踪方式有何不同？怎么把日常使用成本压到合理水位？需要一份对照官方文档的速查笔记。

一、`/cost` 命令：会话级费用快照

在 Claude Code 中输入 /cost，会得到当前会话的 token 用量与估算费用，典型输出包含：

Total cost：当前会话累计成本（美元）
Total duration (API)：API 调用耗时
Total duration (wall)：实际墙钟时长（含等待）
Total code changes：本会话改动行数
按模型拆分的 token 用量：输入、输出、cache read、cache write、各自小计

注意几点：

这个金额是 Claude Code 在本地按公开费率估算的，与最终账单可能有差异；权威数据看 Claude Console Usage。
如果会话中切过模型（如先 Opus 分析、后 Sonnet 实现），每个模型分别列出。
/resume 恢复会话时成本数据会被一起恢复，保持连续；新会话从零开始。

二、订阅 vs API：用对命令

官方文档明确：/cost 主要为 API 计费用户设计。Pro / Max 订阅用户用错命令会被金额误导。

你想知道什么	用哪个命令	适用对象
本会话花了多少美元	`/cost`	API 用户
订阅配额还剩多少	`/usage` 或 `/status`	Pro / Max 订阅
历史使用模式	`/stats`	所有用户

口诀：花费看 /cost，配额看 /usage，模式看 /stats。

三、成本计算公式

Cost =  输入 tokens      × 输入单价
      + 输出 tokens      × 输出单价
      + cache read       × (输入单价 × 10%)
      + cache write      × cache write 单价
      + Web 搜索请求数   × $0.01

几个值得记住的细节：

Cache read 只算输入价的 10%。Claude Code 会大量缓存系统 prompt、CLAUDE.md 等长上下文，重复加载几乎免费。
Opus 4.6 /fast 模式单价是 6 倍——同模型、更快输出、但每 token 贵 6 倍。短任务可用，长会话别开。
每次 API 调用结束后，Claude Code 从响应里读取实际 token 数，乘以模型单价累加到会话总额。

四、真实成本水位（企业部署数据）

参考 Anthropic 公布的企业部署数据：

开发者日均成本约 13 美元
90% 的用户日均 < 30 美元
单会话差异极大：用 Sonnet 4.6（输入 $3/M，输出 $15/M）读 10 万 token 代码 + 生成 2 万 token，约 $0.60

单个会话只要不失控，整月开销并不夸张。

五、压低 Token 消耗的杠杆

1. 用 `/effort` 调推理深度

四档：low / medium / high（默认）/ max（仅 Opus 4.6）。低 effort 每次互动消耗的 thinking token 显著降低，适合机械任务。

2. 把 context window 当成持续计费的电表

每条消息、每次文件读取、每个工具输出都留在 context 里，后续每轮互动都重新发送一次。2 小时的会话累积 10 万+ token 很常见。

实用节奏：

70% 水位 /compact：压缩历史，降低后续输入 token
任务切换时 /clear：彻底清空，避免无关上下文继续被计费
一整天保持 context 在 40–60% 区间，单日成本能压下来一大截

3. 写好 CLAUDE.md 让 prompt cache 干活

把项目规则、技术栈、命令清单等稳定内容放进 CLAUDE.md，每轮调用都走 cache read（10% 价），相当于把固定上下文成本打了一折。

4. 谨慎用 subagent

每个 subagent 是独立 Claude 实例，有独立 context window。主 agent + 3 个 subagent 的 token 消耗约等于单会话的 4 倍。只在真的需要并行 / 隔离 context 时用。

六、团队部署的费用治理

Anthropic Team 计划提供个人订阅没有的费用管控能力：

集中计费、统一发票
使用仪表板（按成员、按工作区维度）
工作区支出限制：管理员可对单个 workspace 设上限
域名捕获自动加入团队成员
管理员可控制成员能访问哪些模型 / 功能

TPM（tokens per minute）配额规划参考：

团队规模	建议每位用户 TPM
5–20 人	100,000 – 150,000
50–100 人	25,000 – 35,000

人多了反而单人 TPM 可以下调——并发使用率随团队规模下降。

七、跨会话历史追踪

/cost 只看当前会话。要做跨日 / 跨项目分析，可以借助社区工具：

ccusage：读取本地 JSONL 日志，按日期、会话、项目聚合
Claude-Code-Usage-Monitor：实时仪表板，含 token 曲线和限额预测

小结

把 /cost、/usage、/stats 三个命令分清楚
默认开 /effort medium，长会话 70% 水位 /compact、切任务 /clear
CLAUDE.md 写好走 cache，比省任何技巧都狠
subagent 是 4 倍油耗的工具，按需启动
团队部署用 workspace 限额 + TPM 规划，不要靠人肉自觉

把这五条变成肌肉记忆，月底账单基本就能稳定在可预测区间。

问题

一、/cost 命令：会话级费用快照