核心机制
自动与显示缓存
不同模型供应商对缓存的支持方式不同:- 自动缓存
- 无需额外配置
- 系统自动识别并缓存可复用内容
- 适用于 OpenAI、DeepSeek、Gemini 等模型
- 显示缓存
- 需要通过
cache_control手动指定缓存位置 - 可以精细控制缓存粒度
- 适用于 Anthropic、Gemini(部分场景)
各模型缓存策略对比
OpenAI
- 自动缓存,无需配置
- 最低提示长度:1024 tokens
- 价格:写缓存免费,读缓存 0.25x~0.5x 原价
Anthropic Claude
自动缓存
- 自动推进缓存边界
- 适合多轮对话
显式缓存断点
- 最多 4 个断点
- 精细控制缓存内容
缓存时间
- 默认: 5 分钟
- 可选:1 小时(“ttl”: “1h”)
需要了解更多信息请查看:Claude 提示词缓存
Gemini
显式缓存(推荐)
- 只使用最后一个断点
- 可兼容 Anthropic 写法
隐式缓存
- 自动生效,无需配置
- TTL:约 3-5 分钟
- 最低 token:约 4096
DeepSeek / Grok / Moonshot / Groq
- 全部支持自动缓存
- 无需额外配置
- 一般规则:写缓存免费或同价,读缓存低于原价
使用建议
- 保持前缀稳定
- 缓存大文本
- RAG 数据
- 长文本
- CSV / JSON 数据
- 角色设定
- ** 控制 TTL**
- 短会话 → 5 分钟
- 长会话 → 1 小时(更省成本)
- ** 减少缓存写入**