跳转到主要内容
提示词缓存(Prompt Caching)是一种用于降低模型推理成本的重要机制。通过缓存已经处理过的提示内容,在后续请求中重复利用,从而减少重复计算、降低费用并提升响应效率。

核心机制

自动与显示缓存

不同模型供应商对缓存的支持方式不同:
  1. 自动缓存
  • 无需额外配置
  • 系统自动识别并缓存可复用内容
  • 适用于 OpenAI、DeepSeek、Gemini 等模型
  1. 显示缓存
  • 需要通过 cache_control 手动指定缓存位置
  • 可以精细控制缓存粒度
  • 适用于 Anthropic、Gemini(部分场景)

各模型缓存策略对比

OpenAI

  • 自动缓存,无需配置
  • 最低提示长度:1024 tokens
  • 价格:写缓存免费,读缓存 0.25x~0.5x 原价

Anthropic Claude

自动缓存

{
  "model": "claude-sonnet-4-6",
  "cache_control": { "type": "ephemeral" }
}
特点:
  • 自动推进缓存边界
  • 适合多轮对话

显式缓存断点

{
	"type": "text",
	"text": "HUGE TEXT",
	"cache_control": { "type": "ephemeral" }
}
特点:
  • 最多 4 个断点
  • 精细控制缓存内容

缓存时间

  • 默认: 5 分钟
  • 可选:1 小时(“ttl”: “1h”)
需要了解更多信息请查看:Claude 提示词缓存

Gemini

显式缓存(推荐)

{
	"cache_control": { "type": "ephemeral" }
}
特点:
  • 只使用最后一个断点
  • 可兼容 Anthropic 写法

隐式缓存

  • 自动生效,无需配置
  • TTL:约 3-5 分钟
  • 最低 token:约 4096

DeepSeek / Grok / Moonshot / Groq

  • 全部支持自动缓存
  • 无需额外配置
  • 一般规则:写缓存免费或同价,读缓存低于原价

使用建议

  1. 保持前缀稳定
将固定内容放在 Prompt 前部,推荐结构:
[系统设定 / 长文本 / RAG数据] 
[用户问题(变化部分)]
  1. 缓存大文本
优先缓存一下内容:
  • RAG 数据
  • 长文本
  • CSV / JSON 数据
  • 角色设定
  1. ** 控制 TTL**
  • 短会话 → 5 分钟
  • 长会话 → 1 小时(更省成本)
  1. ** 减少缓存写入**
避免频繁变化的内容进入缓存,不要缓存时间戳、用户输入变量、高频变化数据等内容。