提示快取顯著減少了重複任務或包含一致元素的提示的處理時間,有效減低了 Token 成本。
tools
、system
和 messages
,直到並包含使用 cache_control
標記的內容塊。模型 | 基礎輸入 Token | 5 分鐘緩存寫入 | 1 小時緩存寫入 | 緩存命中和刷新 | 輸出 Token |
---|---|---|---|---|---|
Claude Opus 4 | 按平台定價 | 1.25x 基礎價格 | 2x 基礎價格 | 0.1x 基礎價格 | 按平台定價 |
Claude Sonnet 4 | 按平台定價 | 1.25x 基礎價格 | 2x 基礎價格 | 0.1x 基礎價格 | 按平台定價 |
Claude Sonnet 3.7 | 按平台定價 | 1.25x 基礎價格 | 2x 基礎價格 | 0.1x 基礎價格 | 按平台定價 |
Claude Sonnet 3.5 | 按平台定價 | 1.25x 基礎價格 | 2x 基礎價格 | 0.1x 基礎價格 | 按平台定價 |
Claude Haiku 3.5 | 按平台定價 | 1.25x 基礎價格 | 2x 基礎價格 | 0.1x 基礎價格 | 按平台定價 |
Claude Opus 3 | 按平台定價 | 1.25x 基礎價格 | 2x 基礎價格 | 0.1x 基礎價格 | 按平台定價 |
Claude Haiku 3 | 按平台定價 | 1.25x 基礎價格 | 2x 基礎價格 | 0.1x 基礎價格 | 按平台定價 |
cache_control
參數標記要緩存的可用內容的結束位置。
緩存前綴按以下順序創建:tools
、system
,然後是 messages
。
使用 cache_control
參數,你可以定義最多 4 個緩存斷點,允許分別緩存不同的可用部分。對於每個斷點,系統會自動檢查之前位置的緩存命中情況,如果找到就使用最長的匹配前綴。
cache_control
,更短的提示詞也無法緩存。任何請求緩存少於這個數量的 Token 都會在不使用緩存的情況下處理。要查看提示詞是否被緩存,請查看響應使用情況字段。
對於並發請求,注意緩存條目只有在第一個響應開始後才可用。如果需要並行請求的緩存命中,請等待第一個響應後再發送後續請求。
目前支持兩種緩存類型:
extended-cache-ttl-2025-04-11
作為 beta header,然後在 cache_control 定義中包含 ttl:
cache_control
標記來啟用該部分請求的緩存。
cache_control
緩存。但是,當思考塊出現在之前的助手回合中時,可以與其他內容一起緩存。以這種方式緩存時,從緩存讀取時它們確實計為輸入 Token。cache_creation_input_tokens
: 創建新緩存條目時寫入緩存的 Token 數cache_read_input_tokens
: 從緩存中檢索的 Token 數input_tokens
: 未從緩存讀取或用於創建緩存的輸入 Token 數cache_control
tool_choice
和圖片使用在調用之間保持一致cache_control
參數來保證查找提示詞前面部分的緩存,這對於包含很長內容塊列表的查詢可能很有用tool_choice
或提示詞中任何位置的圖片存在/缺失都會使緩存失效,需要創建新的緩存條目。cache_control: { type: "ephemeral" }
聲明,緩存費率為常規輸入的 1.25 倍(5 分鐘)或 2 倍(1 小時),緩存 Tokens 讀取費用為 0.1 倍,生命周期 5 分鐘或 1 小時。文件usage_metadata
字段中查看緩存命中的 Token 數量。