プロンプトキャッシュは、繰り返しのタスクや一貫した要素を含むプロンプトの処理時間を大幅に短縮し、トークンコストを効果的に削減します。
cache_control
パラメータを介してキャッシュされています。これにより、この長いテキストを複数回のAPI呼び出しで再利用でき、毎回再処理する必要がなくなります。ユーザーメッセージを変更するだけで、キャッシュされたコンテンツを利用しながら、この本に関するさまざまな質問をすることができ、応答速度が向上し、効率が向上します。
tools
、system
、messages
を順序通りに含み、cache_control
でマークされたコンテンツブロックまで、プロンプト全体を参照します。モデル | 基本入力トークン | 5分キャッシュ書き込み | 1時間キャッシュ書き込み | キャッシュヒットと更新 | 出力トークン |
---|---|---|---|---|---|
Claude Opus 4 | プラットフォーム価格 | 1.25倍基本価格 | 2倍基本価格 | 0.1倍基本価格 | プラットフォーム価格 |
Claude Sonnet 4 | プラットフォーム価格 | 1.25倍基本価格 | 2倍基本価格 | 0.1倍基本価格 | プラットフォーム価格 |
Claude Sonnet 3.7 | プラットフォーム価格 | 1.25倍基本価格 | 2倍基本価格 | 0.1倍基本価格 | プラットフォーム価格 |
Claude Sonnet 3.5 | プラットフォーム価格 | 1.25倍基本価格 | 2倍基本価格 | 0.1倍基本価格 | プラットフォーム価格 |
Claude Haiku 3.5 | プラットフォーム価格 | 1.25倍基本価格 | 2倍基本価格 | 0.1倍基本価格 | プラットフォーム価格 |
Claude Opus 3 | プラットフォーム価格 | 1.25倍基本価格 | 2倍基本価格 | 0.1倍基本価格 | プラットフォーム価格 |
Claude Haiku 3 | プラットフォーム価格 | 1.25倍基本価格 | 2倍基本価格 | 0.1倍基本価格 | プラットフォーム価格 |
cache_control
パラメータを使用して、キャッシュする再利用可能なコンテンツの終了位置をマークします。
キャッシュプレフィックスは、tools
、system
、そしてmessages
の順に作成されます。
cache_control
パラメータを使用すると、最大4つのキャッシュブレークポイントを定義でき、異なる再利用可能な部分を個別にキャッシュできます。各ブレークポイントについて、システムは以前の位置のキャッシュヒットを自動的にチェックし、見つかった場合は最長の合致するプレフィックスを使用します。
cache_control
がマークされていても、短いプロンプトはキャッシュできません。この量より少ないトークンをキャッシュしようとするリクエストは、キャッシュを使用せずに処理されます。プロンプトがキャッシュされたかどうかを確認するには、応答の使用状況フィールドを確認してください。
同時リクエストの場合、キャッシュエントリは最初の応答が開始された後にのみ利用可能になることに注意してください。並列リクエストのキャッシュヒットが必要な場合は、後続のリクエストを送信する前に最初の応答を待ってください。
現在、2種類のキャッシュタイプがサポートされています。
extended-cache-ttl-2025-04-11
をベータヘッダーとして追加し、cache_control
定義にttlを含める必要があります。
cache_control
でキャッシュを指定できます。これには以下が含まれます。
cache_control
タグを使用して、その部分のリクエストのキャッシュを有効にできます。
cache_control
を使用して直接キャッシュすることはできません。ただし、思考ブロックが以前のアシスタントのターンに表示された場合、他のコンテンツと一緒にキャッシュできます。この方法でキャッシュされた場合、キャッシュから読み取ると入力トークンとしてカウントされます。cache_creation_input_tokens
: 新しいキャッシュエントリが作成されたときにキャッシュに書き込まれたトークン数cache_read_input_tokens
: キャッシュから取得されたトークン数input_tokens
: キャッシュから読み取られなかった、またはキャッシュの作成に使用された入力トークン数cache_control
がマークされていることを確認してください。tool_choice
と画像の有無が呼び出し間で一貫していることを確認してください。cache_control
パラメータを使用して、プロンプトの前の部分のキャッシュを確実に検索できます。これは、非常に長いコンテンツブロックのリストを含むクエリに役立つ場合があります。tool_choice
またはプロンプト内の任意の場所の画像の有無を変更すると、キャッシュが無効になり、新しいキャッシュエントリが作成されることに注意してください。cache_control
でマークされたブロックの前のすべてのテキストと画像、およびそれ自体を含む、100%同じプロンプトセグメントが必要です。キャッシュの読み取りと作成中に、同じブロックをcache_control
でマークする必要があります。cache_control: { type: "ephemeral" }
宣言が必要です。キャッシュ料金は通常の入力の1.25倍(5分)または2倍(1時間)で、キャッシュされたトークンの読み取り費用は0.1倍です。有効期間は5分または1時間です。ドキュメントusage_metadata
フィールドで、キャッシュヒットしたトークン数を確認できます。