프롬프트 캐싱은 반복 작업이나 일관된 요소가 포함된 프롬프트의 처리 시간을 크게 단축해 토큰 비용을 효과적으로 낮춰줍니다.
tools
, system
, 그리고 messages
(이 순서대로) 중에서 cache_control
이 지정된 블록까지 모두 참조하여 캐싱합니다.모델 | 기본 입력 토큰 | 5분 캐시 쓰기 | 1시간 캐시 쓰기 | 캐시 히트 및 새로고침 | 출력 토큰 |
---|---|---|---|---|---|
Claude Opus 4 | 플랫폼 요금 | 기본가의 1.25배 | 기본가의 2배 | 기본가의 0.1배 | 플랫폼 요금 |
Claude Sonnet 4 | 플랫폼 요금 | 기본가의 1.25배 | 기본가의 2배 | 기본가의 0.1배 | 플랫폼 요금 |
Claude Sonnet 3.7 | 플랫폼 요금 | 기본가의 1.25배 | 기본가의 2배 | 기본가의 0.1배 | 플랫폼 요금 |
Claude Sonnet 3.5 | 플랫폼 요금 | 기본가의 1.25배 | 기본가의 2배 | 기본가의 0.1배 | 플랫폼 요금 |
Claude Haiku 3.5 | 플랫폼 요금 | 기본가의 1.25배 | 기본가의 2배 | 기본가의 0.1배 | 플랫폼 요금 |
Claude Opus 3 | 플랫폼 요금 | 기본가의 1.25배 | 기본가의 2배 | 기본가의 0.1배 | 플랫폼 요금 |
Claude Haiku 3 | 플랫폼 요금 | 기본가의 1.25배 | 기본가의 2배 | 기본가의 0.1배 | 플랫폼 요금 |
cache_control
파라미터를 사용해 캐싱 대상을 표시합니다.
캐시 접두사는 다음 순서로 생성됩니다: tools
→ system
→ messages
cache_control
파라미터를 사용하면 최대 4개의 캐시 중단점을 지정할 수 있으며, 각각의 재사용 가능한 섹션을 개별적으로 캐싱할 수 있습니다. 각 중단점마다 시스템이 이전 위치의 캐시 히트를 자동으로 확인하고, 가장 긴 일치 접두사를 사용합니다.
cache_control
로 표시하더라도 캐싱되지 않습니다. 이 기준 미만의 토큰 수로 캐시를 요청하면 일반 처리만 되고 캐싱이 적용되지 않습니다. 프롬프트가 캐시되었는지 확인하려면 응답 usage의 필드를 참고하세요.
동시 요청의 경우, 첫 번째 응답이 시작된 이후에만 캐시 항목이 사용 가능합니다. 병렬 요청에서 캐시 히트를 원한다면, 첫 번째 응답을 받은 후 다음 요청을 보내야 합니다.
현재 두 가지 캐시 유형을 지원합니다:
extended-cache-ttl-2025-04-11
을 베타 헤더로 추가하고, cache_control 정의에 ttl을 포함시키세요:
tools
배열 내 툴 정의system
배열의 콘텐츠 블록messages.content
배열의 사용자 및 어시스턴트 턴의 콘텐츠 블록messages.content
배열 내 콘텐츠 블록messages.content
배열 내 콘텐츠 블록cache_control
을 지정해 해당 요청 부분을 캐싱할 수 있습니다.
cache_control
로 직접 캐싱할 수 없습니다. 그러나 이전 어시스턴트 턴에 다른 콘텐츠와 함께 등장하면 캐싱이 가능합니다. 이 경우 캐시에서 읽을 때 입력 토큰으로 계산됩니다.usage
내 다음 API 필드(또는 스트리밍이라면 message_start
이벤트)로 모니터링할 수 있습니다:
cache_creation_input_tokens
: 새 캐시 엔트리 생성 시 캐시에 기록된 토큰 수cache_read_input_tokens
: 해당 요청에서 캐시에서 읽은 토큰 수input_tokens
: 캐시에서 읽거나 생성하지 않은 입력 토큰 수tool_choice
및 이미지 사용이 호출 간 일관되는지 점검하세요.cache_control
파라미터를 사용해 이전 구간의 캐시 조회를 보장할 수 있습니다.tool_choice
변경 또는 이미지의 유무가 바뀌면 캐시가 무효화되어 새 캐시 엔트리가 생성됩니다.cache_control: { type: "ephemeral" }
네이티브 선언이 필요합니다. 캐싱 요금은 입력 기준 5분 캐시 1.25배, 1시간 캐시 2배, 캐시 읽기는 0.1배, 유효기간은 5분 또는 1시간입니다. 자세히 보기usage_metadata
필드에서 캐시 히트 토큰 수를 확인할 수 있습니다.