AiHubMix Documentation Hub

El umbral mínimo de tokens que se pueden almacenar en caché varía según el modelo de Claude (512 / 1.024 / 2.048 / 4.096) y no es proporcional a la versión del modelo: por ejemplo, Claude Opus 4.8 es 1.024, Claude Opus 4.7 es 2.048, y Claude Opus 4.6 / 4.5 y Claude Haiku 4.5 son 4.096. El desglose completo está más abajo, en «Limitaciones de la caché». El contenido por debajo del umbral no se escribe en caché aunque esté marcado con cache_control, y tampoco genera error.

A continuación, un ejemplo de cómo implementar el almacenamiento en caché de prompts con la API de Messages usando un bloque cache_control:

curl https://aihubmix.com/v1/messages \
  -H "content-type: application/json" \
  -H "x-api-key: AIHUBMIX_API_KEY" \
  -H "anthropic-version: 2023-06-01" \
  -d '{
    "stream": true,
    "model": "claude-opus-4-20250514",
    "max_tokens": 20000,
    "system": [
      {
        "type": "text",
        "text": "You are an AI assistant tasked with analyzing literary works. Your goal is to provide insightful commentary on themes, characters, and writing style."
      },
      {
        "type": "text",
        "text": "Pride and Prejudice by Jane Austen... [Place complete text content here]",
        "cache_control": {"type": "ephemeral"}
      }
    ],
    "thinking": {
      "type": "enabled",
      "budget_tokens": 16000
    },
    "messages": [
      {
        "role": "user",
        "content": "Analyze the major themes in Pride and Prejudice."
      }
    ]
  }'

import os
import anthropic

client = anthropic.Anthropic(
    api_key="sk-***", # Replace with the key you generated in AiHubMix
    base_url="https://aihubmix.com"
)

# Streaming response with caching
with client.messages.stream(
    model="claude-opus-4-20250514",
    max_tokens=20000,
    system=[
        {
            "type": "text",
            "text": "You are an AI assistant tasked with analyzing literary works. Your goal is to provide insightful commentary on themes, characters, and writing style.\n"
        },
        {
            "type": "text",
            "text": "<the entire contents of 'Pride and Prejudice'>",
            "cache_control": {"type": "ephemeral"}
        }
    ],
    thinking={
        "type": "enabled",
        "budget_tokens": 16000
    },
    messages=[
        {"role": "user", "content": "Analyze the major themes in 'Pride and Prejudice'."}
    ]
) as stream:
    for text in stream.text_stream:
        print(text, end="", flush=True)

# Non-streaming response
message = client.messages.create(
    model="claude-opus-4-20250514",
    max_tokens=20000,
    system=[
        {
            "type": "text",
            "text": "You are an AI assistant tasked with analyzing literary works."
        },
        {
            "type": "text",
            "text": "<the entire contents of 'Pride and Prejudice'>",
            "cache_control": {"type": "ephemeral"}
        }
    ],
    messages=[
        {"role": "user", "content": "Analyze the major themes in 'Pride and Prejudice'."}
    ]
)
print(message.content)

import requests

url = "https://aihubmix.com/v1/messages"
headers = {
    "content-type": "application/json",
    "x-api-key": "sk-***", # Replace with the key you generated in AiHubMix
    "anthropic-version": "2023-06-01"
}
data = {
    "stream": True,
    "model": "claude-opus-4-20250514",
    "max_tokens": 20000,
    "system": [
        {
            "type": "text",
            "text": "You are an AI assistant tasked with analyzing literary works. Your goal is to provide insightful commentary on themes, characters, and writing style.\n"
        },
        {
            "type": "text",
            "text": "<the entire contents of 'Pride and Prejudice'>",
            "cache_control": {"type": "ephemeral"}
        }
    ],
    "thinking": {
        "type": "enabled",
        "budget_tokens": 16000
    },
    "messages": [{"role": "user", "content": "Analyze the major themes in 'Pride and Prejudice'."}]
}

response = requests.post(url, headers=headers, json=data, stream=True)

# Check response status
if response.status_code == 200:
    # Process the streaming response
    for line in response.iter_lines():
        if line:
            print(line.decode('utf-8'))
else:
    print(f"Error: {response.status_code}, {response.text}")

Respuesta:

{"cache_creation_input_tokens":188086,"cache_read_input_tokens":0,"input_tokens":21,"output_tokens":393}
{"cache_creation_input_tokens":0,"cache_read_input_tokens":188086,"input_tokens":21,"output_tokens":393}

En este ejemplo, el texto completo se almacena en caché utilizando el parámetro cache_control. Esto permite reutilizar este texto extenso en varias llamadas a la API sin tener que reprocesarlo cada vez. Cambiando únicamente el mensaje del usuario podrás hacer distintas preguntas sobre el libro aprovechando el contenido en caché, lo que se traduce en respuestas más rápidas y una mejor eficiencia.

Cómo funciona la caché de prompts

Cuando envías una solicitud con la caché de prompts habilitada:

El sistema comprueba si un prefijo del prompt, hasta un punto de corte de caché especificado, ya está almacenado en caché de una consulta reciente.
Si lo encuentra, utiliza la versión en caché, reduciendo el tiempo de procesamiento y los costos.
De lo contrario, procesa el prompt completo y almacena en caché el prefijo cuando comienza la respuesta. Esto es especialmente útil para:

Prompts con muchos ejemplos
Grandes cantidades de contexto o información de fondo
Tareas repetitivas con instrucciones consistentes
Conversaciones largas de múltiples turnos

Por defecto, la caché tiene una vida útil de 5 minutos. La caché se renueva sin coste adicional cada vez que se utiliza el contenido en caché. También admitimos una caché de 1 hora para escenarios que requieran una duración más prolongada.

La caché de prompts almacena el prefijo completo

La caché de prompts hace referencia al prompt entero — tools, system y messages (en ese orden) hasta el bloque marcado con cache_control, incluido.

Error común: caché que “solo escribe pero nunca lee”

El escenario de fallo más habitual es este: en cada turno el valor de cache_creation_input_tokens es grande (siempre se está escribiendo en caché), pero cache_read_input_tokens se mantiene en 0 (nunca se lee), lo que equivale a no ahorrar nada. La causa raíz es una sola: el contenido anterior al punto de corte de caché (cache_control) cambió entre dos solicitudes. Un acierto de caché requiere que el punto de corte y todo lo que va antes de él (en el orden tools → system → messages) sean idénticos byte a byte; basta con que cambie un solo carácter antes del punto de corte para que toda la caché del prefijo se invalide y se reescriba.

❌ Forma incorrecta: poner la pregunta que cambia en cada turno antes del punto de corte

{
  "messages": [
    {
      "role": "user",
      "content": [
        { "type": "text", "text": "请总结这份资料的核心观点。" },                          // ← 每轮会变,却放在断点前
        { "type": "text", "text": "<大文档>", "cache_control": { "type": "ephemeral" } }   // 断点
      ]
    }
  ]
}

En el turno siguiente, si cambias la pregunta a “请列出其中的关键风险点。”, el contenido anterior al punto de corte cambia y la caché de ese documento extenso que viene después tampoco se podrá leer.

✅ Forma correcta: el documento extenso primero + punto de corte + la pregunta al final

{
  "messages": [
    {
      "role": "user",
      "content": [
        { "type": "text", "text": "<固定不变的大文档/参考资料，≥4096 token>", "cache_control": { "type": "ephemeral" } },  // 断点;前缀恒定
        { "type": "text", "text": "请总结这份资料的核心观点。" }                                                          // ← 每轮变化的问题,放在断点之后
      ]
    }
  ]
}

En el turno siguiente solo se reemplaza ese último bloque de pregunta (el documento extenso se mantiene intacto) para acertar en la caché.

Comparación medida (claude-opus-4-6, intervalo de unos segundos entre las dos llamadas)

Forma	Qué cambió la 2.ª vez	`cache_creation`	`cache_read`	Resultado
❌ Incorrecta	El contenido anterior al punto de corte	19821	0	Reescritura completa, sin acierto
✅ Correcta	Solo la pregunta posterior al punto de corte	0	19814	Acierto completo

Puntos clave:

Coloca el bloque grande e invariable (documento de referencia, contexto extenso) en la parte más al frente del mensaje user de messages, con el cache_control marcado al final de ese bloque; ese contenido no puede cambiar ni un carácter.
Pon la pregunta/instrucción que cambia en cada turno después del punto de corte (en el mismo mensaje user, tras el documento extenso, o en mensajes posteriores); en las conversaciones de múltiples turnos solo añade contenido al final y no vuelvas a modificar los mensajes históricos.
Cuando thinking está activado, los bloques de razonamiento de los turnos históricos del asistente deben devolverse tal cual; de lo contrario el prefijo también se rompe (ver más abajo “Qué no se puede almacenar en caché”).
Si un bloque es menor que el umbral mínimo de caché (varía entre 512 y 4.096 tokens según el modelo, ver más abajo “Limitaciones de la caché”), no se escribirá en caché aunque esté marcado con cache_control; este es el comportamiento esperado.

Precios

La caché de prompts introduce una nueva estructura de precios. La siguiente tabla muestra el precio por millón de tokens para cada modelo admitido:

Modelo	Tokens de entrada base	Escrituras de caché 5 min	Escrituras de caché 1 h	Aciertos/renovaciones de caché	Tokens de salida
Claude Opus 4	Precio de la plataforma	1,25× precio base	2× precio base	0,1× precio base	Precio de la plataforma
Claude Sonnet 4	Precio de la plataforma	1,25× precio base	2× precio base	0,1× precio base	Precio de la plataforma
Claude Sonnet 3.7	Precio de la plataforma	1,25× precio base	2× precio base	0,1× precio base	Precio de la plataforma
Claude Sonnet 3.5	Precio de la plataforma	1,25× precio base	2× precio base	0,1× precio base	Precio de la plataforma
Claude Haiku 3.5	Precio de la plataforma	1,25× precio base	2× precio base	0,1× precio base	Precio de la plataforma
Claude Opus 3	Precio de la plataforma	1,25× precio base	2× precio base	0,1× precio base	Precio de la plataforma
Claude Haiku 3	Precio de la plataforma	1,25× precio base	2× precio base	0,1× precio base	Precio de la plataforma

Nota:

Los tokens de escritura en caché de 5 minutos cuestan 1,25 veces el precio de los tokens de entrada base
Los tokens de escritura en caché de 1 hora cuestan 2 veces el precio de los tokens de entrada base
Los tokens de lectura de caché cuestan 0,1 veces el precio de los tokens de entrada base
Los tokens regulares de entrada y salida tienen los precios estándar de la plataforma

Cómo implementar la caché de prompts

Modelos admitidos

Toda la gama de modelos Claude de Anthropic admite la caché de prompts, incluidos los modelos actuales Claude Opus 4.8 / 4.7 / 4.6 / 4.5, Claude Sonnet 5 / 4.6 / 4.5, Claude Haiku 4.5 y Claude Fable 5, así como los modelos anteriores Claude Opus 4, Sonnet 4, Sonnet 3.7, Sonnet 3.5, Haiku 3.5, Haiku 3 y Opus 3. El umbral mínimo de tokens que se pueden almacenar en caché de cada modelo está más abajo, en «Limitaciones de la caché».

Caché automática (cache_control de nivel superior)

Añade un campo cache_control en el nivel superior del cuerpo de la solicitud para habilitar la caché automática: el sistema aplica automáticamente el punto de corte de caché al último bloque cacheable y lo desplaza hacia adelante a medida que crece la conversación, lo que resulta adecuado para la caché deslizante en conversaciones de múltiples turnos. El punto de corte automático ocupa 1 de los 4 espacios de puntos de corte y puede combinarse con puntos de corte explícitos a nivel de bloque. Amazon Bedrock no admite la caché automática.

{
  "model": "claude-sonnet-5",
  "max_tokens": 1024,
  "cache_control": {"type": "ephemeral"},
  "system": "You are an AI assistant tasked with analyzing literary works.",
  "messages": [
    {"role": "user", "content": "Analyze the major themes in Pride and Prejudice."}
  ]
}

Cuando necesites controlar con precisión el límite de la caché, usa los puntos de corte explícitos a nivel de bloque que se describen a continuación.

Estructuración de tu prompt

Coloca el contenido estático (definiciones de herramientas, instrucciones del sistema, contexto, ejemplos) al principio de tu prompt. Marca el final del contenido reutilizable para almacenarlo en caché usando el parámetro cache_control. Los prefijos de caché se crean en el siguiente orden: tools, system y, después, messages. Usando el parámetro cache_control, puedes definir hasta 4 puntos de corte de caché, lo que te permite almacenar en caché por separado distintas secciones reutilizables. Para cada punto de corte, el sistema comprobará automáticamente si hay aciertos de caché en posiciones previas y usará el prefijo coincidente más largo si lo encuentra.

Limitaciones de la caché

La longitud mínima del prompt que se puede almacenar en caché varía según el modelo y no es proporcional a la versión:

Tokens mínimos en caché	Modelos
512	Claude Fable 5, Claude Mythos 5 (1.024 en Amazon Bedrock)
1.024	Claude Opus 4.8, Claude Sonnet 5, Claude Sonnet 4.6, Claude Sonnet 4.5, Claude Opus 4.1, Claude Opus 4, Claude Sonnet 4, Claude Sonnet 3.7, Claude Sonnet 3.5, Claude Opus 3
2.048	Claude Opus 4.7, Claude Haiku 3.5, Claude Haiku 3
4.096	Claude Opus 4.6, Claude Opus 4.5, Claude Haiku 4.5

Los prompts más cortos no se pueden almacenar en caché, aunque estén marcados con cache_control. Cualquier solicitud para almacenar en caché menos tokens que esta cifra se procesará sin caché. Para comprobar si un prompt se almacenó en caché, consulta los campos de uso de la respuesta. Para solicitudes concurrentes, ten en cuenta que una entrada de caché solo está disponible después de que comience la primera respuesta. Si necesitas aciertos de caché para solicitudes en paralelo, espera la primera respuesta antes de enviar las solicitudes posteriores. Vidas útiles de caché admitidas actualmente:

“ephemeral”: Vida útil predeterminada de 5 minutos
Caché de 1 hora: Establece "ttl": "1h" en cache_control, para escenarios que requieran una duración de caché más larga

Duración de caché de 1 hora

Para escenarios que requieran una duración de caché más larga, ofrecemos una opción de caché de 1 hora. Basta con incluir ttl en la definición de cache_control; no se requiere ningún encabezado adicional:

curl https://aihubmix.com/v1/messages \
  -H "content-type: application/json" \
  -H "x-api-key: AIHUBMIX_API_KEY" \
  -H "anthropic-version: 2023-06-01" \
  -d '{
    "model": "claude-opus-4-20250514",
    "system": [
      {
        "type": "text",
        "text": "Long-term instructions...",
        "cache_control": {
          "type": "ephemeral",
          "ttl": "1h"
        }
      }
    ],
    "messages": [...]
  }'

{
  "cache_control": {
    "type": "ephemeral",
    "ttl": "5m" | "1h"
  }
}

Cuándo usar la caché de 1 hora

La caché de 1 hora es especialmente adecuada para:

Procesamiento por lotes: Procesar grandes volúmenes de solicitudes con prefijos comunes
Sesiones de larga duración: Conversaciones que requieren mantener el contexto durante periodos prolongados
Análisis de documentos grandes: Múltiples tipos diferentes de análisis sobre el mismo documento
Preguntas y respuestas sobre código: Múltiples consultas sobre la misma base de código a lo largo de periodos prolongados

Combinando distintos TTL

Puedes combinar diferentes duraciones de caché dentro de la misma solicitud:

{
  "system": [
    {
      "type": "text", 
      "text": "Long-term instructions...",
      "cache_control": {
        "type": "ephemeral",
        "ttl": "1h"
      }
    },
    {
      "type": "text",
      "text": "Short-term context...", 
      "cache_control": {
        "type": "ephemeral",
        "ttl": "5m"
      }
    }
  ]
}

Qué se puede almacenar en caché

Cada bloque de la solicitud puede designarse para almacenarlo en caché con cache_control. Esto incluye:

Herramientas: Definiciones de herramientas en el array tools
Mensajes del sistema: Bloques de contenido en el array system
Mensajes: Bloques de contenido en el array messages.content, tanto en los turnos del usuario como en los del asistente
Imágenes y documentos: Bloques de contenido en el array messages.content, en los turnos del usuario
Uso de herramientas y resultados de herramientas: Bloques de contenido en el array messages.content, tanto en los turnos del usuario como en los del asistente

Cada uno de estos elementos puede marcarse con cache_control para habilitar el almacenamiento en caché de esa parte de la solicitud.

Qué no se puede almacenar en caché

Aunque la mayoría de los bloques de la solicitud pueden almacenarse en caché, hay algunas excepciones:

Los bloques de razonamiento (thinking) no pueden almacenarse en caché directamente con cache_control. Sin embargo, los bloques de razonamiento SÍ pueden almacenarse en caché junto con otro contenido cuando aparecen en turnos anteriores del asistente. Cuando se almacenan así, SÍ cuentan como tokens de entrada cuando se leen de la caché.
Los subbloques de contenido (como las citas) no pueden almacenarse en caché directamente por sí mismos. En su lugar, almacena en caché el bloque de nivel superior.
Los bloques de texto vacíos no se pueden almacenar en caché.

Seguimiento del rendimiento de la caché

Monitoriza el rendimiento de la caché usando estos campos de la respuesta de la API, dentro de usage en la respuesta (o en el evento message_start si usas streaming):

cache_creation_input_tokens: Número de tokens escritos en la caché al crear una nueva entrada.
cache_read_input_tokens: Número de tokens recuperados de la caché para esta solicitud.
input_tokens: Número de tokens de entrada que no se leyeron desde la caché ni se usaron para crear una caché.

Buenas prácticas para una caché eficaz

Para optimizar el rendimiento de la caché de prompts:

Almacena en caché contenido estable y reutilizable como instrucciones del sistema, información de fondo, contextos extensos o definiciones de herramientas frecuentes.
Coloca el contenido en caché al principio del prompt para obtener el mejor rendimiento.
Usa los puntos de corte de caché de forma estratégica para separar distintas secciones de prefijo cacheables.
Analiza regularmente las tasas de acierto de caché y ajusta tu estrategia según sea necesario.
Para contenido a largo plazo, considera usar la caché de 1 hora para una mejor eficiencia de costos.

Optimización para distintos casos de uso

Adapta tu estrategia de caché de prompts a tu escenario:

Agentes conversacionales: Reduce el costo y la latencia en conversaciones extensas, especialmente aquellas con instrucciones largas o documentos cargados.
Asistentes de programación: Mejora el autocompletado y las preguntas y respuestas sobre la base de código manteniendo en el prompt las secciones relevantes o una versión resumida de la base de código.
Procesamiento de documentos grandes: Incorpora material extenso completo, incluidas imágenes, en tu prompt sin aumentar la latencia de la respuesta.
Conjuntos de instrucciones detallados: Comparte listas exhaustivas de instrucciones, procedimientos y ejemplos para afinar las respuestas de Claude. Los desarrolladores suelen incluir uno o dos ejemplos en el prompt, pero con la caché de prompts puedes obtener un rendimiento aún mejor incluyendo más de 20 ejemplos diversos de respuestas de alta calidad.
Uso agentic de herramientas: Mejora el rendimiento en escenarios que involucran múltiples llamadas a herramientas y cambios iterativos de código, donde cada paso suele requerir una nueva llamada a la API.
Conversar con libros, papers, documentación, transcripciones de podcasts y otro contenido extenso: Da vida a cualquier base de conocimiento incrustando los documentos completos en el prompt y dejando que los usuarios hagan preguntas.

Solución de problemas comunes

Si experimentas un comportamiento inesperado:

Asegúrate de que las secciones cacheadas sean idénticas y estén marcadas con cache_control en las mismas ubicaciones en todas las llamadas
Comprueba que las llamadas se realicen dentro de la vida útil de la caché (5 minutos o 1 hora)
Verifica que tool_choice y el uso de imágenes se mantengan consistentes entre las llamadas
Valida que estás almacenando en caché al menos el número mínimo de tokens
Aunque el sistema intentará utilizar el contenido cacheado previamente en las posiciones anteriores a un punto de corte de caché, puedes usar un parámetro cache_control adicional para garantizar la búsqueda en caché en porciones previas del prompt, lo que puede ser útil en consultas con listas muy largas de bloques de contenido

Ten en cuenta que los cambios en tool_choice o la presencia/ausencia de imágenes en cualquier parte del prompt invalidarán la caché, requiriendo crear una nueva entrada de caché.

Almacenamiento y compartición de la caché

Aislamiento por organización: Las cachés están aisladas entre organizaciones. Distintas organizaciones nunca comparten cachés, incluso si usan prompts idénticos.
Coincidencia exacta: Los aciertos de caché requieren segmentos de prompt 100 % idénticos, incluido todo el texto e imágenes hasta el bloque marcado con cache_control. El mismo bloque debe marcarse con cache_control tanto en la lectura como en la creación de la caché.
Generación de tokens de salida: La caché de prompts no afecta a la generación de tokens de salida. La respuesta que recibirás será idéntica a la que obtendrías sin caché de prompts.

Habilitar la caché de Claude en clientes / plataformas

La interfaz de muchos clientes no tiene un lugar donde rellenar directamente cache_control, sino que usa su propio “azúcar sintáctico” o interruptores para inyectarlo por ti. La regla de fondo es exactamente la misma que arriba: el prefijo que se almacena en caché debe ser idéntico carácter a carácter en cada turno, y el contenido que cambia debe ir después del punto de corte de caché; de lo contrario, “solo se escribe pero nunca se lee” (ver “Error común” más arriba).

Dify (mediante el plugin de Aihubmix)

El plugin de Dify de Aihubmix hereda el azúcar sintáctico del plugin oficial de Anthropic, y se habilita en dos pasos:

Envuelve el prompt que quieres almacenar en caché (el prompt de sistema fijo e invariable / contexto extenso) con <cache>…</cache>; el plugin lo convertirá automáticamente en un punto de corte de cache_control en ese lugar.
En los parámetros del modelo, establece el “umbral de caché automática para mensajes grandes” en un entero positivo: la caché solo se escribe realmente cuando el contenido alcanza ese umbral de tokens (sigue sujeto a la restricción mínima de caché de “Limitaciones de la caché” más abajo, 4096 tokens para Opus 4.5/4.6 y Haiku 4.5); con 0 o vacío se desactiva.

Para la instalación y configuración del plugin, consulta Plugin de Dify.

Cherry Studio

Cuando Cherry Studio llama a Claude a través de Aihubmix, la caché no está activada por defecto (el “umbral de tokens de caché” es 0 por defecto); hay que activarla en la “API Settings” del proveedor.

Haz clic en el engranaje a la derecha del nombre del proveedor Aihubmix para abrir “API Settings”:

Abrir API Settings del proveedor Aihubmix

Configura los tres elementos siguientes; el cliente inyectará automáticamente cache_control para Claude en función de ellos:

Cache Token Threshold: solo inyecta el punto de corte de caché cuando el contenido supere ese número de tokens (un número positivo lo activa; 0 o vacío lo desactiva).
Cache System Message: al activarlo, marca un punto de corte de caché en el mensaje system (ideal para almacenar en caché un prompt de sistema largo y fijo).
Cache Last N Messages: marca un punto de corte de caché en los últimos N mensajes (ideal para una caché deslizante en conversaciones de múltiples turnos).

Configurar Cache Token Threshold, Cache System Message y Cache Last N Messages en API Settings

Para los pasos de integración, consulta Cherry Studio.

Los umbrales anteriores solo deciden “cuándo inyecta el cliente el punto de corte”, y no cambian el requisito mínimo de caché de Anthropic: la escritura real sigue requiriendo que el contenido almacenado en caché alcance el mínimo de tokens de caché (4096 para Opus 4.5/4.6 y Haiku 4.5). Si pones contenido que cambia en cada turno (como instrucciones rotativas) dentro del prompt de sistema almacenado en caché, igualmente “solo se escribirá pero nunca se leerá”.

Preguntas frecuentes (FAQ)

¿Por qué escribo en caché (`cache_creation_input_tokens` es grande) pero nunca leo (`cache_read_input_tokens` es 0)?

Porque el contenido anterior al punto de corte de caché (cache_control) cambió entre dos solicitudes. Un acierto requiere que el punto de corte y todo lo que va antes sean idénticos byte a byte; en cuanto pones contenido que cambia en cada turno antes del punto de corte, toda la caché del prefijo se invalida y se reescribe en cada turno. Pon el contenido fijo al principio y el contenido cambiante después del punto de corte; ver más arriba “Error común”.

¿Cuántos tokens como mínimo necesita la caché?

El contenido por debajo de la longitud mínima de caché no se almacena, aunque esté marcado con cache_control. Claude Opus 4.5/4.6 y Haiku 4.5 requieren 4096 tokens; la mayoría de los demás modelos de Claude requieren 1024 tokens, y Haiku 3/3.5 requieren 2048 tokens. Ver más arriba “Limitaciones de la caché”.

¿Cuánto dura la caché? ¿Se puede cambiar a 1 hora?

Por defecto 5 minutos, y se renueva sin coste en cada acierto. Si necesitas más tiempo, establece "ttl": "1h" en cache_control; no se requiere ningún encabezado adicional. La escritura en caché de 1 hora se factura a 2 veces el precio de entrada base. Ver más arriba “Duración de caché de 1 hora”.

¿Cómo activo la caché en Dify / Cherry Studio?

Estos clientes no rellenan cache_control directamente: Dify envuelve el contenido a almacenar en caché con <cache>…</cache> y establece el “umbral de caché automática para mensajes grandes”; Cherry Studio configura “Cache Token Threshold / Cache System Message / Cache Last N Messages” en la “API Settings”. Ver más arriba “Habilitar la caché de Claude en clientes / plataformas”.

Soporte en distintos modelos

Si Prompt Caching está admitido o no depende del propio modelo.
Si el modelo admite inherentemente la caché sin necesidad de declaraciones de parámetros explícitas, puede admitirse mediante el reenvío compatible con OpenAI.
OpenAI admite Prompt Caching por defecto, con activación automática (prefijo ≥1024 tokens). En los modelos anteriores a GPT-5.6, la escritura en caché no tiene cargo adicional y la caché se borra automáticamente tras 5-10 minutos de inactividad; en GPT-5.6 y posteriores, la escritura en caché se factura a 1,25 veces el precio de entrada, la lectura a 0,1 veces, la caché se conserva al menos 30 minutos y se admiten puntos de corte de caché explícitos. Detalles en Caché de prompts de GPT.
Claude requiere la declaración nativa cache_control: { type: "ephemeral" }. La tasa de almacenamiento es 1,25 veces el costo de entrada estándar (5 minutos) o 2 veces (1 hora), la recuperación de tokens cacheados cuesta 0,1 veces la tarifa normal, con un ciclo de vida de 5 minutos o 1 hora. Detalles
Deepseek V3 y R1 admiten la caché de forma nativa. La tasa de almacenamiento equivale al costo de entrada estándar y la recuperación de tokens cacheados cuesta 0,1 veces la tarifa normal. Detalles
Soporte de caché implícita de Gemini:
- Caché implícita: Habilitada por defecto para todos los modelos Gemini 2.5. Si tu solicitud acierta en la caché, los ahorros de costo se aplican automáticamente. Esta función entró en vigor el 8 de mayo de 2025. El recuento mínimo de tokens de entrada para la caché de contexto es de 1.024 para Gemini 2.5 Flash y de 2.048 para Gemini 2.5 Pro.
- Consejos para mejorar la tasa de aciertos de la caché implícita:
  - Intenta colocar al principio del prompt el contenido extenso y de uso frecuente.
  - Intenta enviar solicitudes con prefijos similares dentro de una ventana de tiempo corta.
- Puedes ver el número de tokens con acierto de caché en el campo usage_metadata del objeto de respuesta.
- Los ahorros de costos se calculan según los aciertos de caché en prefill. Solo la caché de prefill y la caché de preprocesamiento de vídeo de YouTube son elegibles para la caché implícita.

Última actualización: 2026-07-10

Empezar

Funciones de gateway

Capacidades del modelo

Referencia de protocolo

Gestión de plataforma

Privacidad y términos

Caché de prompts de Claude

Cómo funciona la caché de prompts

La caché de prompts almacena el prefijo completo

Error común: caché que “solo escribe pero nunca lee”

❌ Forma incorrecta: poner la pregunta que cambia en cada turno antes del punto de corte

✅ Forma correcta: el documento extenso primero + punto de corte + la pregunta al final

Comparación medida (claude-opus-4-6, intervalo de unos segundos entre las dos llamadas)

Precios

Cómo implementar la caché de prompts

Modelos admitidos

Caché automática (cache_control de nivel superior)

Estructuración de tu prompt

Limitaciones de la caché

Duración de caché de 1 hora

Cuándo usar la caché de 1 hora

Combinando distintos TTL

Qué se puede almacenar en caché

Qué no se puede almacenar en caché

Seguimiento del rendimiento de la caché

Buenas prácticas para una caché eficaz

Optimización para distintos casos de uso

Solución de problemas comunes

Almacenamiento y compartición de la caché

Habilitar la caché de Claude en clientes / plataformas

Dify (mediante el plugin de Aihubmix)

Cherry Studio

Preguntas frecuentes (FAQ)

¿Por qué escribo en caché (`cache_creation_input_tokens` es grande) pero nunca leo (`cache_read_input_tokens` es 0)?

¿Cuántos tokens como mínimo necesita la caché?

¿Cuánto dura la caché? ¿Se puede cambiar a 1 hora?

¿Cómo activo la caché en Dify / Cherry Studio?

Soporte en distintos modelos

​Cómo funciona la caché de prompts

​La caché de prompts almacena el prefijo completo

​Error común: caché que “solo escribe pero nunca lee”

​❌ Forma incorrecta: poner la pregunta que cambia en cada turno antes del punto de corte

​✅ Forma correcta: el documento extenso primero + punto de corte + la pregunta al final

​Comparación medida (claude-opus-4-6, intervalo de unos segundos entre las dos llamadas)

​Precios

​Cómo implementar la caché de prompts

​Modelos admitidos

​Caché automática (cache_control de nivel superior)

​Estructuración de tu prompt

​Limitaciones de la caché

​Duración de caché de 1 hora

​Cuándo usar la caché de 1 hora

​Combinando distintos TTL

​Qué se puede almacenar en caché

​Qué no se puede almacenar en caché

​Seguimiento del rendimiento de la caché

​Buenas prácticas para una caché eficaz

​Optimización para distintos casos de uso

​Solución de problemas comunes

​Almacenamiento y compartición de la caché

​Habilitar la caché de Claude en clientes / plataformas

​Dify (mediante el plugin de Aihubmix)

​Cherry Studio

​Preguntas frecuentes (FAQ)

​¿Por qué escribo en caché (cache_creation_input_tokens es grande) pero nunca leo (cache_read_input_tokens es 0)?

​¿Cuántos tokens como mínimo necesita la caché?

​¿Cuánto dura la caché? ¿Se puede cambiar a 1 hora?

​¿Cómo activo la caché en Dify / Cherry Studio?

​Soporte en distintos modelos

Cómo funciona la caché de prompts

La caché de prompts almacena el prefijo completo

Error común: caché que “solo escribe pero nunca lee”

❌ Forma incorrecta: poner la pregunta que cambia en cada turno antes del punto de corte

✅ Forma correcta: el documento extenso primero + punto de corte + la pregunta al final

Comparación medida (claude-opus-4-6, intervalo de unos segundos entre las dos llamadas)

Precios

Cómo implementar la caché de prompts

Modelos admitidos

Caché automática (cache_control de nivel superior)

Estructuración de tu prompt

Limitaciones de la caché

Duración de caché de 1 hora

Cuándo usar la caché de 1 hora

Combinando distintos TTL

Qué se puede almacenar en caché

Qué no se puede almacenar en caché

Seguimiento del rendimiento de la caché

Buenas prácticas para una caché eficaz

Optimización para distintos casos de uso

Solución de problemas comunes

Almacenamiento y compartición de la caché

Habilitar la caché de Claude en clientes / plataformas

Dify (mediante el plugin de Aihubmix)

Cherry Studio

Preguntas frecuentes (FAQ)

¿Por qué escribo en caché (`cache_creation_input_tokens` es grande) pero nunca leo (`cache_read_input_tokens` es 0)?

¿Cuántos tokens como mínimo necesita la caché?

¿Cuánto dura la caché? ¿Se puede cambiar a 1 hora?

¿Cómo activo la caché en Dify / Cherry Studio?

Soporte en distintos modelos