La caché de prompts es un mecanismo importante para reducir los costos de inferencia del modelo. Al cachear el contenido de los prompts procesados previamente, este puede reutilizarse en solicitudes posteriores, reduciendo cálculos redundantes, costos y mejorando la eficiencia de respuesta.Documentation Index
Fetch the complete documentation index at: https://docs.aihubmix.com/llms.txt
Use this file to discover all available pages before exploring further.
Principio
Cuando envías una solicitud con la caché de prompts habilitada, el sistema comprueba si el prefijo del prompt ha sido cacheado en consultas recientes. Si lo encuentra, usa la caché, reduciendo el tiempo de procesamiento y los costos; de lo contrario, procesa el prompt completo y cachea el prefijo después de que comience la respuesta. Esto es especialmente útil en los siguientes escenarios:- Prompts que contienen numerosos ejemplos
- Contexto o información de fondo extensa
- Tareas repetitivas con instrucciones consistentes
- Conversaciones largas de múltiples turnos
Mecanismo principal
Los distintos proveedores de modelos tienen un soporte diferente para la caché:Caché automática
La caché automática no requiere configuración adicional; el sistema identifica y cachea automáticamente el contenido reutilizable, aplicable a modelos como OpenAI, DeepSeek, etc.OpenAI
- Longitud mínima del prompt: 1024 tokens
- Costo: Escribir en la caché es gratis; leer de la caché cuesta entre 0,25x y 0,5x el precio original
Gemini
- La caché de contexto implícita está habilitada por defecto, y la caché es efectiva automáticamente sin configuración manual.
- La caché solo es efectiva cuando el contenido, el modelo y los parámetros son idénticos; cualquier diferencia se tratará como una nueva solicitud y no acertará en la caché.
- El periodo de validez de la caché lo establece el desarrollador, y también puede dejarse sin especificar. Si no se especifica, el valor predeterminado es 1 hora. No hay límites mínimos ni máximos de duración, y los costos dependen del número de tokens cacheados y de la duración de la caché.
DeepSeek / Grok / Moonshot / Groq
- Costo: Escribir en la caché es gratis o al mismo precio; leer de la caché cuesta menos que el precio original
Caché explícita en modelos Claude
- Requiere especificar manualmente la ubicación de la caché mediante
cache_control - Permite un control detallado sobre la granularidad de la caché
- Aplicable a los modelos Anthropic Claude
Interfaz compatible con OpenAI
Puedes establecer puntos de corte de caché ensystem, user (incluidas imágenes) y tools usando el campo cache_control. Los siguientes ejemplos solo muestran la estructura clave:
Caché de mensajes del sistema (TTL predeterminado de 5 minutos):
cache_control en el nivel superior del objeto de la herramienta (al mismo nivel que type y function):
Interfaz compatible con Anthropic
Duración de la caché
- Predeterminado: 5 minutos
- Opcional: 1 hora (“ttl”: “1h”)
Para más información, consulta: Caché de prompts de Claude
Recomendaciones de uso
- Mantén prefijos estables
- Cachea textos grandes
- Datos de RAG
- Textos largos
- Datos CSV / JSON
- Configuración de roles
- Controla el TTL
- Sesiones cortas → 5 minutos
- Sesiones largas → 1 hora (más rentable)
- Reduce las escrituras en caché