AiHubMix Documentation Hub

Prompt Caching ist ein wichtiger Mechanismus zur Senkung der Inferenzkosten von Modellen. Indem bereits verarbeitete Prompt-Inhalte zwischengespeichert werden, können sie in nachfolgenden Anfragen wiederverwendet werden – das reduziert redundante Berechnungen, senkt Kosten und verbessert die Antwortlatenz.

Prinzip

Wenn Sie einen Request mit aktiviertem Prompt Caching senden, prüft das System, ob das Prompt-Präfix aus kürzlich erfolgten Abfragen bereits gecached wurde. Wird es gefunden, wird der Cache verwendet, wodurch Verarbeitungszeit und Kosten sinken. Andernfalls wird der vollständige Prompt verarbeitet und das Präfix nach Beginn der Antwort gecached. Dies ist besonders nützlich in folgenden Szenarien:

Prompts mit zahlreichen Beispielen
Umfangreicher Kontext oder Hintergrundinformationen
Wiederkehrende Aufgaben mit gleichbleibenden Anweisungen
Lange Multi-Turn-Konversationen

Kernmechanismus

Verschiedene Modellanbieter bieten unterschiedliche Caching-Unterstützung:

Automatisches Caching

Automatisches Caching erfordert keine zusätzliche Konfiguration; das System erkennt und cached wiederverwendbare Inhalte automatisch. Anwendbar auf Modelle wie OpenAI, DeepSeek usw.

OpenAI

Mindest-Prompt-Länge: 1024 Token; automatischer Hit bei Zeichen für Zeichen identischem Präfix
Modelle vor GPT-5.6: Cache-Writes werden nicht separat abgerechnet; Cache-Reads kosten den Cache-Lesepreis des jeweiligen Modells
GPT-5.6 und neuer (offizielle Angabe “GPT-5.6 models and later model families”, derzeit gpt-5.6-sol / terra / luna): Cache-Writes werden mit dem 1,25-Fachen des Inputpreises abgerechnet, Reads mit dem 0,1-Fachen; neu sind die Parameter prompt_cache_key und explizite Cache-Breakpoints
Nutzung, Abrechnung und Fehlersuche bei Cache-Misses siehe GPT Prompt Caching

Gemini

Implizites Kontext-Caching ist standardmäßig aktiviert und ohne manuelle Konfiguration automatisch wirksam.
Caching greift nur, wenn Inhalt, Modell und Parameter identisch sind; jede Abweichung wird als neuer Request behandelt und trifft den Cache nicht.
Die Cache-Gültigkeit wird vom Entwickler festgelegt; sie kann auch leer bleiben. Ohne Angabe gilt standardmäßig 1 Stunde. Es gibt keine minimale oder maximale Dauerbegrenzung; die Kosten hängen von der Anzahl der gecachten Token und der Cache-Dauer ab.

DeepSeek / Grok / Moonshot / Groq

Kosten: Das Schreiben in den Cache ist kostenlos oder zum gleichen Preis; das Lesen aus dem Cache liegt unter dem Originalpreis

Explizites Caching bei Claude-Modellen

Aktivierung über cache_control: Feld auf oberster Ebene des Request-Bodys für automatische Breakpoints (verschieben sich mit der Konversation nach vorn) oder auf Inhaltsblock-Ebene für präzise Kontrolle der Cache-Position
Alle aktiven Claude-Modelle werden unterstützt; Cache-Writes kosten das 1,25-Fache (5-Minuten-Cache) bzw. das 2-Fache (1-Stunden-Cache), Reads das 0,1-Fache – die Faktoren gelten einheitlich für die gesamte Reihe
Anwendbar auf Anthropic-Claude-Modelle

Claude legt die Mindestschwelle an cachebaren Token je Modell fest (512 / 1.024 / 2.048 / 4.096, nicht proportional zur Versionsnummer): Claude Opus 4.8 = 1.024, Claude Opus 4.7 = 2.048, Claude Opus 4.6 / 4.5 und Claude Haiku 4.5 = 4.096, Claude Fable 5 = 512. Ein Präfix unterhalb der Schwelle wird auch mit gesetztem cache_control nicht in den Cache geschrieben und löst keinen Fehler aus – erkennbar daran, dass in der Antwort cache_creation_input_tokens und cache_read_input_tokens gleichzeitig 0 sind. Die vollständige Staffelung und Fehlersuche finden Sie unter Claude Prompt Caching.

OpenAI-kompatible Schnittstelle

Sie können in system, user (einschließlich Bildern) und tools mit dem Feld cache_control Caching-Breakpoints setzen. Die folgenden Beispiele zeigen nur die wesentliche Struktur: System-Message-Caching (Standard 5 Minuten TTL):

{
  "model": "claude-opus-4-5",
  "messages": [
    {
      "role": "system",
      "content": [
        {"type": "text", "text": "You are an AI assistant"},
        {
          "type": "text",
          "text": "(long context)",
          "cache_control": {"type": "ephemeral"}
        }
      ]
    },
    {
      "role": "user",
      "content": [{"type": "text", "text": "Hello"}]
    }
  ]
}

User-Message-Caching (1 Stunde TTL):

{
  "model": "claude-opus-4-5",
  "messages": [
    {
      "role": "system",
      "content": [{"type": "text", "text": "You are an AI assistant"}]
    },
    {
      "role": "user",
      "content": [
        {
          "type": "text",
          "text": "(long context)",
          "cache_control": {"type": "ephemeral", "ttl": "1h"}
        },
        {"type": "text", "text": "Hello"}
      ]
    }
  ]
}

Bild-Message-Caching:

{
  "role": "user",
  "content": [
    {
      "type": "image_url",
      "image_url": {"detail": "auto", "url": "data:image/jpeg;base64,/9j/4AAQ..."},
      "cache_control": {"type": "ephemeral"}
    },
    {"type": "text", "text": "What's this?"}
  ]
}

Tool-Definitions-Caching: Platzieren Sie das cache_control auf der obersten Ebene des Tool-Objekts (auf gleicher Ebene wie type und function):

{
  "tools": [{
    "type": "function",
    "function": {
      "name": "get_weather",
      "description": "Get current weather for a location",
      "parameters": {
        "type": "object",
        "properties": {"city": {"type": "string"}},
        "required": ["city"]
      }
    },
    "cache_control": {"type": "ephemeral", "ttl": "1h"}
  }]
}

Anthropic-kompatible Schnittstelle

curl https://aihubmix.com/v1/messages \
  -H "content-type: application/json" \
  -H "x-api-key: $AIHUBMIX_API_KEY" \
  -H "anthropic-version: 2023-06-01" \
  -d '{
    "model": "claude-opus-4-6",
    "max_tokens": 1024,
    "system": [
      {
        "type": "text",
        "text": "You are an AI assistant tasked with analyzing literary works. Your goal is to provide insightful commentary on themes, characters, and writing style.\n"
      },
      {
        "type": "text",
        "text": "<the entire contents of Pride and Prejudice>",
        "cache_control": {"type": "ephemeral"}
      }
    ],
    "messages": [
      {
        "role": "user",
        "content": "Analyze the major themes in Pride and Prejudice."
      }
    ]
  }'

# Call the model again with the same input until the caching checkpoint
curl https://aihubmix.com/v1/messages # rest of input

import anthropic

client = Anthropic(
  api_key="<AIHUBMIX_API_KEY>",  
  base_url="https://aihubmix.com"
)

params = {
    "model": "claude-opus-4-6",
    "max_tokens": 1024,
    "system": [
        {
            "type": "text",
            "text": "You are an AI assistant tasked with analyzing literary works. Your goal is to provide insightful commentary on themes, characters, and writing style.\n",
        },
        {
            "type": "text",
            "text": "<the entire contents of 'Pride and Prejudice'>",
            "cache_control": {"type": "ephemeral"},
        },
    ],
    "messages": [
        {
            "role": "user",
            "content": "Analyze the major themes in 'Pride and Prejudice'.",
        }
    ],
}
response = client.messages.create(**params)
print(response.usage.model_dump_json())

# Call the model again with the same input until the caching checkpoint
response = client.messages.create(**params)
print(response.usage.model_dump_json())

Cache-Dauer

Standard: 5 Minuten
Optional: 1 Stunde (“ttl”: “1h”)

Weitere Informationen finden Sie unter: Claude Prompt Caching

Nutzungsempfehlungen

Stabile Präfixe beibehalten

Platzieren Sie unveränderliche Inhalte am Anfang des Prompts, empfohlene Struktur:

[System-Einstellungen / Langtext / RAG-Daten] 
[Benutzerfrage (variabler Teil)]

Große Texte cachen

Cachen Sie bevorzugt folgende Inhalte:

RAG-Daten
Lange Texte
CSV-/JSON-Daten
Rolleneinstellungen

TTL steuern

Kurze Sessions → 5 Minuten
Lange Sessions → 1 Stunde (kosteneffizienter)

Cache-Writes reduzieren

Vermeiden Sie, dass sich häufig ändernde Inhalte in den Cache gelangen. Cachen Sie keine Zeitstempel, Benutzereingabevariablen, häufig wechselnde Daten usw.

Zuletzt aktualisiert: 2026-07-10

Erste Schritte

Gateway-Funktionen

Modellfähigkeiten

Protokoll-Referenz

Plattform-Verwaltung

Datenschutz und Bedingungen

Prompt-Caching

Prinzip

Kernmechanismus

Automatisches Caching

OpenAI

Gemini

DeepSeek / Grok / Moonshot / Groq

Explizites Caching bei Claude-Modellen

OpenAI-kompatible Schnittstelle

Anthropic-kompatible Schnittstelle

Cache-Dauer

Nutzungsempfehlungen

Vermeiden Sie, dass sich häufig ändernde Inhalte in den Cache gelangen. Cachen Sie keine Zeitstempel, Benutzereingabevariablen, häufig wechselnde Daten usw.

​Prinzip

​Kernmechanismus

​Automatisches Caching

​OpenAI

​Gemini

​DeepSeek / Grok / Moonshot / Groq

​Explizites Caching bei Claude-Modellen

​OpenAI-kompatible Schnittstelle

​Anthropic-kompatible Schnittstelle

​Cache-Dauer

​Nutzungsempfehlungen

​Vermeiden Sie, dass sich häufig ändernde Inhalte in den Cache gelangen. Cachen Sie keine Zeitstempel, Benutzereingabevariablen, häufig wechselnde Daten usw.

Prinzip

Kernmechanismus

Automatisches Caching

OpenAI

Gemini

DeepSeek / Grok / Moonshot / Groq

Explizites Caching bei Claude-Modellen

OpenAI-kompatible Schnittstelle

Anthropic-kompatible Schnittstelle

Cache-Dauer

Nutzungsempfehlungen

Vermeiden Sie, dass sich häufig ändernde Inhalte in den Cache gelangen. Cachen Sie keine Zeitstempel, Benutzereingabevariablen, häufig wechselnde Daten usw.