Zum Hauptinhalt springen

Documentation Index

Fetch the complete documentation index at: https://docs.aihubmix.com/llms.txt

Use this file to discover all available pages before exploring further.

Prompt Caching ist ein wichtiger Mechanismus zur Senkung der Inferenzkosten von Modellen. Indem bereits verarbeitete Prompt-Inhalte zwischengespeichert werden, können sie in nachfolgenden Anfragen wiederverwendet werden – das reduziert redundante Berechnungen, senkt Kosten und verbessert die Antwortlatenz.

Prinzip

Wenn Sie einen Request mit aktiviertem Prompt Caching senden, prüft das System, ob das Prompt-Präfix aus kürzlich erfolgten Abfragen bereits gecached wurde. Wird es gefunden, wird der Cache verwendet, wodurch Verarbeitungszeit und Kosten sinken. Andernfalls wird der vollständige Prompt verarbeitet und das Präfix nach Beginn der Antwort gecached. Dies ist besonders nützlich in folgenden Szenarien:
  • Prompts mit zahlreichen Beispielen
  • Umfangreicher Kontext oder Hintergrundinformationen
  • Wiederkehrende Aufgaben mit gleichbleibenden Anweisungen
  • Lange Multi-Turn-Konversationen

Kernmechanismus

Verschiedene Modellanbieter bieten unterschiedliche Caching-Unterstützung:

Automatisches Caching

Automatisches Caching erfordert keine zusätzliche Konfiguration; das System erkennt und cached wiederverwendbare Inhalte automatisch. Anwendbar auf Modelle wie OpenAI, DeepSeek usw.

OpenAI

  • Mindest-Prompt-Länge: 1024 Token
  • Kosten: Das Schreiben in den Cache ist kostenlos; das Lesen aus dem Cache kostet das 0,25- bis 0,5-fache des Originalpreises

Gemini

  • Implizites Kontext-Caching ist standardmäßig aktiviert und ohne manuelle Konfiguration automatisch wirksam.
  • Caching greift nur, wenn Inhalt, Modell und Parameter identisch sind; jede Abweichung wird als neuer Request behandelt und trifft den Cache nicht.
  • Die Cache-Gültigkeit wird vom Entwickler festgelegt; sie kann auch leer bleiben. Ohne Angabe gilt standardmäßig 1 Stunde. Es gibt keine minimale oder maximale Dauerbegrenzung; die Kosten hängen von der Anzahl der gecachten Token und der Cache-Dauer ab.

DeepSeek / Grok / Moonshot / Groq

  • Kosten: Das Schreiben in den Cache ist kostenlos oder zum gleichen Preis; das Lesen aus dem Cache liegt unter dem Originalpreis

Explizites Caching bei Claude-Modellen

  • Erfordert die manuelle Angabe der Cache-Position über cache_control
  • Ermöglicht eine feingranulare Steuerung der Caching-Granularität
  • Anwendbar auf Anthropic-Claude-Modelle

OpenAI-kompatible Schnittstelle

Sie können in system, user (einschließlich Bildern) und tools mit dem Feld cache_control Caching-Breakpoints setzen. Die folgenden Beispiele zeigen nur die wesentliche Struktur: System-Message-Caching (Standard 5 Minuten TTL):
{
  "model": "claude-opus-4-5",
  "messages": [
    {
      "role": "system",
      "content": [
        {"type": "text", "text": "You are an AI assistant"},
        {
          "type": "text",
          "text": "(long context)",
          "cache_control": {"type": "ephemeral"}
        }
      ]
    },
    {
      "role": "user",
      "content": [{"type": "text", "text": "Hello"}]
    }
  ]
}
User-Message-Caching (1 Stunde TTL):
{
  "model": "claude-opus-4-5",
  "messages": [
    {
      "role": "system",
      "content": [{"type": "text", "text": "You are an AI assistant"}]
    },
    {
      "role": "user",
      "content": [
        {
          "type": "text",
          "text": "(long context)",
          "cache_control": {"type": "ephemeral", "ttl": "1h"}
        },
        {"type": "text", "text": "Hello"}
      ]
    }
  ]
}
Bild-Message-Caching:
{
  "role": "user",
  "content": [
    {
      "type": "image_url",
      "image_url": {"detail": "auto", "url": "data:image/jpeg;base64,/9j/4AAQ..."},
      "cache_control": {"type": "ephemeral"}
    },
    {"type": "text", "text": "What's this?"}
  ]
}
Tool-Definitions-Caching: Platzieren Sie das cache_control auf der obersten Ebene des Tool-Objekts (auf gleicher Ebene wie type und function):
{
  "tools": [{
    "type": "function",
    "function": {
      "name": "get_weather",
      "description": "Get current weather for a location",
      "parameters": {
        "type": "object",
        "properties": {"city": {"type": "string"}},
        "required": ["city"]
      }
    },
    "cache_control": {"type": "ephemeral", "ttl": "1h"}
  }]
}

Anthropic-kompatible Schnittstelle

curl https://aihubmix.com/v1/messages \
  -H "content-type: application/json" \
  -H "x-api-key: $AIHUBMIX_API_KEY" \
  -H "anthropic-version: 2023-06-01" \
  -d '{
    "model": "claude-opus-4-6",
    "max_tokens": 1024,
    "system": [
      {
        "type": "text",
        "text": "You are an AI assistant tasked with analyzing literary works. Your goal is to provide insightful commentary on themes, characters, and writing style.\n"
      },
      {
        "type": "text",
        "text": "<the entire contents of Pride and Prejudice>",
        "cache_control": {"type": "ephemeral"}
      }
    ],
    "messages": [
      {
        "role": "user",
        "content": "Analyze the major themes in Pride and Prejudice."
      }
    ]
  }'

# Call the model again with the same input until the caching checkpoint
curl https://aihubmix.com/v1/messages # rest of input

Cache-Dauer

  • Standard: 5 Minuten
  • Optional: 1 Stunde (“ttl”: “1h”)
Weitere Informationen finden Sie unter: Claude Prompt Caching

Nutzungsempfehlungen

  1. Stabile Präfixe beibehalten
Platzieren Sie unveränderliche Inhalte am Anfang des Prompts, empfohlene Struktur:
[System-Einstellungen / Langtext / RAG-Daten] 
[Benutzerfrage (variabler Teil)]
  1. Große Texte cachen
Cachen Sie bevorzugt folgende Inhalte:
  • RAG-Daten
  • Lange Texte
  • CSV-/JSON-Daten
  • Rolleneinstellungen
  1. TTL steuern
  • Kurze Sessions → 5 Minuten
  • Lange Sessions → 1 Stunde (kosteneffizienter)
  1. Cache-Writes reduzieren

Vermeiden Sie, dass sich häufig ändernde Inhalte in den Cache gelangen. Cachen Sie keine Zeitstempel, Benutzereingabevariablen, häufig wechselnde Daten usw.

Zuletzt aktualisiert: 2026-06-01