Prompt Caching ist ein wichtiger Mechanismus zur Senkung der Inferenzkosten von Modellen. Indem bereits verarbeitete Prompt-Inhalte zwischengespeichert werden, können sie in nachfolgenden Anfragen wiederverwendet werden – das reduziert redundante Berechnungen, senkt Kosten und verbessert die Antwortlatenz.Documentation Index
Fetch the complete documentation index at: https://docs.aihubmix.com/llms.txt
Use this file to discover all available pages before exploring further.
Prinzip
Wenn Sie einen Request mit aktiviertem Prompt Caching senden, prüft das System, ob das Prompt-Präfix aus kürzlich erfolgten Abfragen bereits gecached wurde. Wird es gefunden, wird der Cache verwendet, wodurch Verarbeitungszeit und Kosten sinken. Andernfalls wird der vollständige Prompt verarbeitet und das Präfix nach Beginn der Antwort gecached. Dies ist besonders nützlich in folgenden Szenarien:- Prompts mit zahlreichen Beispielen
- Umfangreicher Kontext oder Hintergrundinformationen
- Wiederkehrende Aufgaben mit gleichbleibenden Anweisungen
- Lange Multi-Turn-Konversationen
Kernmechanismus
Verschiedene Modellanbieter bieten unterschiedliche Caching-Unterstützung:Automatisches Caching
Automatisches Caching erfordert keine zusätzliche Konfiguration; das System erkennt und cached wiederverwendbare Inhalte automatisch. Anwendbar auf Modelle wie OpenAI, DeepSeek usw.OpenAI
- Mindest-Prompt-Länge: 1024 Token
- Kosten: Das Schreiben in den Cache ist kostenlos; das Lesen aus dem Cache kostet das 0,25- bis 0,5-fache des Originalpreises
Gemini
- Implizites Kontext-Caching ist standardmäßig aktiviert und ohne manuelle Konfiguration automatisch wirksam.
- Caching greift nur, wenn Inhalt, Modell und Parameter identisch sind; jede Abweichung wird als neuer Request behandelt und trifft den Cache nicht.
- Die Cache-Gültigkeit wird vom Entwickler festgelegt; sie kann auch leer bleiben. Ohne Angabe gilt standardmäßig 1 Stunde. Es gibt keine minimale oder maximale Dauerbegrenzung; die Kosten hängen von der Anzahl der gecachten Token und der Cache-Dauer ab.
DeepSeek / Grok / Moonshot / Groq
- Kosten: Das Schreiben in den Cache ist kostenlos oder zum gleichen Preis; das Lesen aus dem Cache liegt unter dem Originalpreis
Explizites Caching bei Claude-Modellen
- Erfordert die manuelle Angabe der Cache-Position über
cache_control - Ermöglicht eine feingranulare Steuerung der Caching-Granularität
- Anwendbar auf Anthropic-Claude-Modelle
OpenAI-kompatible Schnittstelle
Sie können insystem, user (einschließlich Bildern) und tools mit dem Feld cache_control Caching-Breakpoints setzen. Die folgenden Beispiele zeigen nur die wesentliche Struktur:
System-Message-Caching (Standard 5 Minuten TTL):
cache_control auf der obersten Ebene des Tool-Objekts (auf gleicher Ebene wie type und function):
Anthropic-kompatible Schnittstelle
Cache-Dauer
- Standard: 5 Minuten
- Optional: 1 Stunde (“ttl”: “1h”)
Weitere Informationen finden Sie unter: Claude Prompt Caching
Nutzungsempfehlungen
- Stabile Präfixe beibehalten
- Große Texte cachen
- RAG-Daten
- Lange Texte
- CSV-/JSON-Daten
- Rolleneinstellungen
- TTL steuern
- Kurze Sessions → 5 Minuten
- Lange Sessions → 1 Stunde (kosteneffizienter)
- Cache-Writes reduzieren