Documentation Index
Fetch the complete documentation index at: https://docs.aihubmix.com/llms.txt
Use this file to discover all available pages before exploring further.
Weiterleitung für Gemini-Modelle
Für die Gemini-Serie bieten wir zwei Aufrufmethoden an: native API-Aufrufe und OpenAI-kompatible Aufrufe.Bevor Sie beginnen, stellen Sie sicher, dass Sie die native Abhängigkeit installieren oder aktualisieren, indem Sie entweder
pip install google-genai oder pip install -U google-genai ausführen.
1️⃣ Bei der nativen Integration übernimmt Gemini das Routing des Datenverkehrs zwischen AI Studio und VertexAI automatisch. Stellen Sie einfach Ihren AIHubMix API-Schlüssel und die passende Anfrage-URL bereit. Beachten Sie, dass sich diese URL von der üblichen base_url unterscheidet – folgen Sie dem Beispiel unten, um die korrekte Einrichtung sicherzustellen.
v1-Endpunkt bei.
- Nativer Aufruf: Übergeben Sie
include_thoughts=True - OpenAI-kompatible Methode: Übergeben Sie
reasoning_effort
Hinweise zu Gemini 3 Pro Image Preview
Gemini 3 Pro Image Preview (Nano Banana Pro Preview) ist für die professionelle Asset-Erstellung und komplexe Anweisungen konzipiert. Dieses Modell bietet folgende Funktionen:- Nutzt die Google-Suche, um aktuelles Weltwissen abzurufen
- Integrierter „Denkprozess“ (optimiert die Komposition vor der Generierung)
- Kann Bilder mit Auflösungen bis zu 4K generieren
Über die Gemini 2.5 Inferenzmodelle
- Die gesamte 2.5-Serie besteht aus Inferenzmodellen.
- 2.5 Flash ist ein Hybridmodell, ähnlich wie Claude Sonnet 3.7. Sie können sein Reasoning-Verhalten durch Anpassung des Parameters
thinking_budgetfür eine optimale Kontrolle feinjustieren. - 2.5 Pro ist ein reines Inferenzmodell. Das Denken kann nicht deaktiviert werden, und
thinking_budgetsollte nicht explizit gesetzt werden.
Gemini 2.5 Flash: Unterstützung für schnelle Aufgaben
Beispiel für einen OpenAI-kompatiblen Aufruf:Multimedia-Verständnis
- Für Multimedia-Dateien unter 20 MB (Bilder, Audio, Video) laden Sie diese mit
inline_datahoch. - Wenn eine Multimedia-Datei größer als 20 MB ist, müssen Sie die Files API verwenden.
Dateien unter 20 MB
Python-Anwendungsbeispiele:Files API
Gemini kann verschiedene Arten von Eingabedaten gleichzeitig verarbeiten, darunter Text, Bilder und Audio. Wenn die Gesamtgröße der Anfrage (einschließlich Dateien, Texthinweisen, Systembefehlen usw.) 20 MB überschreitet, müssen Sie unbedingt die Files API verwenden. Python-Anwendungsbeispiele:Code-Ausführung
Die Code-Ausführungsfunktion ermöglicht es dem Modell, Python-Code zu generieren und auszuführen sowie iterativ aus den Ergebnissen zu lernen, bis es zu einer finalen Ausgabe gelangt. Sie können diese Code-Ausführungsfähigkeit nutzen, um Anwendungen zu entwickeln, die von codebasiertem Reasoning profitieren und Textausgaben erzeugen. Beispielsweise könnten Sie die Code-Ausführung in einer Anwendung verwenden, die Gleichungen löst oder Texte verarbeitet.Python
Kontext-Caching
Geminis native API aktiviert implizites Kontext-Caching standardmäßig – keine Einrichtung erforderlich. Für jedegenerate_content-Anfrage cacht das System automatisch den Eingabeinhalt. Wenn eine nachfolgende Anfrage exakt denselben Inhalt, dasselbe Modell und dieselben Parameter verwendet, gibt das System sofort das vorherige Ergebnis zurück, was die Antwortzeit erheblich beschleunigt und möglicherweise die Kosten für Eingabe-Token reduziert.
- Caching erfolgt automatisch – keine manuelle Konfiguration erforderlich.
- Der Cache wird nur getroffen, wenn Inhalt, Modell und alle Parameter exakt übereinstimmen; jede Abweichung führt zu einem Cache-Miss.
- Die Cache-Lebensdauer (TTL) kann vom Entwickler festgelegt oder ungesetzt gelassen werden (Standard: 1 Stunde). Google erzwingt keine minimale oder maximale TTL. Die Kosten hängen von der Anzahl der gecachten Token und der Cache-Dauer ab.
- Während Google die TTL nicht beschränkt, unterstützen wir als Weiterleitungsplattform nur einen begrenzten TTL-Bereich. Bei Anforderungen, die über die Grenzen unserer Plattform hinausgehen, kontaktieren Sie uns bitte.
Hinweise
- Keine garantierten Kosteneinsparungen: Cache-Token werden mit 25 % des Standard-Eingabepreises abgerechnet – theoretisch kann Caching also bis zu 75 % der Kosten für Eingabe-Token einsparen. Allerdings garantiert die offizielle Google-Dokumentation keine Kosteneinsparungen; der tatsächliche Effekt hängt von Ihrer Cache-Trefferquote, den Token-Typen und der Speicherdauer ab.
- Bedingungen für Cache-Treffer: Um die Cache-Effektivität zu maximieren, platzieren Sie wiederholbaren Kontext am Anfang Ihrer Eingabe und dynamische Inhalte (wie Benutzereingaben) am Ende.
-
So erkennen Sie Cache-Treffer: Wenn eine Antwort aus dem Cache stammt, enthält
response.usage_metadatadas Feldcache_tokens_detailsundcached_content_token_count. Damit können Sie die Cache-Nutzung feststellen.
Beispielfelder bei einem Cache-Treffer:
Bei einem Cache-Treffer enthältKernfazit: Implizites Caching erfolgt automatisch und liefert eindeutige Rückmeldung zu Cache-Treffern. Entwickler könnenresponse.usage_metadata:
usage_metadata auf den Cache-Status prüfen. Kosteneinsparungen sind nicht garantiert – der tatsächliche Nutzen hängt von der Anfragestruktur und den Cache-Trefferquoten ab.
Function Calling
Wenn Sie Geminis Function Calling über die OpenAI-kompatible Methode aufrufen, müssen Sietool_choice="auto" im Anfragetext übergeben, andernfalls wird ein Fehler gemeldet.
Token-Verbrauch einfach nachverfolgen
-
Gemini verfolgt den Token-Verbrauch über
usage_metadata. Hier ist, was jedes Feld bedeutet:prompt_token_count: Anzahl der Eingabe-Tokencandidates_token_count: Anzahl der Ausgabe-Tokenthoughts_token_count: Token, die während des Reasonings verwendet werden (zählen ebenfalls als Ausgabe)total_token_count: Gesamte verwendete Token (Eingabe + Ausgabe)
-
Für APIs im OpenAI-kompatiblen Format wird der Token-Verbrauch unter
.usagemit den folgenden Feldern verfolgt:usage.completion_tokens: Anzahl der Eingabe-Tokenusage.prompt_tokens: Anzahl der Ausgabe-Token (einschließlich Reasoning)usage.total_tokens: Gesamter Token-Verbrauch
So verwenden Sie es im Code:
Zuletzt aktualisiert: 2026-06-01