AiHubMix Documentation Hub

2026

17. Juli

Neue Modelle

Neu hinzugefuegt: kimi-k3. Kimi K3 ist Moonshot AIs offenes Long-Context-Modell der 3T-Klasse mit 2,8T Parametern, einem Kontextfenster von 1M Tokens und nativer Unterstuetzung fuer visuelle Eingaben. Es eignet sich fuer langlaufendes Coding, Wissensarbeit, komplexes Reasoning und multimodales Verstehen. Siehe Kimi K3 Praxis-Guide (Beispiele für die drei APIs und Support-Matrix).
Neu hinzugefuegt: hy-3d-3.1. Tencent Hunyuan 3D Professional unterstuetzt Text-zu-3D, Bild-zu-3D und Multi-View-3D-Generierung. Es eignet sich fuer Game Assets, E-Commerce-Praesentationen, 3D-Druck und Produktdesign; Version 3.1 verbessert Geometrie- und Texturqualitaet und unterstuetzt Acht-Ansichten-Eingaben.

3D-Generierungs-API verfuegbar

Die asynchrone API /v1/3d/generations ist verfuegbar und startet mit Tencent TokenHub Hunyuan 3D. Sie unterstuetzt das Einreichen von Generierungsaufgaben und das Abfragen von Ergebnissen, um 3D-Asset-Erstellung einfacher in automatisierte Workflows einzubinden.

Kimi-K3-Kompatibilitaet fuer dynamische Tools

Dynamisch geladene Tools auf Message-Ebene in Kimi-K3-Anfragen bleiben erhalten und werden weitergeleitet. Dadurch werden Upstream-400-Fehler durch verlorene Tool-Deklarationen vermieden, und Clients mit Kimi Dynamic Tool Loading sind kompatibler.

Klarere Request-Konvertierungsfehler

Die Kompatibilitaet fuer Chat-Completions-Custom-Tools, Cohere-Textblöcke und Anfragen mit assistant.content: null wurde verbessert. Gueltige Anfragen erreichen Upstream-Dienste stabiler; fehlerhafte oder nicht unterstuetzte Eingaben liefern strukturierte Fehler statt leerer HTTP-200-Erfolge.

Aktualisierte Seedream-Bildabrechnung

Die Bildgenerierung mit doubao-seedream-5-0-pro unterstuetzt nun Abrechnung nach Ausgabepixel-Stufe und Anzahl der Eingabebilder, sodass Text-zu-Bild- und Bild-zu-Bild-Anfragen naeher an den tatsaechlichen Generierungsspezifikationen berechnet werden.

15. Juli

Verbesserte Kompatibilitaet fuer Gemini-Tool-Aufrufe

Bei Gemini- oder Vertex-Aufrufen ueber die OpenAI-kompatible API fuehren leere String-Werte in Enum-Definitionen von Tools oder strukturierten Ausgabeschemas nicht mehr zu einem vorgelagerten 400-Fehler. Tool-Aufrufe und JSON-Schema-Workflows sind dadurch zuverlaessiger.

14. Juli

Neue Audiomodelle

Neu: gpt-audio-1.5, OpenAIs erstes allgemein verfuegbares Audiomodell. Es akzeptiert Audioeingaben und -ausgaben und kann ueber die Chat Completions REST API genutzt werden, etwa fuer Sprachdialoge, Audioverstaendnis und Audiogenerierung.
Neu: gpt-4o-transcribe-diarize, ein ASR-Modell mit integrierter Sprecherdiarisierung, das Audiosegmente den verschiedenen Sprechern einer Unterhaltung zuordnet. Dieses Modell ist nur in der Transcription API verfuegbar.

LLM-Router-Einfuehrungsseite ist online

Die Einfuehrungsseite fuer intelligentes Routing ist jetzt online und zeigt die oeffentlichen Bewertungen je Routing-Dimension sowie die aktuell routbaren Modelle. Gleichzeitig gibt es zwei neue offene Endpunkte: Modellumfang der LLM-Router-Strategie liefert Modellbewertungen ueber 5 Kategorien und 23 Unterdimensionen, Preiskoeffizienten, First-Token-Latenz und die Modelle im Pool; Modellanbieter-Icons liefert Anzeigenamen und Icons der Modellanbieter. Dimensionen fuer Bild- und Videogenerierung sind noch nicht enthalten. Details zur Nutzung finden Sie in der Dokumentation LLM Router (intelligentes Modell-Routing).

13. Juli

Konsistentere API-Fehlerantworten

Wenn /v1/responses mit einem unbekannten Modell aufgerufen wird, gibt die API jetzt HTTP 400 no_available_channel zurueck, passend zu anderen API-Einstiegen. Clients koennen den Fall damit als „kein verfuegbarer Service“ behandeln statt als 500.

Validierungsfehler werden frueher zurueckgegeben

Schlaegt die Umwandlung des Request-Bodys oder die Parameterpruefung fehl, gibt die API direkt die passende 400/Fehlerantwort zurueck, anstatt den Originalrequest an den Upstream-Service weiterzuleiten. Das reduziert ungueltige Aufrufe und schwer verstaendliche Fehler.

Stabilere Cache-Hits fuer Claude Code

Claude-Code-Aufrufe von Claude ueber Bedrock haben jetzt stabilere Prompt-Cache-Hits innerhalb derselben Sitzung. Das kann doppelte Cache-Write-Kosten sowie First-Token-Latenz senken.

Praezisere Gemini-Mehrfachrunden und Cache-Bindung

Gemini-Anfragen bleiben nur dann beim selben Service, wenn die Antwort tatsaechlich Thinking-Signaturen oder Cache-Aktivitaet enthaelt. Das reduziert Signatur- oder Cache-State-Abweichungen in Mehrfachrunden, waehrend zustandslose Bildgenerierungsjobs nicht unnoetig festgelegt werden.

10. Juli

Neue Modelle

gpt-5.6-sol, gpt-5.6-terra und gpt-5.6-luna aus der GPT-5.6-Serie wurden hinzugefügt (offiziell von OpenAI am 09.07.2026 veröffentlicht). Alle drei Stufen bieten ein Kontextfenster von 1.050.000 Token, maximal 128K Output und Wissensstand 2026-02-16, unterstützen Text- und Bildeingaben und sind über Chat Completions, Responses sowie die Claude-kompatible Messages-Schnittstelle aufrufbar. Sol ist das Flaggschiff für komplexe professionelle Arbeit und laut OpenAI das derzeit beste Coding-Modell; Terra erreicht die Leistung von GPT-5.5 zum halben Preis; Luna ist für kostensensible Szenarien ausgelegt.

GPT-Prompt-Caching-Dokumentation verfügbar

Neue Dokumentation GPT Prompt Caching: Ab der GPT-5.6-Serie werden Cache-Writes mit dem 1,25-Fachen des Inputpreises abgerechnet, Cache-Reads mit dem 0,1-Fachen, und der Cache bleibt mindestens 30 Minuten erhalten. Die Seite behandelt die Parameter prompt_cache_key und explizite Cache-Breakpoints, die Abrechnungslogik, API-Beispiele und die Fehlersuche bei Cache-Misses. Die OpenAI-Caching-Angaben in Prompt Caching und Claude Prompt Caching wurden entsprechend aktualisiert.

Claude Fable/Mythos Thinking-Kompatibilitaet

Anfragen an Claude Fable und Mythos mit reasoning_effort verwenden jetzt adaptive thinking. Das reduziert Upstream-400-Fehler fuer diese Modellfamilien, ohne dass Clients Parameter aendern muessen.

Stop-Sequences fuer Claude und Gemini

OpenAI-kompatible stop-Einstellungen werden nun auf native Claude- und Gemini-Anfragen abgebildet. Fuer Claude ungueltige leere Stop-Sequenzen werden gefiltert, waehrend OpenAI- und Gemini-Limits pro Anbieter behandelt werden.

Token-Limit-Kompatibilitaet fuer gpt-chat-latest

gpt-chat-latest und kuenftige GPT/ChatGPT-latest-Aliasse behalten max_completion_tokens bei, wenn Upstreams dies verlangen. Dadurch sinken 400-Fehler durch das aeltere Feld max_tokens.

Klarere Meldung bei erschoepftem Key-Limit

Wenn ein Nutzungslimit auf Key-Ebene erschoepft ist, gibt die API jetzt eine klarere Anleitung zum Anpassen und Reaktivieren des Key-Limits zurueck statt nur eines technischen Quota-Fehlers.

Tool-Call-Antwortformat an OpenAI angeglichen

Nicht-streamende Chat-Antworten mit tool_calls und ohne Text liefern nun explizit content: null, was die Kompatibilitaet mit OpenAI-aehnlichen SDKs und Parsern verbessert.

9. Juli

Reparatur strukturierter Ausgaben: automatische Reparatur fehlerhafter JSON-Formate

Neue Fähigkeit Reparatur strukturierter Ausgaben auf Key-Ebene, standardmäßig deaktiviert. Ist sie aktiviert, repariert das Gateway bei nicht-streamenden Anfragen, die eine strukturierte JSON-Ausgabe deklarieren, ein vom Modell zurückgegebenes JSON mit Formatfehlern wie Abschneidung, nachgestelltem Komma oder Codeblock-Umschließung vor der Rückgabe automatisch zu parsbarem, gültigem JSON; die Zahlenwerte bleiben unverändert und der Client muss nicht angepasst werden. Unterstützt die vier Protokolle Chat Completions, Responses, Claude und Gemini; bei einer Reparatur enthält die Antwort den Response-Header X-JSON-Repaired: true.

Claude-Prompt-Caching-Dokumentation: Mindest-Token-Schwellen je Modell ergänzt

Die Dokumentation Claude Prompt Caching und Prompt Caching wurde um die modellabhängigen Mindestschwellen für cachebare Token (512 / 1.024 / 2.048 / 4.096) ergänzt, inklusive aktueller Modelle wie Claude Opus 4.8, Opus 4.7 und Fable 5. Die Schwelle ist nicht proportional zur Modellversion; ein Präfix unterhalb der Schwelle wird auch mit cache_control nicht zwischengespeichert.

Nutzungsdashboard und Abrechnungsdetails besser abgeglichen

Die Aggregation im Nutzungsdashboard liegt nun naeher an den Request-Log-Abrechnungsdaten, da gleichzeitige Aggregationsverluste reduziert und Stunden-Buckets fuer verzoegerte Replays vereinheitlicht wurden. Historische Dashboard-Werte koennen weiterhin leicht abweichen; fuer Abrechnung und Abgleich bleiben Request-Logs die Quelle der Wahrheit.

Neues Modell

grok-4.5 wurde hinzugefuegt, ein Modell fuer Coding, agentische Aufgaben und Wissensarbeit, mit konfigurierbarem Reasoning, Tool Calling und 500K-Kontextfenster. Geeignet fuer Code-Reparatur, komplexe Engineering-Aufgaben, Wissens-QA und Agent-Workflows.

8. Juli

gpt-5.5+-Tool-Aufrufe werden automatisch zu Responses gebrueckt

Bei Nutzung des OpenAI-kompatiblen Endpunkts /v1/chat/completions mit gpt-5.5 oder neueren Modellen verwenden Anfragen mit Tools und reasoning_effort nun automatisch Responses-Faehigkeiten. Das reduziert Upstream-400-Fehler fuer diese Parameterkombination, ohne dass Clients auf /v1/responses migrieren muessen. Siehe: Responses API

7. Juli

Strukturierte Ausgaben protokolluebergreifend kompatibler

OpenAI-kompatibles response_format und Claude-natives output_config.format werden nun auf den relevanten Pfaden angepasst. Clients koennen beim Wechsel zwischen OpenAI- und Claude-aehnlichen Protokollen strukturierte Ausgabevorgaben verlaesslicher beibehalten. Siehe: Structured Output.

Stabilere /v1/messages-Aufrufe ueber Vertex AI

Bei Gemini und anderen Nicht-Claude-Modellen ueber Vertex AI werden /v1/messages-Anfragen jetzt nach Modellfamilie geroutet. Dadurch sinken not-found- oder 404-Fehler durch versehentlich Claude-spezifische Pfade.

6. Juli

Native Gemini-Endpunkte vervollstaendigt

Bei Nutzung des @google/genai SDK ueber den Gemini-Einstieg von AIHubMix werden jetzt native Embeddings, interactions create und Context-Caching-Workflows unterstuetzt. Diese Pfade konnten bisher unregistrierte Routenfehler oder 404 liefern; jetzt sind Embedding-Erzeugung, interaktive Aufrufe sowie Cache-Erstellung, -Abfrage, -Aktualisierung und -Loeschung moeglich. Siehe: Gemini Native SDK-Anbindung

Erweiterte gestaffelte Abrechnung fuer Long-Context-Modelle

Long-Context-Modelle wie hy3-preview, ERNIE, Grok und Mimo unterstuetzen jetzt gestaffelte Abrechnung nach Kontextlaenge. Die Preisberechnung ist genauer.

Vertex-AI-Streaming-Metriken korrigiert

Streaming-Anfragen fuer Vertex AI Gemini/Claude erfassen jetzt genauere Time-to-first-token- und Latenzdaten. Logs und Monitoring sind dadurch verlaesslicher; Modellantworten aendern sich nicht.

Neues Modell

tencent-hy3 wurde hinzugefuegt, ein Textgenerierungsmodell (Tencent Hunyuan Hy3, offizielle Version). MoE-Architektur mit 295B Gesamtparametern / 21B aktiven Parametern und 256K Kontextfenster. Unterstuetzt kombinierte schnelle und langsame Denk-Inferenzmodi, geeignet fuer komplexes Reasoning, Code-Generierung und Agent-Workflows. Open-Source unter der Apache-2.0-Lizenz.

3. Juli

Jina Search/Reader unterstützt jetzt POST und Dateiuploads

Jina Search und Reader unterstützen jetzt POST-Anfragen. Reader kann lokale Dateien per Multipart-Upload annehmen, darunter PDF, Word, Excel, PPT, HTML und Bilder. Standardantworten entsprechen stärker Jinas nativer Markdown-Ausgabe; Clients, die JSON benötigen, können explizit Accept: application/json senden.

Stabilere Azure-artige Dienste über Responses

Ein Problem wurde behoben, bei dem über /v1/responses gebridgte Aufrufe an Azure-artige Nicht-GPT-Dienste mit 404 fehlschlagen konnten, weil api-version leer war. Dadurch sinkt das Risiko direkter Fehler bei solchen Anfragen.

Streaming-Abbrüche behoben

Ein Fall wurde behoben, in dem einige vLLM/Azure-Foundry-artige Upstreams Streaming-Antworten zufällig abschneiden konnten. Nutzer sollten vollständige Antworten, Abschlusssignale und Nutzungsdaten zuverlässiger erhalten.

Neues Modell: Command A Plus 05-2026

command-a-plus-05-2026 wurde als Textgenerierungsmodell fuer Chat, Inhaltserstellung und Agent-Workflows hinzugefuegt.

1. Juli

Jina-Suche und Webpage-Reader-APIs verfügbar

Neue Jina Search- und Reader-Funktionen: Mit Ihrem AIHubMix API Key können Sie jetzt Jina-Suchergebnisse abrufen und Webseiteninhalte lesen – geeignet für externe Web-Recherche, Dokumentenlesen und Agent-Tool-Workflows. Siehe: Jina AI

Veo 3.1 Image-to-Video unterstützt Start-/Endframes und Referenzbilder

Veo 3.1 Image-to-Video unterstützt jetzt Eingaben für Startframe, Endframe und Referenzbilder. Dadurch lassen sich Anfangs-/Endszene, Charakterreferenzen und Stilreferenzen in anspruchsvolleren Videogenerierungs-Workflows präziser steuern. Siehe: Videogenerierung

Stabilere Gemini-Multi-Channel-Retries

Verbesserte Kompatibilität für Gemini-Anfragen bei Cross-Channel-Retries; reduziert bestimmte 400-Fehler in Fallback-Szenarien und erhöht die Erfolgsrate bei Multi-Channel-Failover-Aufrufen. Siehe: Gemini Guides

OpenAI-kompatible Antwortfelder angeglichen

OpenAI-kompatible Antworten mit und ohne Streaming behalten jetzt null-Werte für Felder wie logprobs, refusal und finish_reason bei. Dadurch gibt es weniger Abweichungen für SDKs, Agents und Log-Parser, die das Standardformat von OpenAI erwarten.

Verbesserte Privatsphäre und Kompatibilität für Claude Code

Die Anfragekompatibilität wurde verbessert, wenn Claude Code über AIHubMix Claude-Modelle aufruft. Dabei werden weniger Client-Umgebungsinformationen an den Upstream weitergegeben, was den Datenschutz für Drittanbieter-Agent-Clients verbessert.

Login, Registrierung und Profil verbessert

Das eigene Kontosystem deckt jetzt E-Mail-Code-Login/Registrierung, Passwortsetzung, Profilbearbeitung, Verknüpfen/Trennen von Drittanbieter-Konten und Kontolöschung ab, mit stärkerer OTP-Zwecktrennung und Prüfung deaktivierter Konten. Stripe-Auflade-Callbacks werden ebenfalls zuverlässiger verarbeitet.

Neue Modelle

claude-sonnet-5 für Chat-, Reasoning- und Agent-Workflows.
gemma-4-31b und longcat-2.0 für Textgenerierung.
gemini-3.1-flash-lite-image für Workflows mit Bildfunktionen.
mai-image-2.5 und mai-image-2.5-flash für Bildgenerierung.

29. Juni

Verbesserte Bildgenerierungs-Abrechnung und Parameterkompatibilität

Die Abrechnung von gpt-image-2 auf Images-Endpunkten ist jetzt einheitlich tokenbasiert. GLM-Bildgenerierung leitet erweiterte Parameter wie watermark_enabled und quality weiter, sodass Wasserzeichen- und Qualitätseinstellungen greifen können, wenn der Upstream sie unterstützt. Siehe: Bildgenerierung

Sauberere Gemini-Dateiupload-Logs

Fehlgeschlagene Gemini-Dateiuploads erzeugen keine nutzersichtbaren normalen Request-Logs mehr. Dadurch entsteht weniger Rauschen von Nicht-Inferenz-Endpunkten auf der Logseite, während interne Diagnose-Logs erhalten bleiben.

27. Juni

Neue Deep-Research-Modelle

o4-mini-deep-research und o3-deep-research wurden hinzugefügt. Sie sind nur über den Endpunkt /v1/responses verfügbar; Anfragen müssen web_search_preview oder mcp tools enthalten und eignen sich für gründliche Web-Recherche und research-orientierte Antworten.

25. Juni

Responses-Protokoll unterstützt beliebige Modelle

Der Endpunkt /v1/responses ist nicht mehr auf die GPT-Serie beschränkt und kann nun beliebige Modelle der Plattform aufrufen. Tools auf Basis des Responses-Protokolls (z. B. die Codex CLI) können dadurch über einen lokalen Modellkatalog Modelle wie GLM, Gemini, DeepSeek, Kimi und Qwen nutzen – nicht mehr nur die offiziellen OpenAI-Modelle.

Responses-Ausgabe für Step 3.7 Flash korrigiert

Ein Problem wurde behoben, durch das step-3.7-flash über /v1/responses leere Inhalte oder eine leere Antwort zurückgeben konnte; Reasoning-Inhalte und finale Antworten werden jetzt korrekt zurückgegeben.

Codex CLI: Unterstützung für benutzerdefinierte Modelle

Die Codex CLI-Doku hat ein neues Tutorial „Benutzerdefinierte Modelle in Codex verwenden”: Über einen lokalen Modellkatalog (model_catalog_json) lassen sich beliebige AIHubMix-Modelle (GLM, Gemini, DeepSeek, Kimi, Qwen usw.) deklarieren und in Codex’ /model-Liste frei wechseln – nicht mehr auf die offiziellen OpenAI-Modelle beschränkt. Enthält ein Ein-Befehl-Skript zum Erzeugen eines Top-30-Katalogs sowie häufige Stolperfallen. Mehr dazu: Codex CLI · Benutzerdefinierte Modelle in Codex verwenden

24. Juni

Ersatzdomain jetzt unterstützt

Neue Ersatzdomain https://api.inferera.com mit Endpunkten und Funktionen identisch zur primären Domain https://aihubmix.com. Wenn die primäre Domain nicht erreichbar ist (z. B. Verbindungsfehler oder Timeouts), ersetzen Sie die Anfrage-URL durch die Ersatzdomain; API Key, Modell, Request-Body und weitere Parameter bleiben unverändert.

23. Juni

Neue Modelle

Doubao doubao-seed-2-1-pro, doubao-seed-2-1-turbo.
HappyHorse-Videoserie happyhorse-1.1-t2v (Text-to-Video), happyhorse-1.1-r2v (Referenzgenerierung), happyhorse-1.1-i2v (Image-to-Video).

Verbesserte Stripe-Checkout-Erfahrung

Der Stripe-Checkout füllt jetzt die Konto-E-Mail automatisch aus und reduziert unnötige Abfragen von Name und Rechnungsadresse, sodass Aufladungen mit Zahlungsmethoden wie Alipay einfacher werden.

Limit für Konten mit negativem Guthaben

Wenn das Kontoguthaben unter -$1 liegt, können kostenlose Modelle erst nach einer Aufladung wieder aufgerufen werden.

22. Juni

Neu: AIHubMix-CLI-Dokumentation

Neue AIHubMix CLI-Dokumentation: eine einzelne Binärdatei ohne Abhängigkeiten (kein Python / Node / Go erforderlich), mit der Sie den Kontostand abfragen, API-Keys verwalten und verfügbare Modelle direkt im Terminal anzeigen können – mit skript- und AI-Agent-freundlicher Ausgabe (z. B. Claude Code).

LLM Router (intelligentes Modell-Routing)

Setzen Sie model auf auto und das Gateway analysiert Ihre Anfrage, um aus Hunderten Modellen das beste auszuwählen – mit Kosten- / Qualitäts- / Latenz-Strategien, abgerechnet nach dem tatsächlich genutzten Modell, ohne Änderung am Client-Code. Siehe: LLM Router (intelligentes Modell-Routing)

DeepSeek-Cache-Trefferquote korrigiert

Ein Problem wurde behoben, durch das die Cache-Trefferquote für deepseek-v4-pro und deepseek-v4-flash niedriger als erwartet war.

Neu: AIHubMix Skill (Erweiterung für KI-Programmierassistenten)

Bietet lokale Erweiterungsfunktionen für KI-Agents mit Skill-Unterstützung wie Codex, Claude Code, Cursor und Cline: Erledigen Sie die AIHubMix-Anbindung, Modellabfragen, fähigkeitsbasierte Modellauswahl, Beispielerzeugung und Fehlerbehebung in natürlicher Sprache. Der Skill liest bei Bedarf Echtzeitinformationen wie Modelle, Preise und Protokollverträge aus der offiziellen Schnittstelle aus, damit der Agent sich nicht auf veraltetes Wissen verlässt. Mehr dazu: Skills

17. Juni

Neu: Kling-Videomodelle

Anbindung der gesamten Kling-Videogenerierung: Text-to-Video, Image-to-Video, Mehrbild-Referenz und Omni-Multimodal-Generierung – je nach Modellname über das native Protokoll aufgerufen.

16. Juni

Problem mit dem OpenClaw-Integrationsplugin behoben

Das OpenClaw-Integrationsplugin aihubmix-auth von AIHubMix hat seine vorherigen Integrationsprobleme behoben und ist nun stabil nutzbar. Installieren Sie es einfach und geben Sie einen AIHubMix-Key ein, um in OpenClaw gleichzeitig OpenAI / Anthropic / Gemini-Modelle aufzurufen.

Neue Modelle

Zhipu glm-5.2.

15. Juni

Neu: Open-Design-Anbindung unterstützt

AIHubMix ist jetzt ein in Open Design (der quelloffenen, lokal-orientierten Claude-Design-Alternative) integriertes BYOK-Gateway. Wählen Sie im API-(BYOK-)Modus AIHubMix, tragen Sie einen Key ein, und treiben Sie damit zugleich Chat-, Bild-, Video- und Sprachgenerierung an – je nach Modellname über das jeweilige native Protokoll der Anbieter. Mehr dazu: Open-Design-Anbindungsanleitung

Zhipu GLM 5.2 unterstützt abgestufte Reasoning-Intensität

Das glm-5.2 im nativen Zhipu-Kanal unterstützt reasoning_effort zur abgestuften Steuerung der Denktiefe; ältere Modellversionen werden je nach Version automatisch geroutet, ohne dass aufrufseitig Änderungen nötig sind.

Neue Modelle

kimi-k2.7-code-highspeed (Kimi Code Highspeed-Version).

13. Juni

Neue Modelle

coding-glm-5.2 sowie die kostenlose Variante coding-glm-5.2-free.

12. Juni

Modell-Mapping und Fehler-Fallback

Neu: Model Mapping und Fehler-Fallback: Konfigurieren Sie pro API Key das Modellnamen-Mapping und den Fehler-Fallback in der Konsole – schreiben Sie den Modell-Alias des Clients auf das echte Upstream-Modell um, wechseln Sie bei einem Fehler des Hauptmodells automatisch zu einem Backup-Modell und rechnen Sie nach dem final antwortenden Modell ab, ganz ohne Änderungen am Client-Code. Siehe: Model Mapping und Fallback

Neue Modelle

kimi-k2.7-code.

11. Juni

step-3.7-flash zeitlich begrenzt mit 90 % Rabatt

step-3.7-flash mit zeitlich begrenztem Rabatt von 90 %: nur 0,022 USD pro Million Eingabe-Token und nur 0,132 USD pro Million Ausgabe-Token – probieren Sie es gern aus.

Modellabschaltung und Auto-Routing

claude-opus-4-20250514 und claude-sonnet-4-20250514 werden offiziell am 15. Juni abgeschaltet. Die Plattform routet die abgeschalteten Modelle dann automatisch auf die 4-5-Versionen derselben Serie.

10. Juni

Neue Modelle

claude-fable-5 [Eingestellt].

Hinweise zu den neuen Claude-Modellen Fable 5 / Mythos 5

Fable 5 hat stärkere Sicherheits-Gatekeeper, sodass auch manche normale Anfragen blockiert werden können: Zusätzliche Klassifizierungen gelten unter anderem für Cybersicherheit, Biologie / Chemie, Modell-Destillation und Reasoning-Extraktion. Manche technische Forschung, Schwachstellenanalyse oder biomedizinische Fragen können abgelehnt oder an Opus 4.8 weitergeleitet werden.
Mythos 5 ist eingeschränkt verfügbar und kein allgemein offenes Modell: Mythos 5 und Fable 5 stammen aus derselben Fähigkeitsbasis, aber Mythos 5 nutzt weniger Sicherheitsklassifizierer. Es ist derzeit nur für Project Glasswing / freigegebene Kunden verfügbar; die meisten Nutzer verwenden Fable 5 mit Guardrails.
Höhere API-Kosten: Fable 5 kostet 10 USD pro Million Eingabe-Token und 50 USD pro Million Ausgabe-Token, etwa doppelt so viel wie Opus 4.8.
Datenschutz: Fable 5 / Mythos 5 gelten als Covered Models, erfordern standardmäßig mindestens 30 Tage Datenaufbewahrung und unterstützen keine Zero Data Retention.
API-Ablehnungsverhalten: Wenn Fable 5 eine Anfrage ablehnt, gibt die API HTTP 200 zurück, aber stop_reason ist refusal.

08. Juni

Gemini-kompatible Schnittstelle unterstützt Audio-Eingabe

Beim Aufruf von Gemini über die OpenAI-kompatible Schnittstelle (/v1/chat/completions) wird nun die Audio-Eingabe via input_audio unterstützt (zuvor wurde sie stillschweigend verworfen); zudem wird in der zurückgegebenen Usage die Zählung der audio_tokens ergänzt.

05. Juni

Neue Modelle

grok-build-0.1, hy3-preview sowie das kostenlose Modell step-3.7-flash-free.

04. Juni

Neue Modelle

Tongyi Qianwen qwen3.7-plus.

01. Juni

Neue Modelle

MiniMax minimax-m3.
Baidu musesteamer-air-image (Bildgenerierung).

29. März

Detailseite zu Logs

Latenz: Gibt an, wie schnell eine Anfrage startet (Zeit von der Anfrage bis zum ersten zurückgegebenen Token)
Durchsatz: Klare Messgröße für die Ausgabegeschwindigkeit des Modells
E2E-Latenz: Gesamtzeit von Anfrage bis Abschluss; zur Bewertung der Gesamtleistung der Anfrage
Provider: Identifiziert den Modellanbieter, der die Anfrage verarbeitet hat
Status: Zeigt das Ergebnis (z. B. Erfolg / Fehlschlag) zur schnellen Erkennung von Anomalien
TID: Eindeutige Anfragen-ID, die mit dem Support geteilt werden kann, um Probleme schneller zu beheben

23. März

Das AIHubMix Global Acceleration Network ist live: aufgebaut auf eigenen globalen Edge-Knoten und intelligentem Routing, mit kontinuierlichem Monitoring und dynamischer Optimierung – 75 % geringere Latenz, 60 % höhere Stabilität und 99,99 % Verfügbarkeit. Schnelleres, zuverlässigeres KI-Erlebnis.
24/7-Echtzeit-Health-Monitoring hinzugefügt: Verteilte Sonden scannen das gesamte Netzwerk minütlich, verfolgen Latenz, Erfolgsrate und Stabilität. Probleme werden erkannt und behoben, bevor Nutzer sie bemerken – für gleichbleibende Performance.
Verbessertes intelligentes Traffic-Routing: Knotengesundheit wird dynamisch über mehrere Zeitfenster bewertet, mit Millisekunden-Switching zur optimalen Route – deutlich weniger Schwankungen und Timeouts bei höherer Erfolgsrate.

8. Februar

Neue Funktion: Chat → Responses-Kompatibilität
Dieses Release führt die Chat → Responses-Kompatibilität ein, sodass die Chat-Completions-API OpenAI-Modelle aufrufen kann, die nur das Responses-Protokoll unterstützen – darunter gpt-5.2-codex, gpt-5.1-codex-max und gpt-5.2-pro. Wenn Sie die AIHubmix-Chat-API zwingen möchten, Anfragen über das Responses-Protokoll zu routen, fügen Sie folgenden Header hinzu:
X-Use-Responses-Enabled: true Wenn ein Modell sowohl Chat als auch Responses unterstützt, erzwingt dieser Header die Verwendung der Responses-API.
Beachten Sie: Das Responses-Protokoll unterstützt derzeit weder Audioeingabe noch -ausgabe; planen Sie die Nutzung entsprechend.
Hinweis zur Modell-Abkündigung:
OpenAI wird chatgpt-4o-latest am 17. Februar 2026 abkündigen. Danach mappen wir chatgpt-4o-latest automatisch auf gpt-4o-2024-11-20.

2025

15. Dezember

Neue Funktion: Die Google-API unterstützt jetzt die Files API.

22. September

Unterstützung für Qwen-Serie, Doubao Seedream 4 und Baidu-Bildgenerierungsmodelle hinzugefügt

10. August

Aihubmix Image Generation MCP veröffentlicht – erleichtert Entwicklern die Integration von Bildgenerierungsdiensten

1. August

Nutzen Sie beliebige LLMs auf der AiHubMix-Plattform direkt in Claude Code

29. Juli

Unterstützung für AI SDK hinzugefügt: Zugriff auf eine Vielzahl von Modellen mit einem einzigen API-Schlüssel

26. Juli

Unterstützung für die Flux-Bildgenerierungs-API hinzugefügt – hochwertige Bilder in Sekunden

23. Juli

Unterstützung für Qwen Code hinzugefügt; nutzt alle auf der Aihubmix-Plattform verfügbaren LLMs

4. Juli

Unterstützung für llms.txt hinzugefügt: Mit einem Klick standardisierte Modellnavigation erhalten, damit Ihr LLM-Assistent das gesamte Modellökosystem schnell versteht

29. Juni

Forwarding-Unterstützung für Gemini CLI mit mehreren flexiblen Nutzungsmodi
Code Interpreter und Remote-MCP-Aufrufe zur OpenAI Responses API hinzugefügt

26. Juni

Vereinheitlichte Image-Generation-API hinzugefügt – unterstützt wichtige Modelle wie OpenAI, Ideogram, Stability und Google Imagen

23. Juni

APP-Code gestartet – 10 % Rabatt für Entwickler auf alle Modelle

18. Juni

HTTP-Statuscode-Dokumentation hinzugefügt, um Fehler besser zu verstehen

13. Juni

Unterstützung für Veo-3.0-Videogenerierung hinzugefügt, um kreative Formate zu erweitern

12. Juni

Claude Code integriert für stabile Nutzung im chinesischen Festland

9. Juni

Unterstützung für OpenAI Reasoning Summaries in der Responses API hinzugefügt

5. Juni

Implizites Caching für Gemini hinzugefügt, mit automatischen Cache-Hits und Hit-Rückmeldung
Entwickler können usage_metadata nutzen, um Cache-Hits zu erkennen
Kosteneinsparungen sind nicht garantiert und hängen von Anfragestruktur und Nutzungsszenario ab

31. Mai

Vollständige Unterstützung neuer Claude-4-Funktionen

⏳ Neuer Cache-TTL: 1-Stunden-Cache-Unterstützung ^Beta
🎉 Neue Texteditor-Tools: Claude 4 unterstützt jetzt text_editor_20250429 und str_replace_based_edit_tool
🚫 Neuer Refusal-Stop-Reason für sicherheitsbedingte Ablehnungen
🧠 Extended Thinking: Claude 4 gibt nun vollständige Zusammenfassungen seines Denkprozesses zurück
🔄 Interleaved Thinking: Tool-Nutzung kann jetzt mit Extended Thinking verschränkt werden für natürlichere Konversationen (Beta)
⚠️ Veraltete Funktionen:
- undo_edit wird nicht mehr unterstützt
- token-efficient-tools-2025-02-19 entfernt (nur Claude 3.7)
- output-128k-2025-02-19 entfernt (nur Claude 3.7)
📚 Vollständige Migrationsanleitungen und Codebeispiele wurden aktualisiert, um den Wechsel von Claude 3.7 auf Claude 4 zu erleichtern

22. Mai

Unterstützung für das Dify-Plugin hinzugefügt, das die nahtlose Integration der Aihubmix-Modelle in Dify ermöglicht
Mehr als 200 Modelle mit einem einzigen API-Schlüssel verwalten

17. Mai

Unterstützung für codex-mini-latest hinzugefügt – optimiert für Programmieraufgaben, verfügbar über Responses API oder Codex CLI
Unterstützung für Google Imagen 3.0 Bildgenerierung und Veo 2.0 Videogenerierung hinzugefügt
gemini-2.0-flash-exp aktualisiert auf die offizielle Preview-Version gemini-2.0-flash-preview-image-generation

9. Mai

Ideogram AI V3-API hinzugefügt – Ideograms fortschrittlichstes Bildgenerierungsmodell

6. Mai

Utility Management Scripts hinzugefügt: API-Schlüssel verwalten, Konten ansehen und verfügbare Modelle per CLI auflisten

26. April

Die mit Spannung erwartete OpenAI-Bildgenerierungs-API gpt-image-1 ist live – Text-zu-Bild und Bild-zu-Bild
Native Gemini-API-Unterstützung mit präziser Reasoning-Budget-Steuerung für Flash 2.5 hinzugefügt

24. April

Drei zentrale Jina-AI-APIs integriert, um leistungsfähige Agents zu bauen: Embeddings, Rerank und DeepSearch

20. April

Unterstützung für den OpenAI-Responses-API-Endpoint mit erweiterten Tool-Funktionen hinzugefügt

17. April

OpenAI CodeX CLI-Unterstützung: Programmieren mit natürlicher Sprache direkt im Terminal

12. April

Durch Anhängen von :surfing an eine Modell-ID erhält jedes Modell Suchfähigkeiten (Beta)

9. April

Claude-Prompt-Caching hinzugefügt – bis zu 76 % Kosteneinsparung bei wiederkehrenden Prompts

7. April

Ideogram-AI-Bildgenerierung hinzugefügt: starkes Text-Rendering, Hybrid-Generierung, lokale Bearbeitung und Upscaling

5. April

Komplett neues Dokumentationserlebnis veröffentlicht

30. März

Unterstützung für das Claude-Texteditor-Tool hinzugefügt

24. März

Brandneues Trident-Logo eingeführt

16. März

Native Suchunterstützung für OpenAI- und Google-Gemini-Modelle hinzugefügt
Drittanbieter-Suchintegration folgt in zukünftigen Updates

15. März

Modelle hinzugefügt: gpt-4o-mini-search-preview und gpt-4o-search-preview

7. März

Preise für o1 und o3-mini um 10 % gesenkt – im Einklang mit offiziellen Preisen

6. März

Aufgrund einer 7-fachen Upstream-Preiserhöhung von Microsoft stieg auch der Preis von aihubmix-DeepSeek-R1 um das 7-Fache
Empfohlene Alternative: DeepSeek-R1 von Volcano Engine (stabiler und kostengünstiger)
Modelle hinzugefügt: qwen-qwq-32b und qwen2.5-vl-72b-instruct

28. Februar

15 % Preisreduzierung bei allen Claude-Modellen
Modell gpt-4.5-preview hinzugefügt (extrem teuer – mit Vorsicht verwenden)

26. Februar

DeepSeek-Stabilität verbessert
ByteDance-Versionen von DeepSeek sind derzeit am stabilsten
Empfohlene Modelle: DeepSeek-R1 und DeepSeek-V3

25. Februar

Modell claude-3-7-sonnet-20250219 hinzugefügt

24. Februar

Das gpt-4o-Modell kann aufgrund von Upstream-Problemen gelegentlich sehr langsam antworten
Empfohlen wird temporär auf gpt-4o-2024-11-20 umzustellen
Die Perplexity-API ist temporär offline
Aufgrund von Perplexitys komplexem Abrechnungsmodell und höheren Kosten als die Preisstruktur dieser Plattform wird der Dienst nach Preisanpassungen erneut gestartet
Der temporäre offizielle ByteDance-Rabatt ist beendet, die Preise sind wieder normal
Der Preis von DeepSeek-R1 wurde entsprechend erhöht
Neue Modell-Detailseite mit vollständigen Parameterinformationen hinzugefügt

23. Februar

Der temporäre offizielle ByteDance-Rabatt ist beendet, die Preise sind wieder normal
Der Preis von DeepSeek-V3 wurde erhöht
Auch das R1-Modell von ByteDance wird voraussichtlich bald wieder normale Preise haben; die Plattform wird die Preise entsprechend anpassen

18. Februar

Modell hinzugefügt: kimi-latest
(Offiziell nach Eingabelänge gestaffelt zu 8k, 32k und 128k abgerechnet.
Diese Plattform unterstützt keine gestaffelte Abrechnung und verwendet die mittlere Stufe 32k als Standardpreis.
Wenn Sie preissensibel sind, mit Vorsicht verwenden.)
Layout der Website insgesamt optimiert
Changelog-Seite in die Nutzungsstatistik-Seite zusammengeführt
Ankündigungen in die Modell-Marktplatz-Seite verschoben
Einstellungen in das Benutzeravatar-Menü verschoben
Preis von aihubmix-DeepSeek-R1 um 50 % gesenkt
Modelle hinzugefügt:
gemini-2.0-pro-exp-02-05-search, gemini-2.0-flash-exp-search
(mit offizieller Online-Suche von Google integriert)
Modelle hinzugefügt:
gemini-2.0-flash, gemini-2.0-pro-exp-02-05, gemini-2.0-flash-lite-preview-02-05
Modelle hinzugefügt:
o3-mini, o1
(Diese beiden Modelle werden aufgrund begrenzter Account-Ressourcen ca. 10 % teurer als offiziell abgerechnet)

4. Februar

Das o1-Modell unterstützt in der offiziellen OpenAI-API den stream-Parameter nicht
Das o3-mini-Modell unterstützt den temperature-Parameter nicht
Ein neuer Parameter reasoning_effort ist verfügbar mit Werten: "low", "medium", "high"
Standard ist "medium", wenn nicht angegeben

1. Februar

Funktions-Update:

Unterstützung für OpenAI-Audio-Modell-Eingabe und -Ausgabe hinzugefügt
Der Preview-Server api.aihubmix.com ist nun verfügbar
Nach einer Woche stabiler Laufzeit wird die Hauptseite aktualisiert
Backend-Abrechnung entspricht vollständig den offiziellen Preisen
Aktuell zeigen Nutzungs-Logs nur Text-Token-Nutzung
Audio-Token-Nutzung wird noch nicht in den Logs angezeigt, beeinträchtigt aber die Nutzung nicht

Neue Modelle:

o3-mini, o1
(ca. 10 % teurer als offiziell, da Account-Verfügbarkeit begrenzt ist)
aihubmix-DeepSeek-R1 (empfohlen, sehr stabil)
qwen-max-0125 (Qwen2.5-Max), sonar-reasoning
deepseek-ai/DeepSeek-R1-Zero, deepseek-ai/DeepSeek-R1, deepseek-r1-distill-llama-70b
aihub-Phi-4
Doubao-1.5-pro-256k, Doubao-1.5-pro-32k,
Doubao-1.5-lite-32k, Doubao-1.5-vision-pro-32k
sonar, sonar-pro (neueste von Perplexity AI)
gemini-2.0-flash-thinking-exp-01-21
deepseek-reasoner (alias DeepSeek-R1)
MiniMax-Text-01
codestral-latest (Mistrals neues Code-Modell – Codestral 25.01)

23. Januar

Neue Modelle:

aihub-Phi-4
Doubao-1.5-pro-256k, Doubao-1.5-pro-32k,
Doubao-1.5-lite-32k, Doubao-1.5-vision-pro-32k
sonar, sonar-pro (neueste von Perplexity AI)
gemini-2.0-flash-thinking-exp-01-21
deepseek-reasoner (alias DeepSeek-R1)

19. Januar

Perplexity-AI-API-Modelle hinzugefügt
Derzeit nur auf dem Preview-Server api.aihubmix.com unterstützt
Nach stabilem Test erfolgt das Rollout auf den Hauptserver aihubmix.com
api.aihubmix.com ist der Preview-Server
Neue Features werden zuerst dort deployed und nach ca. 1 Woche Stabilitätstest auf den Hauptserver übertragen

Neue Modelle:

MiniMax-Text-01
codestral-latest (Mistral Codestral 25.01)
gpt-4o-zh
Übersetzt jegliche Eingabe automatisch ins Englische, bevor sie inferiert wird,
und übersetzt die Modellausgabe automatisch zurück ins Chinesische
(Dieses Feature befindet sich im Test und unterstützt nur gpt-4o; hohe Parallelität wird nicht unterstützt)

6. Januar

gemini-2.0-flash-exp-search hinzugefügt – unterstützt native Google-Online-Suche
Das offizielle Gemini-2.0-Flash-Modell benötigt zusätzliche Parameter für Online-Suche
Aihubmix hat diese Funktion integriert – hängen Sie einfach search an den Modellnamen an
Modell hinzugefügt: deepseek-ai/DeepSeek-V3

1. Januar

Neue Modell-Marktplatz-Seite veröffentlicht, ersetzt die alte „Model & Pricing”-Seite

2024

30. Dezember

Problem behoben, bei dem gemini-2.0-flash-thinking-exp-1219 nur Reasoning, aber keine endgültige Antwort zurückgab
Problem behoben, dass Balance-Erinnerungsmails nicht zugestellt wurden

22. Dezember

Nutzungsstatistik-Seite hinzugefügt
Aufladungs-Verlauf-Seite hinzugefügt
Doubao-Modellserie hinzugefügt:
Doubao-lite-128k, Doubao-lite-32k, Doubao-lite-4k,
Doubao-pro-128k, Doubao-pro-256k, Doubao-pro-32k, Doubao-pro-4k
Modell hinzugefügt: gemini-2.0-flash-thinking-exp-1219
Modelle hinzugefügt:
gemini-2.0-flash-exp, aihubmix-Mistral-Large-2411,
aihubmix-Llama-3-3-70B-Instruct, grok-2-1212, grok-2-vision-1212
Modelle hinzugefügt:
gemini-exp-1206, llama-3.3-70b-versatile, learnlm-1.5-pro-experimental

14. Dezember

Modelle hinzugefügt:
gemini-2.0-flash-exp, aihubmix-Mistral-Large-2411,
aihubmix-Llama-3-3-70B-Instruct

8. Dezember

Modelle hinzugefügt:
gemini-exp-1206, llama-3.3-70b-versatile, learnlm-1.5-pro-experimental
Nutzungsstatistik-Seite hinzugefügt

21. November

Kürzlich hinzugefügte Modelle:
gpt-4o-2024-11-20, step-2-16k, grok-vision-beta
Qwen-2.5-Turbo-Modell mit Millionen-Kontext:
qwen-turbo-2024-11-01

7. November

Kompatibilität mit dem nativen Claude-SDK ergänzt
Der Endpoint v1/messages ist nun verfügbar
Native Claude-Prompt-Caching- und Computer-Use-Funktionen werden noch nicht unterstützt
Diese werden in den nächsten zwei Wochen fertiggestellt

5. November

Modell hinzugefügt: claude-3-5-haiku-20241022
Elon Musks xAI-Neuestes-Modell hinzugefügt: grok-beta

23. Oktober

Modell hinzugefügt: claude-3-5-sonnet-20241022

10. Oktober

OpenAIs neuestes Caching-Feature ist live
Aktuell unterstützte Modelle:
- GPT-4o
- GPT-4o-mini
- o1-preview
- o1-mini
Hinweis: gpt-4o-2024-05-13 steht nicht auf der offiziell unterstützten Liste
Cache-Hit-Token werden in den Backend-Logs sichtbar, wenn ein Request den Cache trifft
Vollständige Details und Nutzungsregeln finden Sie in der offiziellen OpenAI-Dokumentation

3. Oktober

Backend-Abrechnung für gpt-4o wurde an die offiziellen Preise angeglichen
Modelle hinzugefügt:
aihubmix-Llama-3-2-90B-Vision, aihubmix-Llama-3-70B-Instruct
Cohere-neuste Modelle hinzugefügt:
aihubmix-command-r-08-2024, aihubmix-command-r-plus-08-2024

19. September

Modelle hinzugefügt: whisper-large-v3 und distil-whisper-large-v3-en
Hinweis: Whisper-Modell-Abrechnung erfolgt nach Eingabe-Sekunden
Die aktuelle Preisanzeige auf der Seite ist falsch und wird korrigiert
Backend-Abrechnung für whisper-1 entspricht vollständig den offiziellen OpenAI-Preisen

13. September

Modelle hinzugefügt: o1-mini und o1-preview
Hinweis: Diese Modelle erfordern aktualisierte Parameter
Manche Client-Oberflächen können Fehler werfen, wenn Standardwerte nicht aktualisiert sind

Tests zeigen, dass das o1-Modell Folgendes NICHT unterstützt:

system-Feld → 400-Fehler
tools-Feld → 400-Fehler
Bildeingabe → 400-Fehler
json_object-Ausgabe → 500-Fehler
structured-Ausgabe → 400-Fehler
logprobs-Ausgabe → 403-Fehler
stream-Ausgabe → 400-Fehler

Ratenlimits und feste Parameter:

o1-Serie: 20 RPM, 150.000.000 TPM – extrem niedrig, häufige 429-Fehler möglich
temperature, top_p und n sind auf 1 festgelegt
presence_penalty und frequency_penalty sind auf 0 festgelegt

10. September

Modell hinzugefügt: mattshumer/Reflection-Llama-3.1-70B
(Berichten zufolge eine der stärksten Feintuning-Varianten von LLaMA 3.1 70B)
Preise der Claude-3-Modelle erhöht
Zur Sicherstellung der stabilen Versorgung sind Aufrufe über diese Plattform aktuell ca. 10 % teurer als die direkte offizielle Nutzung
Erhöhte Concurrency-Kapazität für OpenAI-Modelle
Das System unterstützt theoretisch nahezu unbegrenzte Parallelität

11. August

Modelle hinzugefügt:
Phi3medium128k, ahm-Phi-3-medium-4k, ahm-Phi-3-small-128k
Stabilität für LLaMA-Modelle verbessert
Kompatibilität für Claude-Modelle weiter optimiert

7. August

OpenAIs neu veröffentlichtes gpt-4o-2024-08-06 hinzugefügt
Siehe: https://platform.openai.com/docs/guides/structured-outputs
Googles neuestes Modell hinzugefügt: gemini-1.5-pro-exp-0801

4. August

Direkte Online-Zahlung für Aufladungen hinzugefügt
Claude-Mehrfach-Konversationsformat-Fehler behoben:
messages: roles must alternate between "user" and "assistant", but found multiple "user" roles in a row
Index-Handling bei Function-Calling mit Claude-Modellen optimiert
Der Backup-Server https://orisound.cn wird am 7. September vollständig stillgelegt
Bitte migrieren Sie zum Hauptserver https://aihubmix.com oder Backup-Server https://api.aihubmix.com

27. Juli

Unterstützung für Mistral Large 2 hinzugefügt
Modellname: Mistral-large-2407 oder aihubmix-Mistral-large-2407
Systemoptimierungen

24. Juli

Neueste LLaMA-3.1-Modelle hinzugefügt:
llama-3.1-405b-instruct, llama-3.1-70b-versatile, llama-3.1-8b-instant

20. Juli

Probleme bei der Preisberechnung für gpt-4o-mini behoben
- Texteingabe-Preis: 1/33 von GPT-4o offiziell
- Bildeingabe-Preis: gleich GPT-4o
Um mit offiziellen Preisen übereinzustimmen, werden Image-Token-Counts von gpt-4o-mini bei der Abrechnung mit 33 multipliziert
Details siehe offizielle OpenAI-Preise

19. Juli

Unterstützung für das gpt-4o-mini-Modell hinzugefügt
Backend-Abrechnung entspricht vollständig den offiziellen Preisen

15. Juli

Unterstützung für den offiziellen API-Parameter include_usage hinzugefügt
Damit können Usage-Daten im Stream-Modus zurückgegeben werden
Details siehe offizielle Dokumentation

14. Juli

Die neue Version von NextWeb unterstützt jetzt das Aufrufen von Nicht-OpenAI-Modellen über diese Plattform
Backend-Abrechnungsunterstützung für Alibaba-Qwen-Modelle hinzugefügt
Aufrufe über diese Plattform kosten ca. 10 % mehr als direkte Nutzung über Alibaba Cloud
Azure-OpenAI-Ausgabe-Kompatibilität mit der Standard-OpenAI-API verbessert
Tool-Calling-Unterstützung für Claude-3 hinzugefügt
Viele neue Modelle hinzugefügt (siehe Einstellungen → Verfügbare Modelle)

3. Juli

Backend-UI insgesamt optimiert
Jeder Log-Eintrag zeigt jetzt den Modell-Einheitspreis zum Zeitpunkt der Anfrage
„Modell & Preis”-Seite hinzugefügt

20. Juni

Das neueste claude-3-5-sonnet-20240620 wird jetzt unterstützt
Siehe Anleitung für den Aufruf von Nicht-OpenAI-Modellen auf dieser Plattform

18. Juni

Backend-Logs unterstützen jetzt den Download historischer Request-Datensätze

16. Juni

Die Wahrscheinlichkeit, Requests zufällig an Azure OpenAI zu routen, wurde deutlich reduziert

13. Juni

Backend-Kosten für Claude-3-Modelle gesenkt
(Claude 3 Haiku, Claude 3 Sonnet, Claude 3 Opus)
Die Backend-Abrechnung entspricht jetzt den offiziellen Preisen
In Folge entspricht der effektive Retail-API-Preis dieser Seite ca. 86 % der offiziellen Preise

10. Juni

GPT-4o-Token-Abrechnung optimiert
Tokenizer von cl100k_base auf o200k_base geändert
In Folge sind Streaming-Token-Counts für Chinesisch, Koreanisch und Japanisch niedriger als zuvor

8. Juni

Alibabas neueste Open-Source-Qwen-2-Modelle hinzugefügt:
- alibaba/Qwen2-7B-Instruct
- alibaba/Qwen2-57B-A14B-Instruct
- alibaba/Qwen2-72B-Instruct

20. Mai

Modell hinzugefügt: gemini-1.5-flash
Modell hinzugefügt: gpt-4o
Modelle hinzugefügt:
llama3-70b-8192, llama3-8b-8192,
gemini-1.5-pro, command-r, command-r-plus
Claude-3-Modell-Versorgung wiederhergestellt
Endpoints sind derzeit über AWS und Google Cloud deployed
Zur Deckung von Infrastruktur- und Betriebskosten ist die Claude-3-Backend-Abrechnung ca. 10 % höher als die offiziellen Preise
Mit steigender Nutzung wird dies schrittweise auf ca. 5 % oder darunter gesenkt
Concurrency-Limits werden derzeit getestet und werden mit steigender Nachfrage erhöht

Zuletzt aktualisiert: 2026-06-22

​2026

​17. Juli

​15. Juli

​14. Juli

​13. Juli

​10. Juli

​9. Juli

​8. Juli

​7. Juli

​6. Juli

​3. Juli

​1. Juli

​29. Juni

​27. Juni

​25. Juni

​24. Juni

​23. Juni

​22. Juni

​17. Juni

​16. Juni

​15. Juni

​13. Juni

​12. Juni

​11. Juni

​10. Juni

​08. Juni

​05. Juni

​04. Juni

​01. Juni

​29. März

​23. März

​8. Februar

​2025

​15. Dezember

​22. September

​10. August

​1. August

​29. Juli

​26. Juli

​23. Juli

​4. Juli

​29. Juni

​26. Juni

​23. Juni

​18. Juni

​13. Juni

​12. Juni

​9. Juni

​5. Juni

​31. Mai

​22. Mai

​17. Mai

​9. Mai

​6. Mai

​26. April

​24. April

​20. April

​17. April

​12. April

​9. April

​7. April

​5. April

​30. März

​24. März

​16. März

​15. März

​7. März

​6. März

​28. Februar

​26. Februar

​25. Februar

​24. Februar

​23. Februar

​18. Februar

​4. Februar

​1. Februar

​23. Januar

​19. Januar

​6. Januar

​1. Januar

2026

17. Juli

15. Juli

14. Juli

13. Juli

10. Juli

9. Juli

8. Juli

7. Juli

6. Juli

3. Juli

1. Juli

29. Juni

27. Juni

25. Juni

24. Juni

23. Juni

22. Juni

17. Juni

16. Juni

15. Juni

13. Juni

12. Juni

11. Juni

10. Juni

08. Juni

05. Juni

04. Juni

01. Juni

29. März

23. März

8. Februar

2025

15. Dezember

22. September

10. August

1. August

29. Juli

26. Juli

23. Juli

4. Juli

29. Juni

26. Juni

23. Juni

18. Juni

13. Juni

12. Juni

9. Juni

5. Juni

31. Mai

22. Mai

17. Mai

9. Mai

6. Mai

26. April

24. April

20. April

17. April

12. April

9. April

7. April

5. April

30. März

24. März

16. März

15. März

7. März

6. März

28. Februar

26. Februar

25. Februar

24. Februar

23. Februar

18. Februar

4. Februar

1. Februar

23. Januar

19. Januar

6. Januar

1. Januar