Documentation Index
Fetch the complete documentation index at: https://docs.aihubmix.com/llms.txt
Use this file to discover all available pages before exploring further.
2026
29. März
Detailseite zu Logs- Latenz: Gibt an, wie schnell eine Anfrage startet (Zeit von der Anfrage bis zum ersten zurückgegebenen Token)
- Durchsatz: Klare Messgröße für die Ausgabegeschwindigkeit des Modells
- E2E-Latenz: Gesamtzeit von Anfrage bis Abschluss; zur Bewertung der Gesamtleistung der Anfrage
- Provider: Identifiziert den Modellanbieter, der die Anfrage verarbeitet hat
- Status: Zeigt das Ergebnis (z. B. Erfolg / Fehlschlag) zur schnellen Erkennung von Anomalien
- TID: Eindeutige Anfragen-ID, die mit dem Support geteilt werden kann, um Probleme schneller zu beheben
23. März
- Das AIHubMix Global Acceleration Network ist live: aufgebaut auf eigenen globalen Edge-Knoten und intelligentem Routing, mit kontinuierlichem Monitoring und dynamischer Optimierung – 75 % geringere Latenz, 60 % höhere Stabilität und 99,99 % Verfügbarkeit. Schnelleres, zuverlässigeres KI-Erlebnis.
- 24/7-Echtzeit-Health-Monitoring hinzugefügt: Verteilte Sonden scannen das gesamte Netzwerk minütlich, verfolgen Latenz, Erfolgsrate und Stabilität. Probleme werden erkannt und behoben, bevor Nutzer sie bemerken – für gleichbleibende Performance.
- Verbessertes intelligentes Traffic-Routing: Knotengesundheit wird dynamisch über mehrere Zeitfenster bewertet, mit Millisekunden-Switching zur optimalen Route – deutlich weniger Schwankungen und Timeouts bei höherer Erfolgsrate.
8. Februar
- Neue Funktion: Chat → Responses-Kompatibilität
Dieses Release führt die Chat → Responses-Kompatibilität ein, sodass die Chat-Completions-API OpenAI-Modelle aufrufen kann, die nur das Responses-Protokoll unterstützen – darunter gpt-5.2-codex, gpt-5.1-codex-max und gpt-5.2-pro. Wenn Sie die AIHubmix-Chat-API zwingen möchten, Anfragen über das Responses-Protokoll zu routen, fügen Sie folgenden Header hinzu:
X-Use-Responses-Enabled: trueWenn ein Modell sowohl Chat als auch Responses unterstützt, erzwingt dieser Header die Verwendung der Responses-API.
Beachten Sie: Das Responses-Protokoll unterstützt derzeit weder Audioeingabe noch -ausgabe; planen Sie die Nutzung entsprechend. - Hinweis zur Modell-Abkündigung:
OpenAI wirdchatgpt-4o-latestam 17. Februar 2026 abkündigen. Danach mappen wirchatgpt-4o-latestautomatisch aufgpt-4o-2024-11-20.
2025
15. Dezember
- Neue Funktion: Die Google-API unterstützt jetzt die Files API.
22. September
- Unterstützung für Qwen-Serie, Doubao Seedream 4 und Baidu-Bildgenerierungsmodelle hinzugefügt
10. August
- Aihubmix Image Generation MCP veröffentlicht – erleichtert Entwicklern die Integration von Bildgenerierungsdiensten
1. August
- Nutzen Sie beliebige LLMs auf der AiHubMix-Plattform direkt in Claude Code
29. Juli
- Unterstützung für AI SDK hinzugefügt: Zugriff auf eine Vielzahl von Modellen mit einem einzigen API-Schlüssel
26. Juli
- Unterstützung für die Flux-Bildgenerierungs-API hinzugefügt – hochwertige Bilder in Sekunden
23. Juli
- Unterstützung für Qwen Code hinzugefügt; nutzt alle auf der Aihubmix-Plattform verfügbaren LLMs
4. Juli
- Unterstützung für llms.txt hinzugefügt: Mit einem Klick standardisierte Modellnavigation erhalten, damit Ihr LLM-Assistent das gesamte Modellökosystem schnell versteht
29. Juni
- Forwarding-Unterstützung für Gemini CLI mit mehreren flexiblen Nutzungsmodi
- Code Interpreter und Remote-MCP-Aufrufe zur OpenAI Responses API hinzugefügt
26. Juni
- Vereinheitlichte Image-Generation-API hinzugefügt – unterstützt wichtige Modelle wie OpenAI, Ideogram, Stability und Google Imagen
23. Juni
- APP-Code gestartet – 10 % Rabatt für Entwickler auf alle Modelle
18. Juni
- HTTP-Statuscode-Dokumentation hinzugefügt, um Fehler besser zu verstehen
15. Juni
- Reverse-engineerter Veo-3.0-Zugang hinzugefügt – Gesamtkosten nur $0,41 pro Video-Generierung
13. Juni
- Unterstützung für Veo-3.0-Videogenerierung hinzugefügt, um kreative Formate zu erweitern
12. Juni
- Claude Code integriert für stabile Nutzung im chinesischen Festland
9. Juni
- Unterstützung für OpenAI Reasoning Summaries in der Responses API hinzugefügt
5. Juni
- Implizites Caching für Gemini hinzugefügt, mit automatischen Cache-Hits und Hit-Rückmeldung
Entwickler könnenusage_metadatanutzen, um Cache-Hits zu erkennen
Kosteneinsparungen sind nicht garantiert und hängen von Anfragestruktur und Nutzungsszenario ab
31. Mai
Vollständige Unterstützung neuer Claude-4-Funktionen- ⏳ Neuer Cache-TTL: 1-Stunden-Cache-Unterstützung Beta
- 🎉 Neue Texteditor-Tools: Claude 4 unterstützt jetzt
text_editor_20250429undstr_replace_based_edit_tool - 🚫 Neuer Refusal-Stop-Reason für sicherheitsbedingte Ablehnungen
- 🧠 Extended Thinking: Claude 4 gibt nun vollständige Zusammenfassungen seines Denkprozesses zurück
- 🔄 Interleaved Thinking: Tool-Nutzung kann jetzt mit Extended Thinking verschränkt werden für natürlichere Konversationen (Beta)
- ⚠️ Veraltete Funktionen:
undo_editwird nicht mehr unterstützttoken-efficient-tools-2025-02-19entfernt (nur Claude 3.7)output-128k-2025-02-19entfernt (nur Claude 3.7)
- 📚 Vollständige Migrationsanleitungen und Codebeispiele wurden aktualisiert, um den Wechsel von Claude 3.7 auf Claude 4 zu erleichtern
22. Mai
- Unterstützung für das Dify-Plugin hinzugefügt, das die nahtlose Integration der Aihubmix-Modelle in Dify ermöglicht
Mehr als 200 Modelle mit einem einzigen API-Schlüssel verwalten
17. Mai
- Unterstützung für
codex-mini-latesthinzugefügt – optimiert für Programmieraufgaben, verfügbar über Responses API oder Codex CLI - Unterstützung für Google Imagen 3.0 Bildgenerierung und Veo 2.0 Videogenerierung hinzugefügt
gemini-2.0-flash-expaktualisiert auf die offizielle Preview-Versiongemini-2.0-flash-preview-image-generation
9. Mai
- Ideogram AI V3-API hinzugefügt – Ideograms fortschrittlichstes Bildgenerierungsmodell
6. Mai
- Utility Management Scripts hinzugefügt: API-Schlüssel verwalten, Konten ansehen und verfügbare Modelle per CLI auflisten
26. April
- Die mit Spannung erwartete OpenAI-Bildgenerierungs-API
gpt-image-1ist live – Text-zu-Bild und Bild-zu-Bild - Native Gemini-API-Unterstützung mit präziser Reasoning-Budget-Steuerung für Flash 2.5 hinzugefügt
24. April
- Drei zentrale Jina-AI-APIs integriert, um leistungsfähige Agents zu bauen: Embeddings, Rerank und DeepSearch
22. April
- Frühzugang (reverse-engineert) zur GPT-4o-Bildgenerierungs-API
20. April
- Unterstützung für den OpenAI-Responses-API-Endpoint mit erweiterten Tool-Funktionen hinzugefügt
17. April
- OpenAI CodeX CLI-Unterstützung: Programmieren mit natürlicher Sprache direkt im Terminal
12. April
- Durch Anhängen von
:surfingan eine Modell-ID erhält jedes Modell Suchfähigkeiten (Beta)
9. April
- Claude-Prompt-Caching hinzugefügt – bis zu 76 % Kosteneinsparung bei wiederkehrenden Prompts
7. April
- Ideogram-AI-Bildgenerierung hinzugefügt: starkes Text-Rendering, Hybrid-Generierung, lokale Bearbeitung und Upscaling
5. April
- Komplett neues Dokumentationserlebnis veröffentlicht
30. März
- Unterstützung für das Claude-Texteditor-Tool hinzugefügt
24. März
- Brandneues Trident-Logo eingeführt
16. März
- Native Suchunterstützung für OpenAI- und Google-Gemini-Modelle hinzugefügt
- Drittanbieter-Suchintegration folgt in zukünftigen Updates
15. März
- Modelle hinzugefügt:
gpt-4o-mini-search-previewundgpt-4o-search-preview
7. März
- Preise für o1 und o3-mini um 10 % gesenkt – im Einklang mit offiziellen Preisen
6. März
- Aufgrund einer 7-fachen Upstream-Preiserhöhung von Microsoft stieg auch der Preis von
aihubmix-DeepSeek-R1um das 7-Fache
Empfohlene Alternative: DeepSeek-R1 von Volcano Engine (stabiler und kostengünstiger)
Modelle hinzugefügt:qwen-qwq-32bundqwen2.5-vl-72b-instruct
28. Februar
- 15 % Preisreduzierung bei allen Claude-Modellen
- Modell
gpt-4.5-previewhinzugefügt (extrem teuer – mit Vorsicht verwenden)
26. Februar
- DeepSeek-Stabilität verbessert
- ByteDance-Versionen von DeepSeek sind derzeit am stabilsten
Empfohlene Modelle:DeepSeek-R1undDeepSeek-V3
25. Februar
- Modell
claude-3-7-sonnet-20250219hinzugefügt
24. Februar
- Das gpt-4o-Modell kann aufgrund von Upstream-Problemen gelegentlich sehr langsam antworten
Empfohlen wird temporär aufgpt-4o-2024-11-20umzustellen - Die Perplexity-API ist temporär offline
Aufgrund von Perplexitys komplexem Abrechnungsmodell und höheren Kosten als die Preisstruktur dieser Plattform wird der Dienst nach Preisanpassungen erneut gestartet - Der temporäre offizielle ByteDance-Rabatt ist beendet, die Preise sind wieder normal
Der Preis vonDeepSeek-R1wurde entsprechend erhöht - Neue Modell-Detailseite mit vollständigen Parameterinformationen hinzugefügt
23. Februar
- Der temporäre offizielle ByteDance-Rabatt ist beendet, die Preise sind wieder normal
Der Preis vonDeepSeek-V3wurde erhöht
Auch das R1-Modell von ByteDance wird voraussichtlich bald wieder normale Preise haben; die Plattform wird die Preise entsprechend anpassen
18. Februar
- Modell hinzugefügt:
kimi-latest
(Offiziell nach Eingabelänge gestaffelt zu 8k, 32k und 128k abgerechnet.
Diese Plattform unterstützt keine gestaffelte Abrechnung und verwendet die mittlere Stufe 32k als Standardpreis.
Wenn Sie preissensibel sind, mit Vorsicht verwenden.) - Layout der Website insgesamt optimiert
- Changelog-Seite in die Nutzungsstatistik-Seite zusammengeführt
- Ankündigungen in die Modell-Marktplatz-Seite verschoben
- Einstellungen in das Benutzeravatar-Menü verschoben
- Preis von
aihubmix-DeepSeek-R1um 50 % gesenkt - Modelle hinzugefügt:
gemini-2.0-pro-exp-02-05-search,gemini-2.0-flash-exp-search
(mit offizieller Online-Suche von Google integriert) - Modelle hinzugefügt:
gemini-2.0-flash,gemini-2.0-pro-exp-02-05,gemini-2.0-flash-lite-preview-02-05 - Modelle hinzugefügt:
o3-mini,o1
(Diese beiden Modelle werden aufgrund begrenzter Account-Ressourcen ca. 10 % teurer als offiziell abgerechnet)
4. Februar
- Das
o1-Modell unterstützt in der offiziellen OpenAI-API denstream-Parameter nicht - Das
o3-mini-Modell unterstützt dentemperature-Parameter nicht
Ein neuer Parameterreasoning_effortist verfügbar mit Werten:"low","medium","high"
Standard ist"medium", wenn nicht angegeben
1. Februar
Funktions-Update:- Unterstützung für OpenAI-Audio-Modell-Eingabe und -Ausgabe hinzugefügt
Der Preview-Serverapi.aihubmix.comist nun verfügbar
Nach einer Woche stabiler Laufzeit wird die Hauptseite aktualisiert
Backend-Abrechnung entspricht vollständig den offiziellen Preisen
Aktuell zeigen Nutzungs-Logs nur Text-Token-Nutzung
Audio-Token-Nutzung wird noch nicht in den Logs angezeigt, beeinträchtigt aber die Nutzung nicht
o3-mini,o1
(ca. 10 % teurer als offiziell, da Account-Verfügbarkeit begrenzt ist)aihubmix-DeepSeek-R1(empfohlen, sehr stabil)qwen-max-0125(Qwen2.5-Max),sonar-reasoningdeepseek-ai/DeepSeek-R1-Zero,deepseek-ai/DeepSeek-R1,deepseek-r1-distill-llama-70baihub-Phi-4Doubao-1.5-pro-256k,Doubao-1.5-pro-32k,
Doubao-1.5-lite-32k,Doubao-1.5-vision-pro-32ksonar,sonar-pro(neueste von Perplexity AI)gemini-2.0-flash-thinking-exp-01-21deepseek-reasoner(alias DeepSeek-R1)MiniMax-Text-01codestral-latest(Mistrals neues Code-Modell – Codestral 25.01)
23. Januar
Neue Modelle:aihub-Phi-4Doubao-1.5-pro-256k,Doubao-1.5-pro-32k,
Doubao-1.5-lite-32k,Doubao-1.5-vision-pro-32ksonar,sonar-pro(neueste von Perplexity AI)gemini-2.0-flash-thinking-exp-01-21deepseek-reasoner(alias DeepSeek-R1)
19. Januar
- Perplexity-AI-API-Modelle hinzugefügt
Derzeit nur auf dem Preview-Serverapi.aihubmix.comunterstützt
Nach stabilem Test erfolgt das Rollout auf den Hauptserveraihubmix.com api.aihubmix.comist der Preview-Server
Neue Features werden zuerst dort deployed und nach ca. 1 Woche Stabilitätstest auf den Hauptserver übertragen
MiniMax-Text-01codestral-latest(Mistral Codestral 25.01)gpt-4o-zh
Übersetzt jegliche Eingabe automatisch ins Englische, bevor sie inferiert wird,
und übersetzt die Modellausgabe automatisch zurück ins Chinesische
(Dieses Feature befindet sich im Test und unterstützt nurgpt-4o; hohe Parallelität wird nicht unterstützt)
6. Januar
gemini-2.0-flash-exp-searchhinzugefügt – unterstützt native Google-Online-Suche
Das offizielle Gemini-2.0-Flash-Modell benötigt zusätzliche Parameter für Online-Suche
Aihubmix hat diese Funktion integriert – hängen Sie einfachsearchan den Modellnamen an- Modell hinzugefügt:
deepseek-ai/DeepSeek-V3
1. Januar
- Neue Modell-Marktplatz-Seite veröffentlicht, ersetzt die alte „Model & Pricing”-Seite
2024
30. Dezember
- Problem behoben, bei dem
gemini-2.0-flash-thinking-exp-1219nur Reasoning, aber keine endgültige Antwort zurückgab - Problem behoben, dass Balance-Erinnerungsmails nicht zugestellt wurden
22. Dezember
- Nutzungsstatistik-Seite hinzugefügt
- Aufladungs-Verlauf-Seite hinzugefügt
- Doubao-Modellserie hinzugefügt:
Doubao-lite-128k,Doubao-lite-32k,Doubao-lite-4k,
Doubao-pro-128k,Doubao-pro-256k,Doubao-pro-32k,Doubao-pro-4k - Modell hinzugefügt:
gemini-2.0-flash-thinking-exp-1219 - Modelle hinzugefügt:
gemini-2.0-flash-exp,aihubmix-Mistral-Large-2411,
aihubmix-Llama-3-3-70B-Instruct,grok-2-1212,grok-2-vision-1212 - Modelle hinzugefügt:
gemini-exp-1206,llama-3.3-70b-versatile,learnlm-1.5-pro-experimental
14. Dezember
- Modelle hinzugefügt:
gemini-2.0-flash-exp,aihubmix-Mistral-Large-2411,
aihubmix-Llama-3-3-70B-Instruct
8. Dezember
- Modelle hinzugefügt:
gemini-exp-1206,llama-3.3-70b-versatile,learnlm-1.5-pro-experimental - Nutzungsstatistik-Seite hinzugefügt
21. November
- Kürzlich hinzugefügte Modelle:
gpt-4o-2024-11-20,step-2-16k,grok-vision-beta - Qwen-2.5-Turbo-Modell mit Millionen-Kontext:
qwen-turbo-2024-11-01
7. November
- Kompatibilität mit dem nativen Claude-SDK ergänzt
Der Endpointv1/messagesist nun verfügbar - Native Claude-Prompt-Caching- und Computer-Use-Funktionen werden noch nicht unterstützt
Diese werden in den nächsten zwei Wochen fertiggestellt
5. November
- Modell hinzugefügt:
claude-3-5-haiku-20241022 - Elon Musks xAI-Neuestes-Modell hinzugefügt:
grok-beta
23. Oktober
- Modell hinzugefügt:
claude-3-5-sonnet-20241022
10. Oktober
- OpenAIs neuestes Caching-Feature ist live
Aktuell unterstützte Modelle:- GPT-4o
- GPT-4o-mini
- o1-preview
- o1-mini
- Hinweis:
gpt-4o-2024-05-13steht nicht auf der offiziell unterstützten Liste - Cache-Hit-Token werden in den Backend-Logs sichtbar, wenn ein Request den Cache trifft
- Vollständige Details und Nutzungsregeln finden Sie in der offiziellen OpenAI-Dokumentation
3. Oktober
- Backend-Abrechnung für
gpt-4owurde an die offiziellen Preise angeglichen - Modelle hinzugefügt:
aihubmix-Llama-3-2-90B-Vision,aihubmix-Llama-3-70B-Instruct - Cohere-neuste Modelle hinzugefügt:
aihubmix-command-r-08-2024,aihubmix-command-r-plus-08-2024
19. September
- Modelle hinzugefügt:
whisper-large-v3unddistil-whisper-large-v3-en - Hinweis: Whisper-Modell-Abrechnung erfolgt nach Eingabe-Sekunden
Die aktuelle Preisanzeige auf der Seite ist falsch und wird korrigiert
Backend-Abrechnung fürwhisper-1entspricht vollständig den offiziellen OpenAI-Preisen
13. September
- Modelle hinzugefügt:
o1-miniundo1-preview
Hinweis: Diese Modelle erfordern aktualisierte Parameter
Manche Client-Oberflächen können Fehler werfen, wenn Standardwerte nicht aktualisiert sind
o1-Modell Folgendes NICHT unterstützt:
system-Feld → 400-Fehlertools-Feld → 400-Fehler- Bildeingabe → 400-Fehler
json_object-Ausgabe → 500-Fehlerstructured-Ausgabe → 400-Fehlerlogprobs-Ausgabe → 403-Fehlerstream-Ausgabe → 400-Fehler
- o1-Serie: 20 RPM, 150.000.000 TPM – extrem niedrig, häufige 429-Fehler möglich
temperature,top_pundnsind auf 1 festgelegtpresence_penaltyundfrequency_penaltysind auf 0 festgelegt
10. September
- Modell hinzugefügt:
mattshumer/Reflection-Llama-3.1-70B
(Berichten zufolge eine der stärksten Feintuning-Varianten von LLaMA 3.1 70B) - Preise der Claude-3-Modelle erhöht
Zur Sicherstellung der stabilen Versorgung sind Aufrufe über diese Plattform aktuell ca. 10 % teurer als die direkte offizielle Nutzung - Erhöhte Concurrency-Kapazität für OpenAI-Modelle
Das System unterstützt theoretisch nahezu unbegrenzte Parallelität
11. August
- Modelle hinzugefügt:
Phi3medium128k,ahm-Phi-3-medium-4k,ahm-Phi-3-small-128k - Stabilität für LLaMA-Modelle verbessert
- Kompatibilität für Claude-Modelle weiter optimiert
7. August
- OpenAIs neu veröffentlichtes
gpt-4o-2024-08-06hinzugefügt
Siehe: https://platform.openai.com/docs/guides/structured-outputs - Googles neuestes Modell hinzugefügt:
gemini-1.5-pro-exp-0801
4. August
- Direkte Online-Zahlung für Aufladungen hinzugefügt
- Claude-Mehrfach-Konversationsformat-Fehler behoben:
messages: roles must alternate between "user" and "assistant", but found multiple "user" roles in a row - Index-Handling bei Function-Calling mit Claude-Modellen optimiert
- Der Backup-Server
https://orisound.cnwird am 7. September vollständig stillgelegt
Bitte migrieren Sie zum Hauptserverhttps://aihubmix.comoder Backup-Serverhttps://api.aihubmix.com
27. Juli
- Unterstützung für Mistral Large 2 hinzugefügt
Modellname:Mistral-large-2407oderaihubmix-Mistral-large-2407 - Systemoptimierungen
24. Juli
- Neueste LLaMA-3.1-Modelle hinzugefügt:
llama-3.1-405b-instruct,llama-3.1-70b-versatile,llama-3.1-8b-instant
20. Juli
- Probleme bei der Preisberechnung für
gpt-4o-minibehoben- Texteingabe-Preis: 1/33 von GPT-4o offiziell
- Bildeingabe-Preis: gleich GPT-4o
- Um mit offiziellen Preisen übereinzustimmen, werden Image-Token-Counts von
gpt-4o-minibei der Abrechnung mit 33 multipliziert - Details siehe offizielle OpenAI-Preise
19. Juli
- Unterstützung für das
gpt-4o-mini-Modell hinzugefügt
Backend-Abrechnung entspricht vollständig den offiziellen Preisen
15. Juli
- Unterstützung für den offiziellen API-Parameter
include_usagehinzugefügt
Damit können Usage-Daten im Stream-Modus zurückgegeben werden
Details siehe offizielle Dokumentation
14. Juli
- Die neue Version von NextWeb unterstützt jetzt das Aufrufen von Nicht-OpenAI-Modellen über diese Plattform
- Backend-Abrechnungsunterstützung für Alibaba-Qwen-Modelle hinzugefügt
Aufrufe über diese Plattform kosten ca. 10 % mehr als direkte Nutzung über Alibaba Cloud - Azure-OpenAI-Ausgabe-Kompatibilität mit der Standard-OpenAI-API verbessert
- Tool-Calling-Unterstützung für Claude-3 hinzugefügt
- Viele neue Modelle hinzugefügt (siehe Einstellungen → Verfügbare Modelle)
3. Juli
- Backend-UI insgesamt optimiert
- Jeder Log-Eintrag zeigt jetzt den Modell-Einheitspreis zum Zeitpunkt der Anfrage
- „Modell & Preis”-Seite hinzugefügt
20. Juni
- Das neueste
claude-3-5-sonnet-20240620wird jetzt unterstützt
Siehe Anleitung für den Aufruf von Nicht-OpenAI-Modellen auf dieser Plattform
18. Juni
- Backend-Logs unterstützen jetzt den Download historischer Request-Datensätze
16. Juni
- Die Wahrscheinlichkeit, Requests zufällig an Azure OpenAI zu routen, wurde deutlich reduziert
13. Juni
- Backend-Kosten für Claude-3-Modelle gesenkt
(Claude 3 Haiku,Claude 3 Sonnet,Claude 3 Opus)
Die Backend-Abrechnung entspricht jetzt den offiziellen Preisen
In Folge entspricht der effektive Retail-API-Preis dieser Seite ca. 86 % der offiziellen Preise
10. Juni
- Großes Infrastruktur-Upgrade abgeschlossen
Alle Server und Daten zu Microsoft Azure migriert - Künftige Entwicklung basiert auf dem Open-Source-Projekt OneAPI mit tiefer sekundärer Optimierung
(Eine kommerzielle Lizenz wurde bereits per Sponsoring erworben) - Aufgrund extrem hoher Log-Mengen (über 100 Millionen Datensätze) wurden historische Logs nicht migriert
Bei Bedarf an Legacy-Logs bitte den Support kontaktieren - GPT-4o-Token-Abrechnung optimiert
Tokenizer voncl100k_baseaufo200k_basegeändert
In Folge sind Streaming-Token-Counts für Chinesisch, Koreanisch und Japanisch niedriger als zuvor
8. Juni
- Alibabas neueste Open-Source-Qwen-2-Modelle hinzugefügt:
alibaba/Qwen2-7B-Instructalibaba/Qwen2-57B-A14B-Instructalibaba/Qwen2-72B-Instruct
20. Mai
- Modell hinzugefügt:
gemini-1.5-flash - Modell hinzugefügt:
gpt-4o - Nutzer in Jiangsu können auf der Aufladeseite auf Fehler stoßen aufgrund von DNS-Hijacking durch den Telekom-Provider
Bitte wenden Sie sich an den Kundensupport - Modelle hinzugefügt:
llama3-70b-8192,llama3-8b-8192,
gemini-1.5-pro,command-r,command-r-plus - Claude-3-Modell-Versorgung wiederhergestellt
Endpoints sind derzeit über AWS und Google Cloud deployed - Zur Deckung von Infrastruktur- und Betriebskosten ist die Claude-3-Backend-Abrechnung ca. 10 % höher als die offiziellen Preise
Mit steigender Nutzung wird dies schrittweise auf ca. 5 % oder darunter gesenkt - Concurrency-Limits werden derzeit getestet und werden mit steigender Nachfrage erhöht
Zuletzt aktualisiert: 2026-06-01