Zum Hauptinhalt springen

Documentation Index

Fetch the complete documentation index at: https://docs.aihubmix.com/llms.txt

Use this file to discover all available pages before exploring further.

2026

29. März

Detailseite zu Logs
  • Latenz: Gibt an, wie schnell eine Anfrage startet (Zeit von der Anfrage bis zum ersten zurückgegebenen Token)
  • Durchsatz: Klare Messgröße für die Ausgabegeschwindigkeit des Modells
  • E2E-Latenz: Gesamtzeit von Anfrage bis Abschluss; zur Bewertung der Gesamtleistung der Anfrage
  • Provider: Identifiziert den Modellanbieter, der die Anfrage verarbeitet hat
  • Status: Zeigt das Ergebnis (z. B. Erfolg / Fehlschlag) zur schnellen Erkennung von Anomalien
  • TID: Eindeutige Anfragen-ID, die mit dem Support geteilt werden kann, um Probleme schneller zu beheben

23. März

  • Das AIHubMix Global Acceleration Network ist live: aufgebaut auf eigenen globalen Edge-Knoten und intelligentem Routing, mit kontinuierlichem Monitoring und dynamischer Optimierung – 75 % geringere Latenz, 60 % höhere Stabilität und 99,99 % Verfügbarkeit. Schnelleres, zuverlässigeres KI-Erlebnis.
  • 24/7-Echtzeit-Health-Monitoring hinzugefügt: Verteilte Sonden scannen das gesamte Netzwerk minütlich, verfolgen Latenz, Erfolgsrate und Stabilität. Probleme werden erkannt und behoben, bevor Nutzer sie bemerken – für gleichbleibende Performance.
  • Verbessertes intelligentes Traffic-Routing: Knotengesundheit wird dynamisch über mehrere Zeitfenster bewertet, mit Millisekunden-Switching zur optimalen Route – deutlich weniger Schwankungen und Timeouts bei höherer Erfolgsrate.

8. Februar

  • Neue Funktion: Chat → Responses-Kompatibilität
    Dieses Release führt die Chat → Responses-Kompatibilität ein, sodass die Chat-Completions-API OpenAI-Modelle aufrufen kann, die nur das Responses-Protokoll unterstützen – darunter gpt-5.2-codex, gpt-5.1-codex-max und gpt-5.2-pro. Wenn Sie die AIHubmix-Chat-API zwingen möchten, Anfragen über das Responses-Protokoll zu routen, fügen Sie folgenden Header hinzu:
    X-Use-Responses-Enabled: true Wenn ein Modell sowohl Chat als auch Responses unterstützt, erzwingt dieser Header die Verwendung der Responses-API.
    Beachten Sie: Das Responses-Protokoll unterstützt derzeit weder Audioeingabe noch -ausgabe; planen Sie die Nutzung entsprechend.
  • Hinweis zur Modell-Abkündigung:
    OpenAI wird chatgpt-4o-latest am 17. Februar 2026 abkündigen. Danach mappen wir chatgpt-4o-latest automatisch auf gpt-4o-2024-11-20.

2025

15. Dezember

  • Neue Funktion: Die Google-API unterstützt jetzt die Files API.

22. September

10. August

1. August

29. Juli

  • Unterstützung für AI SDK hinzugefügt: Zugriff auf eine Vielzahl von Modellen mit einem einzigen API-Schlüssel

26. Juli

23. Juli

  • Unterstützung für Qwen Code hinzugefügt; nutzt alle auf der Aihubmix-Plattform verfügbaren LLMs

4. Juli

  • Unterstützung für llms.txt hinzugefügt: Mit einem Klick standardisierte Modellnavigation erhalten, damit Ihr LLM-Assistent das gesamte Modellökosystem schnell versteht

29. Juni

  • Forwarding-Unterstützung für Gemini CLI mit mehreren flexiblen Nutzungsmodi
  • Code Interpreter und Remote-MCP-Aufrufe zur OpenAI Responses API hinzugefügt

26. Juni

23. Juni

  • APP-Code gestartet – 10 % Rabatt für Entwickler auf alle Modelle

18. Juni

  • HTTP-Statuscode-Dokumentation hinzugefügt, um Fehler besser zu verstehen

15. Juni

  • Reverse-engineerter Veo-3.0-Zugang hinzugefügt – Gesamtkosten nur $0,41 pro Video-Generierung

13. Juni

  • Unterstützung für Veo-3.0-Videogenerierung hinzugefügt, um kreative Formate zu erweitern

12. Juni

  • Claude Code integriert für stabile Nutzung im chinesischen Festland

9. Juni

  • Unterstützung für OpenAI Reasoning Summaries in der Responses API hinzugefügt

5. Juni

  • Implizites Caching für Gemini hinzugefügt, mit automatischen Cache-Hits und Hit-Rückmeldung
    Entwickler können usage_metadata nutzen, um Cache-Hits zu erkennen
    Kosteneinsparungen sind nicht garantiert und hängen von Anfragestruktur und Nutzungsszenario ab

31. Mai

Vollständige Unterstützung neuer Claude-4-Funktionen
  • Neuer Cache-TTL: 1-Stunden-Cache-Unterstützung Beta
  • 🎉 Neue Texteditor-Tools: Claude 4 unterstützt jetzt text_editor_20250429 und str_replace_based_edit_tool
  • 🚫 Neuer Refusal-Stop-Reason für sicherheitsbedingte Ablehnungen
  • 🧠 Extended Thinking: Claude 4 gibt nun vollständige Zusammenfassungen seines Denkprozesses zurück
  • 🔄 Interleaved Thinking: Tool-Nutzung kann jetzt mit Extended Thinking verschränkt werden für natürlichere Konversationen (Beta)
  • ⚠️ Veraltete Funktionen:
    • undo_edit wird nicht mehr unterstützt
    • token-efficient-tools-2025-02-19 entfernt (nur Claude 3.7)
    • output-128k-2025-02-19 entfernt (nur Claude 3.7)
  • 📚 Vollständige Migrationsanleitungen und Codebeispiele wurden aktualisiert, um den Wechsel von Claude 3.7 auf Claude 4 zu erleichtern

22. Mai

  • Unterstützung für das Dify-Plugin hinzugefügt, das die nahtlose Integration der Aihubmix-Modelle in Dify ermöglicht
    Mehr als 200 Modelle mit einem einzigen API-Schlüssel verwalten

17. Mai

  • Unterstützung für codex-mini-latest hinzugefügt – optimiert für Programmieraufgaben, verfügbar über Responses API oder Codex CLI
  • Unterstützung für Google Imagen 3.0 Bildgenerierung und Veo 2.0 Videogenerierung hinzugefügt
  • gemini-2.0-flash-exp aktualisiert auf die offizielle Preview-Version gemini-2.0-flash-preview-image-generation

9. Mai

  • Ideogram AI V3-API hinzugefügt – Ideograms fortschrittlichstes Bildgenerierungsmodell

6. Mai

26. April

  1. Die mit Spannung erwartete OpenAI-Bildgenerierungs-API gpt-image-1 ist live – Text-zu-Bild und Bild-zu-Bild
  2. Native Gemini-API-Unterstützung mit präziser Reasoning-Budget-Steuerung für Flash 2.5 hinzugefügt

24. April

  • Drei zentrale Jina-AI-APIs integriert, um leistungsfähige Agents zu bauen: Embeddings, Rerank und DeepSearch

22. April

  • Frühzugang (reverse-engineert) zur GPT-4o-Bildgenerierungs-API

20. April

  • Unterstützung für den OpenAI-Responses-API-Endpoint mit erweiterten Tool-Funktionen hinzugefügt

17. April

12. April

9. April

  • Claude-Prompt-Caching hinzugefügt – bis zu 76 % Kosteneinsparung bei wiederkehrenden Prompts

7. April

  • Ideogram-AI-Bildgenerierung hinzugefügt: starkes Text-Rendering, Hybrid-Generierung, lokale Bearbeitung und Upscaling

5. April

  • Komplett neues Dokumentationserlebnis veröffentlicht

30. März

  • Unterstützung für das Claude-Texteditor-Tool hinzugefügt

24. März

  • Brandneues Trident-Logo eingeführt

16. März

  • Native Suchunterstützung für OpenAI- und Google-Gemini-Modelle hinzugefügt
  • Drittanbieter-Suchintegration folgt in zukünftigen Updates

15. März

  • Modelle hinzugefügt: gpt-4o-mini-search-preview und gpt-4o-search-preview

7. März

  • Preise für o1 und o3-mini um 10 % gesenkt – im Einklang mit offiziellen Preisen

6. März

  • Aufgrund einer 7-fachen Upstream-Preiserhöhung von Microsoft stieg auch der Preis von aihubmix-DeepSeek-R1 um das 7-Fache
    Empfohlene Alternative: DeepSeek-R1 von Volcano Engine (stabiler und kostengünstiger)
    Modelle hinzugefügt: qwen-qwq-32b und qwen2.5-vl-72b-instruct

28. Februar

  • 15 % Preisreduzierung bei allen Claude-Modellen
  • Modell gpt-4.5-preview hinzugefügt (extrem teuer – mit Vorsicht verwenden)

26. Februar

  • DeepSeek-Stabilität verbessert
  • ByteDance-Versionen von DeepSeek sind derzeit am stabilsten
    Empfohlene Modelle: DeepSeek-R1 und DeepSeek-V3

25. Februar

  • Modell claude-3-7-sonnet-20250219 hinzugefügt

24. Februar

  • Das gpt-4o-Modell kann aufgrund von Upstream-Problemen gelegentlich sehr langsam antworten
    Empfohlen wird temporär auf gpt-4o-2024-11-20 umzustellen
  • Die Perplexity-API ist temporär offline
    Aufgrund von Perplexitys komplexem Abrechnungsmodell und höheren Kosten als die Preisstruktur dieser Plattform wird der Dienst nach Preisanpassungen erneut gestartet
  • Der temporäre offizielle ByteDance-Rabatt ist beendet, die Preise sind wieder normal
    Der Preis von DeepSeek-R1 wurde entsprechend erhöht
  • Neue Modell-Detailseite mit vollständigen Parameterinformationen hinzugefügt

23. Februar

  • Der temporäre offizielle ByteDance-Rabatt ist beendet, die Preise sind wieder normal
    Der Preis von DeepSeek-V3 wurde erhöht
    Auch das R1-Modell von ByteDance wird voraussichtlich bald wieder normale Preise haben; die Plattform wird die Preise entsprechend anpassen

18. Februar

  • Modell hinzugefügt: kimi-latest
    (Offiziell nach Eingabelänge gestaffelt zu 8k, 32k und 128k abgerechnet.
    Diese Plattform unterstützt keine gestaffelte Abrechnung und verwendet die mittlere Stufe 32k als Standardpreis.
    Wenn Sie preissensibel sind, mit Vorsicht verwenden.)
  • Layout der Website insgesamt optimiert
  • Changelog-Seite in die Nutzungsstatistik-Seite zusammengeführt
  • Ankündigungen in die Modell-Marktplatz-Seite verschoben
  • Einstellungen in das Benutzeravatar-Menü verschoben
  • Preis von aihubmix-DeepSeek-R1 um 50 % gesenkt
  • Modelle hinzugefügt:
    gemini-2.0-pro-exp-02-05-search, gemini-2.0-flash-exp-search
    (mit offizieller Online-Suche von Google integriert)
  • Modelle hinzugefügt:
    gemini-2.0-flash, gemini-2.0-pro-exp-02-05, gemini-2.0-flash-lite-preview-02-05
  • Modelle hinzugefügt:
    o3-mini, o1
    (Diese beiden Modelle werden aufgrund begrenzter Account-Ressourcen ca. 10 % teurer als offiziell abgerechnet)

4. Februar

  • Das o1-Modell unterstützt in der offiziellen OpenAI-API den stream-Parameter nicht
  • Das o3-mini-Modell unterstützt den temperature-Parameter nicht
    Ein neuer Parameter reasoning_effort ist verfügbar mit Werten: "low", "medium", "high"
    Standard ist "medium", wenn nicht angegeben

1. Februar

Funktions-Update:
  • Unterstützung für OpenAI-Audio-Modell-Eingabe und -Ausgabe hinzugefügt
    Der Preview-Server api.aihubmix.com ist nun verfügbar
    Nach einer Woche stabiler Laufzeit wird die Hauptseite aktualisiert
    Backend-Abrechnung entspricht vollständig den offiziellen Preisen
    Aktuell zeigen Nutzungs-Logs nur Text-Token-Nutzung
    Audio-Token-Nutzung wird noch nicht in den Logs angezeigt, beeinträchtigt aber die Nutzung nicht
Neue Modelle:
  • o3-mini, o1
    (ca. 10 % teurer als offiziell, da Account-Verfügbarkeit begrenzt ist)
  • aihubmix-DeepSeek-R1 (empfohlen, sehr stabil)
  • qwen-max-0125 (Qwen2.5-Max), sonar-reasoning
  • deepseek-ai/DeepSeek-R1-Zero, deepseek-ai/DeepSeek-R1, deepseek-r1-distill-llama-70b
  • aihub-Phi-4
  • Doubao-1.5-pro-256k, Doubao-1.5-pro-32k,
    Doubao-1.5-lite-32k, Doubao-1.5-vision-pro-32k
  • sonar, sonar-pro (neueste von Perplexity AI)
  • gemini-2.0-flash-thinking-exp-01-21
  • deepseek-reasoner (alias DeepSeek-R1)
  • MiniMax-Text-01
  • codestral-latest (Mistrals neues Code-Modell – Codestral 25.01)

23. Januar

Neue Modelle:
  • aihub-Phi-4
  • Doubao-1.5-pro-256k, Doubao-1.5-pro-32k,
    Doubao-1.5-lite-32k, Doubao-1.5-vision-pro-32k
  • sonar, sonar-pro (neueste von Perplexity AI)
  • gemini-2.0-flash-thinking-exp-01-21
  • deepseek-reasoner (alias DeepSeek-R1)

19. Januar

  • Perplexity-AI-API-Modelle hinzugefügt
    Derzeit nur auf dem Preview-Server api.aihubmix.com unterstützt
    Nach stabilem Test erfolgt das Rollout auf den Hauptserver aihubmix.com
  • api.aihubmix.com ist der Preview-Server
    Neue Features werden zuerst dort deployed und nach ca. 1 Woche Stabilitätstest auf den Hauptserver übertragen
Neue Modelle:
  • MiniMax-Text-01
  • codestral-latest (Mistral Codestral 25.01)
  • gpt-4o-zh
    Übersetzt jegliche Eingabe automatisch ins Englische, bevor sie inferiert wird,
    und übersetzt die Modellausgabe automatisch zurück ins Chinesische
    (Dieses Feature befindet sich im Test und unterstützt nur gpt-4o; hohe Parallelität wird nicht unterstützt)

6. Januar

  • gemini-2.0-flash-exp-search hinzugefügt – unterstützt native Google-Online-Suche
    Das offizielle Gemini-2.0-Flash-Modell benötigt zusätzliche Parameter für Online-Suche
    Aihubmix hat diese Funktion integriert – hängen Sie einfach search an den Modellnamen an
  • Modell hinzugefügt: deepseek-ai/DeepSeek-V3

1. Januar

  • Neue Modell-Marktplatz-Seite veröffentlicht, ersetzt die alte „Model & Pricing”-Seite

2024

30. Dezember

  • Problem behoben, bei dem gemini-2.0-flash-thinking-exp-1219 nur Reasoning, aber keine endgültige Antwort zurückgab
  • Problem behoben, dass Balance-Erinnerungsmails nicht zugestellt wurden

22. Dezember

  • Nutzungsstatistik-Seite hinzugefügt
  • Aufladungs-Verlauf-Seite hinzugefügt
  • Doubao-Modellserie hinzugefügt:
    Doubao-lite-128k, Doubao-lite-32k, Doubao-lite-4k,
    Doubao-pro-128k, Doubao-pro-256k, Doubao-pro-32k, Doubao-pro-4k
  • Modell hinzugefügt: gemini-2.0-flash-thinking-exp-1219
  • Modelle hinzugefügt:
    gemini-2.0-flash-exp, aihubmix-Mistral-Large-2411,
    aihubmix-Llama-3-3-70B-Instruct, grok-2-1212, grok-2-vision-1212
  • Modelle hinzugefügt:
    gemini-exp-1206, llama-3.3-70b-versatile, learnlm-1.5-pro-experimental

14. Dezember

  • Modelle hinzugefügt:
    gemini-2.0-flash-exp, aihubmix-Mistral-Large-2411,
    aihubmix-Llama-3-3-70B-Instruct

8. Dezember

  • Modelle hinzugefügt:
    gemini-exp-1206, llama-3.3-70b-versatile, learnlm-1.5-pro-experimental
  • Nutzungsstatistik-Seite hinzugefügt

21. November

  • Kürzlich hinzugefügte Modelle:
    gpt-4o-2024-11-20, step-2-16k, grok-vision-beta
  • Qwen-2.5-Turbo-Modell mit Millionen-Kontext:
    qwen-turbo-2024-11-01

7. November

  • Kompatibilität mit dem nativen Claude-SDK ergänzt
    Der Endpoint v1/messages ist nun verfügbar
  • Native Claude-Prompt-Caching- und Computer-Use-Funktionen werden noch nicht unterstützt
    Diese werden in den nächsten zwei Wochen fertiggestellt

5. November

  • Modell hinzugefügt: claude-3-5-haiku-20241022
  • Elon Musks xAI-Neuestes-Modell hinzugefügt: grok-beta

23. Oktober

  • Modell hinzugefügt: claude-3-5-sonnet-20241022

10. Oktober

  • OpenAIs neuestes Caching-Feature ist live
    Aktuell unterstützte Modelle:
    • GPT-4o
    • GPT-4o-mini
    • o1-preview
    • o1-mini
  • Hinweis: gpt-4o-2024-05-13 steht nicht auf der offiziell unterstützten Liste
  • Cache-Hit-Token werden in den Backend-Logs sichtbar, wenn ein Request den Cache trifft
  • Vollständige Details und Nutzungsregeln finden Sie in der offiziellen OpenAI-Dokumentation

3. Oktober

  • Backend-Abrechnung für gpt-4o wurde an die offiziellen Preise angeglichen
  • Modelle hinzugefügt:
    aihubmix-Llama-3-2-90B-Vision, aihubmix-Llama-3-70B-Instruct
  • Cohere-neuste Modelle hinzugefügt:
    aihubmix-command-r-08-2024, aihubmix-command-r-plus-08-2024

19. September

  • Modelle hinzugefügt: whisper-large-v3 und distil-whisper-large-v3-en
  • Hinweis: Whisper-Modell-Abrechnung erfolgt nach Eingabe-Sekunden
    Die aktuelle Preisanzeige auf der Seite ist falsch und wird korrigiert
    Backend-Abrechnung für whisper-1 entspricht vollständig den offiziellen OpenAI-Preisen

13. September

  • Modelle hinzugefügt: o1-mini und o1-preview
    Hinweis: Diese Modelle erfordern aktualisierte Parameter
    Manche Client-Oberflächen können Fehler werfen, wenn Standardwerte nicht aktualisiert sind
Tests zeigen, dass das o1-Modell Folgendes NICHT unterstützt:
  • system-Feld → 400-Fehler
  • tools-Feld → 400-Fehler
  • Bildeingabe → 400-Fehler
  • json_object-Ausgabe → 500-Fehler
  • structured-Ausgabe → 400-Fehler
  • logprobs-Ausgabe → 403-Fehler
  • stream-Ausgabe → 400-Fehler
Ratenlimits und feste Parameter:
  • o1-Serie: 20 RPM, 150.000.000 TPM – extrem niedrig, häufige 429-Fehler möglich
  • temperature, top_p und n sind auf 1 festgelegt
  • presence_penalty und frequency_penalty sind auf 0 festgelegt

10. September

  • Modell hinzugefügt: mattshumer/Reflection-Llama-3.1-70B
    (Berichten zufolge eine der stärksten Feintuning-Varianten von LLaMA 3.1 70B)
  • Preise der Claude-3-Modelle erhöht
    Zur Sicherstellung der stabilen Versorgung sind Aufrufe über diese Plattform aktuell ca. 10 % teurer als die direkte offizielle Nutzung
  • Erhöhte Concurrency-Kapazität für OpenAI-Modelle
    Das System unterstützt theoretisch nahezu unbegrenzte Parallelität

11. August

  • Modelle hinzugefügt:
    Phi3medium128k, ahm-Phi-3-medium-4k, ahm-Phi-3-small-128k
  • Stabilität für LLaMA-Modelle verbessert
  • Kompatibilität für Claude-Modelle weiter optimiert

7. August

4. August

  • Direkte Online-Zahlung für Aufladungen hinzugefügt
  • Claude-Mehrfach-Konversationsformat-Fehler behoben:
    messages: roles must alternate between "user" and "assistant", but found multiple "user" roles in a row
  • Index-Handling bei Function-Calling mit Claude-Modellen optimiert
  • Der Backup-Server https://orisound.cn wird am 7. September vollständig stillgelegt
    Bitte migrieren Sie zum Hauptserver https://aihubmix.com oder Backup-Server https://api.aihubmix.com

27. Juli

  • Unterstützung für Mistral Large 2 hinzugefügt
    Modellname: Mistral-large-2407 oder aihubmix-Mistral-large-2407
  • Systemoptimierungen

24. Juli

  • Neueste LLaMA-3.1-Modelle hinzugefügt:
    llama-3.1-405b-instruct, llama-3.1-70b-versatile, llama-3.1-8b-instant

20. Juli

  • Probleme bei der Preisberechnung für gpt-4o-mini behoben
    • Texteingabe-Preis: 1/33 von GPT-4o offiziell
    • Bildeingabe-Preis: gleich GPT-4o
  • Um mit offiziellen Preisen übereinzustimmen, werden Image-Token-Counts von gpt-4o-mini bei der Abrechnung mit 33 multipliziert
  • Details siehe offizielle OpenAI-Preise

19. Juli

  • Unterstützung für das gpt-4o-mini-Modell hinzugefügt
    Backend-Abrechnung entspricht vollständig den offiziellen Preisen

15. Juli

  • Unterstützung für den offiziellen API-Parameter include_usage hinzugefügt
    Damit können Usage-Daten im Stream-Modus zurückgegeben werden
    Details siehe offizielle Dokumentation

14. Juli

  • Die neue Version von NextWeb unterstützt jetzt das Aufrufen von Nicht-OpenAI-Modellen über diese Plattform
  • Backend-Abrechnungsunterstützung für Alibaba-Qwen-Modelle hinzugefügt
    Aufrufe über diese Plattform kosten ca. 10 % mehr als direkte Nutzung über Alibaba Cloud
  • Azure-OpenAI-Ausgabe-Kompatibilität mit der Standard-OpenAI-API verbessert
  • Tool-Calling-Unterstützung für Claude-3 hinzugefügt
  • Viele neue Modelle hinzugefügt (siehe Einstellungen → Verfügbare Modelle)

3. Juli

  • Backend-UI insgesamt optimiert
  • Jeder Log-Eintrag zeigt jetzt den Modell-Einheitspreis zum Zeitpunkt der Anfrage
  • „Modell & Preis”-Seite hinzugefügt

20. Juni

  • Das neueste claude-3-5-sonnet-20240620 wird jetzt unterstützt
    Siehe Anleitung für den Aufruf von Nicht-OpenAI-Modellen auf dieser Plattform

18. Juni

  • Backend-Logs unterstützen jetzt den Download historischer Request-Datensätze

16. Juni

  • Die Wahrscheinlichkeit, Requests zufällig an Azure OpenAI zu routen, wurde deutlich reduziert

13. Juni

  • Backend-Kosten für Claude-3-Modelle gesenkt
    (Claude 3 Haiku, Claude 3 Sonnet, Claude 3 Opus)
    Die Backend-Abrechnung entspricht jetzt den offiziellen Preisen
    In Folge entspricht der effektive Retail-API-Preis dieser Seite ca. 86 % der offiziellen Preise

10. Juni

  • Großes Infrastruktur-Upgrade abgeschlossen
    Alle Server und Daten zu Microsoft Azure migriert
  • Künftige Entwicklung basiert auf dem Open-Source-Projekt OneAPI mit tiefer sekundärer Optimierung
    (Eine kommerzielle Lizenz wurde bereits per Sponsoring erworben)
  • Aufgrund extrem hoher Log-Mengen (über 100 Millionen Datensätze) wurden historische Logs nicht migriert
    Bei Bedarf an Legacy-Logs bitte den Support kontaktieren
  • GPT-4o-Token-Abrechnung optimiert
    Tokenizer von cl100k_base auf o200k_base geändert
    In Folge sind Streaming-Token-Counts für Chinesisch, Koreanisch und Japanisch niedriger als zuvor

8. Juni

  • Alibabas neueste Open-Source-Qwen-2-Modelle hinzugefügt:
    • alibaba/Qwen2-7B-Instruct
    • alibaba/Qwen2-57B-A14B-Instruct
    • alibaba/Qwen2-72B-Instruct

20. Mai

  • Modell hinzugefügt: gemini-1.5-flash
  • Modell hinzugefügt: gpt-4o
  • Nutzer in Jiangsu können auf der Aufladeseite auf Fehler stoßen aufgrund von DNS-Hijacking durch den Telekom-Provider
    Bitte wenden Sie sich an den Kundensupport
  • Modelle hinzugefügt:
    llama3-70b-8192, llama3-8b-8192,
    gemini-1.5-pro, command-r, command-r-plus
  • Claude-3-Modell-Versorgung wiederhergestellt
    Endpoints sind derzeit über AWS und Google Cloud deployed
  • Zur Deckung von Infrastruktur- und Betriebskosten ist die Claude-3-Backend-Abrechnung ca. 10 % höher als die offiziellen Preise
    Mit steigender Nutzung wird dies schrittweise auf ca. 5 % oder darunter gesenkt
  • Concurrency-Limits werden derzeit getestet und werden mit steigender Nachfrage erhöht

Zuletzt aktualisiert: 2026-06-01