
Auto Router
Définissez le nom du modèle surauto, et la passerelle sélectionne le meilleur modèle parmi les centaines disponibles sur la plateforme en fonction de votre requête — avec des stratégies privilégiant le coût, la qualité ou la faible latence, facturé selon le modèle réellement appelé. Aucune comparaison ni changement de modèle manuel, et aucune modification du code client. Voir Auto Router.
N’importe quel modèle sur le protocole Responses
Le point de terminaison/v1/responses n’est plus limité à la famille GPT — il peut désormais appeler n’importe quel modèle de la plateforme. Les outils bâtis sur le protocole Responses (comme Codex CLI) peuvent donc utiliser GLM, Gemini, DeepSeek, Kimi, Qwen, et bien d’autres via un catalogue de modèles local, au lieu d’être restreints aux modèles officiels d’OpenAI. Voir Codex CLI · Modèles personnalisés.
Model Mapping & Fallback
Configurez le mappage d’alias et le basculement en cas d’échec par clé API dans la console : votre client peut utiliser n’importe quel nom de modèle, que la passerelle réécrit vers le véritable modèle en amont ; si le modèle principal échoue, elle bascule automatiquement vers un modèle de secours, facturé selon le modèle qui répond finalement. Un simple incident ne fera pas tomber votre trafic de production, et le code client reste inchangé. Voir Model Mapping & Fallback.CLI AIHubMix
Un binaire unique sans aucune dépendance — pas besoin de Python, Node ou Go. Consultez votre solde, gérez vos clés API et listez les modèles disponibles directement depuis le terminal, avec une prise en charge de premier ordre des scripts et des agents IA comme Claude Code. Voir AIHubMix CLI.Skill AIHubMix (extension pour les agents de codage IA)
Une extension locale pour les agents IA qui prennent en charge les Skills — Codex, Claude Code, Cursor, Cline, et d’autres. Utilisez le langage naturel pour intégrer AIHubMix, interroger les modèles, sélectionner par capacité, générer des exemples et résoudre les erreurs. Plutôt que d’embarquer une liste de modèles figée, le Skill lit à la demande les informations en temps réel sur les modèles, les tarifs et les protocoles depuis les API officielles d’AIHubMix, de sorte que l’agent ne s’appuie jamais sur une mémoire obsolète. Voir Skills.Domaine de secours : api.inferera.com
Lorsque le domaine principalaihubmix.com est inaccessible ou en délai d’attente, dirigez vos requêtes vers https://api.inferera.com. Les points de terminaison et les capacités sont identiques — votre clé API, votre modèle et le corps de votre requête ne changent pas.
Également déployé
- Entrée audio Gemini : le point de terminaison compatible OpenAI (
/v1/chat/completions) accepte désormaisinput_audioet renvoie audio_tokens dans usage. - Reasoning effort GLM 5.2 : le canal natif Zhipu prend en charge
reasoning_effortpour ajuster la profondeur de réflexion. - Intégration Open Design : AIHubMix est désormais une passerelle BYOK intégrée pour Open Design.
- Correctif du plugin OpenClaw : aihubmix-auth est corrigé et stable à l’usage.
Stabilité & correctifs
- Précision de facturation et exactitude du comptage du cache améliorées.
- Correction des modèles manquants dans
/v1/models. - Correction de plusieurs problèmes de génération vidéo et de test de canaux.
Nouveaux modèles ce mois-ci (~20)
Chat / Généraliste- claude-fable-5 [Retiré] : la dernière génération de Claude, avec des garde-fous de sécurité renforcés (voir Changelog · notes Fable 5).
- minimax-m3, qwen3.7-plus, glm-5.2, et Doubao doubao-seed-2-1-pro / doubao-seed-2-1-turbo.
- kimi-k2.7-code et kimi-k2.7-code-highspeed : la série code de Kimi, incluant une variante haute vitesse.
- coding-glm-5.2 et la version gratuite coding-glm-5.2-free.
- Kling : texte-vers-vidéo, image-vers-vidéo, référence multi-images et génération multimodale omni.
- happyhorse-1.1 : texte-vers-vidéo (t2v), référence (r2v) et image-vers-vidéo (i2v).
- musesteamer-air-image de Baidu pour la génération d’images.
- grok-build-0.1, hy3-preview, et la version gratuite step-3.7-flash-free.
Tarifs & avis
- step-3.7-flash, -90 % (durée limitée) : 0.132 / M tokens en sortie.
- Dépréciation & routage automatique :
claude-opus-4-20250514etclaude-sonnet-4-20250514ont été retirés en amont le 15 juin ; la plateforme les redirige automatiquement vers les versions 4-5 de la même famille.
FAQ
Quels modèles ont été ajoutés ce mois-ci ? Une vingtaine, couvrant le chat (claude-fable-5 [Retiré], minimax-m3, qwen3.7-plus, glm-5.2, série doubao-seed-2-1), le code (série kimi-k2.7-code, coding-glm-5.2), la vidéo (Kling, happyhorse-1.1) et l’image (musesteamer-air-image). Comment utiliser l’Auto Router ? Définissez le nom du modèle dans votre requête surauto ; la passerelle sélectionne le meilleur modèle en fonction de votre requête et facture selon le modèle réellement appelé, sans aucune modification du code client. Voir Auto Router.
Que faire si le domaine principal est inaccessible ?
Remplacez l’adresse de la requête par le domaine de secours https://api.inferera.com. Les points de terminaison et les capacités sont identiques, et aucun paramètre n’a besoin d’être modifié.
Quel est le tarif à durée limitée de step-3.7-flash ?
0.132 / M tokens en sortie.
Parcourez tous les modèles sur le catalogue de modèles, et trouvez les détails d’intégration dans la documentation.
Mis à jour : 2026-06-30