Passer au contenu principal

Documentation Index

Fetch the complete documentation index at: https://docs.aihubmix.com/llms.txt

Use this file to discover all available pages before exploring further.

1. Utilisation des modèles et sécurité

AIHubMix conserve-t-elle les données des requêtes API des utilisateurs ?

Par défaut, AIHubMix ne stocke pas le contenu des requêtes que vous envoyez via notre API, et nous ne journalisons pas non plus les réponses renvoyées par les fournisseurs de modèles. AIHubMix agit uniquement comme un proxy, transmettant en toute sécurité votre requête au fournisseur de modèles approprié et vous renvoyant sa réponse sans modification.

La seule exception

Si vous signalez proactivement un problème, soumettez un ticket d’erreur ou demandez de l’aide pour le débogage, AIHubMix peut stocker temporairement des informations techniques liées à l’erreur (telles que les traces de pile, les métadonnées d’invocation ou l’état des endpoints) afin de nous aider à diagnostiquer et résoudre le problème.
Ces journaux n’incluent pas vos données métier, le contenu de votre prompt ni l’intégralité de la charge utile de requête/réponse.

Pourquoi les produits officiels comme Claude ou GPT renvoient-ils des résultats différents de l’API ?

Le modèle sous-jacent est identique ; la différence vient d’optimisations d’ingénierie supplémentaires sur la version web. Explication :
  • La version web est comme un appartement entièrement meublé, avec des fonctionnalités intégrées telles que la recherche, la mémoire, la calculatrice et les prompts système.
  • Les appels API sont comme un appartement non aménagé, ne fournissant que les capacités essentielles. Les développeurs doivent configurer eux-mêmes le contexte et les outils.

Pourquoi l’utilisation de GPT-5 ou des modèles de la série « o » peut-elle entraîner la suspension d’un compte AiHubMix ?

Si vous demandez à GPT-5 ou aux modèles de la série « o » d’« afficher les étapes de raisonnement », d’« afficher la chaîne de pensée » ou de fournir une « trace de raisonnement », le système peut déclencher des politiques de sécurité, ce qui peut temporairement restreindre ou suspendre votre compte. Explication :
  • Les politiques de sécurité officielles pour GPT-5 et les modèles de la série « o » sont plus strictes ; une utilisation normale ne déclenchera pas de blocage.
  • Si votre compte est signalé par erreur ou si vous voyez des messages anormaux, contactez le support par e-mail : feedback@aihubmix.com pour obtenir de l’aide.
  • Pour consulter les résumés de raisonnement du modèle, utilisez la Response API au lieu d’interroger directement le modèle dans le prompt, afin d’éviter de déclencher les politiques de sécurité.

Que faire si votre compte est désactivé ?

Si votre compte a été désactivé, vous pouvez contacter le service client en ligne ou envoyer un e-mail à feedback@aihubmix.com pour demander de l’aide ou la réactivation de votre compte. Les suspensions de compte sont généralement déclenchées automatiquement par les mécanismes de contrôle des risques du système. Les motifs courants se répartissent dans les deux catégories suivantes :
  1. Utilisation des modèles GPT-5 dans des scénarios de traduction immersive Cette série de modèles est conçue pour le raisonnement complexe et la génération de contenu structuré, ce qui la rend inadaptée aux tâches de traduction à haute fréquence et en temps réel. Des appels fréquents dans de tels scénarios peuvent déclencher les politiques de contrôle des risques du système, entraînant des restrictions temporaires ou la suspension du compte. Pour garantir le bon fonctionnement de votre compte, privilégiez l’utilisation de modèles non orientés raisonnement pour les tâches de traduction, tels que :
    • gpt-4.1-mini
    • gpt-4o-mini
  2. Envoi de contenu interdit lors de l’utilisation du modèle Grok Lors de l’utilisation du modèle Grok, si le contenu demandé est jugé par le système comme contraire aux règles d’utilisation (par exemple, contenu violent, sanglant, pornographique, etc.), il déclenchera directement le mécanisme de suspension. Veuillez vous assurer que le contenu de vos requêtes respecte les directives d’utilisation de la plateforme et du modèle, afin d’éviter d’envoyer du contenu illégal ou inapproprié.
Si vous rencontrez une suspension à tort ou des restrictions inhabituelles, vous pouvez soumettre un recours via le service client ou par e-mail. Notez toutefois que si votre compte déclenche plusieurs enregistrements de suspension, il pourrait ne plus être possible de le réactiver.
Si vous êtes développeur, vous pouvez utiliser l’API de modération d’AIHUBMIX pour effectuer des vérifications de conformité sur le contenu d’entrée avant d’envoyer des requêtes, réduisant ainsi le risque d’infraction. Cette étape est facultative, mais fortement recommandée dans les scénarios où le contenu est ouvert ou les entrées utilisateurs incontrôlables.

Pourquoi mon compte ne parvient-il toujours pas à appeler certains modèles (comme Claude Opus ou GPT-5.4-Pro), même s’il dispose d’un solde ?

Nous utilisons un mécanisme de pré-débit. Lors de l’appel à des modèles plus coûteux (comme Claude Opus ou GPT-5.4-Pro), le système estime le coût maximal possible de la sortie en fonction de la limite configurée de jetons de sortie et vérifie votre solde au moment de l’envoi de la requête. Si le solde de votre compte est inférieur au prix par jeton de sortie × nombre maximal de jetons de sortie, la requête peut être rejetée. Pour éviter cela, assurez-vous que le solde de votre compte est suffisant avant d’appeler ces modèles et définissez une limite raisonnable de jetons de sortie maximum ; si elle n’est pas précisée, le système utilisera la valeur par défaut pour l’estimation. Notez que le nom du paramètre pour la sortie maximale diffère selon le modèle : les modèles Claude et GPT utilisent max_tokens, tandis que les modèles Gemini utilisent max_output_tokens.

Pourquoi GPT-5 n’est-il pas recommandé pour les outils de traduction ?

GPT-5 est un modèle de raisonnement conçu pour l’inférence complexe et la génération structurée, et non pour les tâches en temps réel à haute fréquence. Raisons :
  1. Temps de réponse plus lents en raison de plusieurs étapes d’inférence.
  2. Consommation de jetons plus élevée (longs prompts système et contexte de raisonnement).
  3. Les extensions de traduction peuvent involontairement déclencher des politiques de sécurité.
Pour les scénarios de traduction ou de discussion, utilisez des modèles légers comme GPT-4o mini ou Gemini pour des réponses plus rapides et plus stables.

Pourquoi GPT-5 répond-il parfois « Je suis GPT-4 » lorsqu’on lui demande « Qui es-tu » ?

Il s’agit d’une hallucination connue des LLM, lorsque le modèle décrit de manière inexacte ses propres fondements, sa source ou ses capacités. Les développeurs utilisant GPT-4, GPT-5, Claude, etc., peuvent rencontrer des auto-identifications confiantes mais incorrectes. Explication :
  • Ce comportement n’est pas dû à des modifications de la plateforme ou à une altération de la sortie ; c’est normal pour les LLM.
  • GPT-5 n’a pas reçu le nom « GPT-5 » pendant l’entraînement ; le nom a été attribué par la suite par la version officielle.
  • Le modèle ne connaît ni son propre nom ni sa date limite de connaissances ; la version web peut répondre correctement parce qu’elle dispose de prompts système intégrés. Notre version API est l’API officielle non-web.
  • Interroger directement le modèle via l’API peut produire des réponses aléatoires ou inexactes, car il manque de conscience de soi.

Que faire si les appels à certains modèles (comme Gemini-3-Pro) expirent fréquemment ?

Essayez d’augmenter la durée du timeout. Gemini-3-Pro est un grand modèle, et son processus d’inférence nécessite souvent un temps de raisonnement plus long — en particulier pour les tâches complexes où la réponse peut prendre plus de 30 secondes. Par conséquent, le timeout par défaut de 30 secondes peut facilement conduire à des erreurs.
  • Si vous devez utiliser Gemini-3-Pro, veillez à prolonger le timeout de manière appropriée.
  • Si un temps de réponse rapide est essentiel, envisagez de passer à un modèle plus léger comme Gemini 2.0, qui fonctionne mieux avec des timeouts plus courts.

Pourquoi le simple envoi de « Bonjour » a-t-il consommé autant de jetons ?

Certains outils tiers (comme Cline ou Claude Code) incluent automatiquement du contexte ou des prompts système dans les requêtes, qui comptent également dans l’utilisation des jetons. Même si vous ne tapez que « Bonjour », la requête backend peut contenir un historique de discussion étendu ou du texte prédéfini. Ces jetons supplémentaires proviennent de l’outil, et non de la plateforme AiHubMix.

Pourquoi est-ce que je vois l’utilisation de 4o-mini alors que je n’ai appelé que GPT-4o ?

Certains outils tiers peuvent appeler des modèles légers (comme 4o-mini) pour la synthèse de conversation, la recherche ou des calculs auxiliaires.
Votre facture ou vos journaux peuvent donc faire apparaître l’utilisation de jetons de plusieurs modèles.
Cette utilisation supplémentaire provient des configurations de l’outil, et non d’un changement automatique de modèle par AiHubMix.

Quelle est la limite de concurrence des requêtes API ?

AiHubMix n’impose actuellement pas de limite de concurrence uniforme. Contactez le support via feedback@aihubmix.com si vous rencontrez des problèmes de concurrence.

Pourquoi les résultats varient-ils pour le même prompt ?

Les grands modèles de langage utilisent un échantillonnage probabiliste (par exemple, temperature, top-p) pour générer du texte, en choisissant aléatoirement parmi plusieurs jetons possibles à chaque fois.
  • Diminuer la température ou désactiver l’échantillonnage peut rendre les résultats plus cohérents.
  • Les variations peuvent également être affectées par le contexte, les prompts système ou les conditions réseau.

Pourquoi les réponses du modèle Claude se terminent-elles prématurément ?

Pour le modèle Claude, AIHubMix prend actuellement en charge deux méthodes d’appel :
  1. Interface compatible OpenAI Chat
  2. Interface native Anthropic Claude
Lors de l’invocation du modèle Claude via l’interface compatible OpenAI Chat, le système utilise par défaut max_tokens=4096. Si une valeur max_tokens plus élevée n’est pas explicitement définie dans la requête, le modèle cessera automatiquement de produire des données dès qu’il atteindra cette limite. Ainsi, le phénomène de « réponse se terminant avant son achèvement » n’est généralement pas dû à un dysfonctionnement du modèle, mais au fait qu’il a atteint la restriction de longueur de sortie par défaut. Comment générer des textes plus longs ? Avec l’interface compatible OpenAI Chat, vous pouvez définir manuellement un paramètre max_tokens plus important, par exemple :
completion = client.chat.completions.create(
  model="claude-sonnet-4-6",
  max_tokens=6000,
  messages=[
    {
      "role": "assistant",
      "content": "Always respond in Chinese"
    },
    {
      "role": "user",
      "content": "What is the meaning of life?, over 6000 words"
    }
  ]
)
max_tokens ne doit pas dépasser la limite maximale prise en charge par le modèle correspondant. Si la troncature persiste après l’avoir défini, veuillez fournir le nom du modèle et les paramètres complets de la requête pour une investigation plus poussée.

2. Appels API et données

Quels endpoints API sont disponibles ?

AiHubMix fournit une passerelle unifiée compatible avec plusieurs standards de modèles courants :
  • Endpoint standard OpenAI : https://aihubmix.com/v1 (prend en charge GPT et les modèles compatibles)
  • Endpoint dédié Gemini : https://aihubmix.com/gemini (compatible avec les standards natifs Google)
  • Endpoint à redirection automatique Claude : https://aihubmix.com (prend en charge les appels du SDK Anthropic)

Quelles données sont enregistrées lors de l’utilisation de l’API ?

Nous ne journalisons que les données d’utilisation nécessaires : informations de compte, enregistrements d’appels, modèles utilisés, consommation de jetons et informations de paiement. Garantie de confidentialité :
  • Les entrées utilisateur et les sorties du modèle ne sont pas stockées.
  • Les données sont utilisées uniquement pour la facturation et l’optimisation du service, et non pour l’analyse de contenu ou le partage avec des tiers.
  • AiHubMix ne conserve pas les données détaillées des requêtes ; cependant, les fournisseurs cloud sous-jacents peuvent journaliser les accès pour des raisons de sécurité ou de conformité, conformément à leurs politiques de confidentialité.
Consultez la politique de confidentialité d’AiHubMix pour plus de détails.

3. Connaissances sur les modèles et phénomènes courants

Qu’est-ce qu’une hallucination de l’IA ?

L’hallucination de l’IA se produit lorsqu’un grand modèle de langage génère des informations factuellement incorrectes, non étayées ou entièrement fictives. Causes possibles :
  • Biais ou lacunes dans les données d’entraînement.
  • Surapprentissage des paramètres du modèle.
  • Caractère aléatoire lors de la génération.
Les hallucinations sont communes à tous les LLM et n’indiquent pas une défaillance du système.

4. Utilisation et dépannage

Comment puis-je suivre l’utilisation et la consommation de l’API ?

Vous pouvez consulter le volume d’appels, l’utilisation des jetons et les détails de facturation via le tableau de bord AiHubMix. Prise en charge de la catégorisation par modèle et par période, ce qui aide à optimiser l’utilisation et à gérer les coûts.

Que faire si un appel échoue ou renvoie une erreur ?

Les erreurs d’API comprennent un code d’erreur et une explication. Causes courantes :
  • Format de requête incorrect.
  • Modèle indisponible ou limite d’utilisation dépassée.
Consultez le guide API pour le dépannage, ou contactez le support via feedback@aihubmix.com.

Comment gérer ma clé API ?

Les utilisateurs peuvent générer, révoquer ou mettre à jour leurs clés API via le tableau de bord.
  • N’exposez pas vos clés API dans des environnements publics.
  • Utilisez des clés distinctes pour différents projets.
  • Faites tourner les clés régulièrement pour garantir la sécurité du compte.

Dernière mise à jour : 2026-06-01