Documentation Index
Fetch the complete documentation index at: https://docs.aihubmix.com/llms.txt
Use this file to discover all available pages before exploring further.
Redirection pour les modèles Gemini
Pour la série Gemini, nous proposons deux méthodes d’invocation : les appels API natifs et les appels compatibles OpenAI.Avant de commencer, assurez-vous d’installer ou de mettre à jour la dépendance native en exécutant
pip install google-genai ou pip install -U google-genai.
1️⃣ Pour l’intégration native, Gemini gère automatiquement le routage du trafic entre AI Studio et VertexAI. Il suffit de fournir votre clé API AIHubMix et l’URL de requête appropriée. N’oubliez pas que cette URL est différente du base_url habituel — suivez l’exemple ci-dessous pour garantir une configuration correcte.
v1.
- Invocation native : passez
include_thoughts=True - Méthode compatible OpenAI : passez
reasoning_effort
Instructions pour Gemini 3 Pro Image Preview
Gemini 3 Pro Image Preview (Nano Banana Pro Preview) est conçu pour la création professionnelle d’assets et les instructions complexes. Ce modèle offre les fonctionnalités suivantes :- Utilise Google Search pour récupérer des connaissances mondiales en temps réel
- Processus de « thinking » intégré (optimise la composition avant la génération)
- Peut générer des images jusqu’à une résolution de 4K
À propos des modèles d’inférence Gemini 2.5
- L’ensemble de la série 2.5 est composé de modèles d’inférence.
- 2.5 Flash est un modèle hybride, similaire à Claude Sonnet 3.7. Vous pouvez ajuster finement son comportement de raisonnement en réglant le paramètre
thinking_budgetpour un contrôle optimal. - 2.5 Pro est un modèle d’inférence pur. Le thinking ne peut pas être désactivé et
thinking_budgetne doit pas être explicitement défini.
Gemini 2.5 Flash : prise en charge des tâches rapides
Exemple d’invocation compatible OpenAI :Compréhension des médias
- Pour les fichiers multimédias inférieurs à 20 Mo (images, audio, vidéo), téléversez-les avec
inline_data. - Lorsqu’un fichier multimédia est supérieur à 20 Mo, vous devez utiliser la Files API.
Fichiers de moins de 20 Mo
Exemples d’utilisation Python :Files API
Gemini peut traiter divers types de données d’entrée simultanément, notamment du texte, des images et de l’audio. Lorsque la taille totale de la requête (y compris les fichiers, les indices textuels, les commandes système, etc.) dépasse 20 Mo, veillez à utiliser la Files API. Exemples d’utilisation Python :Exécution de code
La fonctionnalité d’exécution de code permet au modèle de générer et d’exécuter du code Python et d’apprendre de manière itérative à partir des résultats jusqu’à parvenir à une sortie finale. Vous pouvez utiliser cette capacité d’exécution de code pour créer des applications qui bénéficient d’un raisonnement basé sur le code et produisent une sortie textuelle. Par exemple, vous pouvez utiliser l’exécution de code dans une application qui résout des équations ou traite du texte.Python
Mise en cache du contexte
L’API native de Gemini active la mise en cache implicite du contexte par défaut — aucune configuration requise. Pour chaque requêtegenerate_content, le système met automatiquement en cache le contenu d’entrée. Si une requête ultérieure utilise exactement le même contenu, le même modèle et les mêmes paramètres, le système renverra instantanément le résultat précédent, accélérant considérablement le temps de réponse et réduisant potentiellement les coûts en jetons d’entrée.
- La mise en cache est automatique — aucune configuration manuelle n’est nécessaire.
- Le cache n’est utilisé que lorsque le contenu, le modèle et tous les paramètres sont exactement identiques ; toute différence entraînera un cache miss.
- La durée de vie du cache (TTL) peut être définie par le développeur, ou laissée non définie (par défaut 1 heure). Google n’applique pas de TTL minimum ou maximum. Les coûts dépendent du nombre de jetons mis en cache et de la durée du cache.
- Bien que Google ne place aucune restriction sur le TTL, en tant que plateforme de redirection, nous ne prenons en charge qu’une plage de TTL limitée. Pour des exigences dépassant les limites de notre plateforme, veuillez nous contacter.
Remarques
- Aucune économie de coût garantie : les jetons en cache sont facturés à 25 % du prix d’entrée standard — donc en théorie, la mise en cache peut vous faire économiser jusqu’à 75 % des coûts en jetons d’entrée. Cependant, la documentation officielle de Google ne garantit aucune économie de coût ; l’effet réel dépend de votre taux de hit cache, des types de jetons et de la durée de stockage.
- Conditions de hit cache : pour maximiser l’efficacité du cache, placez le contexte réutilisable en début d’entrée et le contenu dynamique (comme la saisie utilisateur) à la fin.
-
Comment détecter les hits cache : si une réponse provient du cache,
response.usage_metadatainclura le champcache_tokens_detailsetcached_content_token_count. Vous pouvez les utiliser pour déterminer l’utilisation du cache.
Exemple de champs lors d’un hit cache :
En cas de hit cache,Conclusion principale : la mise en cache implicite est automatique et fournit un retour clair sur les hits cache. Les développeurs peuvent vérifier usage_metadata pour le statut du cache. Les économies de coûts ne sont pas garanties — les avantages réels dépendent de la structure des requêtes et des taux de hit cache.response.usage_metadatacontiendra :
Function calling
Lorsque vous utilisez la méthode compatible OpenAI pour appeler le function calling de Gemini, vous devez passertool_choice="auto" dans le corps de la requête, sinon une erreur sera signalée.
Suivi simplifié de l’utilisation des jetons
-
Gemini suit l’utilisation des jetons via
usage_metadata. Voici la signification de chaque champ :prompt_token_count: nombre de jetons d’entréecandidates_token_count: nombre de jetons de sortiethoughts_token_count: jetons utilisés pendant le raisonnement (également comptés comme sortie)total_token_count: total de jetons utilisés (entrée + sortie)
-
Pour les API utilisant le format compatible OpenAI, l’utilisation des jetons est suivie sous
.usageavec les champs suivants :usage.completion_tokens: nombre de jetons d’entréeusage.prompt_tokens: nombre de jetons de sortie (y compris le raisonnement)usage.total_tokens: utilisation totale des jetons
Voici comment l’utiliser dans le code :
Dernière mise à jour : 2026-06-01