Documentation Index
Fetch the complete documentation index at: https://docs.aihubmix.com/llms.txt
Use this file to discover all available pages before exploring further.
Aperçu des capacités
La capacité Vision permet au modèle de comprendre simultanément des images et du texte, ouvrant la voie à l’analyse, la description, le jugement et les questions-réponses basés sur le contenu des images. Les développeurs peuvent envoyer une ou plusieurs images au modèle dans une seule requête, accompagnées d’instructions en langage naturel, pour accomplir des tâches de compréhension multimodale. Capacités typiques :- Description du contenu des images (objets, scènes, actions)
- Questions-réponses sur les images (poser des questions à propos de l’image)
- Analyse comparative et synthèse de plusieurs images
- Raisonnement combiné images + texte
Démarrage rapide
Formats d’entrée pris en charge
Les images peuvent être fournies au modèle de deux manières principales : en passant le lien de l’image, ou en incluant directement une image encodée en base64 dans la requête. Les images peuvent être incluses dans les messagesuser, system et assistant. Actuellement, les images ne sont pas prises en charge dans le premier message system.
Entrée par URL d’image (recommandé)
Transmettez directement une URL d’image accessible depuis l’Internet public, adapté aux scénarios métier en ligne.Entrée d’image encodée en base64
Adapté aux fichiers locaux ou aux scénarios d’images privées. Description du processus :- Lisez le fichier image localement.
- Convertissez-le en chaîne base64.
- Passez-le en tant que contenu image dans la requête.
Exemple de structure de message
Les images sont généralement envoyées avec des instructions textuelles pour clarifier les objectifs de compréhension du modèle.Entrée de plusieurs images
Plusieurs images peuvent être soumises dans une seule requête, permettant au modèle d’intégrer la compréhension de toutes les images.Contrôle de la clarté de l’image (paramètre detail)
Le paramètredetail permet de contrôler le niveau de détail que le modèle applique lors du traitement des images :
| Valeur du paramètre | Description |
|---|---|
low | Faible résolution, vitesse rapide, faible consommation de jetons |
high | Haute résolution, détails plus riches, consommation de jetons élevée |
auto | Sélection automatique (par défaut) |
- Compréhension de contenu / jugement de scène :
autooulow - Lorsque l’observation détaillée est nécessaire (texte, parties spécifiques) :
high
Facturation et explication des jetons
L’entrée visuelle consomme des jetons supplémentaires, à prendre en compte dans l’évaluation des coûts :- Mode
low: chaque image consomme un nombre fixe de 85 jetons - Mode
high: la consommation de jetons augmente en fonction de la taille et de la résolution de l’image
- Par défaut, utilisez
auto - Évitez l’usage inutile de
highdans des scénarios en lot ou à forte concurrence
Recommandations d’utilisation
- Fournissez toujours des instructions textuelles claires ; n’envoyez pas des images seules.
- Contrôlez le nombre et la résolution des images pour éviter les coûts inutiles.
- Effectuez une validation secondaire pour les résultats métier critiques.
- Utilisez la compréhension visuelle comme une capacité complémentaire, et non comme seule base de décision.
Dernière mise à jour : 2026-06-01