Documentation Index
Fetch the complete documentation index at: https://docs.aihubmix.com/llms.txt
Use this file to discover all available pages before exploring further.
Descripción general de la capacidad
La capacidad de visión permite al modelo entender simultáneamente imágenes y texto, lo que le permite analizar, describir, evaluar y responder preguntas basadas en el contenido de las imágenes. Los desarrolladores pueden enviar una o varias imágenes al modelo en una sola solicitud junto con instrucciones en lenguaje natural para completar tareas de comprensión multimodal. Las capacidades típicas incluyen:- Descripción del contenido de la imagen (objetos, escenas, acciones)
- Respuesta a preguntas sobre la imagen (formular preguntas sobre la imagen)
- Análisis comparativo y síntesis de varias imágenes
- Razonamiento conjunto con imagen + texto
Inicio rápido
Formatos de entrada admitidos
Las imágenes se pueden proporcionar al modelo de dos formas principales: pasando el enlace de la imagen o incluyendo directamente una imagen codificada en base64 en la solicitud. Las imágenes pueden incluirse en los mensajesuser, system y assistant. Actualmente, las imágenes no son compatibles en el primer mensaje system.
Entrada con URL de imagen (recomendada)
Pasa directamente una URL de imagen accesible desde la internet pública, adecuada para escenarios de negocio en línea.Entrada con imagen codificada en Base64
Adecuada para archivos locales o escenarios de imágenes privadas. Descripción del proceso:- Lee el archivo de imagen localmente.
- Conviértelo en una cadena base64.
- Pásalo como contenido de imagen en la solicitud.
Ejemplo de estructura del mensaje
Las imágenes se envían habitualmente junto con instrucciones de texto para clarificar los objetivos de comprensión del modelo.Entrada con múltiples imágenes
Pueden enviarse varias imágenes en una sola solicitud, permitiendo al modelo integrar la comprensión de todas ellas.Control de nitidez de la imagen (parámetro detail)
El parámetrodetail se puede usar para controlar el nivel de detalle con el que el modelo procesa las imágenes:
| Valor del parámetro | Descripción |
|---|---|
low | Baja resolución, velocidad rápida, bajo consumo de tokens |
high | Alta resolución, más detalles, alto consumo de tokens |
auto | Selecciona automáticamente (predeterminado) |
- Comprensión del contenido / valoración de escena:
autoolow - Cuando se necesita observación detallada (texto, partes específicas):
high
Facturación y explicación de tokens
La entrada visual consume tokens adicionales que deben tenerse en cuenta al evaluar los costos:- Modo
low: Cada imagen consume una cantidad fija de 85 tokens - Modo
high: El consumo de tokens aumenta en función del tamaño y la resolución de la imagen
- Por defecto utiliza
auto - Evita el uso innecesario de
highen escenarios masivos o de alta concurrencia
Recomendaciones de uso
- Proporciona siempre instrucciones de texto claras; no envíes solo imágenes.
- Controla el número y la resolución de las imágenes para evitar costos innecesarios.
- Realiza una validación secundaria para los resultados críticos de negocio.
- Utiliza la comprensión visual como capacidad complementaria, no como única base de decisión.
Última actualización: 2026-06-01