AiHubMix Documentation Hub

Descripción general de la capacidad

La capacidad de visión permite al modelo entender simultáneamente imágenes y texto, lo que le permite analizar, describir, evaluar y responder preguntas basadas en el contenido de las imágenes. Los desarrolladores pueden enviar una o varias imágenes al modelo en una sola solicitud junto con instrucciones en lenguaje natural para completar tareas de comprensión multimodal. Las capacidades típicas incluyen:

Descripción del contenido de la imagen (objetos, escenas, acciones)
Respuesta a preguntas sobre la imagen (formular preguntas sobre la imagen)
Análisis comparativo y síntesis de varias imágenes
Razonamiento conjunto con imagen + texto

Inicio rápido

from openai import OpenAI

client = OpenAI(
  api_key="<AIHUBMIX_API_KEY>",
  base_url="https://aihubmix.com/v1"
)

response = client.chat.completions.create(
  model="gpt-4o",
  messages=[
    {
      "role": "user",
      "content": [
        {
          "type": "text",
          "text": "What’s in this image?"
        },
        {
          "type": "image_url",
          "image_url": {
            "url": "https://upload.wikimedia.org/wikipedia/commons/thumb/d/dd/Gfp-wisconsin-madison-the-nature-boardwalk.jpg/2560px-Gfp-wisconsin-madison-the-nature-boardwalk.jpg",
            "detail": "auto"
          },
        },
      ],
    }
  ],
  max_tokens=300,
)

print(response.choices[0])

Formatos de entrada admitidos

Las imágenes se pueden proporcionar al modelo de dos formas principales: pasando el enlace de la imagen o incluyendo directamente una imagen codificada en base64 en la solicitud. Las imágenes pueden incluirse en los mensajes user, system y assistant. Actualmente, las imágenes no son compatibles en el primer mensaje system.

Entrada con URL de imagen (recomendada)

Pasa directamente una URL de imagen accesible desde la internet pública, adecuada para escenarios de negocio en línea.

{
  "type": "image_url",
  "image_url": {
    "url": "https://example.com/demo.jpg"
  }
}

Notas:

La URL debe ser accesible para el modelo.
El formato de la imagen debe ser PNG / JPEG / WEBP / no GIF.
El tamaño de una sola imagen no debe superar los 20 MB.

Entrada con imagen codificada en Base64

Adecuada para archivos locales o escenarios de imágenes privadas. Descripción del proceso:

Lee el archivo de imagen localmente.
Conviértelo en una cadena base64.
Pásalo como contenido de imagen en la solicitud.

{
  "type": "image_url",
  "image_url": {
    "url": "data:image/png;base64,<BASE64_DATA>"
  }
}

Ejemplo de estructura del mensaje

Las imágenes se envían habitualmente junto con instrucciones de texto para clarificar los objetivos de comprensión del modelo.

{
  "role": "user",
  "content": [
    { "type": "text", "text": "Please describe the main content of this image" },
    {
      "type": "image_url",
      "image_url": {
        "url": "https://example.com/photo.jpg"
      }
    }
  ]
}

Entrada con múltiples imágenes

Pueden enviarse varias imágenes en una sola solicitud, permitiendo al modelo integrar la comprensión de todas ellas.

{
  "role": "user",
  "content": [
    { "type": "text", "text": "Compare the differences between these two images" },
    { "type": "image_url", "image_url": { "url": "https://example.com/a.jpg" } },
    { "type": "image_url", "image_url": { "url": "https://example.com/b.jpg" } }
  ]
}

Control de nitidez de la imagen (parámetro detail)

El parámetro detail se puede usar para controlar el nivel de detalle con el que el modelo procesa las imágenes:

Valor del parámetro	Descripción
`low`	Baja resolución, velocidad rápida, bajo consumo de tokens
`high`	Alta resolución, más detalles, alto consumo de tokens
`auto`	Selecciona automáticamente (predeterminado)

{
  "image_url": {
    "url": "https://example.com/photo.jpg",
    "detail": "high"
  }
}

Estrategia recomendada:

Comprensión del contenido / valoración de escena: auto o low
Cuando se necesita observación detallada (texto, partes específicas): high

Facturación y explicación de tokens

La entrada visual consume tokens adicionales que deben tenerse en cuenta al evaluar los costos:

Modo low: Cada imagen consume una cantidad fija de 85 tokens
Modo high: El consumo de tokens aumenta en función del tamaño y la resolución de la imagen

Recomendaciones:

Por defecto utiliza auto
Evita el uso innecesario de high en escenarios masivos o de alta concurrencia

Recomendaciones de uso

Proporciona siempre instrucciones de texto claras; no envíes solo imágenes.
Controla el número y la resolución de las imágenes para evitar costos innecesarios.
Realiza una validación secundaria para los resultados críticos de negocio.
Utiliza la comprensión visual como capacidad complementaria, no como única base de decisión.

Última actualización: 2026-06-01

Empezar

Funciones de gateway

Capacidades del modelo

Referencia de protocolo

Gestión de plataforma

Privacidad y términos

Visión

Descripción general de la capacidad

Inicio rápido

Formatos de entrada admitidos

Entrada con URL de imagen (recomendada)

Entrada con imagen codificada en Base64

Ejemplo de estructura del mensaje

Entrada con múltiples imágenes

Control de nitidez de la imagen (parámetro detail)

Facturación y explicación de tokens

Recomendaciones de uso

​Descripción general de la capacidad

​Inicio rápido

​Formatos de entrada admitidos

​Entrada con URL de imagen (recomendada)

​Entrada con imagen codificada en Base64

​Ejemplo de estructura del mensaje

​Entrada con múltiples imágenes

​Control de nitidez de la imagen (parámetro detail)

​Facturación y explicación de tokens

​Recomendaciones de uso

Descripción general de la capacidad

Inicio rápido

Formatos de entrada admitidos

Entrada con URL de imagen (recomendada)

Entrada con imagen codificada en Base64

Ejemplo de estructura del mensaje

Entrada con múltiples imágenes

Control de nitidez de la imagen (parámetro detail)

Facturación y explicación de tokens

Recomendaciones de uso