Saltar al contenido principal

Documentation Index

Fetch the complete documentation index at: https://docs.aihubmix.com/llms.txt

Use this file to discover all available pages before exploring further.

Descripción general de la capacidad

La capacidad de visión permite al modelo entender simultáneamente imágenes y texto, lo que le permite analizar, describir, evaluar y responder preguntas basadas en el contenido de las imágenes. Los desarrolladores pueden enviar una o varias imágenes al modelo en una sola solicitud junto con instrucciones en lenguaje natural para completar tareas de comprensión multimodal. Las capacidades típicas incluyen:
  • Descripción del contenido de la imagen (objetos, escenas, acciones)
  • Respuesta a preguntas sobre la imagen (formular preguntas sobre la imagen)
  • Análisis comparativo y síntesis de varias imágenes
  • Razonamiento conjunto con imagen + texto

Inicio rápido

from openai import OpenAI

client = OpenAI(
  api_key="<AIHUBMIX_API_KEY>",
  base_url="https://aihubmix.com/v1"
)

response = client.chat.completions.create(
  model="gpt-4o",
  messages=[
    {
      "role": "user",
      "content": [
        {
          "type": "text",
          "text": "What’s in this image?"
        },
        {
          "type": "image_url",
          "image_url": {
            "url": "https://upload.wikimedia.org/wikipedia/commons/thumb/d/dd/Gfp-wisconsin-madison-the-nature-boardwalk.jpg/2560px-Gfp-wisconsin-madison-the-nature-boardwalk.jpg",
            "detail": "auto"
          },
        },
      ],
    }
  ],
  max_tokens=300,
)

print(response.choices[0])

Formatos de entrada admitidos

Las imágenes se pueden proporcionar al modelo de dos formas principales: pasando el enlace de la imagen o incluyendo directamente una imagen codificada en base64 en la solicitud. Las imágenes pueden incluirse en los mensajes user, system y assistant. Actualmente, las imágenes no son compatibles en el primer mensaje system.

Entrada con URL de imagen (recomendada)

Pasa directamente una URL de imagen accesible desde la internet pública, adecuada para escenarios de negocio en línea.
{
  "type": "image_url",
  "image_url": {
    "url": "https://example.com/demo.jpg"
  }
}
Notas:
  • La URL debe ser accesible para el modelo.
  • El formato de la imagen debe ser PNG / JPEG / WEBP / no GIF.
  • El tamaño de una sola imagen no debe superar los 20 MB.

Entrada con imagen codificada en Base64

Adecuada para archivos locales o escenarios de imágenes privadas. Descripción del proceso:
  1. Lee el archivo de imagen localmente.
  2. Conviértelo en una cadena base64.
  3. Pásalo como contenido de imagen en la solicitud.
{
  "type": "image_url",
  "image_url": {
    "url": "data:image/png;base64,<BASE64_DATA>"
  }
}

Ejemplo de estructura del mensaje

Las imágenes se envían habitualmente junto con instrucciones de texto para clarificar los objetivos de comprensión del modelo.
{
  "role": "user",
  "content": [
    { "type": "text", "text": "Please describe the main content of this image" },
    {
      "type": "image_url",
      "image_url": {
        "url": "https://example.com/photo.jpg"
      }
    }
  ]
}

Entrada con múltiples imágenes

Pueden enviarse varias imágenes en una sola solicitud, permitiendo al modelo integrar la comprensión de todas ellas.
{
  "role": "user",
  "content": [
    { "type": "text", "text": "Compare the differences between these two images" },
    { "type": "image_url", "image_url": { "url": "https://example.com/a.jpg" } },
    { "type": "image_url", "image_url": { "url": "https://example.com/b.jpg" } }
  ]
}

Control de nitidez de la imagen (parámetro detail)

El parámetro detail se puede usar para controlar el nivel de detalle con el que el modelo procesa las imágenes:
Valor del parámetroDescripción
lowBaja resolución, velocidad rápida, bajo consumo de tokens
highAlta resolución, más detalles, alto consumo de tokens
autoSelecciona automáticamente (predeterminado)
{
  "image_url": {
    "url": "https://example.com/photo.jpg",
    "detail": "high"
  }
}
Estrategia recomendada:
  • Comprensión del contenido / valoración de escena: auto o low
  • Cuando se necesita observación detallada (texto, partes específicas): high

Facturación y explicación de tokens

La entrada visual consume tokens adicionales que deben tenerse en cuenta al evaluar los costos:
  • Modo low: Cada imagen consume una cantidad fija de 85 tokens
  • Modo high: El consumo de tokens aumenta en función del tamaño y la resolución de la imagen
Recomendaciones:
  • Por defecto utiliza auto
  • Evita el uso innecesario de high en escenarios masivos o de alta concurrencia

Recomendaciones de uso

  • Proporciona siempre instrucciones de texto claras; no envíes solo imágenes.
  • Controla el número y la resolución de las imágenes para evitar costos innecesarios.
  • Realiza una validación secundaria para los resultados críticos de negocio.
  • Utiliza la comprensión visual como capacidad complementaria, no como única base de decisión.

Última actualización: 2026-06-01