AiHubMix Documentation Hub

Fähigkeitsübersicht

Die Vision-Fähigkeit ermöglicht es dem Modell, Bilder und Text gleichzeitig zu verstehen, um auf Basis der Bildinhalte Analysen, Beschreibungen, Bewertungen und Q&A durchzuführen. Entwickler können in einem einzigen Request ein oder mehrere Bilder zusammen mit natürlichsprachlichen Anweisungen an das Modell senden, um multimodale Verständnisaufgaben zu erledigen. Typische Fähigkeiten:

Beschreibung von Bildinhalten (Objekte, Szenen, Aktionen)
Q&A zum Bild (Fragen zum Bildinhalt stellen)
Vergleichende Analyse und Zusammenfassung mehrerer Bilder
Gemeinsames Reasoning über Bilder + Text

Schnellstart

from openai import OpenAI

client = OpenAI(
  api_key="<AIHUBMIX_API_KEY>",
  base_url="https://aihubmix.com/v1"
)

response = client.chat.completions.create(
  model="gpt-4o",
  messages=[
    {
      "role": "user",
      "content": [
        {
          "type": "text",
          "text": "What’s in this image?"
        },
        {
          "type": "image_url",
          "image_url": {
            "url": "https://upload.wikimedia.org/wikipedia/commons/thumb/d/dd/Gfp-wisconsin-madison-the-nature-boardwalk.jpg/2560px-Gfp-wisconsin-madison-the-nature-boardwalk.jpg",
            "detail": "auto"
          },
        },
      ],
    }
  ],
  max_tokens=300,
)

print(response.choices[0])

Unterstützte Eingabeformate

Bilder können dem Modell auf zwei Arten übergeben werden: per Bild-Link oder direkt als base64-codiertes Bild im Request. Bilder können in user-, system- und assistant-Nachrichten enthalten sein. Derzeit werden Bilder in der ersten system-Nachricht nicht unterstützt.

Eingabe per Bild-URL (empfohlen)

Übergeben Sie direkt eine über das öffentliche Internet erreichbare Bild-URL – geeignet für Online-Geschäftsszenarien.

{
  "type": "image_url",
  "image_url": {
    "url": "https://example.com/demo.jpg"
  }
}

Hinweise:

Die URL muss für das Modell erreichbar sein.
Das Bildformat sollte PNG / JPEG / WEBP / kein GIF sein.
Die Größe eines einzelnen Bildes darf 20 MB nicht überschreiten.

Eingabe als Base64-codiertes Bild

Geeignet für lokale Dateien oder private Bildszenarien. Ablaufbeschreibung:

Bilddatei lokal lesen.
In einen base64-String konvertieren.
Im Request als Bildinhalt übergeben.

{
  "type": "image_url",
  "image_url": {
    "url": "data:image/png;base64,<BASE64_DATA>"
  }
}

Beispiel für die Nachrichtenstruktur

Bilder werden in der Regel zusammen mit Textanweisungen gesendet, um das Verständnisziel des Modells zu präzisieren.

{
  "role": "user",
  "content": [
    { "type": "text", "text": "Please describe the main content of this image" },
    {
      "type": "image_url",
      "image_url": {
        "url": "https://example.com/photo.jpg"
      }
    }
  ]
}

Eingabe mehrerer Bilder

Mehrere Bilder können in einem einzigen Request übergeben werden, damit das Modell das Verständnis aller Bilder integriert.

{
  "role": "user",
  "content": [
    { "type": "text", "text": "Compare the differences between these two images" },
    { "type": "image_url", "image_url": { "url": "https://example.com/a.jpg" } },
    { "type": "image_url", "image_url": { "url": "https://example.com/b.jpg" } }
  ]
}

Steuerung der Bildschärfe (Parameter `detail`)

Mit dem Parameter detail können Sie steuern, wie detailliert das Modell Bilder verarbeitet:

Parameterwert	Beschreibung
`low`	Niedrige Auflösung, schnell, geringer Tokenverbrauch
`high`	Hohe Auflösung, mehr Details, hoher Tokenverbrauch
`auto`	Automatische Auswahl (Standard)

{
  "image_url": {
    "url": "https://example.com/photo.jpg",
    "detail": "high"
  }
}

Empfohlene Strategie:

Verstehen des Inhalts / Szenenbewertung: auto oder low
Wenn detaillierte Beobachtung nötig ist (Text, spezifische Teile): high

Abrechnung und Token-Erläuterung

Visuelle Eingaben verbrauchen zusätzliche Token, die in der Kostenkalkulation berücksichtigt werden sollten:

low-Modus: Jedes Bild verbraucht feste 85 Token
high-Modus: Tokenverbrauch steigt mit Bildgröße und Auflösung

Empfehlungen:

Standardmäßig auto verwenden
In Bulk- oder Hochlast-Szenarien unnötiges high vermeiden

Nutzungsempfehlungen

Geben Sie immer klare Textanweisungen; senden Sie nicht nur Bilder.
Begrenzen Sie Anzahl und Auflösung der Bilder, um unnötige Kosten zu vermeiden.
Validieren Sie kritische Geschäftsergebnisse zusätzlich.
Nutzen Sie das visuelle Verständnis als ergänzende Fähigkeit, nicht als alleinige Entscheidungsgrundlage.

Zuletzt aktualisiert: 2026-06-01

Erste Schritte

Gateway-Funktionen

Modellfähigkeiten

Protokoll-Referenz

Plattform-Verwaltung

Datenschutz und Bedingungen

Vision

Fähigkeitsübersicht

Schnellstart

Unterstützte Eingabeformate

Eingabe per Bild-URL (empfohlen)

Eingabe als Base64-codiertes Bild

Beispiel für die Nachrichtenstruktur

Eingabe mehrerer Bilder

Steuerung der Bildschärfe (Parameter `detail`)

Abrechnung und Token-Erläuterung

Nutzungsempfehlungen

​Fähigkeitsübersicht

​Schnellstart

​Unterstützte Eingabeformate

​Eingabe per Bild-URL (empfohlen)

​Eingabe als Base64-codiertes Bild

​Beispiel für die Nachrichtenstruktur

​Eingabe mehrerer Bilder

​Steuerung der Bildschärfe (Parameter detail)

​Abrechnung und Token-Erläuterung

​Nutzungsempfehlungen

Fähigkeitsübersicht

Schnellstart

Unterstützte Eingabeformate

Eingabe per Bild-URL (empfohlen)

Eingabe als Base64-codiertes Bild

Beispiel für die Nachrichtenstruktur

Eingabe mehrerer Bilder

Steuerung der Bildschärfe (Parameter `detail`)

Abrechnung und Token-Erläuterung

Nutzungsempfehlungen