Zum Hauptinhalt springen

Documentation Index

Fetch the complete documentation index at: https://docs.aihubmix.com/llms.txt

Use this file to discover all available pages before exploring further.

Fähigkeitsübersicht

Die Vision-Fähigkeit ermöglicht es dem Modell, Bilder und Text gleichzeitig zu verstehen, um auf Basis der Bildinhalte Analysen, Beschreibungen, Bewertungen und Q&A durchzuführen. Entwickler können in einem einzigen Request ein oder mehrere Bilder zusammen mit natürlichsprachlichen Anweisungen an das Modell senden, um multimodale Verständnisaufgaben zu erledigen. Typische Fähigkeiten:
  • Beschreibung von Bildinhalten (Objekte, Szenen, Aktionen)
  • Q&A zum Bild (Fragen zum Bildinhalt stellen)
  • Vergleichende Analyse und Zusammenfassung mehrerer Bilder
  • Gemeinsames Reasoning über Bilder + Text

Schnellstart

from openai import OpenAI

client = OpenAI(
  api_key="<AIHUBMIX_API_KEY>",
  base_url="https://aihubmix.com/v1"
)

response = client.chat.completions.create(
  model="gpt-4o",
  messages=[
    {
      "role": "user",
      "content": [
        {
          "type": "text",
          "text": "What’s in this image?"
        },
        {
          "type": "image_url",
          "image_url": {
            "url": "https://upload.wikimedia.org/wikipedia/commons/thumb/d/dd/Gfp-wisconsin-madison-the-nature-boardwalk.jpg/2560px-Gfp-wisconsin-madison-the-nature-boardwalk.jpg",
            "detail": "auto"
          },
        },
      ],
    }
  ],
  max_tokens=300,
)

print(response.choices[0])

Unterstützte Eingabeformate

Bilder können dem Modell auf zwei Arten übergeben werden: per Bild-Link oder direkt als base64-codiertes Bild im Request. Bilder können in user-, system- und assistant-Nachrichten enthalten sein. Derzeit werden Bilder in der ersten system-Nachricht nicht unterstützt.

Eingabe per Bild-URL (empfohlen)

Übergeben Sie direkt eine über das öffentliche Internet erreichbare Bild-URL – geeignet für Online-Geschäftsszenarien.
{
  "type": "image_url",
  "image_url": {
    "url": "https://example.com/demo.jpg"
  }
}
Hinweise:
  • Die URL muss für das Modell erreichbar sein.
  • Das Bildformat sollte PNG / JPEG / WEBP / kein GIF sein.
  • Die Größe eines einzelnen Bildes darf 20 MB nicht überschreiten.

Eingabe als Base64-codiertes Bild

Geeignet für lokale Dateien oder private Bildszenarien. Ablaufbeschreibung:
  1. Bilddatei lokal lesen.
  2. In einen base64-String konvertieren.
  3. Im Request als Bildinhalt übergeben.
{
  "type": "image_url",
  "image_url": {
    "url": "data:image/png;base64,<BASE64_DATA>"
  }
}

Beispiel für die Nachrichtenstruktur

Bilder werden in der Regel zusammen mit Textanweisungen gesendet, um das Verständnisziel des Modells zu präzisieren.
{
  "role": "user",
  "content": [
    { "type": "text", "text": "Please describe the main content of this image" },
    {
      "type": "image_url",
      "image_url": {
        "url": "https://example.com/photo.jpg"
      }
    }
  ]
}

Eingabe mehrerer Bilder

Mehrere Bilder können in einem einzigen Request übergeben werden, damit das Modell das Verständnis aller Bilder integriert.
{
  "role": "user",
  "content": [
    { "type": "text", "text": "Compare the differences between these two images" },
    { "type": "image_url", "image_url": { "url": "https://example.com/a.jpg" } },
    { "type": "image_url", "image_url": { "url": "https://example.com/b.jpg" } }
  ]
}

Steuerung der Bildschärfe (Parameter detail)

Mit dem Parameter detail können Sie steuern, wie detailliert das Modell Bilder verarbeitet:
ParameterwertBeschreibung
lowNiedrige Auflösung, schnell, geringer Tokenverbrauch
highHohe Auflösung, mehr Details, hoher Tokenverbrauch
autoAutomatische Auswahl (Standard)
{
  "image_url": {
    "url": "https://example.com/photo.jpg",
    "detail": "high"
  }
}
Empfohlene Strategie:
  • Verstehen des Inhalts / Szenenbewertung: auto oder low
  • Wenn detaillierte Beobachtung nötig ist (Text, spezifische Teile): high

Abrechnung und Token-Erläuterung

Visuelle Eingaben verbrauchen zusätzliche Token, die in der Kostenkalkulation berücksichtigt werden sollten:
  • low-Modus: Jedes Bild verbraucht feste 85 Token
  • high-Modus: Tokenverbrauch steigt mit Bildgröße und Auflösung
Empfehlungen:
  • Standardmäßig auto verwenden
  • In Bulk- oder Hochlast-Szenarien unnötiges high vermeiden

Nutzungsempfehlungen

  • Geben Sie immer klare Textanweisungen; senden Sie nicht nur Bilder.
  • Begrenzen Sie Anzahl und Auflösung der Bilder, um unnötige Kosten zu vermeiden.
  • Validieren Sie kritische Geschäftsergebnisse zusätzlich.
  • Nutzen Sie das visuelle Verständnis als ergänzende Fähigkeit, nicht als alleinige Entscheidungsgrundlage.

Zuletzt aktualisiert: 2026-06-01