Documentation Index
Fetch the complete documentation index at: https://docs.aihubmix.com/llms.txt
Use this file to discover all available pages before exploring further.
Fähigkeitsübersicht
Die Vision-Fähigkeit ermöglicht es dem Modell, Bilder und Text gleichzeitig zu verstehen, um auf Basis der Bildinhalte Analysen, Beschreibungen, Bewertungen und Q&A durchzuführen. Entwickler können in einem einzigen Request ein oder mehrere Bilder zusammen mit natürlichsprachlichen Anweisungen an das Modell senden, um multimodale Verständnisaufgaben zu erledigen. Typische Fähigkeiten:- Beschreibung von Bildinhalten (Objekte, Szenen, Aktionen)
- Q&A zum Bild (Fragen zum Bildinhalt stellen)
- Vergleichende Analyse und Zusammenfassung mehrerer Bilder
- Gemeinsames Reasoning über Bilder + Text
Schnellstart
Unterstützte Eingabeformate
Bilder können dem Modell auf zwei Arten übergeben werden: per Bild-Link oder direkt als base64-codiertes Bild im Request. Bilder können inuser-, system- und assistant-Nachrichten enthalten sein. Derzeit werden Bilder in der ersten system-Nachricht nicht unterstützt.
Eingabe per Bild-URL (empfohlen)
Übergeben Sie direkt eine über das öffentliche Internet erreichbare Bild-URL – geeignet für Online-Geschäftsszenarien.Eingabe als Base64-codiertes Bild
Geeignet für lokale Dateien oder private Bildszenarien. Ablaufbeschreibung:- Bilddatei lokal lesen.
- In einen base64-String konvertieren.
- Im Request als Bildinhalt übergeben.
Beispiel für die Nachrichtenstruktur
Bilder werden in der Regel zusammen mit Textanweisungen gesendet, um das Verständnisziel des Modells zu präzisieren.Eingabe mehrerer Bilder
Mehrere Bilder können in einem einzigen Request übergeben werden, damit das Modell das Verständnis aller Bilder integriert.Steuerung der Bildschärfe (Parameter detail)
Mit dem Parameter detail können Sie steuern, wie detailliert das Modell Bilder verarbeitet:
| Parameterwert | Beschreibung |
|---|---|
low | Niedrige Auflösung, schnell, geringer Tokenverbrauch |
high | Hohe Auflösung, mehr Details, hoher Tokenverbrauch |
auto | Automatische Auswahl (Standard) |
- Verstehen des Inhalts / Szenenbewertung:
autooderlow - Wenn detaillierte Beobachtung nötig ist (Text, spezifische Teile):
high
Abrechnung und Token-Erläuterung
Visuelle Eingaben verbrauchen zusätzliche Token, die in der Kostenkalkulation berücksichtigt werden sollten:low-Modus: Jedes Bild verbraucht feste 85 Tokenhigh-Modus: Tokenverbrauch steigt mit Bildgröße und Auflösung
- Standardmäßig
autoverwenden - In Bulk- oder Hochlast-Szenarien unnötiges
highvermeiden
Nutzungsempfehlungen
- Geben Sie immer klare Textanweisungen; senden Sie nicht nur Bilder.
- Begrenzen Sie Anzahl und Auflösung der Bilder, um unnötige Kosten zu vermeiden.
- Validieren Sie kritische Geschäftsergebnisse zusätzlich.
- Nutzen Sie das visuelle Verständnis als ergänzende Fähigkeit, nicht als alleinige Entscheidungsgrundlage.
Zuletzt aktualisiert: 2026-06-01