Documentation Index
Fetch the complete documentation index at: https://docs.aihubmix.com/llms.txt
Use this file to discover all available pages before exploring further.
機能概要
Vision 機能は、モデルが画像とテキストを同時に理解することをサポートし、画像コンテンツに基づく分析、説明、判断、質問応答を可能にします。開発者は単一のリクエストで 1 つまたは複数の画像を自然言語の指示と共にモデルに送信し、マルチモーダル理解タスクを完了できます。代表的な機能は以下のとおりです:- 画像コンテンツの説明(物体、シーン、アクション)
- 画像質問応答(画像に関する質問をする)
- 複数画像の比較分析と統合
- 画像 + テキストによる共同推論
クイックスタート
サポートされる入力形式
画像はモデルに対して 2 つの主な方法で提供できます:画像リンクを渡すか、リクエストに base64 エンコードされた画像を直接含めるかです。画像はuser、system、assistant メッセージに含めることができます。現在、最初の system メッセージでは画像はサポートされていません。
画像 URL 入力(推奨)
公開インターネットからアクセス可能な画像 URL を直接渡します。オンラインビジネスシナリオに適しています。Base64 エンコード画像入力
ローカルファイルやプライベート画像のシナリオに適しています。 プロセス説明:- 画像ファイルをローカルから読み込む。
- それを base64 文字列に変換する。
- リクエスト内で画像コンテンツとして渡す。
メッセージ構造の例
画像は通常、モデルの理解目的を明確にするためにテキスト指示と一緒に送信されます。複数画像入力
単一のリクエストで複数の画像を送信でき、モデルはすべての画像の理解を統合できます。画像の精細度制御(detail パラメータ)
detail パラメータを使用して、モデルが画像を処理する際に適用する詳細度のレベルを制御できます:
| パラメータ値 | 説明 |
|---|---|
low | 低解像度、高速、低トークン消費 |
high | 高解像度、より豊かな詳細、高トークン消費 |
auto | 自動選択(デフォルト) |
- コンテンツ理解 / シーン判断:
autoまたはlow - 詳細な観察が必要な場合(テキスト、特定の部分):
high
課金とトークンの説明
ビジュアル入力は追加のトークンを消費するため、コスト評価に考慮する必要があります:lowモード:各画像は固定の 85 トークン を消費highモード:画像のサイズと解像度に基づいてトークン消費が増加
- デフォルトでは
autoを使用 - 大量または高並行シナリオでは不必要な
highを避ける
使用上の推奨事項
- 常に明確なテキスト指示を提供してください。画像だけを送信しないでください。
- 画像の数と解像度を制御して、不必要なコストを避けてください。
- 重要なビジネス成果については二次検証を実施してください。
- ビジュアル理解は補助的な機能として使用し、判断の唯一の根拠としないでください。
最終更新日:2026-06-01