Whisperモデルを使用してオーディオファイルをテキストに変換、転写と翻訳機能をサポート
whisper-large-v3
モデルの使用を推奨、適切なプロンプトとより低い温度値(0.2など)を組み合わせて幻覚を減らすdistil-whisper-large-v3-en
モデルを使用/v1/audio/transcriptions
エンドポイントを使用、client.audio.transcriptions.create()
メソッドで呼び出し、オーディオを元の言語のテキストに転写。
/v1/audio/translations
エンドポイントを使用、client.audio.translations.create()
メソッドで呼び出し、オーディオを英語のテキストに翻訳。
whisper-large-v3
、whisper-1
、distil-whisper-large-v3-en
json
(デフォルト)、text
、srt
、verbose_json
、vtt
word
、segment
。response_formatがverbose_jsonの場合のみ利用可能whisper-large-v3
モデルを使用、language="ja"
を設定、temperature=0.2
、適切な日本語プロンプトを提供distil-whisper-large-v3-en
を使用可能verbose_json
形式とtimestamp_granularities
を使用srt
またはvtt
形式出力を直接使用