概要
音声認識(STT)APIは、OpenAIのWhisperモデルに基づいてオーディオファイルをテキストに変換できます。様々な用途に対応:- オーディオファイルのテキスト転写
- 多言語オーディオの英語翻訳
- 複数のオーディオ形式入力をサポート
- 複数の出力形式オプション提供
- whisper-large-v3 —— 最新の大型Whisperモデル、多言語対応。中国語認識には適切なプロンプトと低温度値の使用が必要
- whisper-1 —— 初代Whisperモデル、安定して信頼性があり、多言語対応
- distil-whisper-large-v3-en —— 蒸留モデル、処理速度が速いが精度がやや低い、低温度値との組み合わせを推奨
パフォーマンス推奨事項:
- 中国語オーディオの場合、
whisper-large-v3モデルの使用を推奨、適切なプロンプトとより低い温度値(0.2など)を組み合わせて幻覚を減らす - 英語オーディオまたは高速処理が必要な場合、
distil-whisper-large-v3-enモデルを使用 - サポートされるオーディオ形式:mp3, mp4, mpeg, mpga, m4a, wav, webm
- ファイルサイズ制限:最大25MB
モデル呼び出し方法
音声転写(Transcriptions)
/v1/audio/transcriptionsエンドポイントを使用、client.audio.transcriptions.create()メソッドで呼び出し、オーディオを元の言語のテキストに転写。
音声翻訳(Translations)
/v1/audio/translationsエンドポイントを使用、client.audio.translations.create()メソッドで呼び出し、オーディオを英語のテキストに翻訳。
リクエストパラメータ
転写パラメータ(Transcriptions)
転写するオーディオファイルオブジェクト。サポート形式:mp3, mp4, mpeg, mpga, m4a, wav, webm、最大25MB
使用するモデルID。オプション:
whisper-large-v3、whisper-1、distil-whisper-large-v3-en入力オーディオの言語、ISO-639-1形式(例:‘en’、‘ja’)。言語指定により精度と遅延を改善可能
モデルのスタイルを指導する、または以前のオーディオセグメントを続けるオプションのテキストプロンプト。プロンプトはオーディオ言語と一致する必要がある
転写出力形式。オプション:
json(デフォルト)、text、srt、verbose_json、vtt0と1の間のサンプリング温度。高い値はより無作為な出力を、低い値はより集中した決定的な出力を生成。デフォルトは0
タイムスタンプの粒度。オプション:
word、segment。response_formatがverbose_jsonの場合のみ利用可能翻訳パラメータ(Translations)
翻訳するオーディオファイルオブジェクト。転写と同じ形式
使用するモデルID、転写パラメータと同じ
翻訳スタイルを指導するオプションの英語テキストプロンプト
翻訳出力形式、転写パラメータと同じ
サンプリング温度、転写パラメータと同じ
使用方法
レスポンス形式
JSON形式(デフォルト)
詳細JSON形式(verbose_json)
テキスト形式
SRT形式
VTT形式
ベストプラクティス
- 日本語オーディオ処理:
whisper-large-v3モデルを使用、language="ja"を設定、temperature=0.2、適切な日本語プロンプトを提供 - 英語オーディオ処理:より高速な処理速度を得るために
distil-whisper-large-v3-enを使用可能 - ノイズ処理:バックグラウンドノイズを無視したり、どもりを除去するようにプロンプトを使用
- 長いオーディオ処理:APIが長いオーディオを自動的にセグメント処理、最良の結果を得るためオーディオ品質の前処理を推奨
- タイムスタンプが必要な場合:正確なタイムスタンプが必要な時は
verbose_json形式とtimestamp_granularitiesを使用 - 字幕作成:追加処理なしで
srtまたはvtt形式出力を直接使用