概要
音声認識(STT)APIは、OpenAIのWhisperモデルに基づいてオーディオファイルをテキストに変換できます。様々な用途に対応:- オーディオファイルのテキスト転写
- 多言語オーディオの英語翻訳
- 複数のオーディオ形式入力をサポート
- 複数の出力形式オプション提供
- whisper-large-v3 —— 最新の大型Whisperモデル、多言語対応。中国語認識には適切なプロンプトと低温度値の使用が必要
- whisper-1 —— 初代Whisperモデル、安定して信頼性があり、多言語対応
- distil-whisper-large-v3-en —— 蒸留モデル、処理速度が速いが精度がやや低い、低温度値との組み合わせを推奨
パフォーマンス推奨事項:
- 中国語オーディオの場合、
whisper-large-v3
モデルの使用を推奨、適切なプロンプトとより低い温度値(0.2など)を組み合わせて幻覚を減らす - 英語オーディオまたは高速処理が必要な場合、
distil-whisper-large-v3-en
モデルを使用 - サポートされるオーディオ形式:mp3, mp4, mpeg, mpga, m4a, wav, webm
- ファイルサイズ制限:最大25MB
モデル呼び出し方法
音声転写(Transcriptions)
/v1/audio/transcriptions
エンドポイントを使用、client.audio.transcriptions.create()
メソッドで呼び出し、オーディオを元の言語のテキストに転写。
音声翻訳(Translations)
/v1/audio/translations
エンドポイントを使用、client.audio.translations.create()
メソッドで呼び出し、オーディオを英語のテキストに翻訳。
リクエストパラメータ
転写パラメータ(Transcriptions)
転写するオーディオファイルオブジェクト。サポート形式:mp3, mp4, mpeg, mpga, m4a, wav, webm、最大25MB
使用するモデルID。オプション:
whisper-large-v3
、whisper-1
、distil-whisper-large-v3-en
入力オーディオの言語、ISO-639-1形式(例:‘en’、‘ja’)。言語指定により精度と遅延を改善可能
モデルのスタイルを指導する、または以前のオーディオセグメントを続けるオプションのテキストプロンプト。プロンプトはオーディオ言語と一致する必要がある
転写出力形式。オプション:
json
(デフォルト)、text
、srt
、verbose_json
、vtt
0と1の間のサンプリング温度。高い値はより無作為な出力を、低い値はより集中した決定的な出力を生成。デフォルトは0
タイムスタンプの粒度。オプション:
word
、segment
。response_formatがverbose_jsonの場合のみ利用可能翻訳パラメータ(Translations)
翻訳するオーディオファイルオブジェクト。転写と同じ形式
使用するモデルID、転写パラメータと同じ
翻訳スタイルを指導するオプションの英語テキストプロンプト
翻訳出力形式、転写パラメータと同じ
サンプリング温度、転写パラメータと同じ
使用方法
レスポンス形式
JSON形式(デフォルト)
詳細JSON形式(verbose_json)
テキスト形式
SRT形式
VTT形式
ベストプラクティス
- 日本語オーディオ処理:
whisper-large-v3
モデルを使用、language="ja"
を設定、temperature=0.2
、適切な日本語プロンプトを提供 - 英語オーディオ処理:より高速な処理速度を得るために
distil-whisper-large-v3-en
を使用可能 - ノイズ処理:バックグラウンドノイズを無視したり、どもりを除去するようにプロンプトを使用
- 長いオーディオ処理:APIが長いオーディオを自動的にセグメント処理、最良の結果を得るためオーディオ品質の前処理を推奨
- タイムスタンプが必要な場合:正確なタイムスタンプが必要な時は
verbose_json
形式とtimestamp_granularities
を使用 - 字幕作成:追加処理なしで
srt
またはvtt
形式出力を直接使用