使用 Whisper 模型將音訊檔案轉換為文字,支援轉錄和翻譯功能
whisper-large-v3
模型,搭配適當的 prompt 和較低的 temperature 值(如 0.2)以減少幻覺distil-whisper-large-v3-en
模型/v1/audio/transcriptions
端點,通過 client.audio.transcriptions.create()
方法調用,將音訊轉錄為原始語言的文字。
/v1/audio/translations
端點,通過 client.audio.translations.create()
方法調用,將音訊翻譯為英文文字。
whisper-large-v3
、whisper-1
、distil-whisper-large-v3-en
json
(預設)、text
、srt
、verbose_json
、vtt
word
、segment
。僅當 response_format 為 verbose_json 時可用whisper-large-v3
模型,設定 language="zh"
,temperature=0.2
,並提供合適的中文 prompt
distil-whisper-large-v3-en
獲得更快的處理速度
verbose_json
格式和 timestamp_granularities
srt
或 vtt
格式輸出,無需額外處理