Whisper 모델을 사용하여 오디오 파일을 텍스트로 변환, 전사 및 번역 기능 지원
whisper-large-v3
모델 사용을 권장하며, 적절한 프롬프트와 더 낮은 temperature 값(예: 0.2)을 조합하여 환각을 줄임distil-whisper-large-v3-en
모델 사용/v1/audio/transcriptions
엔드포인트를 사용하여 client.audio.transcriptions.create()
메서드로 호출, 오디오를 원래 언어의 텍스트로 전사.
/v1/audio/translations
엔드포인트를 사용하여 client.audio.translations.create()
메서드로 호출, 오디오를 영어 텍스트로 번역.
whisper-large-v3
, whisper-1
, distil-whisper-large-v3-en
json
(기본값), text
, srt
, verbose_json
, vtt
word
, segment
. response_format이 verbose_json일 때만 사용 가능whisper-large-v3
모델 사용, language="ko"
설정, temperature=0.2
, 적절한 한국어 프롬프트 제공distil-whisper-large-v3-en
사용 가능verbose_json
형식과 timestamp_granularities
사용srt
또는 vtt
형식 출력을 직접 사용