소개
텍스트 음성 변환(TTS) API는 고급 생성 AI 모델을 기반으로 입력 텍스트를 사실적인 음성 오디오로 변환할 수 있습니다. 다양한 용도를 지원합니다:- 블로그 글 음성 변환
- 다국어 음성 오디오 생성
- 실시간 오디오 출력 스트림 제공
- gpt-4o-audio-preview - OpenAI의 최신 오디오 생성 모델, 대화형 오디오 생성 지원
- gpt-4o-mini-tts - 스마트 실시간 애플리케이션에 선호되는 모델, 고급 음성 제어를 지원하며 프롬프트를 통해 다양한 음성 특성을 제어할 수 있습니다:
- 악센트
- 감정 범위
- 억양
- 인상
- 말하기 속도
- 톤
- 속삭임
- tts-1-hd - 고품질 TTS 모델
- tts-1 - 표준 TTS 모델, 품질과 속도의 균형
성능 제안: 가장 빠른 응답 시간을 위해서는
wav
또는 pcm
을 응답 형식으로 사용하는 것을 권장합니다. 고품질 오디오의 경우 tts-1-hd
를 권장하고, 더 빠른 생성 속도를 위해서는 tts-1
을 사용하며, 스마트 음성 애플리케이션에는 gpt-4o-mini-tts
를 권장합니다.음성 미리보기: OpenAI.fm에서 다양한 음성 효과를 들어볼 수 있습니다.모델 호출 방법
표준 TTS 모델 (tts-1, tts-1-hd)
/v1/audio/speech
엔드포인트를 사용하고, client.audio.speech.create()
메서드를 호출합니다.
gpt-4o-mini-tts
/v1/audio/speech
엔드포인트를 사용하고, 고급 음성 제어를 위한 instructions
매개변수를 지원합니다.
gpt-4o-audio-preview
/v1/chat/completions
엔드포인트를 사용하고, modalities: ["text", "audio"]
및 audio
구성을 설정합니다.
요청 매개변수
표준 TTS 매개변수
tts-1, tts-1-hd, gpt-4o-mini-tts에 적용사용할 모델 ID. 선택 가능한 값:
tts-1
, tts-1-hd
, gpt-4o-mini-tts
오디오를 생성할 텍스트, 최대 길이 4096자
합성에 사용할 음성. 선택 가능한 값:
alloy
, echo
, fable
, onyx
, nova
, shimmer
오디오 출력 형식. 지원되는 형식:
mp3
, opus
, aac
, flac
, wav
, pcm
. 기본값은 mp3
오디오 생성 속도. 범위는 0.25에서 4.0까지. 기본값은 1.0. 참고:
gpt-4o-mini-tts
는 이 매개변수를 지원하지 않지만, 자연어 설명을 통해 속도를 제어할 수 있습니다음성 생성 지침(
gpt-4o-mini-tts
모델에만 적용), 음성 스타일, 톤, 감정 등을 지정할 수 있습니다.gpt-4o-audio-preview 매개변수
gpt-4o-audio-preview
로 설정오디오 출력을 활성화하려면
["text", "audio"]
로 설정voice
및 format
필드를 포함하는 오디오 구성 객체채팅 메시지 배열, 표준 채팅 형식과 동일