소개
텍스트 음성 변환(TTS) API는 고급 생성 AI 모델을 기반으로 입력 텍스트를 사실적인 음성 오디오로 변환할 수 있습니다. 다양한 용도를 지원합니다:- 블로그 글 음성 변환
- 다국어 음성 오디오 생성
- 실시간 오디오 출력 스트림 제공
- gpt-4o-audio-preview - OpenAI의 최신 오디오 생성 모델, 대화형 오디오 생성 지원
- gpt-4o-mini-tts - 스마트 실시간 애플리케이션에 선호되는 모델, 고급 음성 제어를 지원하며 프롬프트를 통해 다양한 음성 특성을 제어할 수 있습니다:
- 악센트
- 감정 범위
- 억양
- 인상
- 말하기 속도
- 톤
- 속삭임
- tts-1-hd - 고품질 TTS 모델
- tts-1 - 표준 TTS 모델, 품질과 속도의 균형
모델 호출 방법
표준 TTS 모델 (tts-1, tts-1-hd)
/v1/audio/speech 엔드포인트를 사용하고, client.audio.speech.create() 메서드를 호출합니다.
gpt-4o-mini-tts
/v1/audio/speech 엔드포인트를 사용하고, 고급 음성 제어를 위한 instructions 매개변수를 지원합니다.
gpt-4o-audio-preview
/v1/chat/completions 엔드포인트를 사용하고, modalities: ["text", "audio"] 및 audio 구성을 설정합니다.
요청 매개변수
표준 TTS 매개변수
tts-1, tts-1-hd, gpt-4o-mini-tts에 적용사용할 모델 ID. 선택 가능한 값:
tts-1, tts-1-hd, gpt-4o-mini-tts오디오를 생성할 텍스트, 최대 길이 4096자
합성에 사용할 음성. 선택 가능한 값:
alloy, echo, fable, onyx, nova, shimmer오디오 출력 형식. 지원되는 형식:
mp3, opus, aac, flac, wav, pcm. 기본값은 mp3오디오 생성 속도. 범위는 0.25에서 4.0까지. 기본값은 1.0. 참고:
gpt-4o-mini-tts는 이 매개변수를 지원하지 않지만, 자연어 설명을 통해 속도를 제어할 수 있습니다음성 생성 지침(
gpt-4o-mini-tts 모델에만 적용), 음성 스타일, 톤, 감정 등을 지정할 수 있습니다.gpt-4o-audio-preview 매개변수
gpt-4o-audio-preview로 설정오디오 출력을 활성화하려면
["text", "audio"]로 설정voice 및 format 필드를 포함하는 오디오 구성 객체채팅 메시지 배열, 표준 채팅 형식과 동일