소개

텍스트 음성 변환(TTS) API는 고급 생성 AI 모델을 기반으로 입력 텍스트를 사실적인 음성 오디오로 변환할 수 있습니다. 다양한 용도를 지원합니다:

  • 블로그 글 음성 변환
  • 다국어 음성 오디오 생성
  • 실시간 오디오 출력 스트림 제공

사용 가능한 모델 목록:

  • gpt-4o-audio-preview - OpenAI의 최신 오디오 생성 모델, 대화형 오디오 생성 지원
  • gpt-4o-mini-tts - 스마트 실시간 애플리케이션에 선호되는 모델, 고급 음성 제어를 지원하며 프롬프트를 통해 다양한 음성 특성을 제어할 수 있습니다:
    • 악센트
    • 감정 범위
    • 억양
    • 인상
    • 말하기 속도
    • 속삭임
  • tts-1-hd - 고품질 TTS 모델
  • tts-1 - 표준 TTS 모델, 품질과 속도의 균형

성능 제안: 가장 빠른 응답 시간을 위해서는 wav 또는 pcm을 응답 형식으로 사용하는 것을 권장합니다. 고품질 오디오의 경우 tts-1-hd를 권장하고, 더 빠른 생성 속도를 위해서는 tts-1을 사용하며, 스마트 음성 애플리케이션에는 gpt-4o-mini-tts를 권장합니다.

음성 미리보기: OpenAI.fm에서 다양한 음성 효과를 들어볼 수 있습니다.

모델 호출 방법

표준 TTS 모델 (tts-1, tts-1-hd)

/v1/audio/speech 엔드포인트를 사용하고, client.audio.speech.create() 메서드를 호출합니다.

gpt-4o-mini-tts

/v1/audio/speech 엔드포인트를 사용하고, 고급 음성 제어를 위한 instructions 매개변수를 지원합니다.

gpt-4o-audio-preview

/v1/chat/completions 엔드포인트를 사용하고, modalities: ["text", "audio"]audio 구성을 설정합니다.

요청 매개변수

표준 TTS 매개변수

tts-1, tts-1-hd, gpt-4o-mini-tts에 적용

model
string
required

사용할 모델 ID. 선택 가능한 값: tts-1, tts-1-hd, gpt-4o-mini-tts

input
string
required

오디오를 생성할 텍스트, 최대 길이 4096자

voice
string
required

합성에 사용할 음성. 선택 가능한 값: alloy, echo, fable, onyx, nova, shimmer

response_format
string

오디오 출력 형식. 지원되는 형식: mp3, opus, aac, flac, wav, pcm. 기본값은 mp3

speed
number

오디오 생성 속도. 범위는 0.25에서 4.0까지. 기본값은 1.0. 참고: gpt-4o-mini-tts는 이 매개변수를 지원하지 않지만, 자연어 설명을 통해 속도를 제어할 수 있습니다

instructions
string

음성 생성 지침(gpt-4o-mini-tts 모델에만 적용), 음성 스타일, 톤, 감정 등을 지정할 수 있습니다.

gpt-4o-audio-preview 매개변수

model
string
required

gpt-4o-audio-preview로 설정

modalities
array
required

오디오 출력을 활성화하려면 ["text", "audio"]로 설정

audio
object
required

voiceformat 필드를 포함하는 오디오 구성 객체

messages
array
required

채팅 메시지 배열, 표준 채팅 형식과 동일

사용법

curl https://aihubmix.com/v1/audio/speech \
  -H "Authorization: Bearer $AIHUBMIX_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "tts-1",
    "input": "빠른 갈색 🦊이 게으른 개를 뛰어넘었습니다.",
    "voice": "alloy"
  }' \
  --output speech.mp3