介紹
文字轉語音(TTS)API 基於先進的生成 AI 模型,可以將輸入的文字轉換為逼真的語音音頻。支援多種用途:- 為書面部落格文章配音
- 生成多種語言的語音音頻
- 提供即時音頻輸出串流
- gpt-4o-audio-preview —— OpenAI 最新的音頻生成模型,支援對話式音頻生成
- gpt-4o-mini-tts —— 智慧即時應用的首選模型,支援進階語音控制,可以透過提示詞控制多種語音特性:
- 口音 (Accent)
- 情感範圍 (Emotional range)
- 語調 (Intonation)
- 印象/風格 (Impressions)
- 語速 (Speed of speech)
- 語調 (Tone)
- 輕聲說話 (Whispering)
- tts-1-hd —— 高清音質的上一代 TTS 模型
- tts-1 —— 標準 TTS 模型,平衡品質和速度
模型調用方式
標準 TTS 模型(tts-1, tts-1-hd)
使用/v1/audio/speech 端點,透過 client.audio.speech.create() 方法調用。
gpt-4o-mini-tts 模型
使用/v1/audio/speech 端點,支援 instructions 參數進行進階語音控制。
gpt-4o-audio-preview 模型
使用/v1/chat/completions 端點,需要設定 modalities: ["text", "audio"] 和 audio 配置。
請求參數
標準 TTS 參數(適用於 tts-1, tts-1-hd, gpt-4o-mini-tts)
要使用的模型 ID。可選值:
tts-1、tts-1-hd、gpt-4o-mini-tts要生成音頻的文字,最大長度為 4096 個字元
用於合成的語音。可選值:
alloy、echo、fable、onyx、nova、shimmer音頻輸出格式。支援格式:
mp3、opus、aac、flac、wav、pcm。預設為 mp3生成音頻的語速。取值範圍 0.25 到 4.0。預設為 1.0。
注意:gpt-4o-mini-tts 不支援此參數,但你可以透過自然語言描述來控制語速語音生成指令(僅適用於
gpt-4o-mini-tts 模型),可以詳細指定語音風格、語調、情感等特性gpt-4o-audio-preview 參數
設定為
gpt-4o-audio-preview設定為
["text", "audio"] 啟用音頻輸出音頻配置物件,包含
voice 和 format 欄位聊天訊息陣列,與標準聊天格式相同