Documentation Index
Fetch the complete documentation index at: https://docs.aihubmix.com/llms.txt
Use this file to discover all available pages before exploring further.
Einführung
Die Text-to-Speech (TTS)-API basiert auf modernen generativen KI-Modellen und kann eingegebenen Text in realistische Sprachausgaben umwandeln. Sie unterstützt verschiedene Anwendungsfälle:
- Vorlesen geschriebener Blogartikel
- Erzeugen von Sprachaudios in mehreren Sprachen
- Bereitstellen von Echtzeit-Audio-Ausgabestreams
Verfügbare Modelle
OpenAI-Modelle
- gpt-4o-audio-preview — OpenAIs neuestes Audio-Generierungsmodell, unterstützt konversationelle Audioausgabe
- gpt-4o-mini-tts — Das bevorzugte Modell für intelligente Echtzeit-Anwendungen mit erweiterter Stimmsteuerung; verschiedene Stimmcharakteristika lassen sich per Prompt steuern:
- Akzent
- Emotionale Bandbreite
- Intonation
- Stilimitationen
- Sprechgeschwindigkeit
- Tonlage
- Flüstern
- tts-1-hd — TTS-Modell der vorherigen Generation in HD-Qualität
- tts-1 — Standard-TTS-Modell mit ausgewogenem Verhältnis von Qualität und Geschwindigkeit
Gemini-Modelle
Performance-Empfehlungen:
- Für schnellste Reaktionszeit
wav oder pcm als Antwortformat verwenden
- Für hochwertiges Audio
tts-1-hd nutzen
- Für höhere Generierungsgeschwindigkeit
tts-1 verwenden
- Für intelligente Sprachanwendungen
gpt-4o-mini-tts empfohlen
- Für Mehrsprecher-Dialogszenarien Gemini-TTS-Modelle empfohlen
API-Endpoint
Request-URL
POST https://aihubmix.com/v1/audio/speech
Authorization: Bearer $AIHUBMIX_API_KEY
Content-Type: application/json
Request-Parameter
Standard-TTS-Parameter
Folgende Standardparameter gelten für TTS-Modelle: tts-1, tts-1-hd, gpt-4o-mini-tts, gemini-2.5-flash-preview-tts und gemini-2.5-pro-preview-tts.
| Parameter | Typ | Pflicht | Beschreibung |
|---|
| model | string | Ja | Zu verwendende Modell-ID. Mögliche Werte: tts-1, tts-1-hd, gpt-4o-mini-tts, gemini-2.5-flash-preview-tts, gemini-2.5-pro-preview-tts |
| input | string | Ja | Zu vertonender Text, maximale Länge 4096 Zeichen |
| voice | string | Ja | Verwendete Stimme. Siehe Stimmenliste unten. |
| response_format | string | Nein | Audio-Ausgabeformat. Unterstützt: mp3, opus, aac, flac, wav, pcm, Standard mp3. Hinweis: Gemini-Modelle unterstützen nur wav und pcm. |
| speed | number | Nein | Wiedergabegeschwindigkeit, Bereich 0,25 bis 4,0, Standard 1,0. Hinweis: gpt-4o-mini-tts und Gemini-Modelle unterstützen diesen Parameter nicht; die Geschwindigkeit kann über natürlichsprachliche Beschreibungen gesteuert werden. |
| instructions | string | Nein | Anweisungen zur Stimm-Erzeugung – kann Stimm-Stil, Intonation und emotionale Eigenschaften detailliert angeben; nur für gpt-4o-mini-tts und Gemini-Modelle. |
gpt-4o-audio-preview-Parameter
| Parameter | Typ | Pflicht | Beschreibung |
|---|
| model | string | Ja | Auf gpt-4o-audio-preview setzen |
| modalities | array | Ja | Auf ["text", "audio"] setzen, um die Audio-Ausgabe zu aktivieren |
| audio | object | Ja | Audio-Konfigurationsobjekt mit Feldern voice und format |
| messages | array | Ja | Array von Chat-Nachrichten, ähnlich dem Standard-Chat-Format |
Stimmenliste
OpenAI-Stimmen
Unterstützt folgende Stimmen:
- alloy – Neutral, ausgewogen
- ash – Klar, professionell
- ballad – Warm, narrativ
- coral – Freundlich, zugänglich
- echo – Klar, hell
- fable – Ausdrucksstark, dramatisch
- onyx – Tief, autoritativ
- nova – Lebendig, energisch
- sage – Reif, kompetent
- shimmer – Sanft, beruhigend
- verse – Klar, vielseitig
- marin – Natürlich, freundlich
- cedar – Stabil, zuverlässig
Gemini-Stimmen
Unterstützt folgende 30 Stimmen:
| Stimmenname | Stil | Stimmenname | Stil | Stimmenname | Stil |
|---|
| Zephyr | Hell | Puck | Schwungvoll | Charon | Informativ |
| Kore | Bestimmt | Fenrir | Aufgeregt | Leda | Jugendlich |
| Orus | Bestimmt | Aoede | Luftig | Callirrhoe | Locker |
| Autonoe | Hell | Enceladus | Hauchig | Iapetus | Klar |
| Umbriel | Locker | Algieba | Geschmeidig | Despina | Geschmeidig |
| Erinome | Klar | Algenib | Rauchig | Rasalgethi | Informativ |
| Laomedeia | Schwungvoll | Achernar | Sanft | Alnilam | Bestimmt |
| Schedar | Gleichmäßig | Gacrux | Gereift | Pulcherrima | Vorwärts |
| Achird | Freundlich | Zubenelgenubi | Lässig | Vindemiatrix | Sanft |
| Sadachbia | Lebendig | Sadaltager | Kompetent | Sulafat | Warm |
Stimmen-Mapping
Bei Verwendung von Gemini-Modellen mit OpenAI-Stimmnamen mappt das System automatisch auf die entsprechende Gemini-Stimme:
| OpenAI-Stimme | Gemini-Stimme | OpenAI-Stimme | Gemini-Stimme |
|---|
| alloy | Kore | ash | Fenrir |
| ballad | Aoede | coral | Leda |
| echo | Puck | fable | Zephyr |
| onyx | Charon | nova | Orus |
| sage | Algieba | shimmer | Callirrhoe |
| verse | Enceladus | marin | Despina |
| cedar | Iapetus | | |
Anwendungsbeispiele
Standard-TTS-Modell (OpenAI)
curl https://aihubmix.com/v1/audio/speech \
-H "Authorization: Bearer $AIHUBMIX_API_KEY" \
-H "Content-Type: application/json" \
-d '{
"model": "tts-1",
"input": "The quick brown fox jumped over the lazy dog.",
"voice": "alloy"
}' \
--output speech.mp3
Gemini-TTS-Modell (Einzelsprecher)
curl https://aihubmix.com/v1/audio/speech \
-H "Authorization: Bearer $AIHUBMIX_API_KEY" \
-H "Content-Type: application/json" \
-d '{
"model": "gemini-2.5-flash-preview-tts",
"input": "Say cheerfully: Have a wonderful day!",
"voice": "Kore",
"response_format": "wav"
}' \
--output speech.wav
Gemini-TTS-Modell (Mehrsprecher, per Prompt gesteuert)
curl https://aihubmix.com/v1/audio/speech \
-H "Authorization: Bearer $AIHUBMIX_API_KEY" \
-H "Content-Type: application/json" \
-d '{
"model": "gemini-2.5-flash-preview-tts",
"input": "TTS the following conversation between Joe and Jane:\nJoe: How'\''s it going today Jane?\nJane: Not too bad, how about you?",
"voice": "Kore",
"response_format": "wav",
"instructions": "Joe should sound firm and professional, Jane should sound upbeat and friendly"
}' \
--output conversation.wav
Python-Beispiel (OpenAI-SDK)
from openai import OpenAI
client = OpenAI(
api_key="your-aihubmix-api-key",
base_url="https://aihubmix.com/v1"
)
response = client.audio.speech.create(
model="tts-1",
voice="alloy",
input="The quick brown fox jumped over the lazy dog."
)
response.stream_to_file("speech.mp3")
Python-Beispiel (Gemini-TTS)
from openai import OpenAI
client = OpenAI(
api_key="your-aihubmix-api-key",
base_url="https://aihubmix.com/v1"
)
# Single Speaker
response = client.audio.speech.create(
model="gemini-2.5-flash-preview-tts",
voice="Kore",
input="Say cheerfully: Have a wonderful day!",
extra_body={
"response_format": "wav"
}
)
response.stream_to_file("speech.wav")
# Multi-Speaker Dialogue
conversation_response = client.audio.speech.create(
model="gemini-2.5-flash-preview-tts",
voice="Kore",
input="""TTS the following conversation between Joe and Jane:
Joe: How's it going today Jane?
Jane: Not too bad, how about you?""",
extra_body={
"response_format": "wav",
"instructions": "Joe should sound firm, Jane should sound upbeat"
}
)
conversation_response.stream_to_file("conversation.wav")
Stimm-Stil steuern (Gemini-Modelle)
Gemini-TTS-Modelle unterstützen die Steuerung von Stimm-Stil, Tonlage, Akzent und Geschwindigkeit über natürlichsprachliche Prompts. Anweisungen können im Parameter input oder instructions übergeben werden.
Einzelsprecher-Stil-Steuerung
{
"model": "gemini-2.5-flash-preview-tts",
"input": "Say in a spooky whisper: By the pricking of my thumbs... Something wicked this way comes",
"voice": "Enceladus",
"response_format": "wav"
}
Mehrsprecher-Stil-Steuerung
{
"model": "gemini-2.5-flash-preview-tts",
"input": "Speaker1: So... what's on the agenda today?\nSpeaker2: You're never going to guess!",
"voice": "Kore",
"response_format": "wav",
"instructions": "Make Speaker1 sound tired and bored, and Speaker2 sound excited and happy"
}
Empfehlungen zur Prompt-Struktur
Für beste Ergebnisse können Sie folgendes strukturiertes Prompt-Format verwenden:
{
"model": "gemini-2.5-flash-preview-tts",
"input": "Your transcript here",
"voice": "Kore",
"instructions": "# AUDIO PROFILE: Character Name\n## Role Description\n\n## THE SCENE: Scene Name\nDescribe the environment and mood\n\n### DIRECTOR'S NOTES\nStyle: Describe the style\nPacing: Describe the pacing\nAccent: Specify the accent"
}
Unterstützte Sprachen
Die TTS-Modelle erkennen die Eingabesprache automatisch. Folgende 24 Sprachen werden unterstützt:
| Sprache | BCP-47-Code | Sprache | BCP-47-Code |
|---|
| Arabisch (Ägypten) | ar-EG | Deutsch (Deutschland) | de-DE |
| Englisch (US) | en-US | Spanisch (US) | es-US |
| Französisch (Frankreich) | fr-FR | Hindi (Indien) | hi-IN |
| Indonesisch (Indonesien) | id-ID | Italienisch (Italien) | it-IT |
| Japanisch (Japan) | ja-JP | Koreanisch (Südkorea) | ko-KR |
| Portugiesisch (Brasilien) | pt-BR | Russisch (Russland) | ru-RU |
| Niederländisch (Niederlande) | nl-NL | Polnisch (Polen) | pl-PL |
| Thai (Thailand) | th-TH | Türkisch (Türkei) | tr-TR |
| Vietnamesisch (Vietnam) | vi-VN | Rumänisch (Rumänien) | ro-RO |
| Ukrainisch (Ukraine) | uk-UA | Bengalisch (Bangladesch) | bn-BD |
| Englisch (Indien) | en-IN & hi-IN | Marathi (Indien) | mr-IN |
| Tamil (Indien) | ta-IN | Telugu (Indien) | te-IN |
| Format | Content-Type | Beschreibung | Modell-Unterstützung |
|---|
| mp3 | audio/mpeg | Standardformat, weit kompatibel | OpenAI-Modelle |
| opus | audio/opus | Geeignet für Internet-Streaming | OpenAI-Modelle |
| aac | audio/aac | Digitale Audiokompression | OpenAI-Modelle |
| flac | audio/flac | Verlustfreie Audiokompression | OpenAI-Modelle |
| wav | audio/wav | Unkomprimiertes WAV-Audio | Alle Modelle |
| pcm | audio/pcm | Rohes PCM-Audio (24 kHz, mono, 16 Bit) | Alle Modelle |
Hinweis: Das Gemini-Modell gibt nativ PCM-Format (24 kHz, mono, 16 Bit) zurück; das System konvertiert es automatisch in WAV. Für andere Formate werden OpenAI-Modelle empfohlen.
Response Body
Im Erfolgsfall wird ein Audiostream (Binärdaten) zurückgegeben, und der Content-Type entspricht dem Parameter response_format.
Im Fehlerfall wird eine JSON-Fehlermeldung zurückgegeben:
{
"error": {
"message": "Error description",
"type": "error_type",
"code": "error_code"
}
}
Die TTS-API wird nach Zeichenanzahl abgerechnet:
- Anzahl der Zeichen des Eingabetexts ist die Abrechnungseinheit
- Verschiedene Modelle haben unterschiedliche Preisfaktoren
- Maximale Eingabelänge: 4096 Zeichen
Einschränkungen
- Maximale Eingabelänge: 4096 Zeichen
- Gemini-TTS-Modelle unterstützen nur die Ausgabeformate
wav und pcm
- Gemini-TTS-Modelle unterstützen den Parameter
speed nicht (Steuerung per Prompt)
- Kontextfenster-Limit: 32k Token (Gemini-Modelle)
Häufig gestellte Fragen
F: Wie wähle ich das richtige Modell?
- Schnelle Generierung →
tts-1 oder gemini-2.5-flash-preview-tts
- Hochwertiges Audio →
tts-1-hd
- Intelligente Stimmsteuerung →
gpt-4o-mini-tts oder Gemini-TTS-Modelle
- Mehrsprecher-Dialoge → Gemini-TTS-Modelle
F: Was sind die Unterschiede zwischen Gemini-TTS und OpenAI-TTS?
- Gemini-TTS: Unterstützt Stimm-Stil-Steuerung über natürlichsprachliche Prompts und mehrere Sprecher, jedoch nur WAV/PCM-Formate
- OpenAI-TTS: Unterstützt mehrere Audioformate mit festen Stimmen und parametrisierbarer Geschwindigkeit
F: Wie implementiere ich Mehrsprecher-Dialoge?
Verwenden Sie ein Gemini-TTS-Modell, formatieren Sie input als Dialog und legen Sie in instructions den Stil für jeden Sprecher fest:
{
"model": "gemini-2.5-flash-preview-tts",
"input": "Speaker1: Hello!\nSpeaker2: Hi there!",
"instructions": "Speaker1 should sound professional, Speaker2 should sound casual"
}
F: Wird Streaming-Ausgabe unterstützt?
Aktuell liefert die TTS-API vollständige Audiodateien und unterstützt kein Streaming.
Zuletzt aktualisiert: 2026-06-01