AiHubMix Documentation Hub

Einführung

Die Text-to-Speech (TTS)-API basiert auf modernen generativen KI-Modellen und kann eingegebenen Text in realistische Sprachausgaben umwandeln. Sie unterstützt verschiedene Anwendungsfälle:

Vorlesen geschriebener Blogartikel
Erzeugen von Sprachaudios in mehreren Sprachen
Bereitstellen von Echtzeit-Audio-Ausgabestreams

Verfügbare Modelle

OpenAI-Modelle

gpt-4o-audio-preview — OpenAIs neuestes Audio-Generierungsmodell, unterstützt konversationelle Audioausgabe
gpt-4o-mini-tts — Das bevorzugte Modell für intelligente Echtzeit-Anwendungen mit erweiterter Stimmsteuerung; verschiedene Stimmcharakteristika lassen sich per Prompt steuern:
1. Akzent
2. Emotionale Bandbreite
3. Intonation
4. Stilimitationen
5. Sprechgeschwindigkeit
6. Tonlage
7. Flüstern
tts-1-hd — TTS-Modell der vorherigen Generation in HD-Qualität
tts-1 — Standard-TTS-Modell mit ausgewogenem Verhältnis von Qualität und Geschwindigkeit

Gemini-Modelle

gemini-2.5-flash-preview-tts — Schnelles TTS-Modell von Gemini, unterstützt Einzel- und Mehrsprecher-Audio
gemini-2.5-pro-preview-tts — Professionelles TTS-Modell von Gemini, unterstützt Einzel- und Mehrsprecher-Audio

Performance-Empfehlungen:

Für schnellste Reaktionszeit wav oder pcm als Antwortformat verwenden
Für hochwertiges Audio tts-1-hd nutzen
Für höhere Generierungsgeschwindigkeit tts-1 verwenden
Für intelligente Sprachanwendungen gpt-4o-mini-tts empfohlen
Für Mehrsprecher-Dialogszenarien Gemini-TTS-Modelle empfohlen

API-Endpoint

Request-URL

POST https://aihubmix.com/v1/audio/speech

Request-Header

Authorization: Bearer $AIHUBMIX_API_KEY
Content-Type: application/json

Request-Parameter

Standard-TTS-Parameter

Folgende Standardparameter gelten für TTS-Modelle: tts-1, tts-1-hd, gpt-4o-mini-tts, gemini-2.5-flash-preview-tts und gemini-2.5-pro-preview-tts.

Parameter	Typ	Pflicht	Beschreibung
model	string	Ja	Zu verwendende Modell-ID. Mögliche Werte: `tts-1`, `tts-1-hd`, `gpt-4o-mini-tts`, `gemini-2.5-flash-preview-tts`, `gemini-2.5-pro-preview-tts`
input	string	Ja	Zu vertonender Text, maximale Länge 4096 Zeichen
voice	string	Ja	Verwendete Stimme. Siehe Stimmenliste unten.
response_format	string	Nein	Audio-Ausgabeformat. Unterstützt: `mp3`, `opus`, `aac`, `flac`, `wav`, `pcm`, Standard `mp3`. `Hinweis: Gemini-Modelle unterstützen nur wav und pcm.`
speed	number	Nein	Wiedergabegeschwindigkeit, Bereich 0,25 bis 4,0, Standard 1,0. Hinweis: `gpt-4o-mini-tts` und `Gemini`-Modelle unterstützen diesen Parameter nicht; die Geschwindigkeit kann über natürlichsprachliche Beschreibungen gesteuert werden.
instructions	string	Nein	Anweisungen zur Stimm-Erzeugung – kann Stimm-Stil, Intonation und emotionale Eigenschaften detailliert angeben; nur für `gpt-4o-mini-tts` und `Gemini`-Modelle.

gpt-4o-audio-preview-Parameter

Parameter	Typ	Pflicht	Beschreibung
model	string	Ja	Auf `gpt-4o-audio-preview` setzen
modalities	array	Ja	Auf `["text", "audio"]` setzen, um die Audio-Ausgabe zu aktivieren
audio	object	Ja	Audio-Konfigurationsobjekt mit Feldern `voice` und `format`
messages	array	Ja	Array von Chat-Nachrichten, ähnlich dem Standard-Chat-Format

Stimmenliste

OpenAI-Stimmen

Unterstützt folgende Stimmen:

alloy – Neutral, ausgewogen
ash – Klar, professionell
ballad – Warm, narrativ
coral – Freundlich, zugänglich
echo – Klar, hell
fable – Ausdrucksstark, dramatisch
onyx – Tief, autoritativ
nova – Lebendig, energisch
sage – Reif, kompetent
shimmer – Sanft, beruhigend
verse – Klar, vielseitig
marin – Natürlich, freundlich
cedar – Stabil, zuverlässig

Gemini-Stimmen

Unterstützt folgende 30 Stimmen:

Stimmenname	Stil	Stimmenname	Stil	Stimmenname	Stil
Zephyr	Hell	Puck	Schwungvoll	Charon	Informativ
Kore	Bestimmt	Fenrir	Aufgeregt	Leda	Jugendlich
Orus	Bestimmt	Aoede	Luftig	Callirrhoe	Locker
Autonoe	Hell	Enceladus	Hauchig	Iapetus	Klar
Umbriel	Locker	Algieba	Geschmeidig	Despina	Geschmeidig
Erinome	Klar	Algenib	Rauchig	Rasalgethi	Informativ
Laomedeia	Schwungvoll	Achernar	Sanft	Alnilam	Bestimmt
Schedar	Gleichmäßig	Gacrux	Gereift	Pulcherrima	Vorwärts
Achird	Freundlich	Zubenelgenubi	Lässig	Vindemiatrix	Sanft
Sadachbia	Lebendig	Sadaltager	Kompetent	Sulafat	Warm

Stimmen-Mapping

Bei Verwendung von Gemini-Modellen mit OpenAI-Stimmnamen mappt das System automatisch auf die entsprechende Gemini-Stimme:

OpenAI-Stimme	Gemini-Stimme	OpenAI-Stimme	Gemini-Stimme
alloy	Kore	ash	Fenrir
ballad	Aoede	coral	Leda
echo	Puck	fable	Zephyr
onyx	Charon	nova	Orus
sage	Algieba	shimmer	Callirrhoe
verse	Enceladus	marin	Despina
cedar	Iapetus

Anwendungsbeispiele

Standard-TTS-Modell (OpenAI)

curl https://aihubmix.com/v1/audio/speech \
  -H "Authorization: Bearer $AIHUBMIX_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "tts-1",
    "input": "The quick brown fox jumped over the lazy dog.",
    "voice": "alloy"
  }' \
  --output speech.mp3

Gemini-TTS-Modell (Einzelsprecher)

curl https://aihubmix.com/v1/audio/speech \
  -H "Authorization: Bearer $AIHUBMIX_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "gemini-2.5-flash-preview-tts",
    "input": "Say cheerfully: Have a wonderful day!",
    "voice": "Kore",
    "response_format": "wav"
  }' \
  --output speech.wav

Gemini-TTS-Modell (Mehrsprecher, per Prompt gesteuert)

curl https://aihubmix.com/v1/audio/speech \
  -H "Authorization: Bearer $AIHUBMIX_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "gemini-2.5-flash-preview-tts",
    "input": "TTS the following conversation between Joe and Jane:\nJoe: How'\''s it going today Jane?\nJane: Not too bad, how about you?",
    "voice": "Kore",
    "response_format": "wav",
    "instructions": "Joe should sound firm and professional, Jane should sound upbeat and friendly"
  }' \
  --output conversation.wav

Python-Beispiel (OpenAI-SDK)

from openai import OpenAI

client = OpenAI(
    api_key="your-aihubmix-api-key",
    base_url="https://aihubmix.com/v1"
)

response = client.audio.speech.create(
    model="tts-1",
    voice="alloy",
    input="The quick brown fox jumped over the lazy dog."
)

response.stream_to_file("speech.mp3")

Python-Beispiel (Gemini-TTS)

from openai import OpenAI

client = OpenAI(
    api_key="your-aihubmix-api-key",
    base_url="https://aihubmix.com/v1"
)

# Single Speaker
response = client.audio.speech.create(
    model="gemini-2.5-flash-preview-tts",
    voice="Kore",
    input="Say cheerfully: Have a wonderful day!",
    extra_body={
        "response_format": "wav"
    }
)

response.stream_to_file("speech.wav")

# Multi-Speaker Dialogue
conversation_response = client.audio.speech.create(
    model="gemini-2.5-flash-preview-tts",
    voice="Kore",
    input="""TTS the following conversation between Joe and Jane:
    Joe: How's it going today Jane?
    Jane: Not too bad, how about you?""",
    extra_body={
        "response_format": "wav",
        "instructions": "Joe should sound firm, Jane should sound upbeat"
    }
)

conversation_response.stream_to_file("conversation.wav")

Stimm-Stil steuern (Gemini-Modelle)

Gemini-TTS-Modelle unterstützen die Steuerung von Stimm-Stil, Tonlage, Akzent und Geschwindigkeit über natürlichsprachliche Prompts. Anweisungen können im Parameter input oder instructions übergeben werden.

Einzelsprecher-Stil-Steuerung

{
  "model": "gemini-2.5-flash-preview-tts",
  "input": "Say in a spooky whisper: By the pricking of my thumbs... Something wicked this way comes",
  "voice": "Enceladus",
  "response_format": "wav"
}

Mehrsprecher-Stil-Steuerung

{
  "model": "gemini-2.5-flash-preview-tts",
  "input": "Speaker1: So... what's on the agenda today?\nSpeaker2: You're never going to guess!",
  "voice": "Kore",
  "response_format": "wav",
  "instructions": "Make Speaker1 sound tired and bored, and Speaker2 sound excited and happy"
}

Empfehlungen zur Prompt-Struktur

Für beste Ergebnisse können Sie folgendes strukturiertes Prompt-Format verwenden:

{
  "model": "gemini-2.5-flash-preview-tts",
  "input": "Your transcript here",
  "voice": "Kore",
  "instructions": "# AUDIO PROFILE: Character Name\n## Role Description\n\n## THE SCENE: Scene Name\nDescribe the environment and mood\n\n### DIRECTOR'S NOTES\nStyle: Describe the style\nPacing: Describe the pacing\nAccent: Specify the accent"
}

Unterstützte Sprachen

Die TTS-Modelle erkennen die Eingabesprache automatisch. Folgende 24 Sprachen werden unterstützt:

Sprache	BCP-47-Code	Sprache	BCP-47-Code
Arabisch (Ägypten)	ar-EG	Deutsch (Deutschland)	de-DE
Englisch (US)	en-US	Spanisch (US)	es-US
Französisch (Frankreich)	fr-FR	Hindi (Indien)	hi-IN
Indonesisch (Indonesien)	id-ID	Italienisch (Italien)	it-IT
Japanisch (Japan)	ja-JP	Koreanisch (Südkorea)	ko-KR
Portugiesisch (Brasilien)	pt-BR	Russisch (Russland)	ru-RU
Niederländisch (Niederlande)	nl-NL	Polnisch (Polen)	pl-PL
Thai (Thailand)	th-TH	Türkisch (Türkei)	tr-TR
Vietnamesisch (Vietnam)	vi-VN	Rumänisch (Rumänien)	ro-RO
Ukrainisch (Ukraine)	uk-UA	Bengalisch (Bangladesch)	bn-BD
Englisch (Indien)	en-IN & hi-IN	Marathi (Indien)	mr-IN
Tamil (Indien)	ta-IN	Telugu (Indien)	te-IN

Antwortformate

Audioformate

Format	Content-Type	Beschreibung	Modell-Unterstützung
mp3	audio/mpeg	Standardformat, weit kompatibel	OpenAI-Modelle
opus	audio/opus	Geeignet für Internet-Streaming	OpenAI-Modelle
aac	audio/aac	Digitale Audiokompression	OpenAI-Modelle
flac	audio/flac	Verlustfreie Audiokompression	OpenAI-Modelle
wav	audio/wav	Unkomprimiertes WAV-Audio	Alle Modelle
pcm	audio/pcm	Rohes PCM-Audio (24 kHz, mono, 16 Bit)	Alle Modelle

Hinweis: Das Gemini-Modell gibt nativ PCM-Format (24 kHz, mono, 16 Bit) zurück; das System konvertiert es automatisch in WAV. Für andere Formate werden OpenAI-Modelle empfohlen.

Response Body

Im Erfolgsfall wird ein Audiostream (Binärdaten) zurückgegeben, und der Content-Type entspricht dem Parameter response_format. Im Fehlerfall wird eine JSON-Fehlermeldung zurückgegeben:

{
  "error": {
    "message": "Error description",
    "type": "error_type",
    "code": "error_code"
  }
}

Abrechnungsinformationen

Die TTS-API wird nach Zeichenanzahl abgerechnet:

Anzahl der Zeichen des Eingabetexts ist die Abrechnungseinheit
Verschiedene Modelle haben unterschiedliche Preisfaktoren
Maximale Eingabelänge: 4096 Zeichen

Einschränkungen

Maximale Eingabelänge: 4096 Zeichen
Gemini-TTS-Modelle unterstützen nur die Ausgabeformate wav und pcm
Gemini-TTS-Modelle unterstützen den Parameter speed nicht (Steuerung per Prompt)
Kontextfenster-Limit: 32k Token (Gemini-Modelle)

Häufig gestellte Fragen

F: Wie wähle ich das richtige Modell?

Schnelle Generierung → tts-1 oder gemini-2.5-flash-preview-tts
Hochwertiges Audio → tts-1-hd
Intelligente Stimmsteuerung → gpt-4o-mini-tts oder Gemini-TTS-Modelle
Mehrsprecher-Dialoge → Gemini-TTS-Modelle

F: Was sind die Unterschiede zwischen Gemini-TTS und OpenAI-TTS?

Gemini-TTS: Unterstützt Stimm-Stil-Steuerung über natürlichsprachliche Prompts und mehrere Sprecher, jedoch nur WAV/PCM-Formate
OpenAI-TTS: Unterstützt mehrere Audioformate mit festen Stimmen und parametrisierbarer Geschwindigkeit

F: Wie implementiere ich Mehrsprecher-Dialoge?

Verwenden Sie ein Gemini-TTS-Modell, formatieren Sie input als Dialog und legen Sie in instructions den Stil für jeden Sprecher fest:

{
  "model": "gemini-2.5-flash-preview-tts",
  "input": "Speaker1: Hello!\nSpeaker2: Hi there!",
  "instructions": "Speaker1 should sound professional, Speaker2 should sound casual"
}

F: Wird Streaming-Ausgabe unterstützt?

Aktuell liefert die TTS-API vollständige Audiodateien und unterstützt kein Streaming.

Zuletzt aktualisiert: 2026-06-01

​Einführung

​Verfügbare Modelle

​OpenAI-Modelle

​Gemini-Modelle

​API-Endpoint

​Request-URL

​Request-Header

​Request-Parameter

​Standard-TTS-Parameter

​gpt-4o-audio-preview-Parameter

​Stimmenliste

​OpenAI-Stimmen

​Gemini-Stimmen

​Stimmen-Mapping

​Anwendungsbeispiele

​Standard-TTS-Modell (OpenAI)

​Gemini-TTS-Modell (Einzelsprecher)

​Gemini-TTS-Modell (Mehrsprecher, per Prompt gesteuert)

​Python-Beispiel (OpenAI-SDK)

​Python-Beispiel (Gemini-TTS)

​Stimm-Stil steuern (Gemini-Modelle)

​Einzelsprecher-Stil-Steuerung

​Mehrsprecher-Stil-Steuerung

​Empfehlungen zur Prompt-Struktur

​Unterstützte Sprachen

​Antwortformate

​Audioformate

​Response Body

​Abrechnungsinformationen

​Einschränkungen

​Häufig gestellte Fragen

​F: Wie wähle ich das richtige Modell?

​F: Was sind die Unterschiede zwischen Gemini-TTS und OpenAI-TTS?

​F: Wie implementiere ich Mehrsprecher-Dialoge?

​F: Wird Streaming-Ausgabe unterstützt?

​Aktuell liefert die TTS-API vollständige Audiodateien und unterstützt kein Streaming.