Zum Hauptinhalt springen

Documentation Index

Fetch the complete documentation index at: https://docs.aihubmix.com/llms.txt

Use this file to discover all available pages before exploring further.

Einführung

Die Text-to-Speech (TTS)-API basiert auf modernen generativen KI-Modellen und kann eingegebenen Text in realistische Sprachausgaben umwandeln. Sie unterstützt verschiedene Anwendungsfälle:
  • Vorlesen geschriebener Blogartikel
  • Erzeugen von Sprachaudios in mehreren Sprachen
  • Bereitstellen von Echtzeit-Audio-Ausgabestreams

Verfügbare Modelle

OpenAI-Modelle

  • gpt-4o-audio-preview — OpenAIs neuestes Audio-Generierungsmodell, unterstützt konversationelle Audioausgabe
  • gpt-4o-mini-tts — Das bevorzugte Modell für intelligente Echtzeit-Anwendungen mit erweiterter Stimmsteuerung; verschiedene Stimmcharakteristika lassen sich per Prompt steuern:
    1. Akzent
    2. Emotionale Bandbreite
    3. Intonation
    4. Stilimitationen
    5. Sprechgeschwindigkeit
    6. Tonlage
    7. Flüstern
  • tts-1-hd — TTS-Modell der vorherigen Generation in HD-Qualität
  • tts-1 — Standard-TTS-Modell mit ausgewogenem Verhältnis von Qualität und Geschwindigkeit

Gemini-Modelle

Performance-Empfehlungen:
  1. Für schnellste Reaktionszeit wav oder pcm als Antwortformat verwenden
  2. Für hochwertiges Audio tts-1-hd nutzen
  3. Für höhere Generierungsgeschwindigkeit tts-1 verwenden
  4. Für intelligente Sprachanwendungen gpt-4o-mini-tts empfohlen
  5. Für Mehrsprecher-Dialogszenarien Gemini-TTS-Modelle empfohlen

API-Endpoint

Request-URL

POST https://aihubmix.com/v1/audio/speech

Request-Header

Authorization: Bearer $AIHUBMIX_API_KEY
Content-Type: application/json

Request-Parameter

Standard-TTS-Parameter

Folgende Standardparameter gelten für TTS-Modelle: tts-1, tts-1-hd, gpt-4o-mini-tts, gemini-2.5-flash-preview-tts und gemini-2.5-pro-preview-tts.
ParameterTypPflichtBeschreibung
modelstringJaZu verwendende Modell-ID. Mögliche Werte: tts-1, tts-1-hd, gpt-4o-mini-tts, gemini-2.5-flash-preview-tts, gemini-2.5-pro-preview-tts
inputstringJaZu vertonender Text, maximale Länge 4096 Zeichen
voicestringJaVerwendete Stimme. Siehe Stimmenliste unten.
response_formatstringNeinAudio-Ausgabeformat. Unterstützt: mp3, opus, aac, flac, wav, pcm, Standard mp3. Hinweis: Gemini-Modelle unterstützen nur wav und pcm.
speednumberNeinWiedergabegeschwindigkeit, Bereich 0,25 bis 4,0, Standard 1,0. Hinweis: gpt-4o-mini-tts und Gemini-Modelle unterstützen diesen Parameter nicht; die Geschwindigkeit kann über natürlichsprachliche Beschreibungen gesteuert werden.
instructionsstringNeinAnweisungen zur Stimm-Erzeugung – kann Stimm-Stil, Intonation und emotionale Eigenschaften detailliert angeben; nur für gpt-4o-mini-tts und Gemini-Modelle.

gpt-4o-audio-preview-Parameter

ParameterTypPflichtBeschreibung
modelstringJaAuf gpt-4o-audio-preview setzen
modalitiesarrayJaAuf ["text", "audio"] setzen, um die Audio-Ausgabe zu aktivieren
audioobjectJaAudio-Konfigurationsobjekt mit Feldern voice und format
messagesarrayJaArray von Chat-Nachrichten, ähnlich dem Standard-Chat-Format

Stimmenliste

OpenAI-Stimmen

Unterstützt folgende Stimmen:
  • alloy – Neutral, ausgewogen
  • ash – Klar, professionell
  • ballad – Warm, narrativ
  • coral – Freundlich, zugänglich
  • echo – Klar, hell
  • fable – Ausdrucksstark, dramatisch
  • onyx – Tief, autoritativ
  • nova – Lebendig, energisch
  • sage – Reif, kompetent
  • shimmer – Sanft, beruhigend
  • verse – Klar, vielseitig
  • marin – Natürlich, freundlich
  • cedar – Stabil, zuverlässig

Gemini-Stimmen

Unterstützt folgende 30 Stimmen:
StimmennameStilStimmennameStilStimmennameStil
ZephyrHellPuckSchwungvollCharonInformativ
KoreBestimmtFenrirAufgeregtLedaJugendlich
OrusBestimmtAoedeLuftigCallirrhoeLocker
AutonoeHellEnceladusHauchigIapetusKlar
UmbrielLockerAlgiebaGeschmeidigDespinaGeschmeidig
ErinomeKlarAlgenibRauchigRasalgethiInformativ
LaomedeiaSchwungvollAchernarSanftAlnilamBestimmt
SchedarGleichmäßigGacruxGereiftPulcherrimaVorwärts
AchirdFreundlichZubenelgenubiLässigVindemiatrixSanft
SadachbiaLebendigSadaltagerKompetentSulafatWarm

Stimmen-Mapping

Bei Verwendung von Gemini-Modellen mit OpenAI-Stimmnamen mappt das System automatisch auf die entsprechende Gemini-Stimme:
OpenAI-StimmeGemini-StimmeOpenAI-StimmeGemini-Stimme
alloyKoreashFenrir
balladAoedecoralLeda
echoPuckfableZephyr
onyxCharonnovaOrus
sageAlgiebashimmerCallirrhoe
verseEnceladusmarinDespina
cedarIapetus

Anwendungsbeispiele

Standard-TTS-Modell (OpenAI)

curl https://aihubmix.com/v1/audio/speech \
  -H "Authorization: Bearer $AIHUBMIX_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "tts-1",
    "input": "The quick brown fox jumped over the lazy dog.",
    "voice": "alloy"
  }' \
  --output speech.mp3

Gemini-TTS-Modell (Einzelsprecher)

curl https://aihubmix.com/v1/audio/speech \
  -H "Authorization: Bearer $AIHUBMIX_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "gemini-2.5-flash-preview-tts",
    "input": "Say cheerfully: Have a wonderful day!",
    "voice": "Kore",
    "response_format": "wav"
  }' \
  --output speech.wav

Gemini-TTS-Modell (Mehrsprecher, per Prompt gesteuert)

curl https://aihubmix.com/v1/audio/speech \
  -H "Authorization: Bearer $AIHUBMIX_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "gemini-2.5-flash-preview-tts",
    "input": "TTS the following conversation between Joe and Jane:\nJoe: How'\''s it going today Jane?\nJane: Not too bad, how about you?",
    "voice": "Kore",
    "response_format": "wav",
    "instructions": "Joe should sound firm and professional, Jane should sound upbeat and friendly"
  }' \
  --output conversation.wav

Python-Beispiel (OpenAI-SDK)

from openai import OpenAI

client = OpenAI(
    api_key="your-aihubmix-api-key",
    base_url="https://aihubmix.com/v1"
)

response = client.audio.speech.create(
    model="tts-1",
    voice="alloy",
    input="The quick brown fox jumped over the lazy dog."
)

response.stream_to_file("speech.mp3")

Python-Beispiel (Gemini-TTS)

from openai import OpenAI

client = OpenAI(
    api_key="your-aihubmix-api-key",
    base_url="https://aihubmix.com/v1"
)

# Single Speaker
response = client.audio.speech.create(
    model="gemini-2.5-flash-preview-tts",
    voice="Kore",
    input="Say cheerfully: Have a wonderful day!",
    extra_body={
        "response_format": "wav"
    }
)

response.stream_to_file("speech.wav")

# Multi-Speaker Dialogue
conversation_response = client.audio.speech.create(
    model="gemini-2.5-flash-preview-tts",
    voice="Kore",
    input="""TTS the following conversation between Joe and Jane:
    Joe: How's it going today Jane?
    Jane: Not too bad, how about you?""",
    extra_body={
        "response_format": "wav",
        "instructions": "Joe should sound firm, Jane should sound upbeat"
    }
)

conversation_response.stream_to_file("conversation.wav")

Stimm-Stil steuern (Gemini-Modelle)

Gemini-TTS-Modelle unterstützen die Steuerung von Stimm-Stil, Tonlage, Akzent und Geschwindigkeit über natürlichsprachliche Prompts. Anweisungen können im Parameter input oder instructions übergeben werden.

Einzelsprecher-Stil-Steuerung

{
  "model": "gemini-2.5-flash-preview-tts",
  "input": "Say in a spooky whisper: By the pricking of my thumbs... Something wicked this way comes",
  "voice": "Enceladus",
  "response_format": "wav"
}

Mehrsprecher-Stil-Steuerung

{
  "model": "gemini-2.5-flash-preview-tts",
  "input": "Speaker1: So... what's on the agenda today?\nSpeaker2: You're never going to guess!",
  "voice": "Kore",
  "response_format": "wav",
  "instructions": "Make Speaker1 sound tired and bored, and Speaker2 sound excited and happy"
}

Empfehlungen zur Prompt-Struktur

Für beste Ergebnisse können Sie folgendes strukturiertes Prompt-Format verwenden:
{
  "model": "gemini-2.5-flash-preview-tts",
  "input": "Your transcript here",
  "voice": "Kore",
  "instructions": "# AUDIO PROFILE: Character Name\n## Role Description\n\n## THE SCENE: Scene Name\nDescribe the environment and mood\n\n### DIRECTOR'S NOTES\nStyle: Describe the style\nPacing: Describe the pacing\nAccent: Specify the accent"
}

Unterstützte Sprachen

Die TTS-Modelle erkennen die Eingabesprache automatisch. Folgende 24 Sprachen werden unterstützt:
SpracheBCP-47-CodeSpracheBCP-47-Code
Arabisch (Ägypten)ar-EGDeutsch (Deutschland)de-DE
Englisch (US)en-USSpanisch (US)es-US
Französisch (Frankreich)fr-FRHindi (Indien)hi-IN
Indonesisch (Indonesien)id-IDItalienisch (Italien)it-IT
Japanisch (Japan)ja-JPKoreanisch (Südkorea)ko-KR
Portugiesisch (Brasilien)pt-BRRussisch (Russland)ru-RU
Niederländisch (Niederlande)nl-NLPolnisch (Polen)pl-PL
Thai (Thailand)th-THTürkisch (Türkei)tr-TR
Vietnamesisch (Vietnam)vi-VNRumänisch (Rumänien)ro-RO
Ukrainisch (Ukraine)uk-UABengalisch (Bangladesch)bn-BD
Englisch (Indien)en-IN & hi-INMarathi (Indien)mr-IN
Tamil (Indien)ta-INTelugu (Indien)te-IN

Antwortformate

Audioformate

FormatContent-TypeBeschreibungModell-Unterstützung
mp3audio/mpegStandardformat, weit kompatibelOpenAI-Modelle
opusaudio/opusGeeignet für Internet-StreamingOpenAI-Modelle
aacaudio/aacDigitale AudiokompressionOpenAI-Modelle
flacaudio/flacVerlustfreie AudiokompressionOpenAI-Modelle
wavaudio/wavUnkomprimiertes WAV-AudioAlle Modelle
pcmaudio/pcmRohes PCM-Audio (24 kHz, mono, 16 Bit)Alle Modelle
Hinweis: Das Gemini-Modell gibt nativ PCM-Format (24 kHz, mono, 16 Bit) zurück; das System konvertiert es automatisch in WAV. Für andere Formate werden OpenAI-Modelle empfohlen.

Response Body

Im Erfolgsfall wird ein Audiostream (Binärdaten) zurückgegeben, und der Content-Type entspricht dem Parameter response_format. Im Fehlerfall wird eine JSON-Fehlermeldung zurückgegeben:
{
  "error": {
    "message": "Error description",
    "type": "error_type",
    "code": "error_code"
  }
}

Abrechnungsinformationen

Die TTS-API wird nach Zeichenanzahl abgerechnet:
  • Anzahl der Zeichen des Eingabetexts ist die Abrechnungseinheit
  • Verschiedene Modelle haben unterschiedliche Preisfaktoren
  • Maximale Eingabelänge: 4096 Zeichen

Einschränkungen

  • Maximale Eingabelänge: 4096 Zeichen
  • Gemini-TTS-Modelle unterstützen nur die Ausgabeformate wav und pcm
  • Gemini-TTS-Modelle unterstützen den Parameter speed nicht (Steuerung per Prompt)
  • Kontextfenster-Limit: 32k Token (Gemini-Modelle)

Häufig gestellte Fragen

F: Wie wähle ich das richtige Modell?

  • Schnelle Generierung → tts-1 oder gemini-2.5-flash-preview-tts
  • Hochwertiges Audio → tts-1-hd
  • Intelligente Stimmsteuerung → gpt-4o-mini-tts oder Gemini-TTS-Modelle
  • Mehrsprecher-Dialoge → Gemini-TTS-Modelle

F: Was sind die Unterschiede zwischen Gemini-TTS und OpenAI-TTS?

  • Gemini-TTS: Unterstützt Stimm-Stil-Steuerung über natürlichsprachliche Prompts und mehrere Sprecher, jedoch nur WAV/PCM-Formate
  • OpenAI-TTS: Unterstützt mehrere Audioformate mit festen Stimmen und parametrisierbarer Geschwindigkeit

F: Wie implementiere ich Mehrsprecher-Dialoge?

Verwenden Sie ein Gemini-TTS-Modell, formatieren Sie input als Dialog und legen Sie in instructions den Stil für jeden Sprecher fest:
{
  "model": "gemini-2.5-flash-preview-tts",
  "input": "Speaker1: Hello!\nSpeaker2: Hi there!",
  "instructions": "Speaker1 should sound professional, Speaker2 should sound casual"
}

F: Wird Streaming-Ausgabe unterstützt?

Aktuell liefert die TTS-API vollständige Audiodateien und unterstützt kein Streaming.

Zuletzt aktualisiert: 2026-06-01