Documentation Index
Fetch the complete documentation index at: https://docs.aihubmix.com/llms.txt
Use this file to discover all available pages before exploring further.
Einführung
Die Speech-to-Text (STT)-API auf Basis der Whisper-Modelle von OpenAI kann Audiodateien in Text umwandeln. Sie unterstützt verschiedene Anwendungsfälle:- Transkription von Audiodateien in Text
- Übersetzung mehrsprachiger Audios ins Englische
- Unterstützung mehrerer Audio-Eingabeformate
- Verschiedene Ausgabeformate
- whisper-large-v3 —— Neuestes großes Whisper-Modell, unterstützt mehrere Sprachen. Für chinesische Erkennung verwenden Sie geeignete Prompts und niedrige Temperaturwerte
- whisper-1 —— Ursprüngliches Whisper-Modell, stabil und zuverlässig, unterstützt mehrere Sprachen
- distil-whisper-large-v3-en —— Distilliertes Modell, schneller, aber leicht verringerte Genauigkeit; empfohlen mit niedrigen Temperaturwerten
Modellverwendung
Sprachtranskription
Verwenden Sie den Endpoint/v1/audio/transcriptions über die Methode client.audio.transcriptions.create(), um Audio in der Originalsprache zu transkribieren.
Sprachübersetzung
Verwenden Sie den Endpoint/v1/audio/translations über die Methode client.audio.translations.create(), um Audio in englischen Text zu übersetzen.
Request-Parameter
Transkriptionsparameter
Audio-Datei-Objekt zur Transkription. Unterstützte Formate: mp3, mp4, mpeg, mpga, m4a, wav, webm; max. 25 MB.
Zu verwendende Modell-ID. Optionen:
whisper-large-v3, whisper-1, distil-whisper-large-v3-enSprache des Eingabe-Audios im Format ISO-639-1 (z. B. „en”, „zh”). Die Angabe der Sprache kann Genauigkeit und Latenz verbessern.
Optionaler Text-Prompt, um den Stil des Modells zu steuern oder ein vorheriges Audiosegment fortzusetzen. Der Prompt sollte zur Audiosprache passen.
Ausgabeformat der Transkription. Optionen:
json (Standard), text, srt, verbose_json, vtt.Sampling-Temperatur zwischen 0 und 1. Höhere Werte machen die Ausgabe zufälliger, niedrigere Werte machen sie fokussierter und deterministischer. Standard: 0.
Zeitstempel-Granularitäten. Optionen:
word, segment. Nur verfügbar, wenn response_format auf verbose_json gesetzt ist.Übersetzungsparameter
Zu übersetzendes Audio-Datei-Objekt. Gleiche Formate wie bei der Transkription.
Zu verwendende Modell-ID, identisch mit den Transkriptionsparametern.
Optionaler englischer Text-Prompt zur Steuerung des Übersetzungsstils.
Ausgabeformat der Übersetzung, identisch mit den Transkriptionsparametern.
Sampling-Temperatur, identisch mit den Transkriptionsparametern.
Anwendungsbeispiele
Antwortformate
JSON-Format (Standard)
Verbose-JSON-Format (verbose_json)
Text-Format
SRT-Format
VTT-Format
Best Practices
- Verarbeitung chinesischer Audios: Verwenden Sie das Modell
whisper-large-v3, setzen Sielanguage="zh",temperature=0.2und geben Sie geeignete chinesische Prompts an - Verarbeitung englischer Audios: Verwenden Sie
distil-whisper-large-v3-enfür eine höhere Geschwindigkeit - Umgang mit Geräuschen: Verwenden Sie Prompts, um das Modell anzuweisen, Hintergrundgeräusche zu ignorieren oder Stottern zu bereinigen
- Lange Audios: Die API segmentiert lange Audios automatisch; eine Vorverarbeitung der Audioqualität wird für beste Ergebnisse empfohlen
- Zeitstempel-Anforderungen: Verwenden Sie
verbose_jsonundtimestamp_granularities, wenn präzise Zeitstempel benötigt werden - Untertitelerstellung: Verwenden Sie direkt das Ausgabeformat
srtodervtt, ohne weitere Nachbearbeitung
Zuletzt aktualisiert: 2026-06-01