Introduction
L’API de reconnaissance vocale (STT) basée sur les modèles Whisper d’OpenAI peut convertir des fichiers audio en texte. Elle prend en charge divers cas d’usage :- Transcrire des fichiers audio en texte
- Traduire de l’audio multilingue en anglais
- Prendre en charge plusieurs formats audio en entrée
- Proposer plusieurs options de format de sortie
- whisper-large-v3 — Dernier grand modèle Whisper, prend en charge de nombreuses langues. Pour la reconnaissance du chinois, utilisez-le avec des prompts appropriés et une température basse
- whisper-1 — Modèle Whisper d’origine, stable et fiable, prend en charge plusieurs langues
- distil-whisper-large-v3-en — Modèle distillé, plus rapide mais légèrement moins précis ; recommandé avec une faible température
Utilisation du modèle
Transcription vocale
Utilisez l’endpoint/v1/audio/transcriptions via la méthode client.audio.transcriptions.create() pour transcrire l’audio en texte dans la langue d’origine.
Traduction vocale
Utilisez l’endpoint/v1/audio/translations via la méthode client.audio.translations.create() pour traduire l’audio en texte anglais.
Paramètres de requête
Paramètres de transcription
Objet fichier audio à transcrire. Formats pris en charge : mp3, mp4, mpeg, mpga, m4a, wav, webm, 25 Mo maximum
ID de modèle à utiliser. Options :
whisper-large-v3, whisper-1, distil-whisper-large-v3-enLangue de l’audio d’entrée au format ISO-639-1 (par exemple, ‘en’, ‘zh’). Spécifier la langue peut améliorer la précision et la latence
Prompt textuel facultatif pour guider le style du modèle ou poursuivre un segment audio précédent. Le prompt doit correspondre à la langue de l’audio
Format de sortie de la transcription. Options :
json (par défaut), text, srt, verbose_json, vttTempérature d’échantillonnage entre 0 et 1. Des valeurs plus élevées rendent la sortie plus aléatoire, des valeurs plus basses la rendent plus déterministe. Valeur par défaut : 0
Granularités des horodatages. Options :
word, segment. Disponible uniquement lorsque response_format vaut verbose_jsonParamètres de traduction
Objet fichier audio à traduire. Mêmes formats que pour la transcription
ID de modèle à utiliser, identique aux paramètres de transcription
Prompt textuel facultatif en anglais pour guider le style de traduction
Format de sortie de la traduction, identique aux paramètres de transcription
Température d’échantillonnage, identique aux paramètres de transcription
Exemples d’utilisation
Formats de réponse
Format JSON (par défaut)
Format JSON détaillé (verbose_json)
Format texte
Format SRT
Format VTT
Bonnes pratiques
- Traitement de l’audio en chinois : utilisez le modèle
whisper-large-v3, définissezlanguage="zh",temperature=0.2et fournissez des prompts chinois appropriés - Traitement de l’audio en anglais : utilisez
distil-whisper-large-v3-enpour un traitement plus rapide - Gestion du bruit : utilisez des prompts pour indiquer au modèle d’ignorer le bruit de fond ou de nettoyer les bégaiements
- Traitement de l’audio long : l’API segmente automatiquement les longs fichiers audio ; il est recommandé de prétraiter la qualité audio pour de meilleurs résultats
- Besoins en horodatage : utilisez le format
verbose_jsonettimestamp_granularitieslorsque des horodatages précis sont nécessaires - Création de sous-titres : utilisez directement la sortie au format
srtouvttsans traitement supplémentaire
Dernière mise à jour : 2026-06-01