Documentation Index
Fetch the complete documentation index at: https://docs.aihubmix.com/llms.txt
Use this file to discover all available pages before exploring further.
Introducción
La API de voz a texto (STT) basada en los modelos Whisper de OpenAI puede convertir archivos de audio en texto. Admite varios casos de uso:- Transcribir archivos de audio a texto
- Traducir audio multilingüe al inglés
- Compatibilidad con múltiples formatos de entrada de audio
- Varias opciones de formato de salida
- whisper-large-v3 —— El modelo Whisper grande más reciente; admite varios idiomas. Para el reconocimiento de chino, úsalo con prompts adecuados y valores bajos de temperatura
- whisper-1 —— Modelo Whisper original, estable y fiable; admite varios idiomas
- distil-whisper-large-v3-en —— Modelo destilado; mayor velocidad de procesamiento pero precisión ligeramente menor; se recomienda con valores bajos de temperatura
Uso de los modelos
Transcripción de voz
Usa el endpoint/v1/audio/transcriptions mediante el método client.audio.transcriptions.create() para transcribir audio a texto en el idioma original.
Traducción de voz
Usa el endpoint/v1/audio/translations mediante el método client.audio.translations.create() para traducir audio a texto en inglés.
Parámetros de la solicitud
Parámetros de transcripción
Objeto de archivo de audio a transcribir. Formatos admitidos: mp3, mp4, mpeg, mpga, m4a, wav, webm, máximo 25 MB
ID del modelo a usar. Opciones:
whisper-large-v3, whisper-1, distil-whisper-large-v3-enIdioma del audio de entrada en formato ISO-639-1 (p. ej., ‘en’, ‘zh’). Especificar el idioma puede mejorar la precisión y la latencia
Prompt de texto opcional para guiar el estilo del modelo o continuar un segmento de audio previo. El prompt debe coincidir con el idioma del audio
Formato de salida de la transcripción. Opciones:
json (predeterminado), text, srt, verbose_json, vttTemperatura de muestreo entre 0 y 1. Valores más altos hacen la salida más aleatoria; valores más bajos la hacen más enfocada y determinista. Por defecto 0
Granularidades de las marcas temporales. Opciones:
word, segment. Solo disponible cuando response_format es verbose_jsonParámetros de traducción
Objeto de archivo de audio a traducir. Mismos formatos que la transcripción
ID del modelo a usar; igual que en los parámetros de transcripción
Prompt opcional en texto inglés para guiar el estilo de la traducción
Formato de salida de la traducción; igual que en los parámetros de transcripción
Temperatura de muestreo; igual que en los parámetros de transcripción
Ejemplos de uso
Formatos de respuesta
Formato JSON (predeterminado)
Formato JSON detallado (verbose_json)
Formato de texto
Formato SRT
Formato VTT
Buenas prácticas
- Procesamiento de audio en chino: Usa el modelo
whisper-large-v3, configuralanguage="zh",temperature=0.2y proporciona prompts adecuados en chino - Procesamiento de audio en inglés: Usa
distil-whisper-large-v3-enpara una mayor velocidad de procesamiento - Gestión del ruido: Usa prompts para indicar al modelo que ignore el ruido de fondo o que limpie tartamudeos
- Procesamiento de audio largo: La API segmenta automáticamente los audios largos; se recomienda preprocesar la calidad del audio para obtener mejores resultados
- Requisitos de marcas temporales: Usa el formato
verbose_jsonytimestamp_granularitiescuando necesites marcas temporales precisas - Creación de subtítulos: Usa la salida en formato
srtovttdirectamente sin procesamiento adicional
Última actualización: 2026-06-01