AiHubMix Documentation Hub

Introducción

La API de voz a texto (STT) basada en los modelos Whisper de OpenAI puede convertir archivos de audio en texto. Admite varios casos de uso:

Transcribir archivos de audio a texto
Traducir audio multilingüe al inglés
Compatibilidad con múltiples formatos de entrada de audio
Varias opciones de formato de salida

Lista de modelos disponibles:

whisper-large-v3 —— El modelo Whisper grande más reciente; admite varios idiomas. Para el reconocimiento de chino, úsalo con prompts adecuados y valores bajos de temperatura
whisper-1 —— Modelo Whisper original, estable y fiable; admite varios idiomas
distil-whisper-large-v3-en —— Modelo destilado; mayor velocidad de procesamiento pero precisión ligeramente menor; se recomienda con valores bajos de temperatura

Recomendaciones de rendimiento:

Para audio en chino, se recomienda usar el modelo whisper-large-v3 con prompts adecuados y valores de temperatura más bajos (p. ej., 0.2) para reducir las alucinaciones
Para audio en inglés o un procesamiento más rápido, usa el modelo distil-whisper-large-v3-en
Formatos de audio admitidos: mp3, mp4, mpeg, mpga, m4a, wav, webm
Límite de tamaño de archivo: máximo 25 MB

Uso de los modelos

Transcripción de voz

Usa el endpoint /v1/audio/transcriptions mediante el método client.audio.transcriptions.create() para transcribir audio a texto en el idioma original.

Traducción de voz

Usa el endpoint /v1/audio/translations mediante el método client.audio.translations.create() para traducir audio a texto en inglés.

Parámetros de la solicitud

Parámetros de transcripción

file

requerido

Objeto de archivo de audio a transcribir. Formatos admitidos: mp3, mp4, mpeg, mpga, m4a, wav, webm, máximo 25 MB

model

string

requerido

ID del modelo a usar. Opciones: whisper-large-v3, whisper-1, distil-whisper-large-v3-en

language

string

Idioma del audio de entrada en formato ISO-639-1 (p. ej., ‘en’, ‘zh’). Especificar el idioma puede mejorar la precisión y la latencia

prompt

string

Prompt de texto opcional para guiar el estilo del modelo o continuar un segmento de audio previo. El prompt debe coincidir con el idioma del audio

response_format

string

Formato de salida de la transcripción. Opciones: json (predeterminado), text, srt, verbose_json, vtt

temperature

number

Temperatura de muestreo entre 0 y 1. Valores más altos hacen la salida más aleatoria; valores más bajos la hacen más enfocada y determinista. Por defecto 0

timestamp_granularities[]

array

Granularidades de las marcas temporales. Opciones: word, segment. Solo disponible cuando response_format es verbose_json

Parámetros de traducción

file

requerido

Objeto de archivo de audio a traducir. Mismos formatos que la transcripción

model

string

requerido

ID del modelo a usar; igual que en los parámetros de transcripción

prompt

string

Prompt opcional en texto inglés para guiar el estilo de la traducción

response_format

string

Formato de salida de la traducción; igual que en los parámetros de transcripción

temperature

number

Temperatura de muestreo; igual que en los parámetros de transcripción

Ejemplos de uso

curl https://aihubmix.com/v1/audio/transcriptions \
  -H "Authorization: Bearer $AIHUBMIX_API_KEY" \
  -H "Content-Type: multipart/form-data" \
  -F file="@/path/to/file/audio.mp3" \
  -F model="whisper-large-v3" \
  -F response_format="text" \
  -F temperature="0.2"

curl https://aihubmix.com/v1/audio/translations \
  -H "Authorization: Bearer $AIHUBMIX_API_KEY" \
  -H "Content-Type: multipart/form-data" \
  -F file="@/path/to/file/audio.mp3" \
  -F model="whisper-large-v3" \
  -F prompt="autocorrect, clean up the stammer, and translate to english" \
  -F response_format="text" \
  -F temperature="0.2"

from openai import OpenAI
import os

client = OpenAI(
  api_key="sk-***", # Replace with your AiHubMix API key
  base_url="https://aihubmix.com/v1"
)

# Open audio file
audio_file = open("path/to/audio.mp3", "rb")

# Transcribe audio
transcript = client.audio.transcriptions.create(
  model="whisper-large-v3",
  file=audio_file,
  language="en",  # Specify English for better accuracy
  prompt="Please transcribe accurately with proper punctuation and grammar",
  response_format="text",
  temperature=0.2  # Lower randomness to reduce hallucinations
)

print(transcript)

from openai import OpenAI
import os

client = OpenAI(
  api_key="sk-***", # Replace with your AiHubMix API key
  base_url="https://aihubmix.com/v1"
)

# Open audio file
audio_file = open("path/to/audio.m4a", "rb")

# Translate audio to English
translation = client.audio.translations.create(
  model="whisper-large-v3",
  file=audio_file,
  prompt="autocorrect, clean up the stammer, and translate to english",
  response_format="text",
  temperature=0.2
)

print(translation)

from openai import OpenAI
import os

client = OpenAI(
  api_key="sk-***", # Replace with your AiHubMix API key
  base_url="https://aihubmix.com/v1"
)

audio_file = open("path/to/audio.wav", "rb")

# Get detailed transcription results with timestamps
transcript = client.audio.transcriptions.create(
  model="whisper-large-v3",
  file=audio_file,
  response_format="verbose_json",
  timestamp_granularities=["word"],
  temperature=0.2
)

# Output results with word-level timestamps
print(f"Text: {transcript.text}")
print(f"Language: {transcript.language}")
for word in transcript.words:
    print(f"'{word.word}' at {word.start}s - {word.end}s")

from openai import OpenAI
import os

client = OpenAI(
  api_key="sk-***", # Replace with your AiHubMix API key
  base_url="https://aihubmix.com/v1"
)

audio_file = open("path/to/video_audio.mp4", "rb")

# Generate SRT subtitle file
srt_transcript = client.audio.transcriptions.create(
  model="whisper-large-v3",
  file=audio_file,
  response_format="srt",
  language="en",
  temperature=0.2
)

# Save as .srt file
with open("subtitles.srt", "w", encoding="utf-8") as f:
    f.write(srt_transcript)

print("SRT subtitle file generated")

Formatos de respuesta

Formato JSON (predeterminado)

{
  "text": "This is the transcribed text content"
}

Formato JSON detallado (verbose_json)

{
  "task": "transcribe",
  "language": "english",
  "duration": 8.470000267028809,
  "text": "This is the transcribed text content",
  "segments": [
    {
      "id": 0,
      "seek": 0,
      "start": 0.0,
      "end": 8.470000267028809,
      "text": " This is the transcribed text content",
      "tokens": [50364, 50365, 50365, 50365],
      "temperature": 0.2,
      "avg_logprob": -0.9929364013671875,
      "compression_ratio": 0.8888888888888888,
      "no_speech_prob": 0.0963134765625
    }
  ]
}

Formato de texto

This is the transcribed text content

Formato SRT

1
00:00:00,000 --> 00:00:08,470
This is the transcribed text content

Formato VTT

WEBVTT

00:00:00.000 --> 00:00:08.470
This is the transcribed text content

Buenas prácticas

Procesamiento de audio en chino: Usa el modelo whisper-large-v3, configura language="zh", temperature=0.2 y proporciona prompts adecuados en chino
Procesamiento de audio en inglés: Usa distil-whisper-large-v3-en para una mayor velocidad de procesamiento
Gestión del ruido: Usa prompts para indicar al modelo que ignore el ruido de fondo o que limpie tartamudeos
Procesamiento de audio largo: La API segmenta automáticamente los audios largos; se recomienda preprocesar la calidad del audio para obtener mejores resultados
Requisitos de marcas temporales: Usa el formato verbose_json y timestamp_granularities cuando necesites marcas temporales precisas
Creación de subtítulos: Usa la salida en formato srt o vtt directamente sin procesamiento adicional

Última actualización: 2026-06-01

Empezar

Funciones de gateway

Capacidades del modelo

Referencia de protocolo

Gestión de plataforma

Privacidad y términos

Voz a texto

Introducción

Uso de los modelos

Transcripción de voz

Traducción de voz

Parámetros de la solicitud

Parámetros de transcripción

Parámetros de traducción

Ejemplos de uso

Formatos de respuesta

Formato JSON (predeterminado)

Formato JSON detallado (verbose_json)

Formato de texto

Formato SRT

Formato VTT

Buenas prácticas

​Introducción

​Uso de los modelos

​Transcripción de voz

​Traducción de voz

​Parámetros de la solicitud

​Parámetros de transcripción

​Parámetros de traducción

​Ejemplos de uso

​Formatos de respuesta

​Formato JSON (predeterminado)

​Formato JSON detallado (verbose_json)

​Formato de texto

​Formato SRT

​Formato VTT

​Buenas prácticas

Introducción

Uso de los modelos

Transcripción de voz

Traducción de voz

Parámetros de la solicitud

Parámetros de transcripción

Parámetros de traducción

Ejemplos de uso

Formatos de respuesta

Formato JSON (predeterminado)

Formato JSON detallado (verbose_json)

Formato de texto

Formato SRT

Formato VTT

Buenas prácticas