Documentation Index
Fetch the complete documentation index at: https://docs.aihubmix.com/llms.txt
Use this file to discover all available pages before exploring further.
2026
29 de marzo
Página de detalle de registros- Latencia: Indica con qué rapidez se inicia una solicitud (tiempo desde el inicio de la solicitud hasta el primer token devuelto)
- Rendimiento (Throughput): Proporciona una medida clara de la velocidad de salida del modelo
- Latencia E2E: El tiempo total desde el envío hasta la finalización de la solicitud, utilizado para evaluar el rendimiento global de la solicitud
- Proveedor: Identifica al proveedor del modelo que gestionó la solicitud
- Estado: Muestra el resultado de la ejecución (p. ej., éxito / fallo) para detectar anomalías rápidamente
- TID: Un identificador único de la solicitud que puedes compartir con soporte para resolver problemas más rápido
23 de marzo
- La red de aceleración global de AIHubMix ya está disponible: construida sobre nodos perimetrales globales autogestionados y un sistema de enrutamiento inteligente, con monitorización continua y optimización dinámica, logrando un 75 % menos de latencia, un 60 % de mejora en la estabilidad y una disponibilidad del 99,99 %, ofreciendo una experiencia de IA más rápida y fiable.
- Añadida la monitorización de salud en tiempo real 24/7: sondas distribuidas escanean toda la red cada minuto, rastreando la latencia, la tasa de éxito y la estabilidad. Los problemas se detectan y resuelven antes de que los usuarios lo noten, garantizando un rendimiento constante.
- Enrutamiento inteligente del tráfico mejorado: la salud de los nodos se evalúa dinámicamente en múltiples ventanas de tiempo, permitiendo el cambio en milisegundos a la ruta óptima, reduciendo significativamente las fluctuaciones y los timeouts a la vez que mejora las tasas globales de éxito de las solicitudes.
8 de febrero
- Nueva función: compatibilidad Chat → Responses
Esta versión introduce la compatibilidad Chat → Responses, permitiendo que la API Chat Completions invoque modelos de OpenAI que solo admiten el protocolo Responses, incluidos gpt-5.2-codex, gpt-5.1-codex-max y gpt-5.2-pro. Si quieres forzar que la Chat API de AIHubmix enrute las solicitudes a través del protocolo Responses, añade la siguiente cabecera a tu solicitud:
X-Use-Responses-Enabled: trueCuando un modelo admite tanto Chat como Responses, configurar esta cabecera forzará el uso de la Responses API.
Ten en cuenta que el protocolo Responses actualmente no admite entrada ni salida de audio, así que planifica el uso en consecuencia. - Aviso de obsolescencia de modelo:
OpenAI dejará de admitirchatgpt-4o-latestel 17 de febrero de 2026. Tras su retirada, redirigiremos automáticamentechatgpt-4o-latestagpt-4o-2024-11-20.
2025
15 de diciembre
- Nueva función: la API de Google ahora admite Files API.
22 de septiembre
- Añadido soporte para la serie Qwen, Doubao Seedream 4 y los modelos de generación de imágenes de Baidu
10 de agosto
- Lanzado el MCP de generación de imágenes de Aihubmix, facilitando a los desarrolladores la integración de servicios de generación de imágenes
1 de agosto
- Usa cualquier modelo de lenguaje grande de la plataforma AiHubMix directamente en Claude Code
29 de julio
- Añadido soporte para el AI SDK: accede a un gran número de modelos con una sola clave API
26 de julio
- Añadido soporte para la API de generación de imágenes Flux, que permite imágenes de alta calidad en segundos
23 de julio
- Añadido soporte para Qwen Code, aprovechando todos los modelos de lenguaje grandes disponibles en la plataforma Aihubmix
4 de julio
- Añadido soporte para llms.txt: obtén navegación estandarizada por modelos con un clic para que tu asistente LLM pueda entender rápidamente todo el ecosistema de modelos
29 de junio
- Añadido soporte de reenvío para Gemini CLI, con varios modos de uso flexibles
- Añadidos el code interpreter y la invocación de MCP remoto en la API Responses de OpenAI
26 de junio
- Añadida una API unificada de generación de imágenes que admite los principales modelos, incluidos OpenAI, Ideogram, Stability y Google Imagen
23 de junio
- Lanzado APP-Code, que ofrece a los desarrolladores un descuento del 10 % en todos los modelos
18 de junio
- Añadida la documentación de Códigos de estado HTTP para ayudar a los usuarios a entender mejor los mensajes de error
15 de junio
- Añadido acceso a Veo 3.0 mediante ingeniería inversa, con un costo total de solo $0.41 por generación de vídeo
13 de junio
- Añadido soporte para la generación de vídeo Veo 3.0 para ampliar los formatos creativos
12 de junio
- Integrado Claude Code para un uso estable en China continental
9 de junio
- Añadido soporte para los resúmenes de razonamiento de OpenAI en la Responses API
5 de junio
- Añadida caché implícita para Gemini, con aciertos automáticos y feedback de acierto
Los desarrolladores pueden usarusage_metadatapara determinar los aciertos de caché
No se garantizan ahorros de costos y dependen de la estructura de la solicitud y de los escenarios de uso
31 de mayo
Soporte completo para las nuevas funciones de Claude 4- ⏳ Nuevo TTL de caché: soporte de caché de 1 hora Beta
- 🎉 Nuevas herramientas de edición de texto: Claude 4 ahora admite
text_editor_20250429ystr_replace_based_edit_tool - 🚫 Nuevo motivo de detención por rechazo para rechazos por seguridad
- 🧠 Extended Thinking: Claude 4 ahora devuelve resúmenes completos de su proceso de razonamiento
- 🔄 Interleaved Thinking: el uso de herramientas ahora puede intercalarse con el razonamiento extendido para conversaciones más naturales (Beta)
- ⚠️ Funciones obsoletas:
undo_editya no se admitetoken-efficient-tools-2025-02-19eliminado (solo Claude 3.7)output-128k-2025-02-19eliminado (solo Claude 3.7)
- 📚 Las guías completas de migración y los ejemplos de código se han actualizado para ayudar a los usuarios a hacer una transición fluida de Claude 3.7 a Claude 4
22 de mayo
- Añadido soporte para el plugin de Dify, permitiendo la integración fluida de los modelos de Aihubmix en Dify
Amplía y gestiona más de 200 modelos con una sola clave API
17 de mayo
- Añadido soporte para
codex-mini-latest, optimizado para tareas de programación, accesible a través de la Responses API o de Codex CLI - Añadido soporte para la generación de imágenes Google Imagen 3.0 y la generación de vídeo Veo 2.0
gemini-2.0-flash-expactualizado a la versión preview oficialgemini-2.0-flash-preview-image-generation
9 de mayo
- Añadida la API de Ideogram AI V3: el modelo más avanzado de generación de imágenes de Ideogram
6 de mayo
- Añadidos scripts de utilidades de gestión para gestionar claves API, ver cuentas y listar los modelos disponibles desde la CLI
26 de abril
- La esperada API de generación de imágenes de OpenAI
gpt-image-1ya está disponible, con soporte de texto a imagen e imagen a imagen - Añadido soporte nativo para la API de Gemini con control preciso del presupuesto de razonamiento para Flash 2.5
24 de abril
- Integradas tres APIs principales de Jina AI para ayudar a construir agentes potentes: Embeddings, Rerank y DeepSearch
22 de abril
- Acceso anticipado (mediante ingeniería inversa) a la API de generación de imágenes de GPT-4o
20 de abril
- Añadido soporte para el endpoint de la API Responses de OpenAI con capacidades de herramientas ampliadas
17 de abril
- Añadido soporte para la CLI de OpenAI CodeX: programa con lenguaje natural directamente desde la terminal
12 de abril
- Añadiendo
:surfingal ID de un modelo, cualquier modelo puede adquirir capacidades de búsqueda (Beta)
9 de abril
- Añadida la caché de prompts de Claude, ahorrando hasta un 76 % en costos para prompts repetidos de alta frecuencia
7 de abril
- Añadido soporte para la generación de imágenes de Ideogram AI con sólido renderizado de texto, generación híbrida, edición local y upscaling
5 de abril
- Lanzada una experiencia de documentación totalmente renovada
30 de marzo
- Añadido soporte para la herramienta Claude Text Edit Tool
24 de marzo
- Lanzado el nuevo logotipo del Tridente
16 de marzo
- Añadido soporte de búsqueda nativa para los modelos OpenAI y Google Gemini
- La integración de búsqueda de terceros se añadirá en futuras actualizaciones
15 de marzo
- Modelos añadidos:
gpt-4o-mini-search-previewygpt-4o-search-preview
7 de marzo
- Los precios de o1 y o3-mini se han reducido un 10 %, en línea con los precios oficiales
6 de marzo
- Debido a un aumento de precios upstream de 7× por parte de Microsoft, el precio de
aihubmix-DeepSeek-R1también aumentó 7×
Alternativa recomendada: DeepSeek-R1 de Volcano Engine (más estable y rentable)
Modelos añadidos:qwen-qwq-32byqwen2.5-vl-72b-instruct
28 de febrero
- Todos los modelos Claude han recibido una reducción de precio del 15 %
- Modelo añadido
gpt-4.5-preview(extremadamente caro; úsalo con precaución)
26 de febrero
- Mejora de la estabilidad de DeepSeek
- Las versiones de ByteDance de DeepSeek son actualmente las más estables
Modelos recomendados:DeepSeek-R1yDeepSeek-V3
25 de febrero
- Modelo añadido:
claude-3-7-sonnet-20250219
24 de febrero
- El modelo gpt-4o puede responder ocasionalmente muy lento debido a problemas del proveedor upstream
Se recomienda cambiar temporalmente agpt-4o-2024-11-20 - La API de Perplexity está temporalmente fuera de línea
Debido al modelo de facturación complejo de Perplexity y a sus costos más altos que la estructura de precios de esta plataforma, el servicio se relanzará tras los ajustes de precios - El descuento oficial temporal de ByteDance ha finalizado y los precios han vuelto a la normalidad
El precio deDeepSeek-R1se ha incrementado en consecuencia - Añadida una nueva página de detalles del modelo con información completa de parámetros
23 de febrero
- El descuento oficial temporal de ByteDance ha finalizado y los precios han vuelto a la normalidad
El precio deDeepSeek-V3se ha incrementado
También se espera que el modelo R1 de ByteDance vuelva pronto a los precios normales, y esta plataforma ajustará los precios en consecuencia
18 de febrero
- Modelo añadido:
kimi-latest
(La facturación oficial se escalona por longitud de entrada en 8k, 32k y 128k.
Esta plataforma no admite precios escalonados y utiliza la franja intermedia de 32k como estándar de precio.
Si eres sensible al precio, úsalo con precaución.) - Optimización general del diseño del sitio web
- Fusionada la página de Registro de cambios en la página de Estadísticas de uso
- Movidos los anuncios a la página del Marketplace de modelos
- Movidos los ajustes al menú del avatar del usuario
- Reducido el precio de
aihubmix-DeepSeek-R1un 50 % - Modelos añadidos:
gemini-2.0-pro-exp-02-05-search,gemini-2.0-flash-exp-search
(Integrados con la búsqueda en línea oficial de Google) - Modelos añadidos:
gemini-2.0-flash,gemini-2.0-pro-exp-02-05,gemini-2.0-flash-lite-preview-02-05 - Modelos añadidos:
o3-mini,o1
(Estos dos modelos se facturan aproximadamente un 10 % por encima del precio oficial debido a los recursos limitados de la cuenta)
4 de febrero
- El modelo
o1no admite el parámetrostreamen la API oficial de OpenAI - El modelo
o3-minino admite el parámetrotemperature
Está disponible un nuevo parámetroreasoning_effortcon los valores:"low","medium","high"
El valor predeterminado es"medium"si no se especifica
1 de febrero
Actualización de funciones:- Añadido soporte para entrada y salida de audio del modelo de OpenAI
El servidor de previsualizaciónapi.aihubmix.comya está disponible
Tras una semana de funcionamiento estable, se actualizará el sitio principal
La facturación de backend es totalmente coherente con los precios oficiales
Actualmente, los registros de uso solo muestran el uso de tokens de texto
El uso de tokens de audio aún no se muestra en los registros, pero no afecta al uso normal
o3-mini,o1
(Facturados aproximadamente un 10 % por encima del precio oficial debido a la disponibilidad limitada de cuentas)aihubmix-DeepSeek-R1(recomendado, altamente estable)qwen-max-0125(Qwen2.5-Max),sonar-reasoningdeepseek-ai/DeepSeek-R1-Zero,deepseek-ai/DeepSeek-R1,deepseek-r1-distill-llama-70baihub-Phi-4Doubao-1.5-pro-256k,Doubao-1.5-pro-32k,
Doubao-1.5-lite-32k,Doubao-1.5-vision-pro-32ksonar,sonar-pro(lo último de Perplexity AI)gemini-2.0-flash-thinking-exp-01-21deepseek-reasoner(alias de DeepSeek-R1)MiniMax-Text-01codestral-latest(el nuevo modelo de código de Mistral, Codestral 25.01)
23 de enero
Nuevos modelos añadidos:aihub-Phi-4Doubao-1.5-pro-256k,Doubao-1.5-pro-32k,
Doubao-1.5-lite-32k,Doubao-1.5-vision-pro-32ksonar,sonar-pro(lo último de Perplexity AI)gemini-2.0-flash-thinking-exp-01-21deepseek-reasoner(alias de DeepSeek-R1)
19 de enero
- Añadidos los modelos de la API de Perplexity AI
Actualmente solo se admiten en el servidor de previsualizaciónapi.aihubmix.com
Tras pruebas estables, se desplegará en el servidor principalaihubmix.com api.aihubmix.comes el servidor de previsualización
Las nuevas funciones se desplegarán allí primero y se promocionarán al servidor principal tras aproximadamente 1 semana de pruebas de estabilidad
MiniMax-Text-01codestral-latest(Mistral Codestral 25.01)gpt-4o-zh
Traduce automáticamente cualquier idioma de entrada al inglés antes de la inferencia,
y traduce automáticamente la salida del modelo de vuelta al chino
(Esta función está en pruebas y solo admitegpt-4o; no se admite alta concurrencia)
6 de enero
- Añadido
gemini-2.0-flash-exp-search, con soporte para la búsqueda en línea nativa de Google
El modelo oficial Gemini 2.0 Flash requiere parámetros adicionales para la búsqueda en línea
Aihubmix ha integrado esta funcionalidad: basta con añadirsearchal nombre del modelo - Modelo añadido:
deepseek-ai/DeepSeek-V3
1 de enero
- Lanzada la nueva página del Marketplace de modelos para reemplazar la antigua página de Modelos y Precios
2024
30 de diciembre
- Corregido el problema por el que
gemini-2.0-flash-thinking-exp-1219solo devolvía el razonamiento sin respuestas finales - Corregido el problema de no entrega de correos de recordatorio de saldo
22 de diciembre
- Añadida la página de Estadísticas de uso
- Añadida la página de Historial de recargas
- Añadidos modelos de la serie Doubao:
Doubao-lite-128k,Doubao-lite-32k,Doubao-lite-4k,
Doubao-pro-128k,Doubao-pro-256k,Doubao-pro-32k,Doubao-pro-4k - Modelo añadido:
gemini-2.0-flash-thinking-exp-1219 - Modelos añadidos:
gemini-2.0-flash-exp,aihubmix-Mistral-Large-2411,
aihubmix-Llama-3-3-70B-Instruct,grok-2-1212,grok-2-vision-1212 - Modelos añadidos:
gemini-exp-1206,llama-3.3-70b-versatile,learnlm-1.5-pro-experimental
14 de diciembre
- Modelos añadidos:
gemini-2.0-flash-exp,aihubmix-Mistral-Large-2411,
aihubmix-Llama-3-3-70B-Instruct
8 de diciembre
- Modelos añadidos:
gemini-exp-1206,llama-3.3-70b-versatile,learnlm-1.5-pro-experimental - Añadida la página de Estadísticas de uso
21 de noviembre
- Modelos añadidos recientemente:
gpt-4o-2024-11-20,step-2-16k,grok-vision-beta - Modelo Qwen 2.5 Turbo de un millón de tokens de contexto:
qwen-turbo-2024-11-01
7 de noviembre
- Añadida compatibilidad con el SDK nativo de Claude
El endpointv1/messagesya está activo - La caché de prompts nativa de Claude y las funciones de uso del ordenador aún no se admiten
Estas se completarán en las próximas dos semanas
5 de noviembre
- Modelo añadido:
claude-3-5-haiku-20241022 - Añadido el último modelo de xAI de Elon Musk:
grok-beta
23 de octubre
- Modelo añadido:
claude-3-5-sonnet-20241022
10 de octubre
- La última función de caché de OpenAI ya está disponible
Modelos actualmente admitidos:- GPT-4o
- GPT-4o-mini
- o1-preview
- o1-mini
- Nota:
gpt-4o-2024-05-13no está incluido en la lista oficial admitida - Los tokens con acierto de caché serán visibles en los registros del backend cuando una solicitud acierte en la caché
- Para más detalles y reglas de uso, consulta la documentación oficial de OpenAI
3 de octubre
- La facturación de backend para
gpt-4ose ha reducido para coincidir con el precio oficial - Modelos añadidos:
aihubmix-Llama-3-2-90B-Vision,aihubmix-Llama-3-70B-Instruct - Añadidos los últimos modelos de Cohere:
aihubmix-command-r-08-2024,aihubmix-command-r-plus-08-2024
19 de septiembre
- Modelos añadidos:
whisper-large-v3ydistil-whisper-large-v3-en - Nota: La facturación de los modelos Whisper se basa en los segundos de entrada
La visualización de precios actual en el sitio es incorrecta y se corregirá
La facturación de backend parawhisper-1coincide totalmente con los precios oficiales de OpenAI
13 de septiembre
- Modelos añadidos:
o1-miniyo1-preview
Nota: Estos modelos requieren parámetros actualizados
Algunas shells de cliente pueden lanzar errores si no se actualizan los valores predeterminados
o1 NO admite:
- campo
system→ error 400 - campo
tools→ error 400 - entrada de imagen → error 400
- salida
json_object→ error 500 - salida
structured→ error 400 - salida
logprobs→ error 403 - salida
stream→ error 400
- Serie o1: 20 RPM, 150.000.000 TPM, extremadamente bajos, posibles errores 429 frecuentes
temperature,top_pynestán fijados en 1presence_penaltyyfrequency_penaltyestán fijados en 0
10 de septiembre
- Modelo añadido:
mattshumer/Reflection-Llama-3.1-70B
(Se ha informado que es una de las versiones ajustadas más potentes de LLaMA 3.1 70B) - Los precios del modelo Claude-3 han aumentado
Para garantizar un suministro estable, las llamadas a través de esta plataforma son actualmente ~10 % más caras que el uso oficial directo - Aumentada la capacidad de concurrencia para los modelos OpenAI
El sistema ahora admite teóricamente una concurrencia casi ilimitada
11 de agosto
- Modelos añadidos:
Phi3medium128k,ahm-Phi-3-medium-4k,ahm-Phi-3-small-128k - Mejora de la estabilidad para modelos relacionados con LLaMA
- Optimizada aún más la compatibilidad para los modelos Claude
7 de agosto
- Añadido el nuevo
gpt-4o-2024-08-06lanzado por OpenAI
Consulta: https://platform.openai.com/docs/guides/structured-outputs - Añadido el último modelo de Google:
gemini-1.5-pro-exp-0801
4 de agosto
- Añadido pago directo en línea para recargas de cuenta
- Corregido el error de formato de conversación multiturno de Claude:
messages: roles must alternate between "user" and "assistant", but found multiple "user" roles in a row - Optimizado el manejo de índices al usar function calling con modelos Claude
- El servidor de respaldo
https://orisound.cnquedará totalmente fuera de servicio el 7 de septiembre
Migra al servidor principalhttps://aihubmix.como al servidor de respaldohttps://api.aihubmix.com
27 de julio
- Añadido soporte para Mistral Large 2
Nombre del modelo:Mistral-large-2407oaihubmix-Mistral-large-2407 - Optimizaciones del sistema
24 de julio
- Añadidos los modelos más recientes de LLaMA 3.1:
llama-3.1-405b-instruct,llama-3.1-70b-versatile,llama-3.1-8b-instant
20 de julio
- Corregidos problemas de cálculo de precios para el modelo
gpt-4o-mini- Precio de entrada de texto: 1/33 del de GPT-4o oficial
- Precio de entrada de imagen: igual al de GPT-4o
- Para alinearse con los precios oficiales, los recuentos de tokens de imagen para
gpt-4o-minise multiplican por 33 durante la facturación - Consulta los precios oficiales de OpenAI para más detalles
19 de julio
- Añadido soporte para el modelo
gpt-4o-mini
La facturación de backend está totalmente alineada con los precios oficiales
15 de julio
- Añadido soporte para el parámetro oficial
include_usagede la API
Esto permite devolver datos de uso en modo stream
Consulta la documentación oficial para más detalles
14 de julio
- La nueva versión de NextWeb ahora admite llamar a modelos que no son de OpenAI a través de esta plataforma
- Añadido soporte de facturación de backend para los modelos Qwen de Alibaba
Las llamadas a través de esta plataforma cuestan ~10 % más que el uso directo de Alibaba Cloud - Mejorada la compatibilidad de salida de Azure OpenAI con la API estándar de OpenAI
- Añadido soporte de tool calling para Claude-3
- Añadidos muchos modelos nuevos (consulta Settings → Available Models)
3 de julio
- Optimización general de la UI del backend
- Cada entrada del registro ahora muestra el precio unitario del modelo en el momento de la solicitud
- Añadida la página de Modelos y Precios
20 de junio
- El nuevo
claude-3-5-sonnet-20240620ya es compatible
Consulta la guía para llamar a modelos que no son de OpenAI en esta plataforma
18 de junio
- Los registros del backend ahora admiten la descarga de registros históricos de solicitudes
16 de junio
- La probabilidad de enrutar aleatoriamente solicitudes a Azure OpenAI se ha reducido significativamente
13 de junio
- Reducidos los costos de backend para los modelos Claude-3
(Claude 3 Haiku,Claude 3 Sonnet,Claude 3 Opus)
La facturación de backend ahora coincide con los precios oficiales
Como resultado, el costo efectivo de la API minorista en este sitio equivale a ~86 % del precio oficial
10 de junio
- Completada una importante actualización de la infraestructura
Todos los servidores y datos se han migrado a Microsoft Azure - El desarrollo futuro se basará en el proyecto open-source OneAPI con una profunda optimización secundaria
(Ya se obtuvo una licencia comercial mediante patrocinio) - Debido al volumen extremadamente grande de registros (más de 100 millones), los registros históricos no se migraron
Contacta con soporte si necesitas acceder a los registros heredados - Optimizada la facturación de tokens de GPT-4o
El tokenizador se ha cambiado decl100k_baseao200k_base
Como resultado, los recuentos de tokens en streaming para chino, coreano y japonés son menores que antes
8 de junio
- Añadidos los últimos modelos open source Qinwen 2 de Alibaba:
alibaba/Qwen2-7B-Instructalibaba/Qwen2-57B-A14B-Instructalibaba/Qwen2-72B-Instruct
20 de mayo
- Modelo añadido:
gemini-1.5-flash - Modelo añadido:
gpt-4o - Los usuarios en Jiangsu pueden encontrarse con errores en la página de recarga debido al secuestro de DNS de telecomunicaciones
Contacta con el servicio de atención al cliente para asistencia - Modelos añadidos:
llama3-70b-8192,llama3-8b-8192,
gemini-1.5-pro,command-r,command-r-plus - El suministro del modelo Claude-3 se ha restaurado
Los endpoints están desplegados actualmente en AWS y Google Cloud - Para cubrir los costos de infraestructura y operativos, la facturación de backend de Claude-3 es ~10 % superior al precio oficial
Con el aumento de uso, esto se reducirá gradualmente a ~5 % o menos - Los límites de concurrencia están actualmente en pruebas y se incrementarán a medida que aumente la demanda
Última actualización: 2026-06-01