Saltar al contenido principal

Documentation Index

Fetch the complete documentation index at: https://docs.aihubmix.com/llms.txt

Use this file to discover all available pages before exploring further.

1. Uso y seguridad de los modelos

¿AIHubMix almacena los datos de las solicitudes a la API de los usuarios?

De forma predeterminada, AIHubMix no almacena el contenido de las solicitudes que envías a través de nuestra API ni registra las respuestas que devuelven los proveedores de modelos. AIHubMix actúa únicamente como proxy, reenviando de forma segura tu solicitud al proveedor de modelos correspondiente y devolviéndote su respuesta sin modificarla.

La única excepción

Si reportas proactivamente un problema, abres un ticket de incidencia o solicitas ayuda para depurar, AIHubMix puede almacenar temporalmente información técnica relacionada con el error (como stack traces, metadatos de la invocación o el estado del endpoint) para ayudarnos a diagnosticar y resolver el problema.
Estos registros no incluyen tus datos de negocio, el contenido del prompt ni la carga completa de la solicitud/respuesta.

¿Por qué los productos oficiales como Claude o GPT devuelven resultados distintos a los de la API?

El modelo subyacente es el mismo; la diferencia proviene de optimizaciones de ingeniería adicionales en la versión web. Explicación:
  • La versión web es como un apartamento totalmente amueblado, con funciones integradas como búsqueda, memoria, calculadora y prompts del sistema.
  • Las llamadas a la API son como un apartamento sin terminar, que proporcionan únicamente las capacidades centrales. Los desarrolladores deben configurar por su cuenta el contexto y las herramientas.

¿Por qué usar GPT-5 o los modelos de la serie “o” puede provocar la suspensión de una cuenta de AiHubMix?

Si pides a GPT-5 o a los modelos de la serie “o” que “muestren los pasos de razonamiento”, “muestren la cadena de pensamiento” o el “trazado del razonamiento”, el sistema puede activar políticas de seguridad, lo cual podría restringir o suspender temporalmente tu cuenta. Explicación:
  • Las políticas de seguridad oficiales de GPT-5 y de los modelos de la serie “o” son más estrictas; el uso normal no provocará un bloqueo.
  • Si tu cuenta queda marcada por error o ves mensajes anómalos, contacta con soporte por correo electrónico: feedback@aihubmix.com para recibir asistencia.
  • Para ver los resúmenes de razonamiento del modelo, utiliza la Response API en lugar de pedirle al modelo directamente en el prompt, evitando así activar las políticas de seguridad.

¿Qué hacer si tu cuenta queda deshabilitada?

Si tu cuenta ha sido deshabilitada, puedes contactar con el servicio de atención al cliente en línea o enviar un correo a feedback@aihubmix.com para solicitar asistencia o la reactivación de la cuenta. Las suspensiones de cuenta suelen activarse automáticamente por los mecanismos de control de riesgos del sistema. Los motivos habituales se agrupan en las dos categorías siguientes:
  1. Uso de modelos de la serie GPT-5 en escenarios de traducción inmersiva Esta serie de modelos está diseñada para razonamiento complejo y generación de contenido estructurado, lo que la hace inadecuada para tareas de traducción en tiempo real y de alta frecuencia. Las llamadas frecuentes en estos escenarios pueden activar las políticas de control de riesgos del sistema y derivar en restricciones temporales o en la suspensión de la cuenta. Para asegurar el funcionamiento estable de la cuenta, prioriza el uso de modelos sin razonamiento para las tareas de traducción, como:
    • gpt-4.1-mini
    • gpt-4o-mini
  2. Envío de contenido infractor al usar el modelo Grok Durante el uso del modelo Grok, si el sistema considera que el contenido solicitado infringe las normas de uso (por ejemplo, contenido violento, gore, pornográfico, etc.), se activará directamente el mecanismo de suspensión. Asegúrate de que el contenido de tu solicitud cumpla con las normas de uso de la plataforma y del modelo y evita enviar contenido ilegal o inapropiado.
Si te enfrentas a una suspensión incorrecta o a restricciones anómalas, puedes presentar una apelación a través del servicio de atención al cliente o por correo electrónico. No obstante, ten en cuenta que si tu cuenta acumula múltiples registros de suspensión, es posible que no se pueda reactivar de nuevo.
Si eres desarrollador, puedes utilizar la API de Moderación de AIHUBMIX para realizar comprobaciones de cumplimiento sobre el contenido de entrada antes de hacer las solicitudes, reduciendo así el riesgo de infracciones. Este paso es opcional, pero se recomienda encarecidamente en escenarios con contenido abierto o cuando la entrada del usuario sea incontrolable.

¿Por qué mi cuenta sigue sin poder llamar a ciertos modelos (como Claude Opus o GPT-5.4-Pro) aunque tenga saldo?

Utilizamos un mecanismo de precarga. Al llamar a modelos de mayor costo (como Claude Opus o GPT-5.4-Pro), el sistema estima el costo máximo posible de salida basándose en el límite configurado de tokens de salida y comprueba tu saldo en el momento en que se inicia la solicitud. Si el saldo de tu cuenta es menor que el precio del token de salida × el máximo de tokens de salida, la solicitud puede ser rechazada. Para evitarlo, asegúrate de que el saldo de tu cuenta sea suficiente antes de llamar a estos modelos y establece un límite razonable de tokens de salida; si no se especifica, el sistema utilizará el valor predeterminado para la estimación. Ten en cuenta que el nombre del parámetro para la salida máxima varía según el modelo: los modelos de Claude y GPT usan max_tokens, mientras que los modelos de Gemini usan max_output_tokens.

¿Por qué no se recomienda GPT-5 para herramientas de traducción?

GPT-5 es un modelo de razonamiento diseñado para inferencia compleja y generación estructurada, no para tareas de alta frecuencia en tiempo real. Razones:
  1. Tiempos de respuesta más lentos debido a múltiples pasos de inferencia.
  2. Mayor consumo de tokens (prompts de sistema largos y contexto de razonamiento).
  3. Los plugins de traducción pueden activar accidentalmente las políticas de seguridad.
Para escenarios de traducción o chat, utiliza modelos ligeros como GPT-4o mini o Gemini para obtener respuestas más rápidas y estables.

¿Por qué GPT-5 a veces responde “Soy GPT-4” cuando se le pregunta “¿Quién eres?”?

Se trata de una alucinación conocida de los LLM, en la que el modelo describe de forma imprecisa su propia base, origen o capacidades. Los desarrolladores que utilizan GPT-4, GPT-5, Claude, etc., pueden encontrarse con autoidentificaciones confiadas pero incorrectas. Explicación:
  • Este comportamiento no se debe a modificaciones de la plataforma ni a manipulación de la salida; es normal en los LLM.
  • A GPT-5 no se le asignó el nombre “GPT-5” durante el entrenamiento; el nombre se otorgó posteriormente con la versión oficial.
  • El modelo no conoce su propio nombre ni su corte de conocimiento; la versión web puede responder correctamente porque incorpora prompts de sistema integrados. Nuestra versión de API es la API oficial no web.
  • Preguntar directamente al modelo vía API puede producir respuestas aleatorias o imprecisas porque carece de autoconciencia.

¿Qué hacer si las llamadas a algunos modelos (como Gemini-3-Pro) sufren frecuentes timeouts?

Prueba a aumentar la duración del timeout. Gemini-3-Pro es un modelo grande y su proceso de inferencia suele requerir un tiempo de razonamiento más largo, especialmente para tareas complejas en las que la respuesta puede tardar más de 30 segundos. Como resultado, el timeout predeterminado de 30 segundos puede provocar errores con facilidad.
  • Si necesitas usar Gemini-3-Pro, asegúrate de ampliar el timeout adecuadamente.
  • Si la velocidad de respuesta es esencial, considera cambiar a un modelo más ligero como Gemini 2.0, que funciona mejor con timeouts más cortos.

¿Por qué enviar solo un “Hola” consumió tantos tokens?

Algunas herramientas de terceros (como Cline o Claude Code) incluyen automáticamente contexto o prompts de sistema en las solicitudes, los cuales también cuentan para el uso de tokens. Aunque solo escribas “Hola”, la solicitud en el backend puede contener un historial de chat extenso o texto predefinido. Estos tokens adicionales provienen de la herramienta, no de la plataforma AiHubMix.

¿Por qué veo uso de 4o-mini aunque solo llamé a GPT-4o?

Algunas herramientas de terceros pueden llamar a modelos ligeros (como 4o-mini) para resumir conversaciones, búsquedas o cómputo auxiliar.
Por ello, tu factura o tus registros pueden mostrar el uso de tokens de varios modelos.
Este uso adicional proviene de la configuración de las herramientas, no de AiHubMix cambiando modelos automáticamente.

¿Cuál es el límite de concurrencia para las solicitudes a la API?

AiHubMix actualmente no impone un límite de concurrencia uniforme. Contacta con soporte en feedback@aihubmix.com si experimentas problemas de concurrencia.

¿Por qué los resultados varían para el mismo prompt?

Los modelos de lenguaje de gran tamaño utilizan muestreo probabilístico (por ejemplo, temperature, top-p) para generar texto, eligiendo aleatoriamente entre múltiples tokens posibles cada vez.
  • Reducir la temperature o desactivar el muestreo puede hacer que los resultados sean más consistentes.
  • Las variaciones también pueden verse afectadas por el contexto, los prompts del sistema o las condiciones de la red.

¿Por qué las respuestas del modelo Claude terminan prematuramente?

Para el modelo Claude, AIHubMix admite actualmente dos métodos de invocación:
  1. Interfaz compatible con OpenAI Chat
  2. Interfaz nativa de Anthropic Claude
Al invocar el modelo Claude a través de la interfaz compatible con OpenAI Chat, el sistema utiliza por defecto max_tokens=4096. Si no se establece explícitamente un max_tokens mayor en la solicitud, el modelo dejará de generar contenido automáticamente al alcanzar este límite. Por lo tanto, la aparición de “respuestas que terminan antes de completarse” no suele deberse a un mal funcionamiento del modelo, sino a que ha alcanzado la restricción de longitud de salida predeterminada. ¿Cómo generar textos más largos? En la interfaz compatible con OpenAI Chat, puedes establecer manualmente un parámetro max_tokens mayor, por ejemplo:
completion = client.chat.completions.create(
  model="claude-sonnet-4-6",
  max_tokens=6000,
  messages=[
    {
      "role": "assistant",
      "content": "Always respond in Chinese"
    },
    {
      "role": "user",
      "content": "What is the meaning of life?, over 6000 words"
    }
  ]
)
max_tokens no debe exceder el límite máximo admitido por el modelo correspondiente. Si la truncación persiste tras configurarlo, proporciona el nombre del modelo y los parámetros completos de la solicitud para una investigación más a fondo.

2. Llamadas a la API y datos

¿Qué endpoints de API están disponibles?

AiHubMix proporciona un gateway unificado compatible con varios estándares principales de modelos:
  • Endpoint estándar de OpenAI: https://aihubmix.com/v1 (admite GPT y modelos compatibles)
  • Endpoint dedicado de Gemini: https://aihubmix.com/gemini (compatible con los estándares nativos de Google)
  • Endpoint de reenvío automático de Claude: https://aihubmix.com (admite llamadas con el SDK de Anthropic)

¿Qué datos se registran durante el uso de la API?

Solo registramos los datos de uso necesarios: información de la cuenta, registros de llamadas, modelos utilizados, consumo de tokens e información de pago. Garantía de privacidad:
  • La entrada del usuario y la salida del modelo no se almacenan.
  • Los datos se utilizan únicamente para la facturación y la optimización del servicio, no para el análisis de contenido ni para compartirlos con terceros.
  • AiHubMix no conserva datos detallados de las solicitudes; sin embargo, los proveedores de nube subyacentes pueden registrar accesos por razones de seguridad o cumplimiento, regidos por sus políticas de privacidad.
Consulta la Política de Privacidad de AiHubMix para obtener más detalles.

3. Conocimiento del modelo y fenómenos comunes

¿Qué es la alucinación de la IA?

La alucinación de la IA ocurre cuando un modelo de lenguaje de gran tamaño genera información que es fácticamente incorrecta, no respaldada o totalmente ficticia. Posibles causas:
  • Sesgos o lagunas en los datos de entrenamiento.
  • Sobreajuste de los parámetros del modelo.
  • Aleatoriedad durante la generación.
Las alucinaciones son comunes a todos los LLM y no indican un fallo del sistema.

4. Uso y resolución de problemas

¿Cómo puedo monitorizar el uso y el consumo de la API?

Puedes ver el volumen de llamadas, el uso de tokens y los detalles de facturación a través del panel de control de AiHubMix. Admite la categorización por modelo y por periodo de tiempo, lo que ayuda a optimizar el uso y a gestionar los costos.

¿Qué debo hacer si una llamada falla o devuelve un error?

Los errores de la API incluyen un código de error y una explicación. Causas comunes:
  • Formato de solicitud incorrecto.
  • Modelo no disponible o límite de uso superado.
Consulta la Guía de la API para la resolución de problemas, o contacta con soporte en feedback@aihubmix.com.

¿Cómo gestiono mi clave API?

Los usuarios pueden generar, revocar o actualizar sus claves API a través del panel de control.
  • No expongas tus claves API en entornos públicos.
  • Usa claves separadas para diferentes proyectos.
  • Rota las claves periódicamente para garantizar la seguridad de la cuenta.

Última actualización: 2026-06-01