Documentation Index
Fetch the complete documentation index at: https://docs.aihubmix.com/llms.txt
Use this file to discover all available pages before exploring further.
Reenvío para los modelos de Gemini
Para la serie Gemini, ofrecemos dos métodos de invocación: llamadas a la API nativa y llamadas compatibles con OpenAI.Antes de empezar, asegúrate de instalar o actualizar la dependencia nativa ejecutando
pip install google-genai o pip install -U google-genai.
1️⃣ Para la integración nativa, Gemini se encarga automáticamente de enrutar el tráfico entre AI Studio y VertexAI. Solo tienes que proporcionar tu clave API de AIHubMix y la URL de solicitud adecuada. Recuerda que esta URL es diferente del habitual base_url; sigue el ejemplo a continuación para asegurar una configuración correcta.
v1.
- Invocación nativa: Pasa
include_thoughts=True - Método compatible con OpenAI: Pasa
reasoning_effort
Instrucciones de la vista previa de imágenes con Gemini 3 Pro
Gemini 3 Pro Image Preview (Nano Banana Pro Preview) está diseñado para la creación de recursos profesionales e instrucciones complejas. Este modelo ofrece las siguientes funciones:- Usa Google Search para recuperar conocimiento del mundo en tiempo real
- Proceso de “razonamiento” integrado (optimiza la composición antes de generar)
- Puede generar imágenes con resoluciones de hasta 4K
Acerca de los modelos de inferencia de Gemini 2.5
- Toda la serie 2.5 está formada por modelos de inferencia.
- 2.5 Flash es un modelo híbrido, similar a Claude Sonnet 3.7. Puedes afinar su comportamiento de razonamiento ajustando el parámetro
thinking_budgetpara un control óptimo. - 2.5 Pro es un modelo de inferencia puro. El razonamiento no se puede desactivar y
thinking_budgetno debe establecerse explícitamente.
Gemini 2.5 Flash: Soporte para tareas rápidas
Ejemplo de invocación compatible con OpenAI:Comprensión multimedia
- Para los archivos multimedia inferiores a 20 MB (imágenes, audio, vídeo), súbelos usando
inline_data. - Cuando el archivo multimedia es mayor de 20 MB, debes usar la Files API.
Archivos menores de 20 MB
Ejemplos de uso en Python:Files API
Gemini puede gestionar simultáneamente varios tipos de datos de entrada, incluidos texto, imágenes y audio. Cuando el tamaño total de la solicitud (incluidos archivos, prompts de texto, comandos del sistema, etc.) supere los 20 MB, asegúrate de usar la Files API. Ejemplos de uso en Python:Ejecución de código
La función de ejecución de código permite al modelo generar y ejecutar código Python y aprender de los resultados de manera iterativa hasta llegar a una salida final. Puedes usar esta capacidad para construir aplicaciones que se beneficien del razonamiento basado en código y que produzcan salida de texto. Por ejemplo, podrías usar la ejecución de código en una aplicación que resuelva ecuaciones o procese texto.Python
Caché de contexto
La API nativa de Gemini habilita la caché de contexto implícita por defecto: no se requiere configuración. Para cada solicitud degenerate_content, el sistema almacena automáticamente en caché el contenido de entrada. Si una solicitud posterior utiliza exactamente el mismo contenido, modelo y parámetros, el sistema devolverá al instante el resultado previo, acelerando enormemente el tiempo de respuesta y reduciendo potencialmente los costos de tokens de entrada.
- El almacenamiento en caché es automático; no se necesita configuración manual.
- La caché solo se acierta cuando el contenido, el modelo y todos los parámetros son exactamente iguales; cualquier diferencia resultará en un fallo de caché.
- La duración de la caché (TTL) puede ser establecida por el desarrollador o dejarse sin definir (por defecto, 1 hora). Google no impone un TTL mínimo ni máximo. Los costos dependen del número de tokens en caché y de la duración de la caché.
- Aunque Google no impone restricciones al TTL, como plataforma de reenvío, solo admitimos un rango limitado de TTL. Para requisitos que excedan los límites de nuestra plataforma, contáctanos.
Notas
- No se garantizan ahorros de costo: Los tokens en caché se facturan al 25 % del precio estándar de entrada, por lo que, teóricamente, el almacenamiento en caché puede ahorrarte hasta el 75 % en costos de tokens de entrada. Sin embargo, la documentación oficial de Google no garantiza el ahorro de costos; el efecto real depende de tu tasa de aciertos de caché, los tipos de tokens y la duración del almacenamiento.
- Condiciones de acierto de caché: Para maximizar la eficacia de la caché, coloca el contexto repetible al principio de tu entrada y el contenido dinámico (como la entrada del usuario) al final.
-
Cómo detectar aciertos de caché: Si una respuesta proviene de la caché,
response.usage_metadataincluirá el campocache_tokens_detailsycached_content_token_count. Puedes usarlos para determinar el uso de la caché.
Ejemplo de campos cuando se produce un acierto de caché:
Cuando se produce un acierto de caché,Conclusión clave: La caché implícita es automática y ofrece comentarios claros sobre los aciertos de caché. Los desarrolladores pueden comprobar usage_metadata para conocer el estado de la caché. No se garantizan ahorros de costos: el beneficio real depende de la estructura de la solicitud y de las tasas de acierto de la caché.response.usage_metadatacontendrá:
Llamadas a funciones (Function calling)
Al usar la forma compatible con OpenAI para invocar las llamadas a funciones de Gemini, debes pasartool_choice="auto" en el cuerpo de la solicitud; de lo contrario, se producirá un error.
Seguimiento sencillo del uso de tokens
-
Gemini realiza el seguimiento del uso de tokens mediante
usage_metadata. Esto es lo que significa cada campo:prompt_token_count: número de tokens de entradacandidates_token_count: número de tokens de salidathoughts_token_count: tokens utilizados durante el razonamiento (también se cuentan como salida)total_token_count: total de tokens utilizados (entrada + salida)
-
Para las API que usan el formato compatible con OpenAI, el uso de tokens se rastrea en
.usagecon los siguientes campos:usage.completion_tokens: número de tokens de entradausage.prompt_tokens: número de tokens de salida (incluido el razonamiento)usage.total_tokens: uso total de tokens
A continuación, cómo usarlo en código:
Última actualización: 2026-06-01