Documentation Index
Fetch the complete documentation index at: https://docs.aihubmix.com/llms.txt
Use this file to discover all available pages before exploring further.
Encaminhamento para Modelos Gemini
Para a série Gemini, fornecemos dois métodos de invocação: chamadas nativas da API e chamadas compatíveis com OpenAI.Antes de começar, certifique-se de instalar ou atualizar a dependência nativa executando
pip install google-genai ou pip install -U google-genai.
1️⃣ Para integração nativa, o Gemini cuida automaticamente do roteamento de tráfego entre AI Studio e VertexAI. Basta fornecer sua chave de API AIHubMix e a URL de requisição apropriada. Lembre-se de que esta URL é diferente da base_url usual — siga o exemplo abaixo para garantir a configuração correta.
v1.
- Invocação nativa: Passe
include_thoughts=True - Método compatível com OpenAI: Passe
reasoning_effort
Instruções do Gemini 3 Pro Image Preview
O Gemini 3 Pro Image Preview (Nano Banana Pro Preview) foi projetado para criação profissional de ativos e instruções complexas. Este modelo oferece os seguintes recursos:- Usa o Google Search para recuperar conhecimento mundial em tempo real
- Processo “thinking” integrado (otimiza a composição antes da geração)
- Pode gerar imagens com resoluções de até 4K
Sobre os Modelos de Inferência Gemini 2.5
- A série 2.5 inteira consiste em modelos de inferência.
- 2.5 Flash é um modelo híbrido, similar ao Claude Sonnet 3.7. Você pode ajustar fino seu comportamento de raciocínio ajustando o parâmetro
thinking_budgetpara controle ideal. - 2.5 Pro é um modelo de inferência puro. O thinking não pode ser desabilitado, e
thinking_budgetnão deve ser definido explicitamente.
Gemini 2.5 Flash: Suporte a Tarefas Rápidas
Exemplo para invocação compatível com OpenAI:Compreensão de Mídia
- Para arquivos multimídia com menos de 20MB (imagens, áudio, vídeo), envie-os usando
inline_data. - Quando um arquivo multimídia for maior que 20MB, você deve usar a Files API.
Arquivos Abaixo de 20MB
Exemplos de uso em Python:Files API
O Gemini pode lidar com vários tipos de dados de entrada simultaneamente, incluindo texto, imagens e áudio. Quando o tamanho total da requisição (incluindo arquivos, dicas de texto, comandos de sistema, etc.) excede 20 MB, certifique-se de usar a Files API. Exemplos de uso em Python:Execução de Código
O recurso de execução de código permite que o modelo gere e execute código Python e aprenda iterativamente com os resultados até chegar a uma saída final. Você pode usar essa capacidade de execução de código para construir aplicações que se beneficiam de raciocínio baseado em código e produzem saída de texto. Por exemplo, você poderia usar a execução de código em uma aplicação que resolve equações ou processa texto.Python
Cache de Contexto
A API nativa do Gemini habilita o cache de contexto implícito por padrão — sem necessidade de configuração. Para cada requisiçãogenerate_content, o sistema cacheia automaticamente o conteúdo de entrada. Se uma requisição subsequente usar exatamente o mesmo conteúdo, modelo e parâmetros, o sistema retornará instantaneamente o resultado anterior, acelerando drasticamente o tempo de resposta e potencialmente reduzindo os custos de tokens de entrada.
- O cache é automático — sem necessidade de configuração manual.
- O cache só é acertado quando o conteúdo, modelo e todos os parâmetros são exatamente os mesmos; qualquer diferença resultará em cache miss.
- O time-to-live (TTL) do cache pode ser definido pelo desenvolvedor, ou deixado sem definição (padrão: 1 hora). Não há TTL mínimo ou máximo imposto pelo Google. Os custos dependem do número de tokens cacheados e da duração do cache.
- Embora o Google não imponha restrição ao TTL, como uma plataforma de encaminhamento, suportamos apenas uma faixa limitada de TTL. Para requisitos além dos limites da nossa plataforma, entre em contato conosco.
Observações
- Sem garantia de economia de custos: Tokens de cache são cobrados a 25% do preço padrão de entrada — então teoricamente, o cache pode economizar até 75% dos custos de tokens de entrada. No entanto, a documentação oficial do Google não garante economia de custos; o efeito real depende da sua taxa de acerto de cache, tipos de tokens e duração do armazenamento.
- Condições de acerto de cache: Para maximizar a eficácia do cache, coloque o contexto repetível no início da entrada e o conteúdo dinâmico (como entrada do usuário) no final.
-
Como detectar acertos de cache: Se uma resposta vier do cache,
response.usage_metadataincluirá o campocache_tokens_detailsecached_content_token_count. Você pode usá-los para determinar o uso do cache.
Exemplo de campos quando um acerto de cache ocorre:
Quando ocorre um acerto de cache,Conclusão principal: O cache implícito é automático e fornece feedback claro de acerto de cache. Os desenvolvedores podem verificar usage_metadata para o status do cache. A economia de custos não é garantida — o benefício real depende da estrutura da requisição e das taxas de acerto de cache.response.usage_metadataconterá:
Function calling
Ao usar a forma compatível com OpenAI para chamar a function calling do Gemini, você precisa passartool_choice="auto" no corpo da requisição, caso contrário ele relatará um erro.
Rastreamento Simplificado de Uso de Tokens
-
O Gemini rastreia o uso de tokens usando
usage_metadata. Veja o que cada campo significa:prompt_token_count: número de tokens de entradacandidates_token_count: número de tokens de saídathoughts_token_count: tokens usados durante o raciocínio (também contados como saída)total_token_count: total de tokens usados (entrada + saída)
-
Para APIs usando o formato compatível com OpenAI, o uso de tokens é rastreado em
.usagecom os seguintes campos:usage.completion_tokens: número de tokens de entradausage.prompt_tokens: número de tokens de saída (incluindo raciocínio)usage.total_tokens: uso total de tokens
Veja como usá-lo no código:
Última atualização: 2026-06-01