우리 플랫폼에서 Gemini API 호출에 대한 포괄적인 가이드입니다.
pip install google-genai
또는 pip install -U google-genai
를 실행하여 네이티브 종속성을 설치하거나 업데이트해야 합니다.
1️⃣ 네이티브 전달의 경우 주로 내부 클라이언트 설정에 AiHubMix API 키와 요청 URL을 주입해야 합니다.base_url
사용법과 다릅니다. 아래 예를 참조하십시오:
v1
엔드포인트를 유지합니다.
include_thoughts=True
전달reasoning_effort
전달thinking_budget
매개변수를 조정하여 추론 동작을 미세 조정할 수 있습니다.thinking_budget
을 명시적으로 설정해서는 안 됩니다.gemini-2.5-flash-preview-04-17
로 설정하여 사고를 활성화하기만 하면 됩니다.budget
매개변수를 사용하여 사고의 깊이를 제어하며, 범위는 0에서 16K입니다. 기본 예산은 1024이며 최적의 한계 효과는 16K입니다.inline_data
를 통해 최대 20MB의 멀티미디어 파일(이미지, 오디오 및 비디오) 업로드를 지원합니다.
20MB를 초과하는 파일의 경우 파일 API가 필요합니다. 이 기능은 아직 사용할 수 없습니다. 진행 상황 추적 및 upload_url 검색은 개발 중입니다.
generate_content
요청에 대해 시스템은 자동으로 입력 콘텐츠를 캐시합니다. 후속 요청이 정확히 동일한 콘텐츠, 모델 및 매개변수를 사용하는 경우 시스템은 즉시 이전 결과를 반환하여 응답 시간을 크게 단축하고 잠재적으로 입력 토큰 비용을 절감합니다.
response.usage_metadata
에 cache_tokens_details
필드와 cached_content_token_count
가 포함됩니다. 이를 사용하여 캐시 사용량을 확인할 수 있습니다.캐시가 적중되면핵심 결론: 암시적 캐싱은 자동이며 명확한 캐시 적중 피드백을 제공합니다. 개발자는 usage_metadata에서 캐시 상태를 확인할 수 있습니다. 비용 절감은 보장되지 않으며 실제 이점은 요청 구조와 캐시 적중률에 따라 다릅니다.response.usage_metadata
에 다음이 포함됩니다:
tool_choice="auto"
를 전달해야 합니다. 그렇지 않으면 오류가 발생합니다.
usage_metadata
를 사용하여 토큰 사용량을 추적합니다. 각 필드의 의미는 다음과 같습니다:
prompt_token_count
: 입력 토큰 수candidates_token_count
: 출력 토큰 수thoughts_token_count
: 추론 중에 사용된 토큰 (출력으로도 계산됨)total_token_count
: 총 사용된 토큰 (입력 + 출력).usage
아래에서 추적됩니다:
usage.completion_tokens
: 입력 토큰 수usage.prompt_tokens
: 출력 토큰 수 (추론 포함)usage.total_tokens
: 총 토큰 사용량