LiteLLM-Übersicht
LiteLLM ist ein quelloffenes vereinheitlichtes KI-Gateway, entwickelt von BerriAI. Es bietet eine einzige standardisierte Schnittstelle, mit der nahezu jedes große LLM am Markt aufgerufen werden kann. Repository: https://github.com/BerriAI/litellm
Zwei Verwendungsarten
| Modus | Beschreibung | Geeignet für |
|---|---|---|
| Python SDK | pip install litellm, direkt im Code aufrufen | Persönliche Projekte, schnelles Prototyping |
| Proxy Server | Eigenständig deploybares KI-Gateway | Team-Sharing, Enterprise-Zugriffssteuerung |
Kernfähigkeiten
- Vereinheitlichtes OpenAI-Format: unterstützt 100+ Anbieter, darunter OpenAI, Anthropic, Gemini, Bedrock, Azure und mehr
- Virtuelle Schlüsselverwaltung: zentrale Verwaltung von Team-API-Schlüsseln, ohne die Originale offenzulegen
- Kosten-Tracking: Tokenverbrauch und Ausgaben pro Benutzer oder Projekt überwachen
- Load Balancing: automatische Traffic-Verteilung über Modelle hinweg mit Failover-Unterstützung
- Hochleistungsfähig: P95-Latenz von ~8 ms bei 1.000 RPS
Installation
Voraussetzungen
Python 3.8+ macOS Installation per Homebrew:pip
pip ist in der Regel in Python enthalten. Verfügbarkeit prüfen:LiteLLM installieren
Sobald Ihre Umgebung bereit ist:Optionale Abhängigkeiten
Manche Anbieter benötigen zusätzliche Pakete:Proxy Server installieren
Für ein eigenständiges Gateway:Docker (optional)
Empfehlung: Nutzen Sie pip install litellm für die persönliche Entwicklung; wählen Sie Proxy + Docker für Team-Deployments.
API-Schlüssel konfigurieren und ersten Aufruf machen
AiHubMix-API-Schlüssel besorgen
Gehen Sie zum aihubmix.com-Dashboard und erstellen Sie einen API-Schlüssel.Umgebungsvariable setzen
Erster Aufruf
Grundlegende Verwendung
1. Modellwechsel
AiHubMix unterstützt alle wichtigen Modelle. Der Wechsel erfordert nur das Ändern desmodel-Parameters:
2. Streaming
Fügen Siestream=True hinzu, um die Ausgabe Token für Token zu erhalten:
3. Multi-Turn-Konversation
Übergeben Sie den Konversationsverlauf in dermessages-Liste, damit das Modell den Kontext berücksichtigt:
4. Asynchrone Aufrufe
Senden Sie mehrere Anfragen gleichzeitig, ohne auf jede einzelne zu warten:5. Timeout und Retry
Verhindern Sie, dass Requests aufgrund von Netzwerkproblemen hängen oder fehlschlagen:timeoutist in Sekunden. Setzen Sienum_retriesauf 2–3; höhere Werte verlangsamen die Antwort.
6. Tokenverbrauch und Kosten-Tracking
Jede Antwort enthält Daten zum Tokenverbrauch:7. Load Balancing und Failover
Konfigurieren Sie mehrere Modelle, um den Traffic automatisch zu verteilen oder bei Fehler auf ein Backup-Modell umzuschalten:
Beide Modelle teilen sich denselben model_name. LiteLLM nutzt Round-Robin zwischen ihnen und führt bei Fehler automatisch ein Failover durch.
8. Proxy Server deployen
Der Proxy Server ist ein eigenständiges Gateway. Teammitglieder leiten alle Requests darüber, ohne eigene API-Schlüssel zu benötigen. Installation
Der api_key hier kann ein beliebiger String sein. Der eigentliche AiHubMix-Schlüssel wird vom Proxy verwaltet.
9. Virtuelle Schlüsselverwaltung
Virtuelle Schlüssel ermöglichen es Ihnen, verschiedenen Teammitgliedern oder Projekten unabhängige Schlüssel zuzuweisen, um Zugriff und Nutzung zu steuern, ohne den echten AiHubMix-Schlüssel offenzulegen. Voraussetzung: PostgreSQL-Instanz startenkey in der Antwort enthält den virtuellen Schlüssel, z. B. sk-xxxxxx.
Virtuellen Schlüssel verwenden
Jeder virtuelle Schlüssel unterstützt individuelle Modellbeschränkungen, Budgetlimits und Ablaufzeiten – ideal für Multi-Member-Team-Workflows.
Praxisbeispiel: Modellvergleich
Stellen Sie dieselbe Frage gleichzeitig an mehrere Modelle und vergleichen Sie Ausgabequalität, Geschwindigkeit und Tokenverbrauch. API-Schlüssel setzen