LLM Self-Hosting für Enterprise – Azure, GCP, On-Premise
Wie hostet man Sprachmodelle in der eigenen Infrastruktur? DeepSeek, Llama, Mistral Self-Hosted. Deployment-Optionen: Azure, GCP, On-Premise, Hybrid. Für CTO und Head of IT Infrastructure.
Warum Self-Hosting?
Für viele Enterprise-Kunden ist die Frage nicht ob KI eingesetzt wird, sondern wo die Daten verarbeitet werden. Bei der Nutzung von Cloud-APIs (OpenAI, Anthropic, Google) verlassen Daten die eigene Infrastruktur. Für regulierte Branchen – Finance, Healthcare, öffentlicher Sektor – kann das ein Ausschlusskriterium sein.
Self-Hosting bedeutet: Das Sprachmodell läuft in der Infrastruktur des Kunden. Keine Daten verlassen das Unternehmensnetzwerk. Kein Drittanbieter verarbeitet die Anfragen. Volle Kontrolle über Modell, Daten und Verarbeitung.
Welche Modelle kann man Self-Hosted betreiben?
Open-Source-Modelle können in der eigenen Infrastruktur betrieben werden:
Llama (Meta): Verschiedene Größen (8B, 70B, 405B Parameter). Leistungsfähig, gut dokumentiert, große Community.
Mistral: Europäisches Modell. Mistral 7B, Mixtral 8x7B. Gutes Preis-Leistungs-Verhältnis, effizient.
DeepSeek: Verschiedene Varianten inkl. DeepSeek-R1 für Reasoning-Aufgaben. Besonders gutes Preis-Leistungs-Verhältnis.
Proprietäre Modelle (Claude, ChatGPT, Gemini) sind nicht Self-Hosted verfügbar, können aber über API mit EU-Processing genutzt werden.
In der modell-agnostischen Architektur kann ein Agent mehrere Modelle nutzen: Self-Hosted für sensible Daten, Cloud-API für unkritische Aufgaben. Das Routing ist regelbasiert und im Decision Layer konfiguriert.
Deployment-Optionen
Azure: LLMs können auf Azure ML deployed oder auf dedizierten GPU-VMs (NC-Series, ND-Series) betrieben werden. Integration mit Azure Entra ID für Authentifizierung und Zugriffskontrolle. Verarbeitung in EU-Rechenzentren (West Europe, North Europe).
GCP: Deployment über Vertex AI oder auf dedizierten GPU-VMs (A2, G2). Integration mit Google Cloud IAM. Verarbeitung in EU-Rechenzentren (europe-west1, europe-west4).
On-Premise: Eigene Server mit NVIDIA GPUs (A100, H100, RTX 4000 Ada). Betrieb in TÜV-zertifizierten Rechenzentren in Deutschland. Maximale Kontrolle, keine Cloud-Abhängigkeit.
Hybrid: Kombination aus Self-Hosted und Cloud. Sensible Workloads lokal, unkritische in der Cloud. Einheitliche Governance über beide Umgebungen.
Architekturüberlegungen
GPU-Sizing: Die Modellgröße bestimmt den GPU-Bedarf. Ein 7B-Modell läuft auf einer einzelnen GPU. Ein 70B-Modell braucht mehrere GPUs oder Quantisierung. Die richtige Dimensionierung hängt vom Anwendungsfall ab.
Inference-Optimierung: Techniken wie Quantisierung (4-bit, 8-bit), Batching und KV-Cache-Optimierung reduzieren den Ressourcenbedarf bei akzeptablem Qualitätsverlust.
Hochverfügbarkeit: Für produktive Systeme: Redundante GPU-Server, Load Balancing, automatisches Failover. Kein Single Point of Failure.
Modell-Updates: Neue Modellversionen müssen getestet werden, bevor sie in Produktion gehen. Ein Staging-Environment für Modell-Tests ist Teil der Infrastruktur.
Mehr dazu: KI-Infrastruktur
Termin vereinbaren – Wir zeigen Ihnen die optimale Hosting-Strategie für Ihre Anforderungen.