LLM Self-Hosting für Enterprise - Azure, GCP, On-Premise
Sprachmodelle Self-Hosted betreiben: DeepSeek, Llama, Mistral. Deployment auf Azure, GCP, On-Premise oder Hybrid. Entscheidungshilfe für CTOs
Warum Self-Hosting?
Für viele Enterprise-Kunden ist die Frage nicht ob KI eingesetzt wird, sondern wo die Daten verarbeitet werden. Bei der Nutzung von Cloud-APIs (OpenAI, Anthropic, Google) verlassen Daten die eigene Infrastruktur. Für regulierte Branchen - Finance, Healthcare, öffentlicher Sektor - kann das ein Ausschlusskriterium sein.
Auf einen Blick - LLM Self-Hosting für Enterprise
- Self-Hosting hält alle Daten im Unternehmensnetzwerk - kein Drittanbieter-Processing, volle Kontrolle über Modell, Daten und Inferenz.
- Open-Source-Modelle (Llama, Mistral, DeepSeek, gpt-oss) können auf Azure ML, GCP Vertex AI, eigenen GPU-Servern oder hybrid betrieben werden.
- GPU-Sizing ist der primäre Kostentreiber: Ein 7B-Modell läuft auf einer GPU, ein 70B-Modell braucht mehrere GPUs oder Quantisierung.
- Modell-agnostisches Routing erlaubt Agenten, Self-Hosted-Modelle für sensible Daten und Cloud-APIs für unkritische Aufgaben zu nutzen.
- Gartner (2024) prognostiziert, dass 45 % der KI-Deployments in regulierten Branchen bis 2027 auf eigener Infrastruktur laufen werden - gegenüber 20 % in 2023.
Self-Hosting bedeutet: Das Sprachmodell läuft in der Infrastruktur des Kunden. Keine Daten verlassen das Unternehmensnetzwerk, was volle Data Residency garantiert. Kein Drittanbieter verarbeitet die Anfragen. Volle Kontrolle über Modell, Daten und Verarbeitung.
Welche Modelle kann man Self-Hosted betreiben?
Open-Source-Modelle können in der eigenen Infrastruktur betrieben werden:
Volume-Workhorse - Mistral Small 3.2 (24B, Apache 2.0, EU-built): Europäisches Modell, läuft auf einer einzelnen RTX 4090 mit 4-bit-Quantisierung. Ideal für Batch-Inferenz auf unkritischen Workloads. Mixtral 8x22B und Codestral Mamba 32B (Coding-spezialisiert) ergänzen das Mistral-Portfolio.
Reasoning OSS - gpt-oss-120b (OpenAI, Apache 2.0): 117B Parameter, MoE-Architektur, läuft auf einer einzelnen H100 (80 GB). OpenAIs erstes Open-Source-Modell, gpt-oss-20b für Edge-Szenarien.
Frontier OSS - DeepSeek V4-Flash und V4-Pro (MIT): DeepSeek V4-Flash (April 2026, 284B/13B aktive MoE) läuft auf einer H100 mit Quantisierung. V4-Pro (1.6T/49B) benötigt einen 8x-H100-Cluster und liefert Frontier-Reasoning. DeepSeek R1 (Jan 2025) bleibt für mature Deployments produktionsreif - die V4-Reihe ersetzt R1 nicht überstürzt.
Long-Context - Llama 4 Scout (Meta License): 10M-Token-Kontextfenster für Dokumentenanalyse über ganze Aktenbestände. Llama 4 Maverick für kürzere Kontexte mit höherer Token-Throughput.
Coding OSS - Qwen 3 Coder 110B (Apache 2.0, Alibaba) und DeepSeek Coder V4 (MIT): Spezialisiert auf Codegenerierung und Repository-Verständnis. Codestral Mamba 32B (Mistral, EU-built) als europäische Alternative.
Proprietäre Modelle (Claude Opus 4.7, GPT-5.5, Gemini 3.1 Pro) sind nicht Self-Hosted verfügbar, können aber über API mit EU-Processing genutzt werden.
In der modell-agnostischen Architektur kann ein Agent mehrere Modelle nutzen: Self-Hosted für sensible Daten, Cloud-API für unkritische Aufgaben. Das Routing ist regelbasiert und im Decision Layer konfiguriert.
Deployment-Optionen
Azure: LLMs können auf Azure ML deployed oder auf dedizierten GPU-VMs (NC-Series, ND-Series) betrieben werden. Integration mit Azure Entra ID für Authentifizierung und Zugriffskontrolle. Verarbeitung in EU-Rechenzentren (West Europe, North Europe).
GCP: Deployment über Vertex AI oder auf dedizierten GPU-VMs (A2, G2). Integration mit Google Cloud IAM. Verarbeitung in EU-Rechenzentren (europe-west1, europe-west4).
On-Premise: Eigene Server mit NVIDIA GPUs (A100, H100, RTX 4000 Ada). Betrieb in TÜV-zertifizierten Rechenzentren in Deutschland. Maximale Kontrolle, keine Cloud-Abhängigkeit.
Hybrid: Kombination aus Self-Hosted und Cloud. Sensible Workloads lokal, unkritische in der Cloud. Einheitliche Governance über beide Umgebungen.
| Kriterium | Self-Hosted | Cloud API |
|---|---|---|
| Data Residency | Volle Kontrolle, Daten bleiben On-Premise | Anbieterabhängig, EU-Regionen verfügbar |
| Modellauswahl | Nur Open Source (Llama, Mistral, DeepSeek) | Proprietär + Open Source via API |
| Kosten bei Skalierung | Niedriger (fixe GPU-Kosten, keine Token-Gebühren) | Höher (Token-Preise skalieren linear) |
| Betriebsaufwand | Hoch (GPU-Management, Updates, HA) | Niedrig (vom Anbieter verwaltet) |
| Latenz | Niedrig (lokales Netzwerk) | Variabel (netzwerkabhängig) |
Kostenloses eBook: AI Infrastructure
Build, Buy, Hybrid - EU AI Act-konforme Infrastruktur mit B/B/H-Framework und 7-Layer Reference Architecture.
Jetzt kostenlos herunterladenArchitekturüberlegungen
GPU-Sizing: Die Modellgröße bestimmt den GPU-Bedarf. Ein 7B-Modell läuft auf einer einzelnen GPU. Ein 70B-Modell braucht mehrere GPUs oder Quantisierung. Die richtige Dimensionierung hängt vom Anwendungsfall ab.
Inference-Optimierung: Techniken wie Quantisierung (4-bit, 8-bit), Batching und KV-Cache-Optimierung reduzieren den Ressourcenbedarf bei akzeptablem Qualitätsverlust.
Hochverfügbarkeit: Für produktive Systeme: Redundante GPU-Server, Load Balancing, automatisches Failover. Kein Single Point of Failure.
Modell-Updates: Neue Modellversionen müssen getestet werden, bevor sie in Produktion gehen. Ein Staging-Environment für Modell-Tests ist Teil der Infrastruktur.
TCO-Crossover Self-host vs Cloud-API: Die Schwelle liegt bei rund 50-100M Tokens/Monat sustained. Unter dieser Schwelle ist Cloud-API günstiger, darüber amortisiert eine dedizierte H100 in 12-18 Monaten. Siehe Self-hosted Open-Source AI 2026 für die vollständige Modellmatrix und Kostenrechnung.
Mehr dazu: KI-Infrastruktur
Termin vereinbaren - Wir zeigen Ihnen die optimale Hosting-Strategie für Ihre Anforderungen.

Bert Gogolin
Geschäftsführer, Gosign
AI Governance Briefing
Enterprise AI, Regulierung und Infrastruktur - einmal im Monat, direkt von mir.