Wo kann man LLMs Self-Hosted betreiben?

In Azure (über Azure ML oder eigene VMs), in GCP (über Vertex AI oder eigene VMs), auf eigenen Servern (On-Premise in TÜV-zertifizierten Rechenzentren) oder hybrid.

Was kostet LLM Self-Hosting?

Die Kosten hängen vom Modell, der Hardware und dem Nutzungsvolumen ab. GPU-Server (NVIDIA A100/H100) sind der größte Kostenfaktor. Bei hohem Nutzungsvolumen ist Self-Hosting oft günstiger als API-basierte Nutzung.

LLM Self-Hosting für Enterprise - Azure, GCP, On-Premise

Q: Welche Sprachmodelle kann man selbst hosten?

Open-Source-Modelle wie Llama (Meta), Mistral, DeepSeek, gpt-oss und ihre Ableitungen können in der eigenen Infrastruktur betrieben werden. Proprietäre Modelle wie Claude (Anthropic) und ChatGPT (OpenAI) sind nur über API verfügbar.

Warum Self-Hosting?

Für viele Enterprise-Kunden ist die Frage nicht ob KI eingesetzt wird, sondern wo die Daten verarbeitet werden. Bei der Nutzung von Cloud-APIs (OpenAI, Anthropic, Google) verlassen Daten die eigene Infrastruktur. Für regulierte Branchen - Finance, Healthcare, öffentlicher Sektor - kann das ein Ausschlusskriterium sein.

Auf einen Blick - LLM Self-Hosting für Enterprise

Self-Hosting hält alle Daten im Unternehmensnetzwerk - kein Drittanbieter-Processing, volle Kontrolle über Modell, Daten und Inferenz.
Open-Source-Modelle (Llama, Mistral, DeepSeek, gpt-oss) können auf Azure ML, GCP Vertex AI, eigenen GPU-Servern oder hybrid betrieben werden.
GPU-Sizing ist der primäre Kostentreiber: Ein 7B-Modell läuft auf einer GPU, ein 70B-Modell braucht mehrere GPUs oder Quantisierung.
Modell-agnostisches Routing erlaubt Agenten, Self-Hosted-Modelle für sensible Daten und Cloud-APIs für unkritische Aufgaben zu nutzen.
Gartner (2024) prognostiziert, dass 45 % der KI-Deployments in regulierten Branchen bis 2027 auf eigener Infrastruktur laufen werden - gegenüber 20 % in 2023.

Self-Hosting bedeutet: Das Sprachmodell läuft in der Infrastruktur des Kunden. Keine Daten verlassen das Unternehmensnetzwerk, was volle Data Residency garantiert. Kein Drittanbieter verarbeitet die Anfragen. Volle Kontrolle über Modell, Daten und Verarbeitung.

Welche Modelle kann man Self-Hosted betreiben?

Open-Source-Modelle können in der eigenen Infrastruktur betrieben werden:

Volume-Workhorse - Mistral Small 3.2 (24B, Apache 2.0, EU-built): Europäisches Modell, läuft auf einer einzelnen RTX 4090 mit 4-bit-Quantisierung. Ideal für Batch-Inferenz auf unkritischen Workloads. Mixtral 8x22B und Codestral Mamba 32B (Coding-spezialisiert) ergänzen das Mistral-Portfolio.

Reasoning OSS - gpt-oss-120b (OpenAI, Apache 2.0): 117B Parameter, MoE-Architektur, läuft auf einer einzelnen H100 (80 GB). OpenAIs erstes Open-Source-Modell, gpt-oss-20b für Edge-Szenarien.

Frontier OSS - DeepSeek V4-Flash und V4-Pro (MIT): DeepSeek V4-Flash (April 2026, 284B/13B aktive MoE) läuft auf einer H100 mit Quantisierung. V4-Pro (1.6T/49B) benötigt einen 8x-H100-Cluster und liefert Frontier-Reasoning. DeepSeek R1 (Jan 2025) bleibt für mature Deployments produktionsreif - die V4-Reihe ersetzt R1 nicht überstürzt.

Long-Context - Llama 4 Scout (Meta License): 10M-Token-Kontextfenster für Dokumentenanalyse über ganze Aktenbestände. Llama 4 Maverick für kürzere Kontexte mit höherer Token-Throughput.

Coding OSS - Qwen 3 Coder 110B (Apache 2.0, Alibaba) und DeepSeek Coder V4 (MIT): Spezialisiert auf Codegenerierung und Repository-Verständnis. Codestral Mamba 32B (Mistral, EU-built) als europäische Alternative.

Proprietäre Modelle (Claude Opus 4.7, GPT-5.5, Gemini 3.1 Pro) sind nicht Self-Hosted verfügbar, können aber über API mit EU-Processing genutzt werden.

In der modell-agnostischen Architektur kann ein Agent mehrere Modelle nutzen: Self-Hosted für sensible Daten, Cloud-API für unkritische Aufgaben. Das Routing ist regelbasiert und im Decision Layer konfiguriert.

Deployment-Optionen

Azure: LLMs können auf Azure ML deployed oder auf dedizierten GPU-VMs (NC-Series, ND-Series) betrieben werden. Integration mit Azure Entra ID für Authentifizierung und Zugriffskontrolle. Verarbeitung in EU-Rechenzentren (West Europe, North Europe).

GCP: Deployment über Vertex AI oder auf dedizierten GPU-VMs (A2, G2). Integration mit Google Cloud IAM. Verarbeitung in EU-Rechenzentren (europe-west1, europe-west4).

On-Premise: Eigene Server mit NVIDIA GPUs (A100, H100, RTX 4000 Ada). Betrieb in TÜV-zertifizierten Rechenzentren in Deutschland. Maximale Kontrolle, keine Cloud-Abhängigkeit.

Hybrid: Kombination aus Self-Hosted und Cloud. Sensible Workloads lokal, unkritische in der Cloud. Einheitliche Governance über beide Umgebungen.

Kriterium	Self-Hosted	Cloud API
Data Residency	Volle Kontrolle, Daten bleiben On-Premise	Anbieterabhängig, EU-Regionen verfügbar
Modellauswahl	Nur Open Source (Llama, Mistral, DeepSeek)	Proprietär + Open Source via API
Kosten bei Skalierung	Niedriger (fixe GPU-Kosten, keine Token-Gebühren)	Höher (Token-Preise skalieren linear)
Betriebsaufwand	Hoch (GPU-Management, Updates, HA)	Niedrig (vom Anbieter verwaltet)
Latenz	Niedrig (lokales Netzwerk)	Variabel (netzwerkabhängig)

Kostenloses eBook: AI Infrastructure

Build, Buy, Hybrid - EU AI Act-konforme Infrastruktur mit B/B/H-Framework und 7-Layer Reference Architecture.

Jetzt kostenlos herunterladen

Architekturüberlegungen

GPU-Sizing: Die Modellgröße bestimmt den GPU-Bedarf. Ein 7B-Modell läuft auf einer einzelnen GPU. Ein 70B-Modell braucht mehrere GPUs oder Quantisierung. Die richtige Dimensionierung hängt vom Anwendungsfall ab.

Inference-Optimierung: Techniken wie Quantisierung (4-bit, 8-bit), Batching und KV-Cache-Optimierung reduzieren den Ressourcenbedarf bei akzeptablem Qualitätsverlust.

Hochverfügbarkeit: Für produktive Systeme: Redundante GPU-Server, Load Balancing, automatisches Failover. Kein Single Point of Failure.

Modell-Updates: Neue Modellversionen müssen getestet werden, bevor sie in Produktion gehen. Ein Staging-Environment für Modell-Tests ist Teil der Infrastruktur.

TCO-Crossover Self-host vs Cloud-API: Die Schwelle liegt bei rund 50-100M Tokens/Monat sustained. Unter dieser Schwelle ist Cloud-API günstiger, darüber amortisiert eine dedizierte H100 in 12-18 Monaten. Siehe Self-hosted Open-Source AI 2026 für die vollständige Modellmatrix und Kostenrechnung.

Mehr dazu: KI-Infrastruktur

Termin vereinbaren - Wir zeigen Ihnen die optimale Hosting-Strategie für Ihre Anforderungen.

Bert Gogolin

Geschäftsführer, Gosign

AI Governance Briefing

Enterprise AI, Regulierung und Infrastruktur - einmal im Monat, direkt von mir.