Zum Inhalt springen
Infrastructure & Technology

LLM Self-Hosting für Enterprise – Azure, GCP, On-Premise

Wie hostet man Sprachmodelle in der eigenen Infrastruktur? DeepSeek, Llama, Mistral Self-Hosted. Deployment-Optionen: Azure, GCP, On-Premise, Hybrid. Für CTO und Head of IT Infrastructure.

Gosign GmbH 4 Min. Lesezeit

Warum Self-Hosting?

Für viele Enterprise-Kunden ist die Frage nicht ob KI eingesetzt wird, sondern wo die Daten verarbeitet werden. Bei der Nutzung von Cloud-APIs (OpenAI, Anthropic, Google) verlassen Daten die eigene Infrastruktur. Für regulierte Branchen – Finance, Healthcare, öffentlicher Sektor – kann das ein Ausschlusskriterium sein.

Self-Hosting bedeutet: Das Sprachmodell läuft in der Infrastruktur des Kunden. Keine Daten verlassen das Unternehmensnetzwerk. Kein Drittanbieter verarbeitet die Anfragen. Volle Kontrolle über Modell, Daten und Verarbeitung.

Welche Modelle kann man Self-Hosted betreiben?

Open-Source-Modelle können in der eigenen Infrastruktur betrieben werden:

Llama (Meta): Verschiedene Größen (8B, 70B, 405B Parameter). Leistungsfähig, gut dokumentiert, große Community.

Mistral: Europäisches Modell. Mistral 7B, Mixtral 8x7B. Gutes Preis-Leistungs-Verhältnis, effizient.

DeepSeek: Verschiedene Varianten inkl. DeepSeek-R1 für Reasoning-Aufgaben. Besonders gutes Preis-Leistungs-Verhältnis.

Proprietäre Modelle (Claude, ChatGPT, Gemini) sind nicht Self-Hosted verfügbar, können aber über API mit EU-Processing genutzt werden.

In der modell-agnostischen Architektur kann ein Agent mehrere Modelle nutzen: Self-Hosted für sensible Daten, Cloud-API für unkritische Aufgaben. Das Routing ist regelbasiert und im Decision Layer konfiguriert.

Deployment-Optionen

Azure: LLMs können auf Azure ML deployed oder auf dedizierten GPU-VMs (NC-Series, ND-Series) betrieben werden. Integration mit Azure Entra ID für Authentifizierung und Zugriffskontrolle. Verarbeitung in EU-Rechenzentren (West Europe, North Europe).

GCP: Deployment über Vertex AI oder auf dedizierten GPU-VMs (A2, G2). Integration mit Google Cloud IAM. Verarbeitung in EU-Rechenzentren (europe-west1, europe-west4).

On-Premise: Eigene Server mit NVIDIA GPUs (A100, H100, RTX 4000 Ada). Betrieb in TÜV-zertifizierten Rechenzentren in Deutschland. Maximale Kontrolle, keine Cloud-Abhängigkeit.

Hybrid: Kombination aus Self-Hosted und Cloud. Sensible Workloads lokal, unkritische in der Cloud. Einheitliche Governance über beide Umgebungen.

Architekturüberlegungen

GPU-Sizing: Die Modellgröße bestimmt den GPU-Bedarf. Ein 7B-Modell läuft auf einer einzelnen GPU. Ein 70B-Modell braucht mehrere GPUs oder Quantisierung. Die richtige Dimensionierung hängt vom Anwendungsfall ab.

Inference-Optimierung: Techniken wie Quantisierung (4-bit, 8-bit), Batching und KV-Cache-Optimierung reduzieren den Ressourcenbedarf bei akzeptablem Qualitätsverlust.

Hochverfügbarkeit: Für produktive Systeme: Redundante GPU-Server, Load Balancing, automatisches Failover. Kein Single Point of Failure.

Modell-Updates: Neue Modellversionen müssen getestet werden, bevor sie in Produktion gehen. Ein Staging-Environment für Modell-Tests ist Teil der Infrastruktur.

Mehr dazu: KI-Infrastruktur

Termin vereinbaren – Wir zeigen Ihnen die optimale Hosting-Strategie für Ihre Anforderungen.

LLM Hosting Self-Hosted DeepSeek Llama Mistral Azure GCP
Artikel teilen

Häufige Fragen

Welche Sprachmodelle kann man selbst hosten?

Open-Source-Modelle wie Llama (Meta), Mistral, DeepSeek und ihre Ableitungen können in der eigenen Infrastruktur betrieben werden. Proprietäre Modelle wie Claude (Anthropic) und ChatGPT (OpenAI) sind nur über API verfügbar.

Wo kann man LLMs Self-Hosted betreiben?

In Azure (über Azure ML oder eigene VMs), in GCP (über Vertex AI oder eigene VMs), auf eigenen Servern (On-Premise in TÜV-zertifizierten Rechenzentren) oder hybrid.

Was kostet LLM Self-Hosting?

Die Kosten hängen vom Modell, der Hardware und dem Nutzungsvolumen ab. GPU-Server (NVIDIA A100/H100) sind der größte Kostenfaktor. Bei hohem Nutzungsvolumen ist Self-Hosting oft günstiger als API-basierte Nutzung.

Welcher Prozess soll Ihr erster Agent übernehmen?

Sprechen Sie mit uns über einen konkreten Use Case.

Termin vereinbaren