Zum Inhalt springen
Infrastructure & Technology

KI-Hosting: EU-SaaS, deutsches RZ oder Self-Hosted?

Drei Hosting-Strategien für Enterprise-KI. Entscheidungsmatrix nach Datensensibilität, Kosten und Kontrolle.

Gosign 10 Min. Lesezeit

„Wo läuft es?” – Die entscheidende Frage

Bevor Sie ein Modell auswählen, bevor Sie Agenten bauen, bevor Sie ein Interface ausrollen, steht eine Frage: Wo laufen Ihre KI-Modelle? Diese Entscheidung bestimmt, welche Datenschutzgarantien Sie geben können, welche regulatorischen Anforderungen Sie erfüllen, wie hoch Ihre laufenden Kosten sind und wie abhängig Sie von Drittanbietern werden.

Es gibt drei grundlegende Strategien – und eine vierte, die in der Praxis zum Standard geworden ist: die Hybrid-Architektur, die alle drei kombiniert.

Stufe 1: EU-SaaS – Cloud-APIs mit EU-Datenresidenz

Die einfachste und schnellste Variante: Sie nutzen die APIs der Modellanbieter direkt. Claude über die Anthropic-API (EU-Region), GPT-5.2 über Azure OpenAI (EU-Rechenzentrum), Gemini über Google Cloud Platform (EU-Region). Die Daten verlassen Ihr Netzwerk, werden aber in EU-Rechenzentren verarbeitet.

Vorteile

Schnellster Start: Keine Infrastruktur aufbauen, kein GPU-Server bereitstellen, keine ML-Ops-Expertise erforderlich. API-Key einrichten, AVV unterzeichnen, produktiv in Stunden.

Automatische Updates: Modellupdates, Sicherheitspatches und Performance-Verbesserungen werden vom Anbieter ausgerollt. Kein eigener Wartungsaufwand.

Skalierbarkeit: Kein Kapazitätsmanagement. Bei Lastspitzen skaliert der Cloud-Anbieter automatisch. Keine Überplanung, keine Unterkapazität.

Modellvielfalt: Zugriff auf alle Modellvarianten des Anbieters – Flaggschiff, Preis-Leistung und Budget – über dieselbe API.

Risiken und Einschränkungen

Daten verlassen das Unternehmensnetzwerk. Auch bei EU-Datenresidenz werden Ihre Anfragen auf Infrastruktur verarbeitet, die Sie nicht kontrollieren. Der Anbieter hat technisch Zugriff auf die Daten während der Verarbeitung.

CLOUD Act. US-amerikanische Anbieter – und dazu gehören Anthropic, OpenAI und Google – unterliegen dem US CLOUD Act. US-Behörden können unter bestimmten Bedingungen Zugriff auf Daten verlangen, auch wenn diese in EU-Rechenzentren gespeichert sind. Für die meisten Unternehmensdaten ist dieses Risiko bewertbar und akzeptabel. Für Geschäftsgeheimnisse, VS-NfD-Daten oder KRITIS-relevante Informationen nicht.

Vendor-Abhängigkeit. Bei einer Single-Provider-Strategie sind Sie von der Preispolitik, den API-Änderungen und der Verfügbarkeit eines einzelnen Anbieters abhängig. Eine modell-agnostische Architektur (siehe KI-Modelle Vergleich 2026) reduziert dieses Risiko.

AVV erforderlich. Für die DSGVO-konforme Nutzung ist ein Auftragsverarbeitungsvertrag (AVV) mit dem Anbieter zwingend. Alle drei großen Anbieter bieten Standard-AVVs an – prüfen Sie diese mit Ihrer Rechtsabteilung.

Geeignet für

  • Standard-Aufgaben mit nicht-sensiblen Daten: Zusammenfassungen, Übersetzungen, allgemeine Fragebeantwortung
  • Proof of Concepts und Pilotprojekte
  • Aufgaben mit variablem Volumen, bei denen dedizierte GPU-Infrastruktur unwirtschaftlich wäre
  • Unternehmen ohne ML-Ops-Expertise, die schnell produktiv werden wollen

Stufe 2: Deutsches IaaS – GPU-Hosting bei deutschen Anbietern

Die mittlere Variante: Sie mieten GPU-Server bei einem deutschen Infrastructure-as-a-Service-Anbieter – etwa Hetzner, IONOS oder einem spezialisierten GPU-Cloud-Provider. Darauf betreiben Sie Open-Source-Modelle wie gpt-oss, Llama 4 oder Mistral Medium 3.1 selbst.

Konkrete Hardware-Anforderungen und Kosten

ModellGPU-AnforderungGeschätzte Kosten/Monat
gpt-oss-120b1x A100/H100 (80 GB)ca. 1.200 €
gpt-oss-20bCPU/16 GB RAM (oder kleine GPU)ca. 200–400 €
Llama 4 Scout1x A100 (80 GB)ca. 1.200 €
Llama 4 Maverick4x A100 (80 GB)ca. 3.500 €
Mistral Medium 3.14x A100 (80 GB)ca. 3.500 €

Vorteile

Daten bleiben in Deutschland. Der Server steht in einem deutschen Rechenzentrum, betrieben von einem deutschen Anbieter. Kein CLOUD Act, kein transatlantischer Datentransfer. Für die DSGVO die sicherste Cloud-Variante.

Kein Anbieter-Lock-in. Sie betreiben Open-Source-Modelle unter Apache 2.0 oder Meta Llama License. Wenn Sie den Hosting-Anbieter wechseln wollen, migrieren Sie das Modell – ohne Lizenzfragen, ohne Vertragsverhandlungen.

Volle Modellkontrolle. Sie entscheiden, welches Modell in welcher Version läuft. Sie können Modelle fine-tunen, quantisieren oder durch neuere Versionen ersetzen – ohne auf den Anbieter zu warten.

Kalkulierbare Kosten. GPU-Server haben Fixkosten pro Monat. Keine variablen Token-Kosten, keine Überraschungen bei Lastspitzen. Für Unternehmen mit hohem, konstantem Volumen oft wirtschaftlicher als Cloud-APIs.

Anforderungen

ML-Ops-Kompetenz. Sie brauchen jemanden, der das Modell deployed, überwacht, aktualisiert und bei Problemen eingreift. Das kann ein interner ML-Engineer sein oder ein externer Dienstleister – aber es ist kein Null-Aufwand.

Kapazitätsplanung. Ein GPU-Server hat eine definierte Kapazität. Wenn Sie 500 gleichzeitige Anfragen haben, reicht eine einzelne GPU nicht. Sie müssen Lastprofile verstehen und Kapazitäten planen.

Kein automatisches Update. Wenn ein neues Modell erscheint, müssen Sie es selbst deployen. Wenn ein Sicherheitsproblem auftritt, müssen Sie selbst patchen.

Geeignet für

  • Vertrauliche Unternehmensdaten (Stufe 2–3 nach BSI-Klassifikation)
  • Unternehmen, die CLOUD-Act-Risiken ausschließen müssen
  • Anwendungsfälle mit konstantem, hohem Volumen (Kostenvorteil gegenüber Cloud-APIs)
  • Organisationen mit bestehender DevOps-/ML-Ops-Kompetenz

Stufe 3: On-Premises – KI auf eigener Hardware

Die maximal kontrollierte Variante: Sie betreiben GPU-Server in Ihrem eigenen Rechenzentrum oder in einem Colocation-Rack. Keine Daten verlassen Ihr Netzwerk – unter keinen Umständen.

Vorteile

Maximale Datensouveränität. Kein externer Zugriff, kein externer Anbieter, keine externe Abhängigkeit. Die Hardware gehört Ihnen, das Modell gehört Ihnen, die Daten verlassen nie Ihr Netzwerk.

Regulatorische Sicherheit. Für KRITIS-Unternehmen, Behörden, Verteidigungssektor und Organisationen mit VS-NfD-Daten ist On-Premises oft die einzige Option, die den Compliance-Anforderungen entspricht.

Keine laufenden Lizenz- oder API-Kosten. Nach der initialen Investition fallen nur Strom, Kühlung und Wartung an. Bei langjährigem Betrieb und hohem Volumen kann On-Premises die wirtschaftlichste Variante sein.

Herausforderungen

Hohe Initialinvestition. Ein produktiver GPU-Server mit NVIDIA H100 (80 GB) kostet 25.000–40.000 Euro. Für leistungsfähigere Setups (Multi-GPU, Redundanz) liegen die Kosten bei 60.000–120.000 Euro oder mehr.

ML-Ops-Team erforderlich. On-Premises bedeutet: Sie sind für alles verantwortlich. Hardware-Wartung, Modell-Deployment, Monitoring, Updates, Sicherheit. Das erfordert ein dediziertes Team oder einen erfahrenen Dienstleister.

Skalierung ist nicht trivial. Wenn die Last steigt, können Sie nicht per Knopfdruck eine weitere GPU hinzufügen. Hardware-Beschaffung dauert Wochen bis Monate.

Geeignet für

  • KRITIS-Unternehmen und Behörden
  • VS-NfD-Daten und höchste Geheimhaltungsstufen
  • Organisationen mit eigenem Rechenzentrum und ML-Ops-Kompetenz
  • Langfristige Investitionsbereitschaft bei sehr hohem Volumen

Der Entscheidungsbaum

Die folgende Entscheidungslogik hilft bei der Zuordnung:

Enthalten Ihre Daten PII oder Geschäftsgeheimnisse?
├── NEIN → EU-SaaS (Stufe 1)
└── JA → KRITIS oder VS-NfD?
    ├── JA → On-Premises (Stufe 3)
    └── NEIN → Deutsches IaaS (Stufe 2) oder Hybrid

In der Praxis ist die Antwort selten eine einzelne Stufe. Die meisten Unternehmen haben Daten unterschiedlicher Sensibilität – und brauchen deshalb eine Architektur, die alle Stufen abdeckt.

Hybrid als Standard: Die Routing-Architektur

Die Hybrid-Strategie kombiniert alle drei Stufen in einer einzigen Architektur. Eine Routing-Schicht entscheidet automatisch, welche Anfrage über welchen Kanal läuft – basierend auf der Datensensibilität, nicht auf der Entscheidung einzelner Mitarbeitender.

So funktioniert das Routing

Datensensibilitäts-Stufe 1–2 (öffentlich, intern): Anfragen laufen über Cloud-APIs. Schnell, günstig, skalierbar. Beispiel: Zusammenfassung eines öffentlichen Whitepapers, Übersetzung einer Pressemitteilung, Entwurf einer allgemeinen E-Mail.

Datensensibilitäts-Stufe 3 (vertraulich): Anfragen werden an Self-Hosted-Modelle im deutschen Rechenzentrum geroutet. Kein Datenabfluss, kein CLOUD Act. Beispiel: Analyse interner Verträge, Verarbeitung von Personaldaten, Auswertung vertraulicher Finanzdaten.

Datensensibilitäts-Stufe 4 (streng vertraulich / reguliert): Anfragen laufen ausschließlich über On-Premises-Infrastruktur. Beispiel: VS-NfD-Dokumente, KRITIS-relevante Systeme, Daten unter besonderer Geheimhaltung.

Voraussetzung: Datenklassifikation

Damit das Routing funktioniert, muss das Unternehmen seine Daten klassifizieren. Das klingt aufwändig, ist aber in vielen Organisationen bereits vorhanden – etwa im Rahmen bestehender Informationssicherheits-Management-Systeme (ISMS) oder der BSI-Grundschutz-Klassifikation. Die Routing-Regeln bilden diese bestehende Klassifikation auf die KI-Infrastruktur ab.

Technische Umsetzung

Die Routing-Schicht sitzt zwischen dem Enterprise-AI-Portal (dem Interface, das Mitarbeitende nutzen) und den Modell-Endpunkten. Sie besteht aus drei Komponenten:

  1. Klassifikator: Erkennt automatisch die Datensensibilität einer Anfrage – basierend auf Schlüsselwörtern, Quellsystem oder expliziter Markierung durch den Nutzer.
  2. Routing-Engine: Ordnet die Anfrage dem passenden Modell-Endpunkt zu – Cloud-API, German IaaS oder On-Premises.
  3. Audit-Log: Protokolliert jede Routing-Entscheidung – welche Anfrage, welche Sensibilitätsstufe, welcher Endpunkt. Nachvollziehbar und exportierbar.

Kosteneffekt

Die Hybrid-Architektur optimiert nicht nur die Datensicherheit, sondern auch die Kosten. Cloud-APIs sind pro Anfrage günstig, aber variabel. Self-Hosted-Modelle haben Fixkosten, die sich bei hohem Volumen amortisieren. Die Kombination nutzt beides: günstige Cloud-APIs für das Gros der unkritischen Anfragen, Fixkosten-optimierte Self-Hosted-Modelle für das vertrauliche Volumen.

In der Praxis sehen wir bei Unternehmen mit 1.000+ Mitarbeitenden typischerweise folgende Verteilung: 60–70 % der Anfragen laufen über Cloud-APIs (Stufe 1–2), 25–35 % über deutsches IaaS (Stufe 3), und 5–10 % über On-Premises (Stufe 4). Die Gesamtkosten liegen dabei 30–40 % unter einer reinen Cloud-API-Strategie bei gleichzeitig höherer Datensouveränität.

Zusammenfassung: Die drei Stufen im Überblick

KriteriumEU-SaaS (Stufe 1)Deutsches IaaS (Stufe 2)On-Premises (Stufe 3)
DatensouveränitätEU-Region, AVVDeutschland, kein CLOUD ActMaximal
InitialkostenKeineGering (Miete)Hoch (60–120k €+)
Laufende KostenVariabel (Token)Fix (GPU-Miete)Fix (Strom, Wartung)
ML-Ops-AufwandKeinerMittelHoch
SkalierbarkeitAutomatischManuellManuell, langsam
Geeignet fürStufe 1–2 DatenStufe 2–3 DatenStufe 3–4 Daten

Die richtige Strategie ist fast immer eine Kombination. Gosign implementiert die Routing-Schicht, die alle drei Stufen verbindet – so dass Ihre Mitarbeitenden ein einziges Interface nutzen und das System automatisch den richtigen Weg wählt.

Weiterführend: KI-Infrastruktur | Decision Layer & Shadow AI


📘 Enterprise AI-Infrastruktur Blueprint 2026 – Artikel-Serie

← VorherigerÜbersichtNächster →
KI-Modelle 2026: Welches Modell für welchen Einsatz?Zur ÜbersichtEnterprise-AI-Portal: Vier Open-Source-Interfaces im Vergleich

Alle Artikel dieser Serie: Enterprise AI-Infrastruktur Blueprint 2026


Sie wollen wissen, welche Hosting-Strategie für Ihre Datenlage die richtige ist? Gosign analysiert Ihre Datenklassifikation und entwirft die passende Hybrid-Architektur.

Termin vereinbaren – Wir klären in 30 Minuten, welche Hosting-Stufen Sie brauchen.

KI Hosting Self-Hosted DSGVO Cloud Act GPU Server Enterprise AI
Artikel teilen

Häufige Fragen

Ist die Nutzung von Cloud-KI-APIs DSGVO-konform?

Ja, wenn der Anbieter EU-Datenresidenz garantiert und ein Auftragsverarbeitungsvertrag (AVV) besteht. Claude (Anthropic), GPT (Azure OpenAI) und Gemini (Google) bieten EU-Regionen an. Für Stufe 3–4 Daten empfehlen wir Self-Hosting.

Was kostet Self-Hosting von KI-Modellen?

gpt-oss-120b läuft auf einer einzigen GPU (80 GB) – ca. 1.200 €/Monat bei einem deutschen Hosting-Anbieter. Größere Modelle wie Llama 4 Maverick erfordern 4+ GPUs, ca. 3.500 €/Monat.

Was ist die Hybrid-Strategie?

Die Hybrid-Architektur routet Anfragen automatisch nach Datensensibilität: öffentliche Daten über Cloud-APIs (schnell, günstig), vertrauliche Daten über Self-Hosted-Modelle (kein Datenabfluss). Eine Routing-Schicht entscheidet automatisch.

Welcher Prozess soll Ihr erster Agent übernehmen?

Sprechen Sie mit uns über einen konkreten Use Case.

Termin vereinbaren