Ist die Nutzung von Cloud-KI-APIs DSGVO-konform?

Cloud-KI-APIs sind DSGVO-konform nutzbar, wenn der Anbieter EU-Datenresidenz garantiert und ein Auftragsverarbeitungsvertrag (AVV) besteht. Claude (Anthropic), GPT (Azure OpenAI) und Gemini (Google) bieten EU-Regionen an. Für Stufe 3 - 4 Daten empfehlen wir Self-Hosting.

Was kostet Self-Hosting von KI-Modellen?

gpt-oss-120b läuft auf einer einzigen GPU (80 GB) - ca. 1.200 €/Monat bei einem deutschen Hosting-Anbieter. Größere Modelle wie Llama 4 Maverick erfordern 4+ GPUs, ca. 3.500 €/Monat.

Was ist die Hybrid-Strategie?

Die Hybrid-Architektur routet Anfragen automatisch nach Datensensibilität: öffentliche Daten über Cloud-APIs (schnell, günstig), vertrauliche Daten über Self-Hosted-Modelle (kein Datenabfluss). Eine Routing-Schicht entscheidet automatisch.

KI-Hosting: EU-SaaS, deutsches RZ oder Self-Hosted?

„Wo läuft es?” - Die entscheidende Frage

Bevor Sie ein Modell auswählen, bevor Sie Agenten bauen, bevor Sie ein Interface ausrollen, steht eine Frage: Wo laufen Ihre KI-Modelle? Diese Entscheidung bestimmt, welche Datenschutzgarantien Sie geben können, welche regulatorischen Anforderungen Sie erfüllen, wie hoch Ihre laufenden Kosten sind und wie abhängig Sie von Drittanbietern werden.

Auf einen Blick - KI-Hosting-Strategie für Enterprise

Drei Stufen: EU-SaaS (Cloud-APIs), deutsches IaaS (Self-Hosted GPU) und On-Premises (eigene Hardware) - plus die Hybrid-Kombination.
Die Hybrid-Architektur routet Anfragen nach Datensensibilität: 60-70 % Cloud, 25-35 % deutsches IaaS, 5-10 % On-Premises.
Gartner (2025) schätzt, dass 40 % der Großunternehmen bis 2027 hybride KI-Hosting-Architekturen betreiben, gegenüber unter 10 % in 2024.
Self-Hosted Open-Source-Modelle (gpt-oss-120b) laufen auf einer GPU für ca. 1.200 EUR pro Monat bei deutschen Anbietern.
Gesamtkosten mit Hybrid-Strategie liegen 30-40 % unter einer reinen Cloud-API-Strategie bei höherer Datensouveränität.

Es gibt drei grundlegende Strategien - und eine vierte, die in der Praxis zum Standard geworden ist: die Hybrid-Architektur, die alle drei kombiniert.

Stufe 1: EU-SaaS - Cloud-APIs mit EU-Datenresidenz

Die einfachste und schnellste Variante: Sie nutzen die APIs der Modellanbieter direkt. Claude über die Anthropic-API (EU-Region), GPT-5.2 über Azure OpenAI (EU-Rechenzentrum), Gemini über Google Cloud Platform (EU-Region). Die Daten verlassen Ihr Netzwerk, werden aber in EU-Rechenzentren verarbeitet.

Vorteile

Schnellster Start: Keine Infrastruktur aufbauen, kein GPU-Server bereitstellen, keine ML-Ops-Expertise erforderlich. API-Key einrichten, AVV unterzeichnen, produktiv in Stunden.

Automatische Updates: Modellupdates, Sicherheitspatches und Performance-Verbesserungen werden vom Anbieter ausgerollt. Kein eigener Wartungsaufwand.

Skalierbarkeit: Kein Kapazitätsmanagement. Bei Lastspitzen skaliert der Cloud-Anbieter automatisch. Keine Überplanung, keine Unterkapazität.

Modellvielfalt: Zugriff auf alle Modellvarianten des Anbieters - Flaggschiff, Preis-Leistung und Budget - über dieselbe API.

Risiken und Einschränkungen

Daten verlassen das Unternehmensnetzwerk. Auch bei EU-Datenresidenz werden Ihre Anfragen auf Infrastruktur verarbeitet, die Sie nicht kontrollieren. Der Anbieter hat technisch Zugriff auf die Daten während der Verarbeitung.

CLOUD Act. US-amerikanische Anbieter - und dazu gehören Anthropic, OpenAI und Google - unterliegen dem US CLOUD Act. US-Behörden können unter bestimmten Bedingungen Zugriff auf Daten verlangen, auch wenn diese in EU-Rechenzentren gespeichert sind. Für die meisten Unternehmensdaten ist dieses Risiko bewertbar und akzeptabel. Für Geschäftsgeheimnisse, VS-NfD-Daten oder KRITIS-relevante Informationen nicht.

Vendor-Abhängigkeit. Bei einer Single-Provider-Strategie sind Sie von der Preispolitik, den API-Änderungen und der Verfügbarkeit eines einzelnen Anbieters abhängig. Eine modell-agnostische Architektur (siehe KI-Modelle Vergleich 2026) reduziert dieses Risiko.

AVV erforderlich. Für die DSGVO-konforme Nutzung ist ein Auftragsverarbeitungsvertrag (AVV) mit dem Anbieter zwingend. Alle drei großen Anbieter bieten Standard-AVVs an - prüfen Sie diese mit Ihrer Rechtsabteilung. Achtung: Standard-SaaS-AVVs decken KI-spezifische Themen wie Prompt-Logging, Umgebungstrennung und Modell-Provider-Ketten nicht ab. Unser Anforderungskatalog für KI-AVVs zeigt die zehn Lücken und liefert 25 Prüffragen.

Geeignet für

Standard-Aufgaben mit nicht-sensiblen Daten: Zusammenfassungen, Übersetzungen, allgemeine Fragebeantwortung
Proof of Concepts und Pilotprojekte
Aufgaben mit variablem Volumen, bei denen dedizierte GPU-Infrastruktur unwirtschaftlich wäre
Unternehmen ohne ML-Ops-Expertise, die schnell produktiv werden wollen

Stufe 2: Deutsches IaaS - GPU-Hosting bei deutschen Anbietern

Die mittlere Variante: Sie mieten GPU-Server bei einem deutschen Infrastructure-as-a-Service-Anbieter - etwa Hetzner, IONOS oder einem spezialisierten GPU-Cloud-Provider. Darauf betreiben Sie Open-Source-Modelle wie gpt-oss, Llama 4 oder Mistral Medium 3.1 selbst.

Konkrete Hardware-Anforderungen und Kosten

Modell	GPU-Anforderung	Geschätzte Kosten/Monat
gpt-oss-120b	1x A100/H100 (80 GB)	ca. 1.200 €
gpt-oss-20b	CPU/16 GB RAM (oder kleine GPU)	ca. 200 - 400 €
Llama 4 Scout	1x A100 (80 GB)	ca. 1.200 €
Llama 4 Maverick	4x A100 (80 GB)	ca. 3.500 €
Mistral Medium 3.1	4x A100 (80 GB)	ca. 3.500 €

Vorteile

Daten bleiben in Deutschland. Der Server steht in einem deutschen Rechenzentrum, betrieben von einem deutschen Anbieter. Kein CLOUD Act, kein transatlantischer Datentransfer. Für die DSGVO die sicherste Cloud-Variante.

Kein Anbieter-Lock-in. Sie betreiben Open-Source-Modelle unter Apache 2.0 oder Meta Llama License. Wenn Sie den Hosting-Anbieter wechseln wollen, migrieren Sie das Modell - ohne Lizenzfragen, ohne Vertragsverhandlungen.

Volle Modellkontrolle. Sie entscheiden, welches Modell in welcher Version läuft. Sie können Modelle fine-tunen, quantisieren oder durch neuere Versionen ersetzen - ohne auf den Anbieter zu warten.

Kalkulierbare Kosten. GPU-Server haben Fixkosten pro Monat. Keine variablen Token-Kosten, keine Überraschungen bei Lastspitzen. Für Unternehmen mit hohem, konstantem Volumen oft wirtschaftlicher als Cloud-APIs.

Anforderungen

ML-Ops-Kompetenz. Sie brauchen jemanden, der das Modell deployed, überwacht, aktualisiert und bei Problemen eingreift. Das kann ein interner ML-Engineer sein oder ein externer Dienstleister - aber es ist kein Null-Aufwand.

Kapazitätsplanung. Ein GPU-Server hat eine definierte Kapazität. Wenn Sie 500 gleichzeitige Anfragen haben, reicht eine einzelne GPU nicht. Sie müssen Lastprofile verstehen und Kapazitäten planen.

Kein automatisches Update. Wenn ein neues Modell erscheint, müssen Sie es selbst deployen. Wenn ein Sicherheitsproblem auftritt, müssen Sie selbst patchen.

Geeignet für

Vertrauliche Unternehmensdaten (Stufe 2 - 3 nach BSI-Klassifikation)
Unternehmen, die CLOUD-Act-Risiken ausschließen müssen
Anwendungsfälle mit konstantem, hohem Volumen (Kostenvorteil gegenüber Cloud-APIs)
Organisationen mit bestehender DevOps-/ML-Ops-Kompetenz

Stufe 3: On-Premises - KI auf eigener Hardware

Die maximal kontrollierte Variante: Sie betreiben GPU-Server in Ihrem eigenen Rechenzentrum oder in einem Colocation-Rack. Keine Daten verlassen Ihr Netzwerk - unter keinen Umständen.

Vorteile

Maximale Datensouveränität. Kein externer Zugriff, kein externer Anbieter, keine externe Abhängigkeit. Die Hardware gehört Ihnen, das Modell gehört Ihnen, die Daten verlassen nie Ihr Netzwerk.

Regulatorische Sicherheit. Für KRITIS-Unternehmen, Behörden, Verteidigungssektor und Organisationen mit VS-NfD-Daten ist On-Premises oft die einzige Option, die den Compliance-Anforderungen entspricht.

Keine laufenden Lizenz- oder API-Kosten. Nach der initialen Investition fallen nur Strom, Kühlung und Wartung an. Bei langjährigem Betrieb und hohem Volumen kann On-Premises die wirtschaftlichste Variante sein.

Herausforderungen

Hohe Initialinvestition. Ein produktiver GPU-Server mit NVIDIA H100 (80 GB) kostet 25.000 - 40.000 Euro. Für leistungsfähigere Setups (Multi-GPU, Redundanz) liegen die Kosten bei 60.000 - 120.000 Euro oder mehr.

ML-Ops-Team erforderlich. On-Premises bedeutet: Sie sind für alles verantwortlich. Hardware-Wartung, Modell-Deployment, Monitoring, Updates, Sicherheit. Das erfordert ein dediziertes Team oder einen erfahrenen Dienstleister.

Skalierung ist nicht trivial. Wenn die Last steigt, können Sie nicht per Knopfdruck eine weitere GPU hinzufügen. Hardware-Beschaffung dauert Wochen bis Monate.

Geeignet für

KRITIS-Unternehmen und Behörden
VS-NfD-Daten und höchste Geheimhaltungsstufen
Organisationen mit eigenem Rechenzentrum und ML-Ops-Kompetenz
Langfristige Investitionsbereitschaft bei sehr hohem Volumen

Kostenloses eBook: AI Infrastructure

Build, Buy, Hybrid - EU AI Act-konforme Infrastruktur mit B/B/H-Framework und 7-Layer Reference Architecture.

Jetzt kostenlos herunterladen

Der Entscheidungsbaum

Die folgende Entscheidungslogik hilft bei der Zuordnung:

Enthalten Ihre Daten PII oder Geschäftsgeheimnisse?
├── NEIN → EU-SaaS (Stufe 1)
└── JA → KRITIS oder VS-NfD?
├── JA → On-Premises (Stufe 3)
└── NEIN → Deutsches IaaS (Stufe 2) oder Hybrid

In der Praxis ist die Antwort selten eine einzelne Stufe. Die meisten Unternehmen haben Daten unterschiedlicher Sensibilität - und brauchen deshalb eine Architektur, die alle Stufen abdeckt.

Hybrid als Standard: Die Routing-Architektur

Die Hybrid-Strategie kombiniert alle drei Stufen in einer einzigen Architektur. Eine Routing-Schicht entscheidet automatisch, welche Anfrage über welchen Kanal läuft - basierend auf der Datensensibilität, nicht auf der Entscheidung einzelner Mitarbeitender.

So funktioniert das Routing

Datensensibilitäts-Stufe 1 - 2 (öffentlich, intern): Anfragen laufen über Cloud-APIs. Schnell, günstig, skalierbar. Beispiel: Zusammenfassung eines öffentlichen Whitepapers, Übersetzung einer Pressemitteilung, Entwurf einer allgemeinen E-Mail.

Datensensibilitäts-Stufe 3 (vertraulich): Anfragen werden an Self-Hosted-Modelle im deutschen Rechenzentrum geroutet. Kein Datenabfluss, kein CLOUD Act. Beispiel: Analyse interner Verträge, Verarbeitung von Personaldaten, Auswertung vertraulicher Finanzdaten.

Datensensibilitäts-Stufe 4 (streng vertraulich / reguliert): Anfragen laufen ausschließlich über On-Premises-Infrastruktur. Beispiel: VS-NfD-Dokumente, KRITIS-relevante Systeme, Daten unter besonderer Geheimhaltung.

Voraussetzung: Datenklassifikation

Damit das Routing funktioniert, muss das Unternehmen seine Daten klassifizieren. Das klingt aufwändig, ist aber in vielen Organisationen bereits vorhanden - etwa im Rahmen bestehender Informationssicherheits-Management-Systeme (ISMS) oder der BSI-Grundschutz-Klassifikation. Die Routing-Regeln bilden diese bestehende Klassifikation auf die KI-Infrastruktur ab.

Technische Umsetzung

Die Routing-Schicht sitzt zwischen dem Enterprise-AI-Portal (dem Interface, das Mitarbeitende nutzen) und den Modell-Endpunkten. Sie besteht aus drei Komponenten:

Klassifikator: Erkennt automatisch die Datensensibilität einer Anfrage - basierend auf Schlüsselwörtern, Quellsystem oder expliziter Markierung durch den Nutzer.
Routing-Engine: Ordnet die Anfrage dem passenden Modell-Endpunkt zu - Cloud-API, German IaaS oder On-Premises.
Audit-Log: Protokolliert jede Routing-Entscheidung - welche Anfrage, welche Sensibilitätsstufe, welcher Endpunkt. Nachvollziehbar und exportierbar.

Kosteneffekt

Die Hybrid-Architektur optimiert nicht nur die Datensicherheit, sondern auch die Kosten. Cloud-APIs sind pro Anfrage günstig, aber variabel. Self-Hosted-Modelle haben Fixkosten, die sich bei hohem Volumen amortisieren. Die Kombination nutzt beides: günstige Cloud-APIs für das Gros der unkritischen Anfragen, Fixkosten-optimierte Self-Hosted-Modelle für das vertrauliche Volumen.

In der Praxis sehen wir bei Unternehmen mit 1.000+ Mitarbeitenden typischerweise folgende Verteilung: 60 - 70 % der Anfragen laufen über Cloud-APIs (Stufe 1 - 2), 25 - 35 % über deutsches IaaS (Stufe 3), und 5 - 10 % über On-Premises (Stufe 4). Die Gesamtkosten liegen dabei 30 - 40 % unter einer reinen Cloud-API-Strategie bei gleichzeitig höherer Datensouveränität.

Zusammenfassung: Die drei Stufen im Überblick

Kriterium	EU-SaaS (Stufe 1)	Deutsches IaaS (Stufe 2)	On-Premises (Stufe 3)
Datensouveränität	EU-Region, AVV	Deutschland, kein CLOUD Act	Maximal
Initialkosten	Keine	Gering (Miete)	Hoch (60 - 120k €+)
Laufende Kosten	Variabel (Token)	Fix (GPU-Miete)	Fix (Strom, Wartung)
ML-Ops-Aufwand	Keiner	Mittel	Hoch
Skalierbarkeit	Automatisch	Manuell	Manuell, langsam
Geeignet für	Stufe 1 - 2 Daten	Stufe 2 - 3 Daten	Stufe 3 - 4 Daten

Die richtige Strategie ist fast immer eine Kombination. Gosign implementiert die Routing-Schicht, die alle drei Stufen verbindet - so dass Ihre Mitarbeitenden ein einziges Interface nutzen und das System automatisch den richtigen Weg wählt.

Weiterführend: KI-Infrastruktur | Decision Layer & Shadow AI

📘 Enterprise AI-Infrastruktur Blueprint 2026 - Artikel-Serie

← Vorheriger	Übersicht	Nächster →
KI-Modelle 2026: Welches Modell für welchen Einsatz?	Zur Übersicht	Enterprise-AI-Portal: Vier Open-Source-Interfaces im Vergleich

Alle Artikel dieser Serie: Enterprise AI-Infrastruktur Blueprint 2026

Sie wollen wissen, welche Hosting-Strategie für Ihre Datenlage die richtige ist? Gosign analysiert Ihre Datenklassifikation und entwirft die passende Hybrid-Architektur.

Termin vereinbaren - Wir klären in 30 Minuten, welche Hosting-Stufen Sie brauchen.

Bert Gogolin

Geschäftsführer, Gosign

AI Governance Briefing

Enterprise AI, Regulierung und Infrastruktur - einmal im Monat, direkt von mir.

KI-Hosting: EU-SaaS, deutsches RZ oder Self-Hosted?

„Wo läuft es?” - Die entscheidende Frage

Stufe 1: EU-SaaS - Cloud-APIs mit EU-Datenresidenz

Vorteile

Risiken und Einschränkungen

Geeignet für

Stufe 2: Deutsches IaaS - GPU-Hosting bei deutschen Anbietern

Konkrete Hardware-Anforderungen und Kosten

Vorteile

Anforderungen

Geeignet für

Stufe 3: On-Premises - KI auf eigener Hardware

Vorteile

Herausforderungen

Geeignet für

Der Entscheidungsbaum

Hybrid als Standard: Die Routing-Architektur

So funktioniert das Routing

Voraussetzung: Datenklassifikation

Technische Umsetzung

Kosteneffekt

Zusammenfassung: Die drei Stufen im Überblick

AI Governance Briefing

Häufige Fragen

Welcher Prozess soll Ihr erster Agent übernehmen?