AI Infrastructure:
Governance-Handbuch
für den CTO

Build, Buy, Hybrid - EU AI Act-konforme
Infrastruktur vor August 2026

Autor: Bert Gogolin, Geschäftsführer
Herausgeber: Gosign GmbH, Hamburg
Stand: März 2026
Umfang: 28 Seiten

Inhalt

1 Warum der CTO AI Infrastructure Governance führen muss
2 Build, Buy, Hybrid: das B/B/H-Framework
3 EU AI Act: 6 technische Anforderungen
4 Security & Data Sovereignty
5 4 Infrastruktur-Patterns in Produktion
6 Infrastructure Readiness Assessment
7 Nächste Schritte
644 Mrd.
USD KI-Infrastruktur-Ausgaben bis 2027
Gartner 2024
28%
Cloud-Ausgaben verschwendet
Flexera 2024
40%
Sicherheitsvorfälle durch Fehlkonfiguration
ENISA 2024

1 - Warum der CTO AI Infrastructure Governance führen muss

KI-Infrastruktur wächst schneller als die Governance-Strukturen, die sie kontrollieren.

Laut HashiCorp (2024) betreiben 82% der Unternehmen Multi-Cloud-Umgebungen - aber nur 31% haben eine zentrale Governance-Strategie. Das Ergebnis: Shadow AI. Fachabteilungen nutzen externe LLM-APIs ohne Freigabe. Data-Science-Teams deployen Modelle auf unkontrollierten Endpoints.

Der Stanford HAI AI Index Report (2025) dokumentiert: Die Investitionen in KI-Infrastruktur steigen jährlich um 29%, aber die Governance-Budgets wachsen nur um 8%. Diese Schere erzeugt technische Schulden.

Drei Governance-Ebenen

EbeneVerantwortungWer
Architektur-GovernanceZugelassene Patterns, Modelle, APIsCTO + Enterprise Architecture
Operations-GovernanceSLAs, Monitoring, Incident Response, Cost Mgmt.Infrastructure + DevOps
Compliance-GovernanceEU AI Act, DSGVO, Audit-Trail, Data ResidencyCTO + CISO + Legal
Cost GovernanceBudgetierung, Chargeback, Waste DetectionFinOps + CTO
Security GovernanceZero Trust, Encryption, Access ManagementCISO + Platform
CTO-Checkliste

Bevor der erste KI-Agent in Produktion geht:

Laut Flexera (2024) verschwenden Unternehmen durchschnittlich 28% ihrer Cloud-Ausgaben. Bei KI-Workloads mit GPU-Instanzen liegt die Verschwendungsrate noch höher.

2 - Build, Buy, Hybrid: das B/B/H-Framework

Jede KI-Infrastruktur-Komponente erfordert eine Grundsatzentscheidung: selbst bauen, einkaufen oder kombinieren.

KriteriumBuildBuyHybrid
KontrolleVollständigEingeschränktDifferenziert
Data ResidencyGarantiertVertragsabhängigSteuerbar
Time-to-Value3-6 Monate1-4 Wochen4-8 Wochen
BetriebskostenFix + PersonalVariabel (Pay-per-Use)Gemischt
Vendor Lock-inKeinHochMittel

Entscheidungsmatrix nach Workload

WorkloadEmpfehlungBegründung
LLM-Inference (Standard)BuyKosteneffizient bei variablem Volumen
LLM-Inference (Sensitive)BuildDaten dürfen die EU nicht verlassen
Agent OrchestrationHybridFramework self-hosted, LLM-Calls geroutet
Document IntelligenceBuildDokumente enthalten PII
Vector DatabaseHybridManaged für nicht-sensibel, self-hosted für PII
MonitoringBuySpezialisierte Tools mit EU-Region

Hidden Costs & Hidden Risks

Build - Versteckte Kosten

GPU-Hardware: NVIDIA H100: 25.000-40.000 USD pro Karte. Produktions-Cluster: 4-8 Karten minimum.

Personal: MLOps-Engineers, Platform-Engineers, Security-Spezialisten. 40% der Unternehmen fehlen die Skills (Gartner 2024).

Maintenance: Model Updates, Security Patches, Infrastruktur-Upgrades. Laufend.

Buy - Versteckte Risiken

Data Residency: Wo werden Prompts verarbeitet? Werden sie für Training verwendet?

Vendor Lock-in: Proprietäre APIs, Embedding-Formate. Migration kostet 3-6 Monate.

Verfügbarkeit: 12 Stunden Downtime pro Quartal im Schnitt (Stanford HAI 2025).

Die Hybrid-Empfehlung

Für die meisten Enterprise-Szenarien empfiehlt sich ein Hybrid-Ansatz: Model Gateway als zentrale Steuerung (self-hosted), Routing nach Sensitivität, Fallback-Strategie bei Provider-Ausfall, Cost Optimization durch intelligentes Modell-Routing.

3 - EU AI Act: 6 technische Anforderungen

Was Juristen als Compliance-Pflichten lesen, sind für den CTO Infrastruktur-Anforderungen.

Ab August 2026 gelten sechs Pflichtanforderungen (vorbehaltlich Digital Omnibus Package - mögliche Verschiebung auf Dezember 2027):

AnforderungArt.Infrastruktur-Maßnahme
Risikomanagement9Confidence Routing, Circuit Breaker, Canary Deployments
Datengovernance10Data Lineage, Immutable Storage, Data Catalog
Aufzeichnungspflichten12Structured Logging, Retention 10J+, Tamper-Proof
Transparenz13Observability Stack, Decision Explanation API, Model Cards
Menschliche Aufsicht14HITL Gateway (architektonisch), Kill Switch < 1s, Auditor Portal
Genauigkeit/Robustheit15Benchmark Pipeline, Adversarial Testing, Multi-Region-Redundanz

Risikomanagement (Art. 9) - technisch

Confidence Routing: Jeder Agent-Output erhält einen Konfidenzwert. Unter Schwellenwert: Eskalation. Circuit Breaker: Bei Anomalien automatische Deaktivierung. Canary Deployments: Neue Modellversionen schrittweise, automatischer Rollback bei Verschlechterung.

Aufzeichnungspflichten (Art. 12) - technisch

Structured Logging: Jeder API-Call, jede Agent-Entscheidung, jeder HITL-Eingriff. Retention: Lebensdauer des Systems + 10 Jahre (Art. 19). Tamper-Proof: Append-Only-Logs in immutable Storage.

Menschliche Aufsicht (Art. 14) - technisch

HITL Gateway: Architektonisch erzwungene menschliche Freigabe. Kein Bypass. Kill Switch: Sofortige Deaktivierung, Latenz < 1 Sekunde. Auditor Portal: Read-Only-Dashboard für Compliance-Prüfer.

Compliance-Checkliste

Sanktionen: Bis zu 15 Mio. EUR oder 3% des weltweiten Jahresumsatzes.

4 - Security & Data Sovereignty

40% der Sicherheitsvorfälle in Cloud-Umgebungen entstehen durch Fehlkonfiguration - nicht durch Angriffe (ENISA 2024).

4 Säulen der Data Sovereignty

SäuleAnforderungUmsetzung
Data ResidencyAlle Verarbeitung in EU-RechenzentrenSelf-hosted Modelle oder EU-Region beim Provider
EncryptionAt Rest, In Transit, In UseAES-256, TLS 1.3, mTLS, Confidential Computing
Zero TrustKein implizites VertrauenIdentity-Based Access, Least Privilege, Micro-Segmentation
Supply ChainModell- und Software-Herkunft verifiziertModel Provenance, SBOM, Container Scanning, Signed Artifacts

Data Residency im Detail

KomponenteEU-AnforderungUmsetzung
LLM-InferencePrompts dürfen EU nicht verlassenSelf-hosted oder EU-Region beim Provider
Vector DatabaseEmbeddings enthalten kodiertes WissenEU-Region oder self-hosted
LoggingLogs enthalten PIIEU-Storage mit WORM Policy
BackupsGleiche Regeln wie ProduktivdatenEU-Region, verschlüsselt

DSGVO-Compliance bei LLM-Nutzung

SzenarioRisikoMaßnahme
PII in PromptsArt. 6 - RechtsgrundlagePII-Stripping vor API-Call
Kundendaten in RAGArt. 5 - ZweckbindungZugriffskontrolle auf Dokumenten-Level
Logs mit NutzerdatenArt. 17 - Recht auf LöschungPseudonymisierung + Retention Policy
Embeddings mit PIIArt. 22 - Automatisierte EntscheidungenTransparenz-Dokumentation

5 - 4 Infrastruktur-Patterns in Produktion

Pattern 1: Agent Orchestration

Agent-Frameworks sind für Experimente gebaut, nicht für Produktion. Enterprise-Agents brauchen: definierte Berechtigungen, Audit-Trails, Rollback, Kostencontrolling.

KomponenteFunktionTechnologie
OrchestratorWorkflow, Task-Routing, ParallelisierungTemporal, Prefect, Custom
Permission LayerAgent-Berechtigungen für Tools/APIsOPA, Cedar
State ManagementKontext, Memory, Task ProgressRedis, PostgreSQL
ObservabilityTraces, Token-Verbrauch, LatenzOpenTelemetry, Langfuse

Ergebnis: MTTR bei Agent-Fehlern -70%. Unkontrollierte API-Kosten -40-60% (Gosign Projekte).

Pattern 2: Document Intelligence

80% der Unternehmensdaten sind unstrukturiert (IDC 2024). Eine Document Intelligence Pipeline klassifiziert, extrahiert und vektorisiert Dokumente automatisch.

StufeFunktionTechnologie
IngestionPDF, Word, Scan, E-Mail einlesenTika, Unstructured.io
OCRScans in Text wandelnTesseract, PaddleOCR
KlassifikationDokumenttyp erkennenFine-tuned Classifier
ExtraktionStructured Data extrahierenLLM + Schema Validation
EmbeddingDokumente vektorisierenSentence Transformers
StorageVektoren + Metadatenpgvector, Qdrant

Ergebnis: 92-97% Klassifikationsgenauigkeit. Manuelle Verarbeitung -60-80%.

Pattern 3: Model Gateway

Zentrale Schicht zwischen Applikationen und LLM-Providern. Routing, PII-Detection, Rate Limiting, Caching, Fallback, Logging.

Anfrage-TypRoutingBegründung
Enthält PIISelf-hosted ModellDaten bleiben in der EU
Standard-KlassifikationGünstigstes ModellKostenoptimierung
Komplexe AnalyseLeistungsfähigstes ModellQualität priorisiert
Provider A downProvider BVerfügbarkeit

Ergebnis: LLM-Kosten -30-50% durch Routing und Caching. Compliance durch zentrales PII-Screening.

Pattern 4: Monitoring & Observability

KI-Systeme versagen leise. Ein LLM mit schlechten Antworten wirft keinen Error.

EbeneWas wird gemessenTools
InfrastructureCPU, GPU, Memory, NetzwerkPrometheus, Grafana
ApplicationLatenz, Error-Rate, ThroughputOpenTelemetry, Jaeger
ModelConfidence, Token, HalluzinationLangfuse, WhyLabs
BusinessAutomatisierungsrate, EskalationCustom Dashboards
CostAPI-Kosten pro Team/ProjektInfracost, Custom
ComplianceAudit-Vollständigkeit, HITL-QuoteCustom + SIEM

Ergebnis: Qualitätsprobleme 4x schneller erkannt. Incident-Auswirkungsdauer -65% (Gartner 2024).

6 - Infrastructure Readiness Assessment

10 Fragen für den CTO. Bewerten Sie jede mit 0 (nein), 1 (teilweise) oder 2 (ja).

#Frage012
1Vollständige Inventarisierung aller KI-Systeme und APIs (inkl. Shadow AI).
2Genehmigte Referenzarchitektur für KI-Workloads mit definierten Patterns.
3Alle KI-Datenverarbeitungen nachweislich in EU-Rechenzentren.
4Model Gateway mit PII-Screening und zentralem Logging.
5Structured Logging für jeden API-Call und jede Agent-Entscheidung.
6Kill Switch für einzelne Agents und gesamtes KI-System (< 1s).
7GPU-/API-Kosten pro Team, Projekt und Use Case getrackt.
8Automatische Benchmark- und Adversarial-Evaluierung vor Deployment.
9Backup- und DR-Strategie spezifisch für KI-Infrastruktur.
10Alle 6 EU AI Act-Anforderungen (Art. 9-15) nachweisbar erfüllt.
ScoreBewertungEmpfehlung
16-20Production-ReadyOptimierung und Skalierung. Bereit für regulierte Workloads.
10-15Grundlage vorhandenGaps schließen: Logging, PII-Screening, Kill Switch.
5-9NachholbedarfReferenzarchitektur, Model Gateway, Shadow AI inventarisieren.
0-4HandlungsbedarfSofort starten. Inventarisierung + Referenzarchitektur.
Investment-Verteilung (Empfehlung vs. Ist)
PostenIstEmpfehlung
Modelle & Compute70%35-40%
Infrastruktur-Platform15%25-30%
Governance & Compliance5%15-20%
Observability & Monitoring5%10-15%
Security5%10-15%

7 - Nächste Schritte

Der 90-Tage-Plan

MonatFokusErgebnis
1Inventur & ArchitekturKI-Inventar, Referenzarchitektur, Data Residency geprüft, Cost Baseline
2Gateway & GovernanceModel Gateway live, Structured Logging, Kill Switch, Observability Stack
3Compliance & PilotEU AI Act-Checkliste, Benchmark Pipeline, Adversarial Testing, Compliance-Audit

Empfohlener Infrastruktur-Stack

SchichtEmpfehlungAlternativen
Model GatewayLiteLLM, PortkeyCustom (Go/Python)
Agent OrchestrationTemporal + CustomPrefect, Airflow
Vector Databasepgvector (PostgreSQL)Qdrant, Weaviate
ObservabilityOpenTelemetry + GrafanaDatadog, Langfuse
Policy EngineOPACedar, Casbin
Secret ManagementVaultAWS KMS, SOPS
Container RuntimeKubernetesNomad, ECS
CI/CDGitHub ActionsGitLab CI, Tekton
Beratungsgespräch

Wir analysieren Ihre KI-Infrastruktur und identifizieren die kritischen Gaps.

Compliance, Security und Cost Governance - 30 Minuten, kostenlos, unverbindlich.

Bert Gogolin - Geschäftsführer, Gosign GmbH

Kontakt: www.gosign.de/de/kontakt

Web: www.gosign.de