Build, Buy, Hybrid - EU AI Act-konforme
Infrastruktur vor August 2026
KI-Infrastruktur wächst schneller als die Governance-Strukturen, die sie kontrollieren.
Laut HashiCorp (2024) betreiben 82% der Unternehmen Multi-Cloud-Umgebungen - aber nur 31% haben eine zentrale Governance-Strategie. Das Ergebnis: Shadow AI. Fachabteilungen nutzen externe LLM-APIs ohne Freigabe. Data-Science-Teams deployen Modelle auf unkontrollierten Endpoints.
Der Stanford HAI AI Index Report (2025) dokumentiert: Die Investitionen in KI-Infrastruktur steigen jährlich um 29%, aber die Governance-Budgets wachsen nur um 8%. Diese Schere erzeugt technische Schulden.
| Ebene | Verantwortung | Wer |
|---|---|---|
| Architektur-Governance | Zugelassene Patterns, Modelle, APIs | CTO + Enterprise Architecture |
| Operations-Governance | SLAs, Monitoring, Incident Response, Cost Mgmt. | Infrastructure + DevOps |
| Compliance-Governance | EU AI Act, DSGVO, Audit-Trail, Data Residency | CTO + CISO + Legal |
| Cost Governance | Budgetierung, Chargeback, Waste Detection | FinOps + CTO |
| Security Governance | Zero Trust, Encryption, Access Management | CISO + Platform |
Bevor der erste KI-Agent in Produktion geht:
Laut Flexera (2024) verschwenden Unternehmen durchschnittlich 28% ihrer Cloud-Ausgaben. Bei KI-Workloads mit GPU-Instanzen liegt die Verschwendungsrate noch höher.
Jede KI-Infrastruktur-Komponente erfordert eine Grundsatzentscheidung: selbst bauen, einkaufen oder kombinieren.
| Kriterium | Build | Buy | Hybrid |
|---|---|---|---|
| Kontrolle | Vollständig | Eingeschränkt | Differenziert |
| Data Residency | Garantiert | Vertragsabhängig | Steuerbar |
| Time-to-Value | 3-6 Monate | 1-4 Wochen | 4-8 Wochen |
| Betriebskosten | Fix + Personal | Variabel (Pay-per-Use) | Gemischt |
| Vendor Lock-in | Kein | Hoch | Mittel |
| Workload | Empfehlung | Begründung |
|---|---|---|
| LLM-Inference (Standard) | Buy | Kosteneffizient bei variablem Volumen |
| LLM-Inference (Sensitive) | Build | Daten dürfen die EU nicht verlassen |
| Agent Orchestration | Hybrid | Framework self-hosted, LLM-Calls geroutet |
| Document Intelligence | Build | Dokumente enthalten PII |
| Vector Database | Hybrid | Managed für nicht-sensibel, self-hosted für PII |
| Monitoring | Buy | Spezialisierte Tools mit EU-Region |
GPU-Hardware: NVIDIA H100: 25.000-40.000 USD pro Karte. Produktions-Cluster: 4-8 Karten minimum.
Personal: MLOps-Engineers, Platform-Engineers, Security-Spezialisten. 40% der Unternehmen fehlen die Skills (Gartner 2024).
Maintenance: Model Updates, Security Patches, Infrastruktur-Upgrades. Laufend.
Data Residency: Wo werden Prompts verarbeitet? Werden sie für Training verwendet?
Vendor Lock-in: Proprietäre APIs, Embedding-Formate. Migration kostet 3-6 Monate.
Verfügbarkeit: 12 Stunden Downtime pro Quartal im Schnitt (Stanford HAI 2025).
Für die meisten Enterprise-Szenarien empfiehlt sich ein Hybrid-Ansatz: Model Gateway als zentrale Steuerung (self-hosted), Routing nach Sensitivität, Fallback-Strategie bei Provider-Ausfall, Cost Optimization durch intelligentes Modell-Routing.
Was Juristen als Compliance-Pflichten lesen, sind für den CTO Infrastruktur-Anforderungen.
Ab August 2026 gelten sechs Pflichtanforderungen (vorbehaltlich Digital Omnibus Package - mögliche Verschiebung auf Dezember 2027):
| Anforderung | Art. | Infrastruktur-Maßnahme |
|---|---|---|
| Risikomanagement | 9 | Confidence Routing, Circuit Breaker, Canary Deployments |
| Datengovernance | 10 | Data Lineage, Immutable Storage, Data Catalog |
| Aufzeichnungspflichten | 12 | Structured Logging, Retention 10J+, Tamper-Proof |
| Transparenz | 13 | Observability Stack, Decision Explanation API, Model Cards |
| Menschliche Aufsicht | 14 | HITL Gateway (architektonisch), Kill Switch < 1s, Auditor Portal |
| Genauigkeit/Robustheit | 15 | Benchmark Pipeline, Adversarial Testing, Multi-Region-Redundanz |
Confidence Routing: Jeder Agent-Output erhält einen Konfidenzwert. Unter Schwellenwert: Eskalation. Circuit Breaker: Bei Anomalien automatische Deaktivierung. Canary Deployments: Neue Modellversionen schrittweise, automatischer Rollback bei Verschlechterung.
Structured Logging: Jeder API-Call, jede Agent-Entscheidung, jeder HITL-Eingriff. Retention: Lebensdauer des Systems + 10 Jahre (Art. 19). Tamper-Proof: Append-Only-Logs in immutable Storage.
HITL Gateway: Architektonisch erzwungene menschliche Freigabe. Kein Bypass. Kill Switch: Sofortige Deaktivierung, Latenz < 1 Sekunde. Auditor Portal: Read-Only-Dashboard für Compliance-Prüfer.
Sanktionen: Bis zu 15 Mio. EUR oder 3% des weltweiten Jahresumsatzes.
40% der Sicherheitsvorfälle in Cloud-Umgebungen entstehen durch Fehlkonfiguration - nicht durch Angriffe (ENISA 2024).
| Säule | Anforderung | Umsetzung |
|---|---|---|
| Data Residency | Alle Verarbeitung in EU-Rechenzentren | Self-hosted Modelle oder EU-Region beim Provider |
| Encryption | At Rest, In Transit, In Use | AES-256, TLS 1.3, mTLS, Confidential Computing |
| Zero Trust | Kein implizites Vertrauen | Identity-Based Access, Least Privilege, Micro-Segmentation |
| Supply Chain | Modell- und Software-Herkunft verifiziert | Model Provenance, SBOM, Container Scanning, Signed Artifacts |
| Komponente | EU-Anforderung | Umsetzung |
|---|---|---|
| LLM-Inference | Prompts dürfen EU nicht verlassen | Self-hosted oder EU-Region beim Provider |
| Vector Database | Embeddings enthalten kodiertes Wissen | EU-Region oder self-hosted |
| Logging | Logs enthalten PII | EU-Storage mit WORM Policy |
| Backups | Gleiche Regeln wie Produktivdaten | EU-Region, verschlüsselt |
| Szenario | Risiko | Maßnahme |
|---|---|---|
| PII in Prompts | Art. 6 - Rechtsgrundlage | PII-Stripping vor API-Call |
| Kundendaten in RAG | Art. 5 - Zweckbindung | Zugriffskontrolle auf Dokumenten-Level |
| Logs mit Nutzerdaten | Art. 17 - Recht auf Löschung | Pseudonymisierung + Retention Policy |
| Embeddings mit PII | Art. 22 - Automatisierte Entscheidungen | Transparenz-Dokumentation |
Agent-Frameworks sind für Experimente gebaut, nicht für Produktion. Enterprise-Agents brauchen: definierte Berechtigungen, Audit-Trails, Rollback, Kostencontrolling.
| Komponente | Funktion | Technologie |
|---|---|---|
| Orchestrator | Workflow, Task-Routing, Parallelisierung | Temporal, Prefect, Custom |
| Permission Layer | Agent-Berechtigungen für Tools/APIs | OPA, Cedar |
| State Management | Kontext, Memory, Task Progress | Redis, PostgreSQL |
| Observability | Traces, Token-Verbrauch, Latenz | OpenTelemetry, Langfuse |
Ergebnis: MTTR bei Agent-Fehlern -70%. Unkontrollierte API-Kosten -40-60% (Gosign Projekte).
80% der Unternehmensdaten sind unstrukturiert (IDC 2024). Eine Document Intelligence Pipeline klassifiziert, extrahiert und vektorisiert Dokumente automatisch.
| Stufe | Funktion | Technologie |
|---|---|---|
| Ingestion | PDF, Word, Scan, E-Mail einlesen | Tika, Unstructured.io |
| OCR | Scans in Text wandeln | Tesseract, PaddleOCR |
| Klassifikation | Dokumenttyp erkennen | Fine-tuned Classifier |
| Extraktion | Structured Data extrahieren | LLM + Schema Validation |
| Embedding | Dokumente vektorisieren | Sentence Transformers |
| Storage | Vektoren + Metadaten | pgvector, Qdrant |
Ergebnis: 92-97% Klassifikationsgenauigkeit. Manuelle Verarbeitung -60-80%.
Zentrale Schicht zwischen Applikationen und LLM-Providern. Routing, PII-Detection, Rate Limiting, Caching, Fallback, Logging.
| Anfrage-Typ | Routing | Begründung |
|---|---|---|
| Enthält PII | Self-hosted Modell | Daten bleiben in der EU |
| Standard-Klassifikation | Günstigstes Modell | Kostenoptimierung |
| Komplexe Analyse | Leistungsfähigstes Modell | Qualität priorisiert |
| Provider A down | Provider B | Verfügbarkeit |
Ergebnis: LLM-Kosten -30-50% durch Routing und Caching. Compliance durch zentrales PII-Screening.
KI-Systeme versagen leise. Ein LLM mit schlechten Antworten wirft keinen Error.
| Ebene | Was wird gemessen | Tools |
|---|---|---|
| Infrastructure | CPU, GPU, Memory, Netzwerk | Prometheus, Grafana |
| Application | Latenz, Error-Rate, Throughput | OpenTelemetry, Jaeger |
| Model | Confidence, Token, Halluzination | Langfuse, WhyLabs |
| Business | Automatisierungsrate, Eskalation | Custom Dashboards |
| Cost | API-Kosten pro Team/Projekt | Infracost, Custom |
| Compliance | Audit-Vollständigkeit, HITL-Quote | Custom + SIEM |
Ergebnis: Qualitätsprobleme 4x schneller erkannt. Incident-Auswirkungsdauer -65% (Gartner 2024).
10 Fragen für den CTO. Bewerten Sie jede mit 0 (nein), 1 (teilweise) oder 2 (ja).
| # | Frage | 0 | 1 | 2 |
|---|---|---|---|---|
| 1 | Vollständige Inventarisierung aller KI-Systeme und APIs (inkl. Shadow AI). | ☐ | ☐ | ☐ |
| 2 | Genehmigte Referenzarchitektur für KI-Workloads mit definierten Patterns. | ☐ | ☐ | ☐ |
| 3 | Alle KI-Datenverarbeitungen nachweislich in EU-Rechenzentren. | ☐ | ☐ | ☐ |
| 4 | Model Gateway mit PII-Screening und zentralem Logging. | ☐ | ☐ | ☐ |
| 5 | Structured Logging für jeden API-Call und jede Agent-Entscheidung. | ☐ | ☐ | ☐ |
| 6 | Kill Switch für einzelne Agents und gesamtes KI-System (< 1s). | ☐ | ☐ | ☐ |
| 7 | GPU-/API-Kosten pro Team, Projekt und Use Case getrackt. | ☐ | ☐ | ☐ |
| 8 | Automatische Benchmark- und Adversarial-Evaluierung vor Deployment. | ☐ | ☐ | ☐ |
| 9 | Backup- und DR-Strategie spezifisch für KI-Infrastruktur. | ☐ | ☐ | ☐ |
| 10 | Alle 6 EU AI Act-Anforderungen (Art. 9-15) nachweisbar erfüllt. | ☐ | ☐ | ☐ |
| Score | Bewertung | Empfehlung |
|---|---|---|
| 16-20 | Production-Ready | Optimierung und Skalierung. Bereit für regulierte Workloads. |
| 10-15 | Grundlage vorhanden | Gaps schließen: Logging, PII-Screening, Kill Switch. |
| 5-9 | Nachholbedarf | Referenzarchitektur, Model Gateway, Shadow AI inventarisieren. |
| 0-4 | Handlungsbedarf | Sofort starten. Inventarisierung + Referenzarchitektur. |
| Posten | Ist | Empfehlung |
|---|---|---|
| Modelle & Compute | 70% | 35-40% |
| Infrastruktur-Platform | 15% | 25-30% |
| Governance & Compliance | 5% | 15-20% |
| Observability & Monitoring | 5% | 10-15% |
| Security | 5% | 10-15% |
| Monat | Fokus | Ergebnis |
|---|---|---|
| 1 | Inventur & Architektur | KI-Inventar, Referenzarchitektur, Data Residency geprüft, Cost Baseline |
| 2 | Gateway & Governance | Model Gateway live, Structured Logging, Kill Switch, Observability Stack |
| 3 | Compliance & Pilot | EU AI Act-Checkliste, Benchmark Pipeline, Adversarial Testing, Compliance-Audit |
| Schicht | Empfehlung | Alternativen |
|---|---|---|
| Model Gateway | LiteLLM, Portkey | Custom (Go/Python) |
| Agent Orchestration | Temporal + Custom | Prefect, Airflow |
| Vector Database | pgvector (PostgreSQL) | Qdrant, Weaviate |
| Observability | OpenTelemetry + Grafana | Datadog, Langfuse |
| Policy Engine | OPA | Cedar, Casbin |
| Secret Management | Vault | AWS KMS, SOPS |
| Container Runtime | Kubernetes | Nomad, ECS |
| CI/CD | GitHub Actions | GitLab CI, Tekton |
Wir analysieren Ihre KI-Infrastruktur und identifizieren die kritischen Gaps.
Compliance, Security und Cost Governance - 30 Minuten, kostenlos, unverbindlich.
Bert Gogolin - Geschäftsführer, Gosign GmbH
Kontakt: www.gosign.de/de/kontakt
Web: www.gosign.de