AI Infrastructure
Die Produktionsplattform für AI-Agenten - modell-agnostisch, in Ihrer Infrastruktur. Modelle, Hosting, Pipeline, Stack.
Warum Infrastruktur der Engpass ist
Die meisten Unternehmen die AI-Agenten pilotieren, scheitern nicht am Modell. Die Modelle funktionieren. Sie scheitern an der Infrastruktur: Kein Governance-Framework, kein Audit Trail, keine Mandantentrennung, kein Deployment-Konzept, keine Integration in bestehende Systeme.
Ein Pilot auf einem Notebook ist keine Produktivarchitektur. Diese Seite beschreibt die konkreten Technologien und Konfigurationen, die aus einem LLM-Experiment ein betriebsfähiges System machen.
Wie die einzelnen Infrastruktur-Komponenten architektonisch zusammenspielen, beschreibt die 7-Layer-Referenz-Architektur.
Vier Infrastruktur-Komponenten
1. LLM Hosting
Die Modellschicht. Wo das Sprachverständnis stattfindet.
Cloud-LLMs:
- Azure OpenAI (ChatGPT, Claude) - EU-Regionen, Microsofts DPA
- Amazon Bedrock (Claude, Llama, Mistral) - EU-Regionen, AWS DPA
- Google Vertex AI (Gemini) - EU-Regionen, Googles DPA
- Anthropic API (Claude) - mit EU Data Processing
Self-Hosted-LLMs:
- Llama (Meta) - Open Source, auf eigener Hardware
- Mistral - Open Source, EU-Unternehmen
- DeepSeek - Open Source, kosteneffizient
- gpt-oss (OpenAI) - Open Weight, Apache 2.0, komplett self-hostbar. 120B auf einer H100, 20B auf 16 GB Consumer-Hardware.
Inference-Frameworks für Self-Hosted:
- Ollama - Einfacher Einstieg, lokale Entwicklung, Edge-Deployment
- vLLM - Production-grade, GPU-optimiert, hoher Throughput
Hybrid:
- Self-Hosted für sensible Daten (HR, Finanzen)
- Cloud-LLMs für weniger kritische Workloads (Dokumentenklassifikation)
- Automatisches Routing je nach Datenklassifikation
Die Modellwahl ist eine Abwägung zwischen Leistung, Kosten, Datenschutz und Latenz. Wir beraten bei der Auswahl und implementieren modell-agnostisch - ein Modellwechsel ändert nicht die Geschäftslogik. Vertiefung: KI-Modelle im Vergleich 2026, LLM Self-Hosting für Enterprise
Unsere AI Engineers sind Microsoft-zertifiziert für Azure AI Services. Deployment-Optionen umfassen Microsoft Azure, GCP und komplett selbst gehostete Infrastruktur - die Architekturentscheidung liegt beim Kunden, nicht beim Anbieter.
2. RAG-Pipeline
Retrieval Augmented Generation - wie Agenten auf Unternehmenswissen zugreifen.
Qualitätsmerkmale:
- Semantisches Chunking (nicht nach Seitenzahl, sondern nach Inhalt)
- Metadaten-Anreicherung (Dokumenttyp, Version, Gültigkeitsbereich)
- Hybrid Search (Vektorsuche + Keyword-Suche für Präzision)
- Quellenangabe in jeder Antwort (Dokument, Seite, Absatz)
- Regelmässige Re-Indexierung bei Dokumentenänderungen
3. Orchestrierung
Die Ablaufsteuerung. Wie Agenten, Systeme und Menschen zusammenarbeiten.
- Trigger.dev oder Camunda: Open-Source Workflow-Engine. Visuelle Workflows, API-Integration, Webhooks. Self-Hosted, kein Vendor Lock-in.
- API Gateway: Einheitlicher Einstiegspunkt. Rate Limiting, Authentication, Logging, Monitoring.
- Queue-System: Asynchrone Verarbeitung für Batch-Prozesse (Monatsabschluss, Massenimport).
- Event-System: Echtzeit-Reaktion auf eingehende Dokumente, Statusänderungen, Eskalationen.
Die Orchestrierung ist der Unterschied zwischen "ein Agent kann etwas" und "ein Agent tut etwas zuverlässig im Produktivbetrieb". Mehr dazu: Agent-Orchestrierung im Vergleich
4. Deployment
Wo die Infrastruktur läuft. Alle Optionen EU-only.
Azure (EU)
- Azure Kubernetes Service (AKS) für Container-Orchestrierung
- Azure SQL / PostgreSQL für Daten und Audit Trail
- Azure OpenAI für LLM-Hosting
- Regionen: West Europe, North Europe, Germany West Central
AWS (EU)
- Amazon EKS für Container-Orchestrierung
- Amazon RDS / Aurora PostgreSQL für Daten und Audit Trail
- Amazon Bedrock für LLM-Hosting (Claude, Llama, Mistral)
- Regionen: eu-central-1 (Frankfurt), eu-west-1 (Ireland), eu-west-3 (Paris)
GCP (EU)
- Google Kubernetes Engine (GKE) für Container-Orchestrierung
- Cloud SQL / AlloyDB für Daten und Audit Trail
- Vertex AI für LLM-Hosting
- Regionen: europe-west1, europe-west3, europe-west4
Vercel EU + Supabase EU
- Vercel für Frontend und Edge Functions in EU-Rechenzentren
- Supabase für Datenbank (PostgreSQL), Auth und Storage
- Leichtgewichtige EU-Deployment-Option ohne eigene Kubernetes-Infrastruktur
- Managed Services mit EU Data Residency
Self-Hosted
- Docker / Kubernetes auf eigener Hardware
- PostgreSQL mit pgvector für Daten und Vektorsuche
- Open-Source-LLMs auf eigenen GPUs
- Vollständige Cloud-Act-Freiheit
Hybrid
- Kombination nach Datenklassifikation
- Sensitive Workloads Self-Hosted, Standard-Workloads Cloud
- Einheitliche Orchestrierung über alle Umgebungen
Technologie-Stack
| Komponente | Technologie | Warum |
|---|---|---|
| Workflow-Engine | Trigger.dev, Camunda | Open Source, Self-Hosted, kein Vendor Lock-in |
| Datenbank | PostgreSQL + pgvector | Enterprise-ready, RLS-fähig, Vektorsuche integriert |
| Backend | Python, TypeScript | Bewährt für ML-Workloads und API-Entwicklung |
| Frontend | React / Next.js | Für Dashboard, Chat UI, Auditor Portal |
| Container | Docker, Kubernetes | Standard für Cloud und Self-Hosted |
| API | REST, GraphQL | Integration mit bestehenden Systemen |
| Auth | Supabase Auth / OIDC | SSO-fähig, integrierbar mit Enterprise-Identity-Providern |
| Monitoring | Prometheus, Grafana | Open Source, Self-Hosted, Echtzeit-Dashboards |
| Inference | Ollama, vLLM | Self-Hosted LLM Inference, GPU-optimiert |
Governance ist eingebaut
Die Infrastruktur enthält Governance by Design:
- Audit Trail auf Infrastrukturebene (nicht nur Anwendungsebene)
- Row-Level Security auf Datenbankebene - Details in Data Residency
- Verschlüsselung at rest und in transit
- RBAC über alle Komponenten hinweg
- Cert-Ready Controls als technische Datenobjekte
Voller Quellcode-Zugang
Die Infrastruktur läuft beim Kunden - in Azure, GCP, AWS oder Self-Hosted. Kein SaaS, kein Hosting bei Gosign. Voller Zugang zu Quellcode, Konfigurationen und Regelwerken. Open-Source-Stack wo möglich. Proprietäre Komponenten nur bei den LLMs selbst - und dort modell-agnostisch.
Nach 12-18 Monaten betreiben Sie die Infrastruktur eigenständig.
Vertiefung im Agent Briefing
Unsere Fachartikel-Serie für Entscheider, die AI Agents im Unternehmen einführen.
Häufige Fragen zur AI Infrastructure
Muss ich mich für Cloud oder Self-Hosted entscheiden?
Nein. Die Architektur unterstützt Hybrid-Deployment. Sie können sensible Daten Self-Hosted verarbeiten und für weniger kritische Workloads Cloud-Dienste nutzen. Die Layer oberhalb der Infrastruktur bleiben identisch.
Welche Cloud-Anbieter werden unterstützt?
Azure (EU), AWS (EU), GCP (EU), Vercel EU + Supabase EU, Self-Hosted oder Hybrid. Die Architektur ist cloud-agnostisch - ein Wechsel des Anbieters ändert nur den Infrastructure Layer, nicht die Geschäftslogik.
Welche LLMs werden unterstützt?
ChatGPT, Claude, Gemini, Llama, Mistral, DeepSeek, gpt-oss und weitere. Open Source oder kommerzielle Modelle. Self-Hosted via Ollama oder vLLM - auch OpenAIs eigene Open-Weight-Modelle laufen komplett in Ihrer Infrastruktur.
Brauche ich eigene GPU-Hardware für Self-Hosted-Modelle?
Für Open-Source-Modelle wie Llama, Mistral oder gpt-oss ist GPU-Hardware erforderlich. gpt-oss-120B läuft auf einer einzelnen H100, gpt-oss-20B auf 16 GB Consumer-Hardware. Die Dimensionierung hängt vom Modell und der Nutzungslast ab. Wir beraten bei der Hardware-Auswahl.
Was unterscheidet diese Seite von der Referenz-Architektur?
Die Referenz-Architektur beschreibt das Architekturmuster - welche Layer es gibt und warum. Diese Seite beschreibt die konkrete Umsetzung - welche Technologien, welche Cloud-Regionen, welche Hardware. Architektur ist das Was, Infrastruktur ist das Wie.
Vertiefung
Architektur
7-Layer-Referenz-Architektur
Wie die Infrastruktur-Komponenten architektonisch zusammenspielen - sieben entkoppelte Layer mit Governance als Querschicht.
Zur Referenz-Architektur →Wissensressource
Blueprint 2026
Elf Fachartikel zu den Infrastruktur-Entscheidungen die 2026 zählen: KI-Modelle, Hosting, RAG, Orchestrierung, Kosten.
Zur Artikelserie →Compliance
Data Residency
EU-only Verarbeitung, Row-Level Security, Mandantentrennung, keine Drittanbieter-Datenflüsse.
Zu Data Residency →Agenten
AI Agents
Document Agents, Workflow Agents, Knowledge Agents - die Agenten die auf dieser Infrastruktur laufen.
Zu den AI Agents →Welche Infrastruktur passt zu Ihren Anforderungen?
Azure EU, AWS EU, GCP EU, Vercel EU + Supabase EU, Self-Hosted oder Hybrid. Wir konfigurieren nach Ihren Anforderungen.
Gespräch vereinbaren