AI Infrastructure

Die Produktionsplattform für AI-Agenten - modell-agnostisch, in Ihrer Infrastruktur. Modelle, Hosting, Pipeline, Stack.

Architektur besprechen

Warum Infrastruktur der Engpass ist

Die meisten Unternehmen die AI-Agenten pilotieren, scheitern nicht am Modell. Die Modelle funktionieren. Sie scheitern an der Infrastruktur: Kein Governance-Framework, kein Audit Trail, keine Mandantentrennung, kein Deployment-Konzept, keine Integration in bestehende Systeme.

Ein Pilot auf einem Notebook ist keine Produktivarchitektur. Diese Seite beschreibt die konkreten Technologien und Konfigurationen, die aus einem LLM-Experiment ein betriebsfähiges System machen.

Wie die einzelnen Infrastruktur-Komponenten architektonisch zusammenspielen, beschreibt die 7-Layer-Referenz-Architektur.

Vier Infrastruktur-Komponenten

1. LLM Hosting

Die Modellschicht. Wo das Sprachverständnis stattfindet.

Cloud-LLMs:

Azure OpenAI (ChatGPT, Claude) - EU-Regionen, Microsofts DPA
Amazon Bedrock (Claude, Llama, Mistral) - EU-Regionen, AWS DPA
Google Vertex AI (Gemini) - EU-Regionen, Googles DPA
Anthropic API (Claude) - mit EU Data Processing

Self-Hosted-LLMs:

Llama (Meta) - Open Source, auf eigener Hardware
Mistral - Open Source, EU-Unternehmen
DeepSeek - Open Source, kosteneffizient
gpt-oss (OpenAI) - Open Weight, Apache 2.0, komplett self-hostbar. 120B auf einer H100, 20B auf 16 GB Consumer-Hardware.

Inference-Frameworks für Self-Hosted:

Ollama - Einfacher Einstieg, lokale Entwicklung, Edge-Deployment
vLLM - Production-grade, GPU-optimiert, hoher Throughput

Hybrid:

Self-Hosted für sensible Daten (HR, Finanzen)
Cloud-LLMs für weniger kritische Workloads (Dokumentenklassifikation)
Automatisches Routing je nach Datenklassifikation

Die Modellwahl ist eine Abwägung zwischen Leistung, Kosten, Datenschutz und Latenz. Wir beraten bei der Auswahl und implementieren modell-agnostisch - ein Modellwechsel ändert nicht die Geschäftslogik. Vertiefung: KI-Modelle im Vergleich 2026, LLM Self-Hosting für Enterprise

Unsere AI Engineers sind Microsoft-zertifiziert für Azure AI Services. Deployment-Optionen umfassen Microsoft Azure, GCP und komplett selbst gehostete Infrastruktur - die Architekturentscheidung liegt beim Kunden, nicht beim Anbieter.

2. RAG-Pipeline

Retrieval Augmented Generation - wie Agenten auf Unternehmenswissen zugreifen.

RAG-Pipeline: Dokumente werden in Chunks zerlegt, als Embeddings im Vector Store gespeichert, bei Anfragen semantisch abgerufen und dem LLM als Kontext übergeben

Qualitätsmerkmale:

Semantisches Chunking (nicht nach Seitenzahl, sondern nach Inhalt)
Metadaten-Anreicherung (Dokumenttyp, Version, Gültigkeitsbereich)
Hybrid Search (Vektorsuche + Keyword-Suche für Präzision)
Quellenangabe in jeder Antwort (Dokument, Seite, Absatz)
Regelmässige Re-Indexierung bei Dokumentenänderungen

3. Orchestrierung

Die Ablaufsteuerung. Wie Agenten, Systeme und Menschen zusammenarbeiten.

Trigger.dev oder Camunda: Open-Source Workflow-Engine. Visuelle Workflows, API-Integration, Webhooks. Self-Hosted, kein Vendor Lock-in.
API Gateway: Einheitlicher Einstiegspunkt. Rate Limiting, Authentication, Logging, Monitoring.
Queue-System: Asynchrone Verarbeitung für Batch-Prozesse (Monatsabschluss, Massenimport).
Event-System: Echtzeit-Reaktion auf eingehende Dokumente, Statusänderungen, Eskalationen.

Die Orchestrierung ist der Unterschied zwischen "ein Agent kann etwas" und "ein Agent tut etwas zuverlässig im Produktivbetrieb". Mehr dazu: Agent-Orchestrierung im Vergleich

4. Deployment

Wo die Infrastruktur läuft. Alle Optionen EU-only.

Azure (EU)

Azure Kubernetes Service (AKS) für Container-Orchestrierung
Azure SQL / PostgreSQL für Daten und Audit Trail
Azure OpenAI für LLM-Hosting
Regionen: West Europe, North Europe, Germany West Central

AWS (EU)

Amazon EKS für Container-Orchestrierung
Amazon RDS / Aurora PostgreSQL für Daten und Audit Trail
Amazon Bedrock für LLM-Hosting (Claude, Llama, Mistral)
Regionen: eu-central-1 (Frankfurt), eu-west-1 (Ireland), eu-west-3 (Paris)

GCP (EU)

Google Kubernetes Engine (GKE) für Container-Orchestrierung
Cloud SQL / AlloyDB für Daten und Audit Trail
Vertex AI für LLM-Hosting
Regionen: europe-west1, europe-west3, europe-west4

Vercel EU + Supabase EU

Vercel für Frontend und Edge Functions in EU-Rechenzentren
Supabase für Datenbank (PostgreSQL), Auth und Storage
Leichtgewichtige EU-Deployment-Option ohne eigene Kubernetes-Infrastruktur
Managed Services mit EU Data Residency

Self-Hosted

Docker / Kubernetes auf eigener Hardware
PostgreSQL mit pgvector für Daten und Vektorsuche
Open-Source-LLMs auf eigenen GPUs
Vollständige Cloud-Act-Freiheit

Hybrid

Kombination nach Datenklassifikation
Sensitive Workloads Self-Hosted, Standard-Workloads Cloud
Einheitliche Orchestrierung über alle Umgebungen

Technologie-Stack

Komponente	Technologie	Warum
Workflow-Engine	Trigger.dev, Camunda	Open Source, Self-Hosted, kein Vendor Lock-in
Datenbank	PostgreSQL + pgvector	Enterprise-ready, RLS-fähig, Vektorsuche integriert
Backend	Python, TypeScript	Bewährt für ML-Workloads und API-Entwicklung
Frontend	React / Next.js	Für Dashboard, Chat UI, Auditor Portal
Container	Docker, Kubernetes	Standard für Cloud und Self-Hosted
API	REST, GraphQL	Integration mit bestehenden Systemen
Auth	Supabase Auth / OIDC	SSO-fähig, integrierbar mit Enterprise-Identity-Providern
Monitoring	Prometheus, Grafana	Open Source, Self-Hosted, Echtzeit-Dashboards
Inference	Ollama, vLLM	Self-Hosted LLM Inference, GPU-optimiert

Governance ist eingebaut

Die Infrastruktur enthält Governance by Design:

Audit Trail auf Infrastrukturebene (nicht nur Anwendungsebene)
Row-Level Security auf Datenbankebene - Details in Data Residency
Verschlüsselung at rest und in transit
RBAC über alle Komponenten hinweg
Cert-Ready Controls als technische Datenobjekte

Governance in der 7-Layer-Architektur →

Voller Quellcode-Zugang

Die Infrastruktur läuft beim Kunden - in Azure, GCP, AWS oder Self-Hosted. Kein SaaS, kein Hosting bei Gosign. Voller Zugang zu Quellcode, Konfigurationen und Regelwerken. Open-Source-Stack wo möglich. Proprietäre Komponenten nur bei den LLMs selbst - und dort modell-agnostisch.

Nach 12-18 Monaten betreiben Sie die Infrastruktur eigenständig.

Vertiefung im Agent Briefing

Unsere Fachartikel-Serie für Entscheider, die AI Agents im Unternehmen einführen.

Infrastructure

Enterprise AI-Infrastruktur Blueprint 2026

Infrastructure

KI-Hosting: EU-SaaS, deutsches RZ oder Self-Hosted?

Infrastructure

LLM Self-Hosting für Enterprise - Azure, GCP, On-Premise

Häufige Fragen zur AI Infrastructure

Muss ich mich für Cloud oder Self-Hosted entscheiden?

Nein. Die Architektur unterstützt Hybrid-Deployment. Sie können sensible Daten Self-Hosted verarbeiten und für weniger kritische Workloads Cloud-Dienste nutzen. Die Layer oberhalb der Infrastruktur bleiben identisch.

Welche Cloud-Anbieter werden unterstützt?

Azure (EU), AWS (EU), GCP (EU), Vercel EU + Supabase EU, Self-Hosted oder Hybrid. Die Architektur ist cloud-agnostisch - ein Wechsel des Anbieters ändert nur den Infrastructure Layer, nicht die Geschäftslogik.

Welche LLMs werden unterstützt?

ChatGPT, Claude, Gemini, Llama, Mistral, DeepSeek, gpt-oss und weitere. Open Source oder kommerzielle Modelle. Self-Hosted via Ollama oder vLLM - auch OpenAIs eigene Open-Weight-Modelle laufen komplett in Ihrer Infrastruktur.

Brauche ich eigene GPU-Hardware für Self-Hosted-Modelle?

Für Open-Source-Modelle wie Llama, Mistral oder gpt-oss ist GPU-Hardware erforderlich. gpt-oss-120B läuft auf einer einzelnen H100, gpt-oss-20B auf 16 GB Consumer-Hardware. Die Dimensionierung hängt vom Modell und der Nutzungslast ab. Wir beraten bei der Hardware-Auswahl.

Was unterscheidet diese Seite von der Referenz-Architektur?

Die Referenz-Architektur beschreibt das Architekturmuster - welche Layer es gibt und warum. Diese Seite beschreibt die konkrete Umsetzung - welche Technologien, welche Cloud-Regionen, welche Hardware. Architektur ist das Was, Infrastruktur ist das Wie.

Vertiefung

Architektur

7-Layer-Referenz-Architektur

Wie die Infrastruktur-Komponenten architektonisch zusammenspielen - sieben entkoppelte Layer mit Governance als Querschicht.

Zur Referenz-Architektur →

Wissensressource

Blueprint 2026

Elf Fachartikel zu den Infrastruktur-Entscheidungen die 2026 zählen: KI-Modelle, Hosting, RAG, Orchestrierung, Kosten.

Zur Artikelserie →

Compliance

Data Residency

EU-only Verarbeitung, Row-Level Security, Mandantentrennung, keine Drittanbieter-Datenflüsse.

Zu Data Residency →

Agenten

AI Agents

Document Agents, Workflow Agents, Knowledge Agents - die Agenten die auf dieser Infrastruktur laufen.

Zu den AI Agents →

Welche Infrastruktur passt zu Ihren Anforderungen?

Azure EU, AWS EU, GCP EU, Vercel EU + Supabase EU, Self-Hosted oder Hybrid. Wir konfigurieren nach Ihren Anforderungen.

Gespräch vereinbaren