Zum Inhalt springen

AI Infrastructure

Die Produktionsplattform für AI-Agenten - modell-agnostisch, in Ihrer Infrastruktur. Modelle, Hosting, Pipeline, Stack.

AirbusVolkswagenShellSonyEvonikPhilipsKPMG

Warum Infrastruktur der Engpass ist

Die meisten Unternehmen die AI-Agenten pilotieren, scheitern nicht am Modell. Die Modelle funktionieren. Sie scheitern an der Infrastruktur: Kein Governance-Framework, kein Audit Trail, keine Mandantentrennung, kein Deployment-Konzept, keine Integration in bestehende Systeme.

Ein Pilot auf einem Notebook ist keine Produktivarchitektur. Diese Seite beschreibt die konkreten Technologien und Konfigurationen, die aus einem LLM-Experiment ein betriebsfähiges System machen.

Wie die einzelnen Infrastruktur-Komponenten architektonisch zusammenspielen, beschreibt die 7-Layer-Referenz-Architektur.

Vier Infrastruktur-Komponenten

1. LLM Hosting

Die Modellschicht. Wo das Sprachverständnis stattfindet.

Cloud-LLMs:

  • Azure OpenAI (ChatGPT, Claude) - EU-Regionen, Microsofts DPA
  • Amazon Bedrock (Claude, Llama, Mistral) - EU-Regionen, AWS DPA
  • Google Vertex AI (Gemini) - EU-Regionen, Googles DPA
  • Anthropic API (Claude) - mit EU Data Processing

Self-Hosted-LLMs:

  • Llama (Meta) - Open Source, auf eigener Hardware
  • Mistral - Open Source, EU-Unternehmen
  • DeepSeek - Open Source, kosteneffizient
  • gpt-oss (OpenAI) - Open Weight, Apache 2.0, komplett self-hostbar. 120B auf einer H100, 20B auf 16 GB Consumer-Hardware.

Inference-Frameworks für Self-Hosted:

  • Ollama - Einfacher Einstieg, lokale Entwicklung, Edge-Deployment
  • vLLM - Production-grade, GPU-optimiert, hoher Throughput

Hybrid:

  • Self-Hosted für sensible Daten (HR, Finanzen)
  • Cloud-LLMs für weniger kritische Workloads (Dokumentenklassifikation)
  • Automatisches Routing je nach Datenklassifikation

Die Modellwahl ist eine Abwägung zwischen Leistung, Kosten, Datenschutz und Latenz. Wir beraten bei der Auswahl und implementieren modell-agnostisch - ein Modellwechsel ändert nicht die Geschäftslogik. Vertiefung: KI-Modelle im Vergleich 2026, LLM Self-Hosting für Enterprise

Unsere AI Engineers sind Microsoft-zertifiziert für Azure AI Services. Deployment-Optionen umfassen Microsoft Azure, GCP und komplett selbst gehostete Infrastruktur - die Architekturentscheidung liegt beim Kunden, nicht beim Anbieter.

2. RAG-Pipeline

Retrieval Augmented Generation - wie Agenten auf Unternehmenswissen zugreifen.

RAG-Pipeline: Dokumente werden in Chunks zerlegt, als Embeddings im Vector Store gespeichert, bei Anfragen semantisch abgerufen und dem LLM als Kontext übergeben

Qualitätsmerkmale:

  • Semantisches Chunking (nicht nach Seitenzahl, sondern nach Inhalt)
  • Metadaten-Anreicherung (Dokumenttyp, Version, Gültigkeitsbereich)
  • Hybrid Search (Vektorsuche + Keyword-Suche für Präzision)
  • Quellenangabe in jeder Antwort (Dokument, Seite, Absatz)
  • Regelmässige Re-Indexierung bei Dokumentenänderungen

3. Orchestrierung

Die Ablaufsteuerung. Wie Agenten, Systeme und Menschen zusammenarbeiten.

  • Trigger.dev oder Camunda: Open-Source Workflow-Engine. Visuelle Workflows, API-Integration, Webhooks. Self-Hosted, kein Vendor Lock-in.
  • API Gateway: Einheitlicher Einstiegspunkt. Rate Limiting, Authentication, Logging, Monitoring.
  • Queue-System: Asynchrone Verarbeitung für Batch-Prozesse (Monatsabschluss, Massenimport).
  • Event-System: Echtzeit-Reaktion auf eingehende Dokumente, Statusänderungen, Eskalationen.

Die Orchestrierung ist der Unterschied zwischen "ein Agent kann etwas" und "ein Agent tut etwas zuverlässig im Produktivbetrieb". Mehr dazu: Agent-Orchestrierung im Vergleich

4. Deployment

Wo die Infrastruktur läuft. Alle Optionen EU-only.

Azure (EU)

  • Azure Kubernetes Service (AKS) für Container-Orchestrierung
  • Azure SQL / PostgreSQL für Daten und Audit Trail
  • Azure OpenAI für LLM-Hosting
  • Regionen: West Europe, North Europe, Germany West Central

AWS (EU)

  • Amazon EKS für Container-Orchestrierung
  • Amazon RDS / Aurora PostgreSQL für Daten und Audit Trail
  • Amazon Bedrock für LLM-Hosting (Claude, Llama, Mistral)
  • Regionen: eu-central-1 (Frankfurt), eu-west-1 (Ireland), eu-west-3 (Paris)

GCP (EU)

  • Google Kubernetes Engine (GKE) für Container-Orchestrierung
  • Cloud SQL / AlloyDB für Daten und Audit Trail
  • Vertex AI für LLM-Hosting
  • Regionen: europe-west1, europe-west3, europe-west4

Vercel EU + Supabase EU

  • Vercel für Frontend und Edge Functions in EU-Rechenzentren
  • Supabase für Datenbank (PostgreSQL), Auth und Storage
  • Leichtgewichtige EU-Deployment-Option ohne eigene Kubernetes-Infrastruktur
  • Managed Services mit EU Data Residency

Self-Hosted

Hybrid

  • Kombination nach Datenklassifikation
  • Sensitive Workloads Self-Hosted, Standard-Workloads Cloud
  • Einheitliche Orchestrierung über alle Umgebungen

Technologie-Stack

Komponente Technologie Warum
Workflow-EngineTrigger.dev, CamundaOpen Source, Self-Hosted, kein Vendor Lock-in
DatenbankPostgreSQL + pgvectorEnterprise-ready, RLS-fähig, Vektorsuche integriert
BackendPython, TypeScriptBewährt für ML-Workloads und API-Entwicklung
FrontendReact / Next.jsFür Dashboard, Chat UI, Auditor Portal
ContainerDocker, KubernetesStandard für Cloud und Self-Hosted
APIREST, GraphQLIntegration mit bestehenden Systemen
AuthSupabase Auth / OIDCSSO-fähig, integrierbar mit Enterprise-Identity-Providern
MonitoringPrometheus, GrafanaOpen Source, Self-Hosted, Echtzeit-Dashboards
InferenceOllama, vLLMSelf-Hosted LLM Inference, GPU-optimiert

Governance ist eingebaut

Die Infrastruktur enthält Governance by Design:

  • Audit Trail auf Infrastrukturebene (nicht nur Anwendungsebene)
  • Row-Level Security auf Datenbankebene - Details in Data Residency
  • Verschlüsselung at rest und in transit
  • RBAC über alle Komponenten hinweg
  • Cert-Ready Controls als technische Datenobjekte

Governance in der 7-Layer-Architektur →

Voller Quellcode-Zugang

Die Infrastruktur läuft beim Kunden - in Azure, GCP, AWS oder Self-Hosted. Kein SaaS, kein Hosting bei Gosign. Voller Zugang zu Quellcode, Konfigurationen und Regelwerken. Open-Source-Stack wo möglich. Proprietäre Komponenten nur bei den LLMs selbst - und dort modell-agnostisch.

Nach 12-18 Monaten betreiben Sie die Infrastruktur eigenständig.

Häufige Fragen zur AI Infrastructure

Muss ich mich für Cloud oder Self-Hosted entscheiden?

Nein. Die Architektur unterstützt Hybrid-Deployment. Sie können sensible Daten Self-Hosted verarbeiten und für weniger kritische Workloads Cloud-Dienste nutzen. Die Layer oberhalb der Infrastruktur bleiben identisch.

Welche Cloud-Anbieter werden unterstützt?

Azure (EU), AWS (EU), GCP (EU), Vercel EU + Supabase EU, Self-Hosted oder Hybrid. Die Architektur ist cloud-agnostisch - ein Wechsel des Anbieters ändert nur den Infrastructure Layer, nicht die Geschäftslogik.

Welche LLMs werden unterstützt?

ChatGPT, Claude, Gemini, Llama, Mistral, DeepSeek, gpt-oss und weitere. Open Source oder kommerzielle Modelle. Self-Hosted via Ollama oder vLLM - auch OpenAIs eigene Open-Weight-Modelle laufen komplett in Ihrer Infrastruktur.

Brauche ich eigene GPU-Hardware für Self-Hosted-Modelle?

Für Open-Source-Modelle wie Llama, Mistral oder gpt-oss ist GPU-Hardware erforderlich. gpt-oss-120B läuft auf einer einzelnen H100, gpt-oss-20B auf 16 GB Consumer-Hardware. Die Dimensionierung hängt vom Modell und der Nutzungslast ab. Wir beraten bei der Hardware-Auswahl.

Was unterscheidet diese Seite von der Referenz-Architektur?

Die Referenz-Architektur beschreibt das Architekturmuster - welche Layer es gibt und warum. Diese Seite beschreibt die konkrete Umsetzung - welche Technologien, welche Cloud-Regionen, welche Hardware. Architektur ist das Was, Infrastruktur ist das Wie.

Vertiefung

Architektur

7-Layer-Referenz-Architektur

Wie die Infrastruktur-Komponenten architektonisch zusammenspielen - sieben entkoppelte Layer mit Governance als Querschicht.

Zur Referenz-Architektur →

Wissensressource

Blueprint 2026

Elf Fachartikel zu den Infrastruktur-Entscheidungen die 2026 zählen: KI-Modelle, Hosting, RAG, Orchestrierung, Kosten.

Zur Artikelserie →

Compliance

Data Residency

EU-only Verarbeitung, Row-Level Security, Mandantentrennung, keine Drittanbieter-Datenflüsse.

Zu Data Residency →

Agenten

AI Agents

Document Agents, Workflow Agents, Knowledge Agents - die Agenten die auf dieser Infrastruktur laufen.

Zu den AI Agents →

Welche Infrastruktur passt zu Ihren Anforderungen?

Azure EU, AWS EU, GCP EU, Vercel EU + Supabase EU, Self-Hosted oder Hybrid. Wir konfigurieren nach Ihren Anforderungen.

Gespräch vereinbaren