Zum Inhalt springen

AI Infrastructure

Die Produktionsplattform für AI-Agenten - modell-agnostisch, in Ihrer Infrastruktur. Modelle, Hosting, Pipeline, Stack.

Auswahl aus über 5.000 Projekten in 25 Jahren Softwareentwicklung

Airbus Volkswagen Shell Renault Evonik Vattenfall Philips KPMG

Warum Infrastruktur der Engpass ist

Die meisten Unternehmen die AI-Agenten pilotieren, scheitern nicht am Modell. Die Modelle funktionieren. Sie scheitern an der Infrastruktur: Kein Governance-Framework, kein Audit Trail, keine Mandantentrennung, kein Deployment-Konzept, keine Integration in bestehende Systeme.

Ein Pilot auf einem Notebook ist keine Produktivarchitektur. Diese Seite beschreibt die konkreten Technologien und Konfigurationen, die aus einem LLM-Experiment ein betriebsfähiges System machen.

Wie die einzelnen Infrastruktur-Komponenten architektonisch zusammenspielen, beschreibt die 7-Layer-Referenz-Architektur.

Kostenloses eBook: AI Infrastructure

Build, Buy, Hybrid - EU AI Act-konforme Infrastruktur mit B/B/H-Framework und 7-Layer Reference Architecture.

Jetzt kostenlos herunterladen

Vier Infrastruktur-Komponenten

1. LLM Hosting

Die Modellschicht. Wo das Sprachverständnis stattfindet.

Cloud-LLMs:

  • Azure OpenAI (ChatGPT, Claude) - EU-Regionen, Microsofts DPA
  • Amazon Bedrock (Claude, Llama, Mistral) - EU-Regionen, AWS DPA
  • Google Vertex AI (Gemini) - EU-Regionen, Googles DPA
  • Anthropic API (Claude) - mit EU Data Processing

Self-Hosted-LLMs:

  • Llama (Meta) - Open Source, auf eigener Hardware
  • Mistral - Open Source, EU-Unternehmen
  • DeepSeek - Open Source, kosteneffizient
  • gpt-oss (OpenAI) - Open Weight, Apache 2.0, komplett self-hostbar. 120B auf einer H100, 20B auf 16 GB Consumer-Hardware.

Inference-Frameworks für Self-Hosted:

  • Ollama - Einfacher Einstieg, lokale Entwicklung, Edge-Deployment
  • vLLM - Production-grade, GPU-optimiert, hoher Throughput

Hybrid:

  • Self-Hosted für sensible Daten (HR, Finanzen)
  • Cloud-LLMs für weniger kritische Workloads (Dokumentenklassifikation)
  • Automatisches Routing je nach Datenklassifikation

Die Modellwahl ist eine Abwägung zwischen Leistung, Kosten, Datenschutz und Latenz. Wir beraten bei der Auswahl und implementieren modell-agnostisch - ein Modellwechsel ändert nicht die Geschäftslogik. Vertiefung: KI-Modelle im Vergleich 2026, LLM Self-Hosting für Enterprise

Unsere AI Engineers sind Microsoft-zertifiziert für Azure AI Services. Deployment-Optionen umfassen Microsoft Azure, GCP und komplett selbst gehostete Infrastruktur - die Architekturentscheidung liegt beim Kunden, nicht beim Anbieter.

2. RAG-Pipeline

Retrieval Augmented Generation - wie Agenten auf Unternehmenswissen zugreifen.

RAG-Pipeline: Dokumente werden in Chunks zerlegt, als Embeddings im Vector Store gespeichert, bei Anfragen semantisch abgerufen und dem LLM als Kontext übergeben

Qualitätsmerkmale:

  • Semantisches Chunking (nicht nach Seitenzahl, sondern nach Inhalt)
  • Metadaten-Anreicherung (Dokumenttyp, Version, Gültigkeitsbereich)
  • Hybrid Search (Vektorsuche + Keyword-Suche für Präzision)
  • Quellenangabe in jeder Antwort (Dokument, Seite, Absatz)
  • Regelmässige Re-Indexierung bei Dokumentenänderungen

3. Orchestrierung

Die Ablaufsteuerung. Wie Agenten, Systeme und Menschen zusammenarbeiten.

  • Trigger.dev oder Camunda: Open-Source Workflow-Engine. Visuelle Workflows, API-Integration, Webhooks. Self-Hosted, kein Vendor Lock-in.
  • API Gateway: Einheitlicher Einstiegspunkt. Rate Limiting, Authentication, Logging, Monitoring.
  • Queue-System: Asynchrone Verarbeitung für Batch-Prozesse (Monatsabschluss, Massenimport).
  • Event-System: Echtzeit-Reaktion auf eingehende Dokumente, Statusänderungen, Eskalationen.

Die Orchestrierung ist der Unterschied zwischen "ein Agent kann etwas" und "ein Agent tut etwas zuverlässig im Produktivbetrieb". Mehr dazu: Agent-Orchestrierung im Vergleich

4. Deployment

Wo die Infrastruktur läuft. Alle Optionen EU-only.

Azure (EU)

  • Azure Kubernetes Service (AKS) für Container-Orchestrierung
  • Azure SQL / PostgreSQL für Daten und Audit Trail
  • Azure OpenAI für LLM-Hosting
  • Regionen: West Europe, North Europe, Germany West Central

AWS (EU)

  • Amazon EKS für Container-Orchestrierung
  • Amazon RDS / Aurora PostgreSQL für Daten und Audit Trail
  • Amazon Bedrock für LLM-Hosting (Claude, Llama, Mistral)
  • Regionen: eu-central-1 (Frankfurt), eu-west-1 (Ireland), eu-west-3 (Paris)

GCP (EU)

  • Google Kubernetes Engine (GKE) für Container-Orchestrierung
  • Cloud SQL / AlloyDB für Daten und Audit Trail
  • Vertex AI für LLM-Hosting
  • Regionen: europe-west1, europe-west3, europe-west4

Vercel EU + Supabase EU

  • Vercel für Frontend und Edge Functions in EU-Rechenzentren
  • Supabase für Datenbank (PostgreSQL), Auth und Storage
  • Leichtgewichtige EU-Deployment-Option ohne eigene Kubernetes-Infrastruktur
  • Managed Services mit EU Data Residency

Self-Hosted

Hybrid

  • Kombination nach Datenklassifikation
  • Sensitive Workloads Self-Hosted, Standard-Workloads Cloud
  • Einheitliche Orchestrierung über alle Umgebungen

Technologie-Stack

Komponente Technologie Warum
Workflow-EngineTrigger.dev, CamundaOpen Source, Self-Hosted, kein Vendor Lock-in
DatenbankPostgreSQL + pgvectorEnterprise-ready, RLS-fähig, Vektorsuche integriert
BackendPython, TypeScriptBewährt für ML-Workloads und API-Entwicklung
FrontendReact / Next.jsFür Dashboard, Chat UI, Auditor Portal
ContainerDocker, KubernetesStandard für Cloud und Self-Hosted
APIREST, GraphQLIntegration mit bestehenden Systemen
AuthSupabase Auth / OIDCSSO-fähig, integrierbar mit Enterprise-Identity-Providern
MonitoringPrometheus, GrafanaOpen Source, Self-Hosted, Echtzeit-Dashboards
InferenceOllama, vLLMSelf-Hosted LLM Inference, GPU-optimiert

Governance ist eingebaut

Die Infrastruktur enthält Governance by Design:

  • Audit Trail auf Infrastrukturebene (nicht nur Anwendungsebene)
  • Row-Level Security auf Datenbankebene - Details in Data Residency
  • Verschlüsselung at rest und in transit
  • RBAC über alle Komponenten hinweg
  • Cert-Ready Controls als technische Datenobjekte

Governance in der 7-Layer-Architektur ->

Voller Quellcode-Zugang

Die Infrastruktur läuft beim Kunden - in Azure, GCP, AWS oder Self-Hosted. Kein SaaS, kein Hosting bei Gosign. Voller Zugang zu Quellcode, Konfigurationen und Regelwerken. Open-Source-Stack wo möglich. Proprietäre Komponenten nur bei den LLMs selbst - und dort modell-agnostisch.

Nach 12-18 Monaten betreiben Sie die Infrastruktur eigenständig.

Vertiefung

Architektur

7-Layer-Referenz-Architektur

Wie die Infrastruktur-Komponenten architektonisch zusammenspielen - sieben entkoppelte Layer mit Governance als Querschicht.

Zur Referenz-Architektur ->

Wissensressource

Blueprint 2026

Elf Fachartikel zu den Infrastruktur-Entscheidungen die 2026 zählen: KI-Modelle, Hosting, RAG, Orchestrierung, Kosten.

Zur Artikelserie ->

Compliance

Data Residency

EU-only Verarbeitung, Row-Level Security, Mandantentrennung, keine Drittanbieter-Datenflüsse.

Zu Data Residency ->

Agenten

AI Agents

Document Agents, Workflow Agents, Knowledge Agents - die Agenten die auf dieser Infrastruktur laufen.

Zu den AI Agents ->

Häufige Fragen zur AI Infrastructure

Muss ich mich für Cloud oder Self-Hosted entscheiden?

Nein. Die Architektur unterstützt Hybrid-Deployment. Sie können sensible Daten Self-Hosted verarbeiten und für weniger kritische Workloads Cloud-Dienste nutzen. Die Layer oberhalb der Infrastruktur bleiben identisch.

Welche Cloud-Anbieter werden unterstützt?

Azure (EU), AWS (EU), GCP (EU), Vercel EU + Supabase EU, Self-Hosted oder Hybrid. Die Architektur ist cloud-agnostisch - ein Wechsel des Anbieters ändert nur den Infrastructure Layer, nicht die Geschäftslogik.

Welche LLMs werden unterstützt?

ChatGPT, Claude, Gemini, Llama, Mistral, DeepSeek, gpt-oss und weitere. Open Source oder kommerzielle Modelle. Self-Hosted via Ollama oder vLLM - auch OpenAIs eigene Open-Weight-Modelle laufen komplett in Ihrer Infrastruktur.

Brauche ich eigene GPU-Hardware für Self-Hosted-Modelle?

Für Open-Source-Modelle wie Llama, Mistral oder gpt-oss ist GPU-Hardware erforderlich. gpt-oss-120B läuft auf einer einzelnen H100, gpt-oss-20B auf 16 GB Consumer-Hardware. Die Dimensionierung hängt vom Modell und der Nutzungslast ab. Wir beraten bei der Hardware-Auswahl.

Was unterscheidet diese Seite von der Referenz-Architektur?

Die Referenz-Architektur beschreibt das Architekturmuster - welche Layer es gibt und warum. Diese Seite beschreibt die konkrete Umsetzung - welche Technologien, welche Cloud-Regionen, welche Hardware. Architektur ist das Was, Infrastruktur ist das Wie.

Welche Infrastruktur passt zu Ihren Anforderungen?

Azure EU, AWS EU, GCP EU, Vercel EU + Supabase EU, Self-Hosted oder Hybrid. Wir konfigurieren nach Ihren Anforderungen.

Gespräch vereinbaren