Zum Inhalt springen

KI-Infrastruktur

Die Plattform auf der AI-Agenten produktiv laufen. In Ihrer Infrastruktur.

Warum Infrastruktur der Engpass ist

Die meisten Unternehmen die AI-Agenten pilotieren, scheitern nicht am Modell. Die Modelle funktionieren. Sie scheitern an der Infrastruktur: Kein Governance-Framework, kein Audit Trail, keine Mandantentrennung, kein Deployment-Konzept, keine Integration in bestehende Systeme.

Ein Pilot auf einem Notebook ist keine Produktivarchitektur. Die Gosign-Infrastruktur ist die Schicht die aus einem LLM-Experiment ein betriebsfähiges System macht.

Vier Infrastruktur-Komponenten

1. LLM Hosting

Die Modellschicht. Wo das Sprachverständnis stattfindet.

Cloud-LLMs:

  • Azure OpenAI (Claude, ChatGPT) – EU-Regionen, Microsofts DPA
  • Google Vertex AI (Gemini) – EU-Regionen, Googles DPA
  • Anthropic API (Claude) – mit EU Data Processing

Self-Hosted-LLMs:

  • Llama (Meta) – Open Source, auf eigener Hardware
  • Mistral – Open Source, EU-Unternehmen
  • DeepSeek – Open Source, kosteneffizient
  • gpt-oss (OpenAI) – Open Weight, Apache 2.0, komplett self-hostbar

Hybrid:

  • Self-Hosted für sensible Daten (HR, Finanzen)
  • Cloud-LLMs für weniger kritische Workloads (Dokumentenklassifikation)
  • Automatisches Routing je nach Datenklassifikation

Die Modellwahl ist eine Abwägung zwischen Leistung, Kosten, Datenschutz und Latenz. Offen für verschiedene Modelle: ChatGPT, Claude, Gemini, Llama, Mistral, DeepSeek, gpt-oss. Wir beraten bei der Auswahl und implementieren modell-agnostisch – ein Modellwechsel ändert nicht die Geschäftslogik.

Unsere AI Engineers sind Microsoft-zertifiziert für Azure AI Services. Deployment-Optionen umfassen Azure, GCP und komplett selbst gehostete Infrastruktur – die Architekturentscheidung liegt beim Kunden, nicht beim Anbieter.

2. RAG-Pipeline

Retrieval Augmented Generation – wie Agenten auf Unternehmenswissen zugreifen.

RAG-Pipeline: Dokumente → Chunking → Embedding → Vector Store → Retrieval → LLM → Antwort

Qualitätsmerkmale:

  • Semantisches Chunking (nicht nach Seitenzahl, sondern nach Inhalt)
  • Metadaten-Anreicherung (Dokumenttyp, Version, Gültigkeitsbereich)
  • Hybrid Search (Vektorsuche + Keyword-Suche für Präzision)
  • Quellenangabe in jeder Antwort (Dokument, Seite, Absatz)
  • Regelmäßige Re-Indexierung bei Dokumentenänderungen

3. Orchestrierung

Die Ablaufsteuerung. Wie Agenten, Systeme und Menschen zusammenarbeiten.

  • n8n oder Camunda: Open-Source Workflow-Engine. Visuelle Workflows, API-Integration, Webhooks. Self-Hosted, kein Vendor Lock-in.
  • API Gateway: Einheitlicher Einstiegspunkt. Rate Limiting, Authentication, Logging, Monitoring.
  • Queue-System: Asynchrone Verarbeitung für Batch-Prozesse (Monatsabschluss, Massenimport).
  • Event-System: Echtzeit-Reaktion auf eingehende Dokumente, Statusänderungen, Eskalationen.

Die Orchestrierung ist der Unterschied zwischen „ein Agent kann etwas“ und „ein Agent tut etwas zuverlässig im Produktivbetrieb“.

4. Deployment

Wo die Infrastruktur läuft.

Azure (EU)

  • Azure Kubernetes Service (AKS) für Container-Orchestrierung
  • Azure SQL / PostgreSQL für Daten und Audit Trail
  • Azure OpenAI für LLM-Hosting
  • Regionen: West Europe, North Europe, Germany West Central

GCP (EU)

  • Google Kubernetes Engine (GKE) für Container-Orchestrierung
  • Cloud SQL / AlloyDB für Daten und Audit Trail
  • Vertex AI für LLM-Hosting
  • Regionen: europe-west1, europe-west3, europe-west4

Self-Hosted

  • Docker / Kubernetes auf eigener Hardware
  • PostgreSQL mit pgvector für Daten und Vektorsuche
  • Open-Source-LLMs auf eigenen GPUs
  • Vollständige Kontrolle über Hardware und Netzwerk

Hybrid

  • Kombination nach Datenklassifikation
  • Sensitive Workloads Self-Hosted, Standard-Workloads Cloud
  • Einheitliche Orchestrierung über alle Umgebungen

Governance ist eingebaut

Die Infrastruktur enthält Governance by Design:

  • Audit Trail auf Infrastrukturebene (nicht nur Anwendungsebene)
  • Row-Level Security auf Datenbankebene
  • Verschlüsselung at rest und in transit
  • RBAC über alle Komponenten hinweg
  • Cert-Ready Controls als technische Datenobjekte

Governance im Detail

Technologie-Stack

Komponente Technologie Warum
Workflow-Enginen8n, CamundaOpen Source, Self-Hosted, kein Vendor Lock-in
DatenbankPostgreSQL + pgvectorEnterprise-ready, RLS-fähig, Vektorsuche integriert
BackendPython, TypeScriptBewährt für ML-Workloads und API-Entwicklung
FrontendReact / Next.jsFür Dashboard, Chat UI, Auditor Portal
ContainerDocker, KubernetesStandard für Cloud und Self-Hosted
APIREST, GraphQLIntegration mit bestehenden Systemen
AuthSupabase Auth / OIDCSSO-fähig, integrierbar mit Enterprise-Identity-Providern
MonitoringPrometheus, GrafanaOpen Source, Self-Hosted

Ownership

Die gesamte Infrastruktur gehört dem Kunden. Kein SaaS, kein Hosting bei Gosign, keine laufenden Lizenzkosten für die Plattform. Open-Source-Stack wo möglich. Proprietäre Komponenten nur bei den LLMs selbst – und dort modell-agnostisch.

Nach 12–18 Monaten betreiben Sie die Infrastruktur eigenständig.

Häufige Fragen zur KI-Infrastruktur

Muss ich mich für Cloud oder Self-Hosted entscheiden?

Nein. Die Architektur unterstützt Hybrid-Deployment. Sie können sensible Daten Self-Hosted verarbeiten und für weniger kritische Workloads Cloud-Dienste nutzen.

Welche Cloud-Anbieter werden unterstützt?

Azure und GCP mit EU-Regionen. Die Architektur ist cloud-agnostisch – ein Wechsel des Anbieters ändert nur den Infrastructure Layer, nicht die Geschäftslogik.

Welche LLMs werden unterstützt?

ChatGPT, Claude, Gemini, Llama, Mistral, DeepSeek, gpt-oss und weitere. Open Source oder kommerzielle Modelle. Self-Hosted via Ollama/vLLM – auch OpenAIs eigene Open-Weight-Modelle laufen komplett in Ihrer Infrastruktur.

Brauche ich eigene GPU-Hardware für Self-Hosted-Modelle?

Für Open-Source-Modelle wie Llama, Mistral oder gpt-oss ist GPU-Hardware erforderlich. gpt-oss 120B läuft auf einer einzelnen H100, gpt-oss 20B auf 16 GB Consumer-Hardware. Die Dimensionierung hängt vom Modell und der Nutzungslast ab. Wir beraten bei der Hardware-Auswahl.

Welche Infrastruktur passt zu Ihren Anforderungen?

Azure EU, GCP EU, Self-Hosted oder Hybrid. Wir konfigurieren nach Ihren Anforderungen.

Gespräch vereinbaren