KI-Infrastruktur
Die Plattform auf der AI-Agenten produktiv laufen. In Ihrer Infrastruktur.
Warum Infrastruktur der Engpass ist
Die meisten Unternehmen die AI-Agenten pilotieren, scheitern nicht am Modell. Die Modelle funktionieren. Sie scheitern an der Infrastruktur: Kein Governance-Framework, kein Audit Trail, keine Mandantentrennung, kein Deployment-Konzept, keine Integration in bestehende Systeme.
Ein Pilot auf einem Notebook ist keine Produktivarchitektur. Die Gosign-Infrastruktur ist die Schicht die aus einem LLM-Experiment ein betriebsfähiges System macht.
Vier Infrastruktur-Komponenten
1. LLM Hosting
Die Modellschicht. Wo das Sprachverständnis stattfindet.
Cloud-LLMs:
- Azure OpenAI (Claude, ChatGPT) – EU-Regionen, Microsofts DPA
- Google Vertex AI (Gemini) – EU-Regionen, Googles DPA
- Anthropic API (Claude) – mit EU Data Processing
Self-Hosted-LLMs:
- Llama (Meta) – Open Source, auf eigener Hardware
- Mistral – Open Source, EU-Unternehmen
- DeepSeek – Open Source, kosteneffizient
- gpt-oss (OpenAI) – Open Weight, Apache 2.0, komplett self-hostbar
Hybrid:
- Self-Hosted für sensible Daten (HR, Finanzen)
- Cloud-LLMs für weniger kritische Workloads (Dokumentenklassifikation)
- Automatisches Routing je nach Datenklassifikation
Die Modellwahl ist eine Abwägung zwischen Leistung, Kosten, Datenschutz und Latenz. Offen für verschiedene Modelle: ChatGPT, Claude, Gemini, Llama, Mistral, DeepSeek, gpt-oss. Wir beraten bei der Auswahl und implementieren modell-agnostisch – ein Modellwechsel ändert nicht die Geschäftslogik.
Unsere AI Engineers sind Microsoft-zertifiziert für Azure AI Services. Deployment-Optionen umfassen Azure, GCP und komplett selbst gehostete Infrastruktur – die Architekturentscheidung liegt beim Kunden, nicht beim Anbieter.
2. RAG-Pipeline
Retrieval Augmented Generation – wie Agenten auf Unternehmenswissen zugreifen.
Qualitätsmerkmale:
- Semantisches Chunking (nicht nach Seitenzahl, sondern nach Inhalt)
- Metadaten-Anreicherung (Dokumenttyp, Version, Gültigkeitsbereich)
- Hybrid Search (Vektorsuche + Keyword-Suche für Präzision)
- Quellenangabe in jeder Antwort (Dokument, Seite, Absatz)
- Regelmäßige Re-Indexierung bei Dokumentenänderungen
3. Orchestrierung
Die Ablaufsteuerung. Wie Agenten, Systeme und Menschen zusammenarbeiten.
- n8n oder Camunda: Open-Source Workflow-Engine. Visuelle Workflows, API-Integration, Webhooks. Self-Hosted, kein Vendor Lock-in.
- API Gateway: Einheitlicher Einstiegspunkt. Rate Limiting, Authentication, Logging, Monitoring.
- Queue-System: Asynchrone Verarbeitung für Batch-Prozesse (Monatsabschluss, Massenimport).
- Event-System: Echtzeit-Reaktion auf eingehende Dokumente, Statusänderungen, Eskalationen.
Die Orchestrierung ist der Unterschied zwischen „ein Agent kann etwas“ und „ein Agent tut etwas zuverlässig im Produktivbetrieb“.
4. Deployment
Wo die Infrastruktur läuft.
Azure (EU)
- Azure Kubernetes Service (AKS) für Container-Orchestrierung
- Azure SQL / PostgreSQL für Daten und Audit Trail
- Azure OpenAI für LLM-Hosting
- Regionen: West Europe, North Europe, Germany West Central
GCP (EU)
- Google Kubernetes Engine (GKE) für Container-Orchestrierung
- Cloud SQL / AlloyDB für Daten und Audit Trail
- Vertex AI für LLM-Hosting
- Regionen: europe-west1, europe-west3, europe-west4
Self-Hosted
- Docker / Kubernetes auf eigener Hardware
- PostgreSQL mit pgvector für Daten und Vektorsuche
- Open-Source-LLMs auf eigenen GPUs
- Vollständige Kontrolle über Hardware und Netzwerk
Hybrid
- Kombination nach Datenklassifikation
- Sensitive Workloads Self-Hosted, Standard-Workloads Cloud
- Einheitliche Orchestrierung über alle Umgebungen
Governance ist eingebaut
Die Infrastruktur enthält Governance by Design:
- Audit Trail auf Infrastrukturebene (nicht nur Anwendungsebene)
- Row-Level Security auf Datenbankebene
- Verschlüsselung at rest und in transit
- RBAC über alle Komponenten hinweg
- Cert-Ready Controls als technische Datenobjekte
Technologie-Stack
| Komponente | Technologie | Warum |
|---|---|---|
| Workflow-Engine | n8n, Camunda | Open Source, Self-Hosted, kein Vendor Lock-in |
| Datenbank | PostgreSQL + pgvector | Enterprise-ready, RLS-fähig, Vektorsuche integriert |
| Backend | Python, TypeScript | Bewährt für ML-Workloads und API-Entwicklung |
| Frontend | React / Next.js | Für Dashboard, Chat UI, Auditor Portal |
| Container | Docker, Kubernetes | Standard für Cloud und Self-Hosted |
| API | REST, GraphQL | Integration mit bestehenden Systemen |
| Auth | Supabase Auth / OIDC | SSO-fähig, integrierbar mit Enterprise-Identity-Providern |
| Monitoring | Prometheus, Grafana | Open Source, Self-Hosted |
Ownership
Die gesamte Infrastruktur gehört dem Kunden. Kein SaaS, kein Hosting bei Gosign, keine laufenden Lizenzkosten für die Plattform. Open-Source-Stack wo möglich. Proprietäre Komponenten nur bei den LLMs selbst – und dort modell-agnostisch.
Nach 12–18 Monaten betreiben Sie die Infrastruktur eigenständig.
Häufige Fragen zur KI-Infrastruktur
Muss ich mich für Cloud oder Self-Hosted entscheiden?
Nein. Die Architektur unterstützt Hybrid-Deployment. Sie können sensible Daten Self-Hosted verarbeiten und für weniger kritische Workloads Cloud-Dienste nutzen.
Welche Cloud-Anbieter werden unterstützt?
Azure und GCP mit EU-Regionen. Die Architektur ist cloud-agnostisch – ein Wechsel des Anbieters ändert nur den Infrastructure Layer, nicht die Geschäftslogik.
Welche LLMs werden unterstützt?
ChatGPT, Claude, Gemini, Llama, Mistral, DeepSeek, gpt-oss und weitere. Open Source oder kommerzielle Modelle. Self-Hosted via Ollama/vLLM – auch OpenAIs eigene Open-Weight-Modelle laufen komplett in Ihrer Infrastruktur.
Brauche ich eigene GPU-Hardware für Self-Hosted-Modelle?
Für Open-Source-Modelle wie Llama, Mistral oder gpt-oss ist GPU-Hardware erforderlich. gpt-oss 120B läuft auf einer einzelnen H100, gpt-oss 20B auf 16 GB Consumer-Hardware. Die Dimensionierung hängt vom Modell und der Nutzungslast ab. Wir beraten bei der Hardware-Auswahl.
Welche Infrastruktur passt zu Ihren Anforderungen?
Azure EU, GCP EU, Self-Hosted oder Hybrid. Wir konfigurieren nach Ihren Anforderungen.
Gespräch vereinbaren