Welches Open-Source-KI-Modell eignet sich am besten für Self-Hosting im EU-Mittelstand?

Mistral Small 3.2 ist das Default-Arbeitspferd: 24B Parameter, Apache 2.0, läuft auf einer einzelnen RTX 4090 (~1.500 EUR), multilinguales Training, native Vision-Fähigkeit. Ergänzen Sie gpt-oss-120b auf einer H100 für On-Prem-Heavy-Reasoning. DeepSeek V4-Flash (284B/13B aktiv MIT, April-2026-Preview) ist die neue Option für Frontier-Reasoning bei moderater Hardware; V4-Pro (1,6T/49B aktiv) nähert sich Claude Opus, benötigt aber Cluster-Hardware. Llama 4 Scout für Ultra-Long-Context. Kein Einzelmodell gewinnt - die richtige Antwort ist ein gerouteter Multi-Modell-Stack.

Was kostet ein self-hosted Mistral Small konkret?

Hardware: eine einzelne RTX 4090 mit 24 GB kostet rund 1.500 EUR einmalig. Für Mistral Small 3.2 in bf16/fp16 werden circa 55 GB GPU-RAM gebraucht - im Produktivbetrieb läuft das auf einer H100 80GB oder A100 80GB, mit Anschaffungskosten um 30.000 EUR oder 1.500 bis 2.500 EUR pro Monat bei deutschen Anbietern wie Hetzner oder europäischen Cloud-Hostern wie Scaleway und OVHcloud. Die Inferenzkosten pro Million Token liegen amortisiert unter 1 EUR.

Wo kann ich in der EU ohne CLOUD-Act-Exposition self-hosten?

Hetzner (Deutschland) bietet dedizierte GPU-Server mit RTX 4000/6000 Ada zu niedrigeren Preisen, allerdings keine On-Demand-Cloud-GPUs. IONOS (Deutschland) und T-Systems (Deutsche Telekom) liefern Souveränitäts-Cloud-Instanzen für regulierte Branchen wie BaFin-Aufsicht oder kritische Infrastruktur. Scaleway (Frankreich) bietet H100 SXM zu rund 3,50 EUR/h und A100 zu 2,50 EUR/h, vollständig DSGVO-konform. OVHcloud (Frankreich) bietet H100, RTX 5000, A10 mit Sovereign-Cloud-Tier für sensible Workloads.

Wann schlägt Self-Hosting die Cloud-API wirtschaftlich?

Der Crossover liegt typischerweise zwischen 50 und 100 Millionen Token pro Monat im Dauerbetrieb, je nach Modell und Provider. Darunter ist Mistral La Plateforme oder die Claude-API günstiger. Darüber amortisiert sich eine dedizierte H100 innerhalb von 12 bis 18 Monaten selbst bei EU-Hosting-Tarifen. Der andere Crossover ist nicht-ökonomisch: regulatorische Anforderungen (Schrems II, EU-AI-Act-Hochrisiko-Klassifikation) können die Entscheidung unabhängig vom Token-Volumen kippen.

Selbstgehostete Open-Source-KI 2026

Der Modellmarkt hat dem EU-Enterprise-Procurement eine Wahl gegeben, die es so noch nie hatte. Open-Weight-Modelle erreichen proprietäre Modelle bei den meisten Enterprise-Workloads. Drei Frontier-Class-Open-Source-Modelle sind 2025 unter Apache 2.0 erschienen. Deutsche und französische GPU-Hosting-Anbieter liefern H100-Kapazität zu kalkulierbaren Stundensätzen. Schrems II in Kombination mit dem US CLOUD Act hat Self-Hosting zur einzigen Architektur mit Null-Exposition gegenüber Fremdanbietern gemacht.

Und trotzdem behandelt das Procurement-Gespräch “self-hosted Open-Source-KI” noch immer als ein Produkt. Es ist keines. Es ist eine Stack-Entscheidung mit vier glaubhaften Modellen, drei Deployment-Mustern und einer echten Total-Cost-of-Ownership-Rechnung. Dieser Artikel ist die ausführliche Begleitung zu Wann Mistral, wann Claude Opus? Decision Routing für agentische EU-Enterprise 2026 - wenn Sie sich für Self-Hosting entschieden haben, zeigt dieser Text wie die Modellauswahl konkret aussieht.

Auf einen Blick - Self-hosted Open-Source-KI für EU-Enterprise 2026

Fünf glaubhafte self-hostbare Modelle 2026: Mistral Small 3.2 (Apache 2.0, 24B, Consumer-GPU), gpt-oss-120b (Apache 2.0, MoE, einzelne H100), DeepSeek V4-Flash (MIT, 284B/13B Aktiv-MoE, April-2026-Preview), DeepSeek V4-Pro (MIT, 1,6T/49B aktiv, Preview, Cluster-Hardware), Llama 4 Scout (Meta License, 10M Kontext).
Mistral Small 3.2 gewinnt den Arbeitspferd-Slot, weil es auf Consumer-Hardware läuft (einzelne RTX 4090), multilingual trainiert wurde und native Vision für Dokumenten-Workloads mitbringt.
DeepSeek V4-Pro (Preview, 24. April 2026) nähert sich Frontier-Closed-Source-Leistung unter MIT-Lizenz, braucht aber Multi-GPU-Cluster. Realistisches Self-Hosting beginnt für die meisten Unternehmen mit V4-Flash.
EU-GPU-Hosting ist nicht mehr der Engpass: Hetzner liefert dedizierte RTX-Server, IONOS und T-Systems bedienen BaFin-regulierte Workloads, Scaleway bietet H100 SXM zu ~3,50 EUR/h, OVHcloud hat einen Sovereign-Tier.
TCO-Crossover Cloud-API zu Self-Hosting: typischerweise um 50 bis 100 Millionen Token pro Monat im Dauerbetrieb. Darunter schlägt EU-Cloud-API. Darüber amortisiert sich dedizierte Hardware in 12 bis 18 Monaten.
Die Architektur ist Multi-Modell, nicht Einzel-Modell: Mistral Small fürs Volumen, gpt-oss-120b oder DeepSeek V4-Flash für On-Prem-Heavy-Reasoning, V4-Pro oder R1 als Math/Logik-Spezialisten, Llama 4 Scout für Ultra-Long-Context. Das Routing entscheidet, welches Modell welche Entscheidung übernimmt.

Sie haben sich für Self-Hosting entschieden - die Modellfrage beginnt hier

Die Entscheidung für einen self-hosted LLM-Stack ist selten eine Modellentscheidung. Sie ist eine Compliance-Entscheidung: Daten oberhalb einer bestimmten Klassifikationsstufe dürfen das Unternehmensnetz nicht verlassen. Sie ist eine Architektur-Entscheidung: Der Inferenz-Layer muss eine kontrollierte Abhängigkeit sein, keine externe API. Sie ist eine Procurement-Entscheidung: Capex auf Hardware versus Opex auf gehostete GPU-Instanzen.

Sobald diese Entscheidung gefallen ist, öffnet sich die Modellfrage. Welches Open-Source-Modell auf welchem Hardware-Floor für welchen Workload-Mix? Fünf Modelle haben für Q2 2026 glaubhafte Produktionsreife: Mistral Small 3.2, gpt-oss-120b, DeepSeek V4-Flash, DeepSeek V4-Pro (Preview) und Llama 4 Scout. DeepSeek R1 vom Januar 2025 ist weiterhin einsetzbar, wird aber für Neudeployments durch die V4-Linie weitgehend abgelöst. Jedes Modell hat eine andere Kosten-Qualitäts-Kurve und ein anderes Betriebsprofil.

Dieser Artikel überspringt die Bestenlisten-Diskussion. Die Benchmark-Werte konvergieren so weit, dass Workload-Fit wichtiger ist als nominale MMLU- oder HumanEval-Punkte. Die Frage lautet: Welches Modell überlebt 18 Monate in Ihrem Stack, welches verdient seine Hardware, und welche Kombination produziert den Audit-Trail, den der EU AI Act verlangt.

Die glaubhaften self-hosted Modelle im Direktvergleich

Modell	Parameter / Architektur	Lizenz	Hardware (CAPEX einmalig / OPEX gehostet)	Schlüssel-Stärke	Schlüssel-Schwäche
Mistral Small 3.2	24B dense, GQA (32Q/8KV)	Apache 2.0	~55 GB VRAM. CAPEX: 1x RTX 4090 ~1.500 EUR (Pilot, 4-Bit-Quant) oder 1x H100 80GB ~30.000 EUR (Produktion). OPEX: ~1.500-2.500 EUR/Monat auf Scaleway/OVHcloud	Multilingual, Vision, schnell (~150 Token/s auf Consumer-GPU), volumenfreundlich	Kein Top-Tier-Reasoning
gpt-oss-120b	117B total / 5,1B aktiv (MoE)	Apache 2.0	1x H100/A100 80GB. CAPEX: ~30.000 EUR. OPEX: ~1.200-2.500 EUR/Monat gehostet	Reasoning auf o4-mini-Niveau, MoE-effiziente Inferenz	Keine Vision, ausschließlich Datacenter-Hardware
DeepSeek V4-Flash (Preview, Apr 2026)	284B total / 13B aktiv (MoE), 1M Kontext	MIT	1-2x H100/A100 80GB mit Quant, 4x H100 volle Präzision. CAPEX: ~30.000-120.000 EUR. OPEX: ~1.500-5.000 EUR/Monat gehostet	Frontier-Reasoning bei moderaten Hardware-Kosten, nativ multimodal, agent-optimiert	Preview-Status - Benchmarks vor Produktion neu prüfen
DeepSeek V4-Pro (Preview, Apr 2026)	1,6T total / 49B aktiv (MoE), 1M Kontext	MIT (open-source auf Hugging Face)	8x H100 Cluster minimum. CAPEX: ~240.000 EUR. OPEX: ~10.000-12.000 EUR/Monat gehostet. Für DAX-Konzern und gehobenen Mittelstand: machbar. Für KMU unter 500 Mitarbeitenden: API/hosted-Variante (Together.ai, Fireworks, DeepSeek API) realistischer	Nähert sich GPT-5.5 und Gemini 3.1 Pro unter offener Lizenz, agent-tool-optimiert (Claude Code, OpenClaw)	Preview-Status; für KMU schiebt der Hardware-Floor in den API-Pfad
DeepSeek R1 (Jan 2025, reif)	671B total / 37B aktiv (MoE)	MIT	4-8x H100 minimum. CAPEX: ~120.000-240.000 EUR. OPEX: ~5.000-10.000 EUR/Monat gehostet	Reifer Math/Logik-Spezialist, breite Framework-Unterstützung	Für Neudeployments durch V4-Flash weitgehend abgelöst
Llama 4 Scout	17B aktiv (MoE)	Meta Llama Community License	1x GPU. CAPEX: ~30.000 EUR. OPEX: ~1.500 EUR/Monat gehostet	10-Millionen-Token-Kontextfenster	Lizenz-Schranke ab 700M MAU; Lizenzprüfung nötig

Drei Klarstellungen sind wichtig.

Mistral Small 3.2 Hardware-Floor. Die offizielle Mistral-Angabe nennt rund 55 GB GPU-RAM für bf16/fp16-Inferenz - das landet im Produktivbetrieb auf einer H100 oder A100 80GB. Mit 4-Bit-Quantisierung (GPTQ, AWQ) läuft das Modell auf einer einzelnen 24-GB-RTX-4090 bei leichtem Qualitätsabschlag. Für Pilot-Deployments oder Single-Tenant-Inferenz ist der RTX-4090-Weg real. Für Multi-Tenant-Produktion mit parallelen Requests ist der H100-Weg die korrekte Dimensionierung.

DeepSeek-V4-Preview-Status. DeepSeek-V4-Pro und V4-Flash sind am 24. April 2026 als Preview unter MIT-Lizenz erschienen, beide mit 1-Millionen-Token-Kontextfenster via neuer Hybrid-Attention-Architektur (Compressed Sparse Attention + Heavily Compressed Attention). Im 1M-Token-Kontext-Setting benötigt V4-Pro laut Anbieter nur 27 % der Single-Token-Inferenz-FLOPs und 10 % des KV-Cache gegenüber V3.2 - signifikante Effizienzgewinne für Long-Context-Workloads. Beide Varianten sind für Agent-Tooling optimiert (Integration mit Claude Code, OpenClaw). Aber: Preview heißt, dass die Benchmark-Werte unabhängig im Scale noch nicht verifiziert sind. Für Produktionsentscheidungen in regulierten Branchen sollten Sie auf die GA-Freigabe warten oder eigene repräsentative Benchmarks fahren, bevor Sie sich festlegen.

DeepSeek-Herkunft für BaFin-regulierte Institute. DeepSeek wird in China entwickelt - das Modell läuft self-hosted unter MIT-Lizenz, das Trainings-Korpus bleibt aber chinesisch. BaFin-Merkblatt KI 2024 verlangt zusätzliche Risikobewertung nach MaRisk AT 4.3 bei Modellen aus Jurisdiktionen mit unzureichenden Rechtsstandards. Für Banken und Versicherer gehört dieser Prüfschritt vor jeden Produktiveinsatz, unabhängig davon, dass die Gewichte unter offener Lizenz vorliegen.

Lizenzprüfung für Llama 4 Scout. Die Meta Llama Community License erlaubt kommerzielle Nutzung, enthält aber zwei Einschränkungen, die das Procurement prüfen sollte: eine 700-Millionen-MAU-Schwelle, oberhalb derer eine gesonderte Meta-Lizenz nötig ist, und eine Einschränkung der Nutzung von Modell-Outputs zum Training konkurrierender Modelle. Für die meisten Unternehmen sind beide irrelevant - aber der Procurement-Vermerk gehört explizit dokumentiert.

TCO: Wann schlägt Self-Hosting die Cloud-API?

Die Ökonomie kippt bei einer Token-Volumen-Schwelle. Darunter gewinnen gehostete APIs, weil Hardware-Leerlauf dominiert. Darüber gewinnen dedizierte GPUs, weil die marginale Token-Last sich der Stromrechnung plus Abschreibung annähert.

Eine Beispielrechnung für Mistral Small 3.2 im EU-Hosting:

Kostenposition	Wert (EU-Hosting)
H100 80GB Instanz, EU-Provider (Scaleway-Klasse)	~2.500 EUR/Monat dediziert oder ~3,50 EUR/h on-demand
Mistral Small 3.2 Durchsatz (einzelne H100)	~150 Token/s im Dauerbetrieb, ~390M Token/Monat bei 100 % Auslastung
Effektive Kosten pro 1M Token bei 60 % Auslastung	~10-12 EUR pro 1M Token
Mistral La Plateforme API (Mistral Small via API)	~0,40 USD pro 1M Input-Token; volumenabhängig
Claude Sonnet 4.6 API-Äquivalent	~3 USD pro 1M Input-Token; ~15 USD Output
Claude Opus 4.7 API-Äquivalent	~5 USD pro 1M Input-Token; ~25 USD Output

Der Crossover für Mistral Small liegt zwischen 50 und 100 Millionen Token pro Monat im Dauerbetrieb, abhängig davon ob der Workload Input- oder Output-lastig ist. Eine 24/7-Enterprise-Pipeline mit fünf bis zehn Worker-Knoten überschreitet diese Schwelle typischerweise im ersten Quartal.

Für gpt-oss-120b sieht die Rechnung ähnlich aus, beginnt aber höher: Eine einzelne H100 unterstützt geringeren Durchsatz als Mistral Small bei gleichen Hardware-Kosten - die Token-Amortisation liegt damit etwa beim Doppelten. Der Crossover gegenüber Claude Opus 4.7 liegt bei rund 30 bis 50 Millionen Token pro Monat - genau in dem Bereich, in dem Heavy-Reasoning-Workloads in Enterprise-KI-Systemen landen.

Eine Klarstellung zu DeepSeek V4-Pro: Die Gewichte sind open-source unter MIT-Lizenz und auf Hugging Face verfügbar - das Modell ist vollständig self-hostbar. Die Frage ist die Unternehmensgröße, nicht die Lizenz. Die 1,6T/49B-Aktiv-Architektur von V4-Pro benötigt einen 8x-H100-Cluster (~240.000 EUR CAPEX oder ~10.000-12.000 EUR/Monat gehostet). Für DAX-Konzerne und gehobenen Mittelstand (typischerweise ab 2.500 Mitarbeitenden mit etablierten KI-Infrastruktur-Budgets) passen diese Zahlen in eine Standard-IT-Capex-Position. Für KMU unter 500 Mitarbeitenden schieben die gleichen Zahlen den realistischen Weg zum API-Zugang (DeepSeek API direkt) oder einer Hosted-Variante (Together.ai, Fireworks) mit Pro-Token-Ökonomie. V4-Flash (284B/13B aktiv) liegt dazwischen: 1-4x H100 Footprint (30.000-120.000 EUR CAPEX), ab Tag eins realistisch für gehobenen Mittelstand. Self-hosted TCO für V4-Flash rechnet sich, wenn Frontier-Reasoning ein Dauer-Workload bei souveränitäts-kritischer Datenklassifikation ist; bei gelegentlichem Reasoning ist die V4-Flash-API oder Mistral La Plateforme günstiger.

Diese Zahlen basieren auf öffentlichen EU-Hosting-Preisen von Scaleway und OVHcloud sowie auf öffentlichen Durchsatz-Daten der Modelle. Sie sind illustrativ, nicht vertraglich.

TCO-Crossover: self-hosted vs Cloud-API - lineare Cloud-API-Kurven (Pro-Token-Pricing) gegen flache Self-host-Kurven (CAPEX amortisiert). Mistral La Plateforme API bleibt unter ~10B Tokens/Monat günstigste Option - die relevante Entscheidung ist Mistral OSS self-host vs Claude Opus 4.7 API, die für souveränitätskritische Workloads bei ca. 180 Millionen Tokens pro Monat kreuzt. Unter 50M Tokens/Monat dominiert die Cloud-API-Ökonomie. Über 500M Tokens/Monat dominiert self-host unabhängig vom Modell.

EU-GPU-Hosting 2026: Wer hat tatsächlich H100-Kapazität?

Der EU-GPU-Hosting-Markt ist 2025-2026 deutlich gereift. Fünf Anbieter decken die meisten Enterprise-Self-Hosting-Cases ab - und der deutsche Markt steht für regulierte Branchen im Vordergrund:

Hetzner (Deutschland). Kostenführer für dedizierte GPU-Server, keine On-Demand-Instanzen. Aktuelle GPU-Optionen umfassen RTX 4000 SFF Ada und RTX 6000 Ada gepaart mit modernen CPUs. Der Weg für Mistral Small 3.2 mit Quantisierung oder für Entwicklungsumgebungen. Weniger geeignet für elastische Spitzenlast. Kosteneffizient für nicht-regulierte Branchen (Maschinenbau, Industriegüter). NICHT geeignet als BaFin-Pilot - es fehlt das BSI C5 Type 2 Testat und ein MaRisk-AT-9-konformer AVV. Für Banken/Versicherungen ab Tag 1 IONOS oder T-Systems mit C5 Type 2.

IONOS (Deutschland). Souveränitäts-Cloud-Hosting mit GPU-Instanzen. Der Compliance-Fit für BaFin-regulierte Workloads aus Finanzdienstleistung und Versicherung.

T-Systems (Deutschland). Tochter der Deutschen Telekom. Souveränitäts-Cloud explizit für öffentlichen Sektor und kritische Infrastruktur ausgelegt. Die procurement-bequeme Wahl, wenn vorstandsseitige Souveränität die Anforderung ist.

Scaleway (Frankreich, DSGVO-nativ). Aggressivster Anbieter bei Preis-Leistung für KI-Workloads. H100 SXM zu ~3,50 EUR/h, A100 zu ~2,50 EUR/h, dazu die neue NVIDIA-Blackwell-B300-SXM-Klasse (288 GB VRAM) für Frontier-Workloads. Französische Rechenzentren, vollständig DSGVO-konform, keine CLOUD-Act-Exposition. Reservierte Instanz-Kontrakte für planbare Workloads.

OVHcloud (Frankreich, Sovereign Tier). Größter europäischer Cloud-Anbieter mit “Sovereign Cloud”-Tier, der explizit für Behörden und regulierte Branchen gebaut ist. Portfolio mit H100, RTX 5000, A10, dazu ein “AI Deploy”-Service für Pay-as-you-go-Inferenz. Guter Fit, wenn das Procurement einen Sovereign-Cloud-Stempel braucht.

Für eine Enterprise, die sich auf einen self-hosted Stack festlegt, ist die praktische Reihenfolge: für nicht-regulierte Branchen Pilot auf Hetzner oder Scaleway für kosteneffiziente Validierung, Migration zu IONOS, T-Systems oder OVHcloud für die Produktion, wenn die Regulierung Souveränitäts-Zertifizierung verlangt. Für BaFin-regulierte Institute (Banken, Versicherer) führt der Pilot direkt auf IONOS oder T-Systems mit BSI C5 Type 2 - Hetzner scheidet aus. Reserved-Instance-Kontrakte zur Kostenplanung.

Deployment-Muster: Single Worker, Cluster, Hybrid

Drei Deployment-Muster decken fast alle Enterprise-Self-Hosted-Szenarien ab.

Single-Worker-Muster. Ein Modell, eine GPU-Instanz, hinter einem Load Balancer mit Health Checks. Geeignet für: Mistral Small 3.2 auf einer RTX 4090 oder H100 für die 70-%-Volumen-Last. Llama 4 Scout auf einer einzelnen GPU für Long-Context-Dokumentenanalyse. Betriebskomplexität: niedrig. Ausfallmodus: Single Point of Failure, sofern nicht repliziert.

Multi-Modell-Cluster-Muster. Mehrere Modelle auf mehreren GPUs hinter einer Routing-Schicht. Geeignet für: Mistral Small fürs Volumen + gpt-oss-120b oder DeepSeek V4-Flash für Heavy-Reasoning + (optional) DeepSeek V4-Pro auf dediziertem Cluster für Math-Grade-Workloads, alle hinter einer einzelnen Routing-Schicht. Die Routing-Schicht entscheidet pro Request, welches Modell den Job übernimmt. Betriebskomplexität: mittel. Erfordert einen Model-Server (vLLM, TGI, llama.cpp-server) und eine Routing-Regel-Engine. Das typische Produktionsmuster für agentische Workloads mit gemischter Entscheidungskomplexität.

Hybrid-Edge-Cloud-Muster. Sensible Workloads (HR-Onboarding, Vertragsprüfung, Kundendaten-Extraktion) auf self-hosted Modellen; unkritische Workloads (Marketing-Texte, Wissens-Q&A auf öffentlichen Informationen) auf EU-Cloud-APIs wie Mistral La Plateforme. Die Routing-Schicht erzwingt die Datenklassifikation vor der Modellauswahl. Betriebskomplexität: hoch (zwei Stacks zu betreiben), aber die niedrigste Souveränitäts-Exposition und das beste Kosten-pro-Entscheidung-Verhältnis.

Die Musterwahl hängt von der Datenklassifikations-Taxonomie ab, nicht von der Modellauswahl. Wenn alles als “intern” oder höher klassifiziert ist, dominiert das Multi-Modell-Cluster-Muster. Wenn ein nennenswerter Anteil der Arbeit auf öffentlich-relevanten oder unsensiblen Daten läuft, ist das Hybrid-Muster günstiger.

Entscheidungs-Matrix: Welches Modell für welchen Workload

Workload-Kategorie	Empfohlenes Modell	Warum
Dokumenten-Klassifikation, strukturierte Extraktion, OCR-Feldverarbeitung	Mistral Small 3.2 (self-hosted)	Vision-fähig, schnell auf Consumer-GPU, multilinguale Abdeckung
Standard-Textgenerierung (E-Mails, Benachrichtigungen, NDA-Erinnerungen)	Mistral Small 3.2 (self-hosted)	Hoher Durchsatz, Template-freundlich, niedrigste Token-Kosten
Vertragsklauseln-Klassifikation, Lieferanten-Risikoflags, Anomalie-Detektion	Mistral Small 3.2 oder Mistral Medium 3.1 (La Plateforme)	Mittleres Reasoning zu moderaten Kosten, EU-souverän
Anti-Diskriminierungs-Prüfung nach AGG (Merkmale, Benachteiligungsverbot, Beweislastumkehr-Risiko, Schadensersatz bis 3 Brutto-Monatsgehälter), HR/Legal-Reasoning	gpt-oss-120b (on-prem) oder Claude Opus 4.7 (Cloud)	Tier-1-Reasoning, audit-fähige Begründungstiefe für HR/Legal
Code-Generierung, Code-Review (Cloud-Flaggschiffe)	Claude Opus 4.7 oder GPT-5.5	Beide Benchmark-führend; Claude Opus 4.7 stärker bei langen agentischen Loops (Claude Code), GPT-5.5 stärker bei IDE-Integration (Cursor, Copilot)
Code-Generierung (self-hosted, souveränitätskritisch)	Qwen 3 Coder 110B (Apache 2.0, Alibaba), DeepSeek Coder V4 (MIT) oder Codestral Mamba 32B (Mistral, EU-built)	Tier-1-Coding-Benchmarks on-prem; Qwen 3 Coder führt HumanEval/SWE-Bench unter OSS, DeepSeek Coder V4 stärkster bei agentischen Multi-File-Tasks, Codestral Mamba niedrigste Latenz auf Consumer-GPU
Microsoft-365- / Copilot-Tiefenintegration	GPT-5.5 via Azure OpenAI	Native Stack, niedrigster Integrationsaufwand für Organisationen auf Microsoft-Daten-Plane
Agentische Workflows mit hohem Function-Calling- / Tool-Use-Anteil	GPT-5.5 oder Claude Opus 4.7	Beide Top-Tier bei strukturierten Ausgaben und Tool-Orchestrierung; GPT-5.5 mit breiterem Ecosystem an vorgebauten Tools
Finanz-Risiko-Modellierung, Stress-Tests, Optimierung	DeepSeek V4-Flash (aktuell) oder V4-Pro via API; R1 für reife Deployments produktionsreif	Top-Tier-Math/Logik; V4-Linie mit 1M Kontext für Portfolio-Analyse
Dokumentenanalyse großer Korpora (komplette Vertragsportfolios, ganze Geschäftsberichte)	Llama 4 Scout	10-Millionen-Token-Kontextfenster - in diesem Band einzigartig
Multimodal (Bild + Text korreliert, technische Zeichnungen, Video-Segmente)	Gemini 3.1 Pro (Cloud, kein self-hosted Äquivalent)	Natives multimodales Training, 1M Kontext
Conversational AI / kundenseitige Chatbots	Mistral Small 3.2 (self-hosted) für Volumen; GPT-5.5 (Azure) wenn MS-stack-nativ	Produktivqualität zu niedrigsten Hardware-Kosten; GPT-5.5 wenn in Dynamics/Copilot integriert
SaaS-Feature-Gating (Modell-Tiers pro Kunde, regionales Routing)	Hybrid-Muster: Mistral Small + Claude Opus 4.7 / GPT-5.5	Sensible Kundendaten self-hosted, Premium-Features auf Cloud-Flaggschiff

Die Matrix ist keine Vorschrift, sondern ein Startpunkt, der pro Organisation verfeinert wird. Ein Finance-lastiges Unternehmen gewichtet DeepSeek V4 höher. Eine Multimedia-lastige Operation braucht möglicherweise einen Cloud-Gemini-Hop. Eine HR-Pipeline mit hohem Dokumenten-Volumen setzt Mistral Small bei 80 % der Entscheidungen ein, nicht bei 70 %.

Die Routing-Schicht macht die Matrix operationalisierbar. Ohne sie läuft jeder Workload gegen das standardmäßig konfigurierte Modell, und die Matrix bleibt ein Folien-Artefakt.

Die Routing-Schicht bauen: Wo der Decision Layer hineinpasst

Self-hosted Multi-Modell-Architekturen brechen ohne Routing-Schicht aus einem einfachen Grund zusammen: Niemand möchte sich 14 Entscheidungs-zu-Modell-Zuordnungen merken, während gleichzeitig die Business-Logik des Agenten geschrieben wird. Das Routing muss Konfiguration sein, kein Code.

Ein Decision Layer hält:

Die Datenklassifikations-Taxonomie (welche Datentypen erfordern Self-Hosting? Welche dürfen an EU-Cloud-API? Welche an US-Cloud-API?)
Die Entscheidungs-zu-Modell-Routing-Regeln pro Workflow-Schritt
Die Fallback-Kette (wenn Mistral Small ausfällt oder saturiert, wohin?)
Den Audit-Log: Jede Entscheidung mit Input-Snapshot, Regelversion, eingesetztem Modell, Confidence-Score, Reasoning-Chain, Ergebnis und menschlichem Prüfer (wo zutreffend)
Den Anfechten-Button: Jede betroffene Person kann eine automatisierte Entscheidung anfechten und löst damit eine erneute Entscheidung unter menschlicher Prüfung aus - der von DSGVO Art. 22 verlangte Mechanismus

Das ist das Artefakt, das ein EU-AI-Act-Artikel-13-Prüfer einsieht. Es ist das Artefakt, das ein Betriebsrat reviewt, wenn er klassifiziert, welche Agenten in den BetrVG §87 Abs. 1 Nr. 6 Mitbestimmungs-Scope fallen. Es ist das Artefakt, das die Procurement-Frage “was passiert, wenn Ihr KI-Vendor ein Modell ändert?” beantwortet - denn die Routing-Regel ändert sich, nicht die Business-Logik.

Diese Schicht in-house zu bauen ist machbar, aber selten schneller als 6 bis 9 Monate für ein Enterprise-Team, das bei Null startet. Den Kauf als Konfigurations-Framework verkürzt den Weg typischerweise auf 4 bis 6 Wochen für den ersten produktiven Agenten.

Fazit

Self-hosted Open-Source-KI ist 2026 eine glaubhafte Produktivwahl für EU-Enterprise - aber nur als Multi-Modell-Architektur mit einer Routing-Schicht, nicht als Single-Modell-Wette. Mistral Small 3.2 deckt die Volumen-Bandbreite ab. gpt-oss-120b oder DeepSeek V4-Flash übernimmt Heavy-Reasoning on-prem. DeepSeek V4-Pro (derzeit Preview) reicht an Claude Opus heran - wenn Sie Hyperscaler-Hardware haben oder die GA-Freigabe abwarten und V4-Pro in der Zwischenzeit via API nutzen. Llama 4 Scout deckt Ultra-Long-Context ab. Der Cloud-API-Tier (Claude Opus 4.7, GPT-5.5, Gemini 3.1 Pro) bleibt verfügbar für die Workloads, bei denen die Regulierung das erlaubt.

Die Routing-Entscheidung ist die Architektur. Der TCO-Crossover (rund 50 bis 100 Millionen Token pro Monat im Dauerbetrieb) setzt die wirtschaftliche Self-Hosting-Schwelle. Die Compliance-Taxonomie (welche Datenklassifikation das Netz nicht verlassen darf) setzt die Souveränitäts-Schwelle. Beide Schwellen formen die Routing-Regeln.

Andere publizieren Bestenlisten. Wir bauen die Routing-Schicht, die sie operationalisiert. Der Modellmarkt verändert sich monatlich; die Routing-Architektur überlebt fünf Modellgenerationen. Quellcode bleibt beim Kunden. Modelle bleiben austauschbar. EU-AI-Act-Artikel-13-Compliance ist eine Eigenschaft der Architektur, kein Projekt am Ende.

Wenn Sie wissen wollen, wie Ihr self-hosted Stack auf Basis Ihres tatsächlichen Workload-Mix und Ihrer Datenklassifikation aussehen sollte, vereinbaren Sie ein Gespräch.

Bert Gogolin

Geschäftsführer, Gosign

AI Governance Briefing

Enterprise AI, Regulierung und Infrastruktur - einmal im Monat, direkt von mir.