Zum Inhalt springen
Governance / 11 Min. Lesezeit

Warum 40% der AI-Agent-Projekte scheitern - und wie Decision Records das lösen.

Gartner prognostiziert, dass bis Ende 2027 über 40% aller Agentic-AI-Projekte eingestellt werden. Die häufigste Ursache ist nicht die Technologie - es ist der fehlende Governance-Layer. Was Entscheidungsakten damit zu tun haben.

Bert Gogolin
Bert Gogolin
[object Object] - 17. April 2026 / LinkedIn
Auf einen Blick
  • AI-Agent-Projekte scheitern nicht an Technologie, sondern an fehlender Entscheidungsarchitektur - niemand hat definiert was die KI entscheiden darf.
  • Gartner (2025): Über 40% aller Agentic-AI-Projekte werden bis Ende 2027 eingestellt. MIT Sloan (2024): 70% schaffen den Sprung vom Piloten in die Produktion nicht.
  • Investment-Ratio: Für jeden Euro Technologie brauchen Unternehmen vier bis fünf Euro in Prozesse, Governance, Change Management. Technologie allein adressiert 20% des Problems.
  • Decision Records dokumentieren jede Einzelentscheidung strukturiert: welche Regel in welcher Version, auf welchen Daten, von Mensch, Regelwerk oder KI entschieden.
  • Ohne diese Schicht ist EU-AI-Act-Compliance ab 02.08.2026 unmöglich - Bußgelder bis EUR 55 Mio. oder 7% des Jahresumsatzes.
Kurzantwort

AI-Agent-Projekte scheitern, weil Deployments starten bevor Governance steht. Ein Decision-Record dokumentiert jede Einzelentscheidung strukturiert - welche Regel in welcher Version, auf welchen Daten, von wem entschieden - und macht sie anfechtbar. Ohne diese Schicht ist EU-AI-Act-Compliance ab August 2026 unmöglich.

Ein Pilot, der funktionierte - und dann verschwand

Eine HR-Abteilung eines DAX-30-Konzerns startet ein KI-Projekt. Ein Agent verarbeitet Krankmeldungen: liest das Dokument, extrahiert Name und Zeitraum, prüft gegen den Tarifvertrag, erstellt einen Vorschlag für SAP SuccessFactors. Im Piloten funktioniert alles. Die Trefferquote liegt bei 94%. Die Bearbeitungszeit sinkt von 45 Minuten auf 5 Minuten. Die Projektleiterin präsentiert die Ergebnisse auf der Konferenz. Es gibt Applaus.

Sechs Monate später: Der Agent läuft immer noch im Piloten. Nicht weil die Technologie versagt hat. Sondern weil niemand die Fragen beantwortet hat, die nach dem Piloten kommen:

Wer genehmigt die Buchung, die der Agent vorschlägt? Was passiert, wenn der Agent falsch liegt - wer haftet? Gilt die Logik auch für Standort München, wo ein anderer Tarifvertrag gilt? Darf der Agent bei Langzeiterkrankungen automatisch ein BEM-Verfahren nach §167 Abs. 2 SGB IX einleiten, oder muss das ein Mensch entscheiden? Was sagt der Betriebsrat? Und was macht Hamburg mit seinen drei Betriebsvereinbarungen aus den letzten zehn Jahren, die teilweise widersprüchlich sind?

Das sind keine technischen Fragen. Es sind Entscheidungsfragen. Und solange sie nicht beantwortet sind, bleibt jeder Agent ein Experiment.

Das AI-Paradox: Hoher Einsatz, niedriger Nutzen

Was hier passiert, ist kein Einzelfall. Es ist ein Muster, das sich durch Unternehmen jeder Größe zieht - von DAX-Konzernen wie Airbus, VW und Shell bis hin zu Sony Music Entertainment und familiengeführten Mittelständlern.

Die meisten Unternehmen setzen bereits KI ein - mindestens in Form von ChatGPT, Claude, Llama, gpt-oss, Microsoft Copilot oder ersten Agent-Piloten. Aber die wenigsten berichten, dass KI einen messbaren Beitrag zum Ergebnis leistet. MIT Sloan Management Review (2024) zeigt: 70% der Enterprise-KI-Initiativen schaffen den Sprung vom Piloten in die Produktion nicht. Gartner (2025) prognostiziert, dass bis Ende 2027 über 40% aller Agentic-AI-Projekte komplett eingestellt werden.

Das ist das AI-Paradox: Die Technologie funktioniert. Aber der Nutzen bleibt aus.

Die üblichen Erklärungen greifen zu kurz. „Die Daten sind nicht gut genug" - stimmt manchmal, aber Datenqualität ist ein lösbares Problem. „Das Modell ist nicht gut genug" - unwahrscheinlich angesichts dessen, was Claude, GPT-4 oder Mistral Large heute leisten. „Die Mitarbeiter haben Angst vor KI" - Change Management ist wichtig, erklärt aber nicht, warum auch gut begleitete Projekte stecken bleiben. Die eigentliche Ursache ist eine andere: Es fehlt die Entscheidungsarchitektur.

Was eine Entscheidungsakte enthält

Der Begriff Entscheidungsakte kommt aus der Verwaltungspraxis - und er passt erstaunlich präzise auf Agent-Entscheidungen. Eine vollständige Decision-Record dokumentiert vier Dimensionen pro Einzelentscheidung: Timestamp, angewandtes Regelwerk in expliziter Version, Input-Datenbasis, und den Entscheider (Mensch, Regelwerk oder KI) inklusive Confidence-Score bei KI-basierten Schritten. Strukturell sieht das so aus:

{
  "timestamp": "2026-04-17T14:23:08Z",
  "agent": "travel-expense-agent/v4.2",
  "input": { "receipt_id": "0x7a3f", "amount": 187.40 },
  "ruleset": "BRKG-2026-v3.1 + internal-v2.4",
  "decider": "Rule",
  "decision": "approve_within_policy",
  "confidence": 100,
  "challengeable_until": "2026-04-24T23:59:59Z"
}

Dieser Datensatz wird für jede Einzelentscheidung erzeugt - nicht nur für die finale Genehmigung, sondern für jeden Zwischenschritt: Beleg-Klassifikation, Richtlinienprüfung, Pauschalenberechnung, Genehmigungs-Routing. Das ergibt bei einem typischen mittelständischen Unternehmen mit 200 Reisenden und 5 Abrechnungen pro Monat circa 8.000 Decision-Records allein für den Reisekosten-Agent. Pro Monat. Bei einem DAX-30-Konzern mit 48.000 Mitarbeitenden und 800 Abrechnungen pro Monat sind es mehr als 32.000 Records - und das ist nur einer von vielen Prozessen.

Warum Regel und KI getrennt stehen müssen

Die entscheidende Architektur-Entscheidung im Decision-Layer ist die Trennung zwischen deterministischen Regeln und KI-Urteilsvermögen. Ein Reisekosten-Prozess zum Beispiel enthält beides: Die Klassifikation eines Belegs (Hotel oder Bewirtung?) ist eine KI-Aufgabe mit OCR-basiertem Language-Model und Confidence-Scoring. Die Prüfung gegen Höchstbeträge nach §9 Abs. 4a EStG oder dem BMF-Schreiben für Auslandspauschalen ist pure Arithmetik - da wird keine KI gebraucht, da soll auch keine KI entscheiden.

Das klingt offensichtlich. In der Praxis bauen aber viele AI-Anbieter - und zwar auch etablierte Namen wie Workday, ServiceNow, oder Microsoft Copilot - Agents, die alles durch ein Language-Model routen, weil das technisch einfacher ist. Das Problem: Bei der ersten Anfechtung einer Entscheidung fehlt die deterministische Nachvollziehbarkeit. Wenn der Betriebsrat fragt „warum wurde Herr Schmidts Abrechnung abgelehnt und Frau Müllers in identischem Fall genehmigt?" ist „das Language-Model hat sich so entschieden" keine vorlegbare Antwort.

Bei Airbus trifft ein Reisekosten-Agent 40 bis 120 Einzelentscheidungen pro Vorgang - Pauschalen, Kürzungen, Tarifvertrags-Overrides, Steuerfreibeträge. Jede muss einzeln dokumentiert und erklärbar sein, sonst scheitert die Betriebsprüfung. Bei VW sind es ähnliche Zahlen. Bei Shell kommen länderspezifische Regularien hinzu - 186 Länder, 186 Regelwerke.

Die Investment-Ratio: Warum Technologie allein nicht reicht

Branchenerfahrung zeigt eine Faustregel, die viele überrascht: Für jeden Euro in Technologie brauchen Unternehmen vier bis fünf Euro in Prozesse, Governance und Veränderungsmanagement.

Das bedeutet: Wer ein KI-Budget von 500.000 EUR hat und alles in Lizenzen und Modelle investiert, adressiert etwa 20% des Problems. Die restlichen 80% - Prozessdesign, Entscheidungsregeln, Betriebsvereinbarungen nach §87 Abs. 1 Nr. 6 BetrVG, Schulungen, Governance-Strukturen nach IDW PS 951 und ISO 27001 - bleiben unbearbeitet.

Das erklärt das AI-Paradox. Es ist kein Technologie-Problem. Es ist ein Investitions-Verteilungs-Problem. Die Unternehmen, die messbare KI-Ergebnisse erzielen, haben ihre Budgets anders verteilt: 20% Technologie, 80% Governance, Prozesse und Change Management. Die Sony Music Entertainment des DACH-Raums investierte mehr in die Decision-Layer-Architektur als in die Language-Modelle darunter. Das Ergebnis: Zwei Jahre produktiver Einsatz ohne Rollback.

Fünf Fehlermuster, fünf Lösungen

Über mehr als 200 KI-Implementierungen in Enterprise-Umgebungen zeichnen sich fünf wiederkehrende Muster ab. Jedes einzelne ist lösbar - aber nur, wenn man es erkennt und nicht mit mehr Technologie bekämpft.

Fehlermuster

Warum Piloten stecken bleiben - und was hilft

Warum Piloten stecken bleiben - und was hilft
Fehlermuster Ursache Lösung
Pilot funktioniert, skaliert aber nie Entscheidungsregeln nicht definiert - niemand beantwortet die Fragen nach dem Piloten. Haftung, Tarifvertragsvarianten, Eskalationswege bleiben offen. Decision Layer: Mensch/Regelwerk/KI-Zuordnung pro Schritt vor der Skalierung definieren. Versionierte Regeln, dokumentierte Eskalationspfade.
Hohe Nutzung, aber kein messbarer Nutzen Investment auf Technologie konzentriert, Prozesse und Governance vernachlässigt. Technologie adressiert 20% des Problems. Umverteilen: 20% Technologie, 80% Prozesse, Governance, Change Management. Investment-Ratio 1:4-5.
Betriebsrat blockiert Rollout KI-Entscheidungen nicht nachvollziehbar, kein Audit Trail. §87 BetrVG erfordert Mitbestimmung bei Systemen die Mitarbeiterdaten verarbeiten. Transparenz auf Architekturebene: versionierte Regeln, vollständiger Audit Trail, Betriebsvereinbarungs-Vorlagen inklusive.
Agent erzeugt Fehler, die niemand erklären kann Blackbox-Entscheidungen ohne dokumentierten Entscheidungspfad. Language-Model-basierte Entscheidungen ohne Confidence-Scoring. Confidence Routing: Eskalationsschwellen, Human-in-the-Loop bei Grenzfällen, vollständiger Decision Record pro Vorgang.
Unterschiedliche Ergebnisse an verschiedenen Standorten Regelwerke variieren zwischen Standorten (Hamburg, München, Stuttgart), aber Agent-Logik ist einheitlich. Lokale Betriebsvereinbarungen werden ignoriert. Standortbezogene Regelwerk-Engine mit versionierten, testbaren Regelwerken. Pro Standort eigene Decision Table, geteilte Agent-Logik.

Was das für Ihre Roadmap heisst

Starten Sie nicht mit dem Agent, sondern mit dem Decision-Layer. Der zentrale Fehler ist, in der Readiness-Phase über Modellauswahl zu diskutieren (Claude vs. GPT vs. Mistral vs. Llama) - das ist die letzte Entscheidung, nicht die erste. Die erste Entscheidung ist: welche Prozessschritte sind Regel, welche brauchen KI-Urteil, welche bleiben bei Menschen?

Wer diese Frage beantwortet hat, weiss automatisch: welche Governance-Infrastruktur (Audit-Trail, Anfechtungsweg, Right-to-Challenge nach Art. 14 EU AI Act) gebraucht wird, welche Betriebsvereinbarung verhandelt werden muss, welches Monitoring die Revision später sehen will. Das Modell ist der kleinste Teil dieser Architektur - und der am einfachsten austauschbare. Ein gut designter Decision Layer überlebt drei Modell-Generationen.

Für HR-Prozesse ist das besonders kritisch, weil drei Dinge zusammenkommen: hohe Regelkomplexität (Tarifverträge, Betriebsvereinbarungen, länderspezifische Gesetze), Mitbestimmungspflicht (Betriebsrat hat Veto), und Haftung (wenn ein Agent eine fehlerhafte Gehaltsabrechnung erzeugt, haftet nicht der Agent - es haftet das Unternehmen). Ein einziger Prozess wie die Krankmeldungsverarbeitung kann fünf verschiedene Regelwerke berühren: Entgeltfortzahlungsgesetz, Arbeitszeitgesetz, Tarifvertrag, Betriebsvereinbarung, interne Richtlinie.

Für Finance-Prozesse gilt analog: Reisekostenabrechnung berührt §9 Abs. 4a EStG, BMF-Schreiben, Bewirtungsnachweise nach §4 Abs. 5 EStG, Vorsteuerabzug nach §15 UStG, Aufbewahrungsfristen nach §147 AO und den GoBD-Grundsätzen. Ohne dokumentierten Entscheidungspfad scheitert die Betriebsprüfung an der ersten Stichprobe.

Fazit

Das AI-Paradox ist kein unvermeidliches Schicksal. Es ist die Konsequenz einer Fehlallokation: zu viel Investment in Technologie, zu wenig in die Spielregeln, die bestimmen was die Technologie tun darf.

Unternehmen, die das verstehen, investieren nicht in das nächste Sprachmodell - sie investieren in ihre Entscheidungsarchitektur. Und genau dort liegt der Unterschied zwischen einem KI-Piloten, der in der Schublade landet, und einem System, das in Produktion läuft. Zwischen einem Projekt, das nach 12 Monaten still beendet wird, und einer Infrastruktur, die über zehn Jahre trägt - mit voller DSGVO-Nachvollziehbarkeit und EU-AI-Act-Compliance.

Die 40%, die nach Gartner-Prognose bis 2027 ausfallen, sind kein Technologie-Problem. Sie sind ein Architektur-Problem. Und das ist die gute Nachricht: Architektur-Probleme sind lösbar - wenn man sie als solche erkennt.

FAQ

Häufige Fragen zum AI-Paradox

Was ist das AI-Paradox?

Das AI-Paradox beschreibt die Beobachtung, dass die meisten Unternehmen bereits KI einsetzen, aber nur ein Bruchteil davon messbaren Nutzen erzielt. Die Ursache ist nicht die Technologie, sondern fehlende Entscheidungsarchitektur: Niemand hat definiert, welche Entscheidungen die KI treffen darf und welche beim Menschen bleiben müssen.

Warum scheitern KI-Projekte in HR?

HR-Prozesse bestehen aus Hunderten einzelner Entscheidungen - von der Krankmeldungsverarbeitung bis zur Gehaltsanpassung. Ohne eine klare Zuordnung pro Entscheidungsschritt (Mensch, Regelwerk oder KI) bleibt jedes Pilotprojekt ein Einzelfall, der nicht skaliert.

Was ist der Unterschied zwischen KI-Technologie und Entscheidungsarchitektur?

KI-Technologie ist das Sprachmodell (ChatGPT, Claude, Llama, gpt-oss). Entscheidungsarchitektur ist die Schicht darüber: Wer darf was entscheiden, auf Basis welcher Regeln, mit welcher Dokumentation? Der Decision Layer implementiert diese Entscheidungsarchitektur technisch.

Wie viel sollte man in Governance investieren im Verhältnis zu Technologie?

Branchenerfahrung zeigt: Für jeden Euro in Technologie brauchen Unternehmen vier bis fünf Euro in Prozesse, Governance und Veränderungsmanagement. Wer nur in Technologie investiert, adressiert etwa 20% des Problems.

Was ändert sich durch den EU AI Act ab August 2026?

Ab 02.08.2026 gelten die Hochrisiko-Anforderungen des EU AI Act für KI-Systeme im Beschäftigungskontext (Annex III) und in der Finanzdienstleistung. Unternehmen müssen Risikomanagementsysteme (Art. 9), Aufzeichnungspflichten (Art. 12), Transparenz (Art. 13) und menschliche Aufsicht (Art. 14) nachweisen. Ohne auditierbare Governance-Infrastruktur sind sie nicht compliant. Bußgelder bis EUR 35 Mio. oder 7% Jahresumsatz.