Warum wir keine AI-Agenten mehr trainieren
92% Accuracy ohne Training. Ab August 2026 verlangt der EU AI Act erklärbare Einzelentscheidungen. Trainierte Modelle können das nicht.
Training ist das neue Fax
2019 mussten wir AI-Modelle trainieren. Sie waren zu dumm für alles andere. GPT-2 konnte keinen kohärenten Absatz schreiben. BERT brauchte für jede Aufgabe tausende gelabelte Beispiele und einen GPU-Cluster für Tage.
Das war vor sechs Jahren. Sechs Jahre, in denen sich die Fähigkeiten von Language Models um Größenordnungen verbessert haben. Aber die Branche tut immer noch so, als sei “Training” der natürliche erste Schritt.
Auf einen Blick - Warum Training die falsche Architektur ist
- Ein LLM erreicht 92% korrekte Entscheidungen bei Rechnungsprüfung - ohne ein einziges Trainingsbeispiel. Erfahrene Juristen kommen auf 72%.[1]
- Ab August 2026 verlangt der EU AI Act (Art. 13, 14, 86) für Hochrisiko-Systeme erklärbare Einzelentscheidungen. Trainierte Modelle können das nicht liefern.[10]
- Die Alternative: Regelwerk (versioniert), Kontext (pro Entscheidung), Decision Layer (Mensch/Regelwerk/KI pro Micro-Decision).
- Konfigurierte Agenten sind modell-agnostisch: Foundation-Model-Wechsel ohne Regelwerk-Änderung. Kein Lock-in, kein Nachtraining.
- Über 40% der Agentic-AI-Projekte scheitern bis 2027 - meist an fehlender Governance, nicht an fehlender Modellleistung.[9]
Wenn jemand 2026 sagt “Wir trainieren unsere AI-Agenten”, ist das wie 2010 zu sagen “Wir faxen unsere Bestellungen”. Es funktioniert. Aber es zeigt, dass man die Architektur nicht verstanden hat.
Von Training zu Konfiguration
2018 - 2020
Training ist Pflicht
BERT, GPT-2. 110M - 1,5B Parameter.
Dauer: Wochen
Kosten: $10.000 - $100.000
Voraussetzung: GPU-Cluster
2021 - 2023
Training wird optional
GPT-3/3.5. 175B Parameter.
Dauer: Tage
Kosten: $1.000 - $10.000
Voraussetzung: GPU nötig
2024
Training oder Prompting?
GPT-4o, Claude 3.5. Multimodal.
Dauer: Stunden
Kosten: $10 - $100
Voraussetzung: API-Call
2025 - 2026
Konfiguration reicht
GPT-5, Claude Opus 4. Reasoning.
Dauer: Minuten
Kosten: $10 - $100
Voraussetzung: API-Call
Kumar Gauraw bringt es auf den Punkt: “Die meisten greifen zu früh zum Fine-Tuning.”[5] Nicht weil Fine-Tuning schlecht ist. Sondern weil es 2026 für die meisten Enterprise-Aufgaben nicht mehr nötig ist.
Was ein trainiertes Modell nicht kann: eine Einzelentscheidung erklären
Ein Kandidat wird von Ihrem Recruiting-Agent abgelehnt. Er fragt: Warum?
Zwei Antworten. Zwei Architekturen.
Trainiertes Modell: “Unser Modell hat auf Basis von 50.000 historischen Einstellungsentscheidungen gelernt, dass Ihr Profil eine Erfolgswahrscheinlichkeit von 34% hat.”
Konfigurierter Agent: “Ihre Qualifikation Maschinenbau erfüllt Anforderung 3 (Elektrotechnik oder vergleichbar) nicht. Regel: Stellenprofil v2026-03. Anfechtbar: Ja. Prozess: Fachbereich prüft, ob Maschinenbau als ‘vergleichbar’ gilt.”
Die erste Antwort ist ab August 2026 illegal.
EU AI Act, Art. 13 (Transparenz), Art. 14 (menschliche Aufsicht), Art. 86 (Recht auf Erklärung).[10] Für Hochrisiko-Systeme - und Recruiting ist Hochrisiko, Annex III(4) - muss jede Einzelentscheidung nachvollziehbar, erklärbar und anfechtbar sein.
Nicht das Modell. Die einzelne Entscheidung. Für diesen Kandidaten. Mit dieser Begründung.
Ein trainiertes Modell kann das nicht. Es hat keine Entscheidungsakte. Es hat Gewichte. Und Gewichte erklären einem Betriebsrat nichts.
Der Compliance-Test: Trainiert vs. Konfiguriert
Architektur A
Trainiertes Modell
"Warum diese Entscheidung?"
"Modell hat gelernt" - Black Box
Nicht erklärbar
"Gesetz ändert sich?"
Nachtrainieren. 2 - 4 Wochen, $5.000 - $20.000
Teuer und langsam
"Kann der Betroffene anfechten?"
Gegen was? Gegen Gewichte?
Nicht anfechtbar
"Neues LLM-Modell verfügbar?"
Neues Training nötig. Wochen, Lock-in.
Anbieter-Abhängigkeit
"EU AI Act konform?"
Art. 13: Transparenz fehlt. Art. 14: Eingriff = Modell ersetzen. Art. 86: Erklärung nicht möglich.
Problematisch
Lock-in: Ja | Audit: Schwierig | EU AI Act: Problematisch
Architektur B
Konfigurierter Agent
"Warum diese Entscheidung?"
"§9 EStG v2026-01, Abwesenheit 14h15min"
Regel, Version, Kontext dokumentiert
"Gesetz ändert sich?"
Regel aktualisieren. Sofort wirksam, $0.
Versioniert und auditierbar
"Kann der Betroffene anfechten?"
"Frühstück war nicht inklusive." Sachbearbeiter prüft.
Anfechtbar mit Entscheidungsakte
"Neues LLM-Modell verfügbar?"
Regelwerk bleibt. 0 Aufwand, kein Lock-in.
Modell-agnostisch
"EU AI Act konform?"
Entscheidungsakte pro Micro-Decision. Regel übersteuern, nicht Modell ersetzen.
Konform by Design
Lock-in: Nein | Audit: By Design | EU AI Act: Konform
Das Compliance-Problem ist aber nur die Oberfläche. Darunter liegt ein Architekturproblem.
92% vs. 72%
Forscher haben 2025 getestet, wie gut ein LLM Anwaltsrechnungen gegen Billing Guidelines prüfen kann.[1] Kein Fine-Tuning. Kein Training. Nur das Regelwerk als Kontext.
Das Ergebnis:
Anwaltsrechnung: regelkonform oder nicht?
Better Bill GPT, Whitehouse et al. (April 2025). Peer-reviewed. LLM erhielt Regelwerk als Kontext, kein Fine-Tuning.[1]
Gesamtgenauigkeit
LLM (kein Training)
92%
Erfahrene Juristen
72%
Einzelposition-Klassifikation (F-Score)
LLM (kein Training)
81%
Beste menschliche Gruppe
43%
Zeit pro Rechnung
LLM
3,6 Sek.
Juristen
~250 Sek.
Kosten pro Rechnung
LLM
< $0,01
Juristen
$4,27
Kostenreduktion: 99,97%.[4] Mechanismus übertragbar auf jede regelbasierte Compliance-Aufgabe.
Das LLM wurde nicht auf Rechnungen trainiert. Es hat die Billing Guidelines als Kontext erhalten. Und sofort entschieden.
Warum das LLM besser war
Nicht weil es schlauer ist. Sondern weil es um 15 Uhr dieselbe Regel genauso anwendet wie um 9 Uhr. Inkonsistenz ist das Problem des Menschen, nicht Inkompetenz.[1]
Erfahrene Juristen treffen 72% korrekte Entscheidungen - aber jeder Jurist trifft andere falsche Entscheidungen. Die Fehler sind nicht systematisch, sondern zufällig. Ermüdung, Zeitdruck, persönliche Interpretation. Ein LLM kennt keine Ermüdung.
Der übertragbare Mechanismus
Ob das Regelwerk “Billing Guideline”, “§14 UStG” oder “BMF-Pauschalen 2026” heißt: Dokument gegen Regel prüfen, Abweichung identifizieren, Entscheidung dokumentieren. Der Mechanismus ist identisch.
| Dimension | Trainiertes Modell | Konfigurierter Agent |
|---|---|---|
| Regeländerung | Nachtraining (Wochen, $5k - $20k) | Regelwerk-Update (Minuten, $0) |
| Erklärbarkeit | "Modell hat gelernt" (Black Box) | Regel + Version + Kontext (Entscheidungsakte) |
| Anfechtbarkeit | Nicht möglich (keine Entscheidungsakte) | Ja (Betroffener sieht Regel und kann widersprechen) |
| Modellwechsel | Neues Training nötig (Lock-in) | 0 Aufwand (modell-agnostisch) |
| Audit Trail | Eingabe + Ausgabe (keine Begründung) | Eingabe + Regel + Version + Konfidenz + Ergebnis |
| EU AI Act (Aug 2026) | Art. 13, 14, 86: Problematisch | Art. 13, 14, 86: Konform by Design |
| Break-Even Fine-Tuning | Ab ~35.000 Queries/Monat[6] | Sofort wirtschaftlich |
Eine Studie von Chauhan et al. (2025) beziffert den Break-Even-Punkt von Fine-Tuning gegenüber Prompting auf etwa 35.000 Queries pro Monat.[6] Die meisten Enterprise-HR- und Finance-Prozesse liegen weit darunter.
Drei Dinge statt Training
Wenn kein Training, was dann? Drei Komponenten ersetzen das, was Fine-Tuning verspricht, aber strukturell nicht halten kann.
1. Regelwerk
Alles was ein Agent wissen muss, steht in einem Gesetz, einer Verordnung, einem Tarifvertrag oder einer Betriebsvereinbarung. Diese Regeln ändern sich. Steuerrecht ändert sich jährlich. BMF-Pauschalen ändern sich jährlich. EU-Verordnungen ändern sich.
Ein trainiertes Modell muss bei jeder Änderung nachtrainiert werden. Ein Regelwerk wird aktualisiert. Sofort wirksam, versioniert, auditierbar. Kein GPU-Cluster, kein Evaluierungszyklus, keine Regressionsrisiken.
RAG (Retrieval Augmented Generation) reduziert faktische Fehler um bis zu 50%.[11] Nicht weil das Modell schlauer wird. Sondern weil es die aktuelle Regel sieht statt eine veraltete Gewichtung abzurufen.
2. Kontext
Der Agent braucht nicht 10.000 historische Reisekostenabrechnungen. Er braucht diese eine Abrechnung: Reisedatum, Abfahrt, Rückkehr, Hotel, Frühstück inklusive oder nicht. Das ist der Kontext dieser Entscheidung.
Er wird über strukturierte Eingaben oder RAG zugeführt, nicht eintrainiert. Wenn sich der Kontext ändert - andere Reise, anderer Mitarbeiter - ändert sich die Entscheidung. Nicht das Modell.
Ein konkretes Beispiel: Die Reisekosten-Engine prüft Verpflegungspauschalen gegen §9 EStG. Der Kontext ist die einzelne Reise. Das Regelwerk ist das aktuelle Steuerrecht. Das Foundation Model ist austauschbar.
3. Entscheidungsrahmen
Wer entscheidet was? Nicht jede Entscheidung in einem Prozess ist gleich.
Die Verpflegungspauschale ist Regelwerk: §9 EStG, deterministisch, 100% Confidence. Die Frage, ob ein Bewirtungsaufwand “angemessen” ist, ist Ermessen: Mensch. Die Klassifikation eines unleserlichen Kassenbons ist KI: LLM-Extraktion, probabilistisch.
Diese Zerlegung in Micro-Decisions mit Zuordnung Mensch/Regelwerk/KI ist die eigentliche Architekturarbeit. Nicht das Training. Der Decision Layer formalisiert genau diese Zerlegung. Details zur Architektur: Decision Layer erklärt.
Micro-Decision in der Praxis
Reisekostenabrechnung: 8-Stunden-Tag, Inlandsreise, Hotel mit Frühstück
Jeder dieser Schritte hat einen festen Typ: Regelwerk (deterministisch), KI (probabilistisch, mit Confidence-Schwelle) oder Mensch (Ermessen). Wenn sich §9 EStG ändert, wird die Regel aktualisiert. Kein Nachtraining. Kein neues Modell.
Die drei Schichten: Architektur statt Training
Die Architektur hinter einem konfigurierten Agent besteht aus drei Schichten. Jede Schicht ist unabhängig austauschbar.
Alles oberhalb von Schicht 1 bleibt, wenn das Modell wechselt. Regelwerk, Decision Layer, Entscheidungsakten, Audit Trail - alles modell-agnostisch. Kein Nachtraining. Kein Lock-in.
Warum drei Schichten? Weil jede eine andere Verantwortung hat.
Das Foundation Model liefert Sprachverständnis und Reasoning. Es versteht den Kontext, extrahiert Informationen aus Dokumenten, klassifiziert Eingaben. Es muss nicht wissen, was §9 EStG sagt. Es muss verstehen, was ein Gesetzestext ist.
Das Regelwerk enthält die Geschäftslogik. Gesetze, Verordnungen, Tarifverträge, Betriebsvereinbarungen. Jede Regel hat eine Version. Jede Version hat ein Gültigkeitsdatum. Wenn sich das Gesetz ändert, wird die Regel aktualisiert. Nicht das Modell.
Der Decision Layer steuert, wer was entscheiden darf. Er zerlegt Prozesse in Entscheidungsschritte. Definiert für jeden: Mensch, Regelwerk oder KI. Dokumentiert jede Entscheidung mit Regel, Version, Kontext und Ergebnis.
Was Training wirklich kostet
Nicht in Dollar. In Abhängigkeiten.
Lock-in
Ein fine-getuntes Modell bindet Sie an diesen Anbieter. Das Trainingsset, die Gewichte, die Evaluierungspipeline: alles proprietär. Modellwechsel = neues Training = neue Kosten = neuer Zeitverlust.
Ein konfigurierter Agent wechselt das Foundation Model ohne eine einzige Regel zu ändern. Claude heute, GPT morgen, ein Open-Source-Modell nächste Woche. Das Regelwerk bleibt. Der Decision Layer bleibt. Die Entscheidungsakten bleiben.
Wartung
Jede Gesetzesänderung erfordert Nachtraining. In Finance ändern sich Steuerrecht, BMF-Schreiben und SV-Beitragssätze jährlich. In HR ändern sich Tarifverträge, Betriebsvereinbarungen und EU-Regulatorik.
Ein trainierter Agent braucht kontinuierliche Pflege, die aussieht wie ein Softwareprojekt. Ein konfigurierter Agent braucht einen Regelwerk-Editor.
MIT und Stanford (Choi & Xie, 2025) zeigen: AI reduziert den Monatsabschluss um 7,5 Tage.[7] Aber 62% der Buchhalter sorgen sich über AI-Fehler.[8] Die Sorge ist berechtigt - bei trainierten Modellen. Bei konfigurierten Agenten mit Entscheidungsakte und Anfechtungsmöglichkeit ist jeder Fehler identifizierbar und korrigierbar.
Erklärbarkeit
Ein trainiertes Modell kann Ihnen sagen, was es entschieden hat. Es kann nicht sagen, warum.
“Das Modell hat gelernt” ist keine Begründung, die ein Betriebsprüfer akzeptiert. Kein Betriebsrat akzeptiert sie. Kein abgelehnter Kandidat akzeptiert sie.
“Regel §9 EStG v2026-01, angewandt auf Abwesenheit 14h15min” ist eine Begründung.
Wenn Sie die Entscheidung nicht erklären können, können Sie sie nicht anfechten lassen. Und wenn Sie sie nicht anfechten lassen können, ist sie ab August 2026 in der EU nicht mehr rechtskonform.[10]
Hat Fine-Tuning seinen Platz?
Ja. Ab etwa 35.000 Queries pro Monat mit stabilem Regelwerk wird Fine-Tuning wirtschaftlich.[6] Sprach-Adaption, domänenspezifischer Jargon, Latenz-Optimierung: dafür gibt es gute Gründe.
Aber dort, wo die Branche es heute verkauft - Enterprise HR und Finance mit jährlich wechselnden Gesetzen - ist es die falsche Architekturentscheidung. Gartner prognostiziert, dass über 40% der Agentic-AI-Projekte bis 2027 scheitern werden.[9] Nicht an der Modellleistung. An der Governance.
Die Frage, die Ihr Board stellen sollte
Nicht: “Auf welchen Daten wurde euer Agent trainiert?”
Sondern:
1. Welches Regelwerk liegt der Entscheidung zugrunde? Welche Version galt zum Entscheidungszeitpunkt?
Wenn die Antwort “Das ist im Modell” lautet, gibt es keine Version. Keine Änderungshistorie. Keinen Audit Trail.
2. Was passiert, wenn sich die Regel ändert? Retraining oder Update?
Wenn die Antwort “Wir trainieren nach” lautet, bezahlen Sie für Wartung, die unnötig ist.
3. Kann der Betroffene die Einzelentscheidung einsehen und anfechten?
Wenn keine Antwort kommt, haben Sie ab August 2026 ein Compliance-Problem. Art. 86 EU AI Act: Recht auf Erklärung. Nicht optional.[10]
Gosigns Ansatz
Gosigns Decision Layer ist eine Implementierung dieser Architektur. Er zerlegt Prozesse in Entscheidungsschritte. Definiert für jeden: Mensch, Regelwerk oder KI. Regelwerke sind versioniert. Entscheidungen sind auditierbar. Ergebnisse sind anfechtbar.
48 HR-Agenten und 49 Finance-Agenten, jeder mit Micro-Decision-Tabelle. Kein Fine-Tuning. Kein Lock-in. Kein Nachtraining bei Gesetzesänderungen.
Quellenangaben
- Better Bill GPT, Whitehouse et al. (April 2025). Legal Invoice Review: LLM erreicht 92% Accuracy bei Prüfung von Anwaltshonoraren gegen Billing Guidelines. Peer-reviewed.
- Better Bill GPT, Whitehouse et al. (April 2025). F-Score bei Einzelposition-Klassifikation: LLM 81% vs. beste menschliche Gruppe 43%.
- Better Bill GPT, Whitehouse et al. (April 2025). Bearbeitungszeit pro Rechnung: LLM 3,6 Sekunden vs. erfahrene Juristen 194 bis 316 Sekunden.
- Better Bill GPT, Whitehouse et al. (April 2025). Kostenreduktion bei Legal Invoice Review: 99,97% ($4,27 vs. <$0,01 pro Rechnung).
- Kumar Gauraw (März 2026). "Die meisten greifen zu früh zum Fine-Tuning."
- Chauhan et al., Journal of Information Systems Engineering (2025). Break-Even Fine-Tuning vs. Prompting: ~35.000 Queries pro Monat.
- MIT/Stanford, Choi & Xie (August 2025). AI reduziert den Monatsabschluss um durchschnittlich 7,5 Tage.
- MIT/Stanford, Choi & Xie (August 2025). 62% der Buchhalter äußern Bedenken über AI-Fehler in Finanzprozessen.
- Gartner (Juni 2025). Prognose: Über 40% der Agentic-AI-Projekte scheitern bis 2027.
- EU AI Act (VO 2024/1689), Crowell & Moring (Februar 2026). Hochrisiko-Pflichten ab August 2026: Art. 13 (Transparenz), Art. 14 (menschliche Aufsicht), Art. 86 (Recht auf Erklärung). Annex III(4): Recruiting als Hochrisiko-System.
- IBM (2024). RAG reduziert faktische Fehler in LLM-Ausgaben um bis zu 50%.

Bert Gogolin
Geschäftsführer, Gosign
AI Governance Briefing
Enterprise AI, Regulierung und Infrastruktur - einmal im Monat, direkt von mir.