Warum ist Fine-Tuning bei Enterprise-Agenten problematisch?

Fine-Tuning bindet Geschäftsregeln in Modellgewichte ein. Die Folge: Einzelentscheidungen lassen sich nicht auf eine konkrete Regel zurückführen, Gesetzesänderungen erfordern teures Nachtraining und ein Modellwechsel bedeutet Totalverlust. Ab August 2026 verlangt der EU AI Act (Art. 13, 14, 86) für Hochrisiko-Systeme nachvollziehbare Einzelentscheidungen. Trainierte Modelle können das architekturbedingt nicht liefern.

Was ist der Unterschied zwischen Training und Konfiguration?

Training (Fine-Tuning) verändert die Gewichte eines Modells. Geschäftsregeln werden Teil des Modells und lassen sich nicht mehr einzeln identifizieren. Konfiguration bedeutet: Das Foundation Model bleibt unverändert. Geschäftsregeln liegen als versioniertes Regelwerk vor, der aktuelle Fall wird als Kontext übergeben. Ergebnis: Jede Entscheidung ist auf eine konkrete Regel zurückführbar, auditierbar und anfechtbar.

Was bedeutet modell-agnostisch?

Modell-agnostisch bedeutet: Das Regelwerk und der Decision Layer funktionieren unabhängig vom eingesetzten Foundation Model. Ob Claude, GPT, Llama oder Mistral - die Geschäftsregeln, Entscheidungsstufen und Audit Trails bleiben identisch. Ein Modellwechsel erfordert null Anpassungen am Regelwerk. Kein Lock-in, keine Nachtrainingskosten.

Warum wir keine AI-Agenten mehr trainieren

Q: Ist Fine-Tuning nie sinnvoll?

Fine-Tuning hat seinen Platz. Ab etwa 35.000 Queries pro Monat mit stabilem, selten wechselndem Regelwerk wird es wirtschaftlich. Aber dort wo die Branche es heute verkauft - Enterprise HR und Finance mit jährlich wechselnden Gesetzen, Tarifverträgen und Betriebsvereinbarungen - ist es die falsche Architekturentscheidung.

Training ist das neue Fax

2019 mussten wir AI-Modelle trainieren. Sie waren zu dumm für alles andere. GPT-2 konnte keinen kohärenten Absatz schreiben. BERT brauchte für jede Aufgabe tausende gelabelte Beispiele und einen GPU-Cluster für Tage.

Das war vor sechs Jahren. Sechs Jahre, in denen sich die Fähigkeiten von Language Models um Größenordnungen verbessert haben. Aber die Branche tut immer noch so, als sei “Training” der natürliche erste Schritt.

Auf einen Blick - Warum Training die falsche Architektur ist

Ein LLM erreicht 92% korrekte Entscheidungen bei Rechnungsprüfung - ohne ein einziges Trainingsbeispiel. Erfahrene Juristen kommen auf 72%.^[1]
Ab August 2026 verlangt der EU AI Act (Art. 13, 14, 86) für Hochrisiko-Systeme erklärbare Einzelentscheidungen. Trainierte Modelle können das nicht liefern.^[10]
Die Alternative: Regelwerk (versioniert), Kontext (pro Entscheidung), Decision Layer (Mensch/Regelwerk/KI pro Micro-Decision).
Konfigurierte Agenten sind modell-agnostisch: Foundation-Model-Wechsel ohne Regelwerk-Änderung. Kein Lock-in, kein Nachtraining.
Über 40% der Agentic-AI-Projekte scheitern bis 2027 - meist an fehlender Governance, nicht an fehlender Modellleistung.^[9]

Wenn jemand 2026 sagt “Wir trainieren unsere AI-Agenten”, ist das wie 2010 zu sagen “Wir faxen unsere Bestellungen”. Es funktioniert. Aber es zeigt, dass man die Architektur nicht verstanden hat.

Von Training zu Konfiguration

2018 - 2020

Training ist Pflicht

BERT, GPT-2. 110M - 1,5B Parameter.

Dauer: Wochen

Kosten: $10.000 - $100.000

Voraussetzung: GPU-Cluster

2021 - 2023

Training wird optional

GPT-3/3.5. 175B Parameter.

Dauer: Tage

Kosten: $1.000 - $10.000

Voraussetzung: GPU nötig

2024

Training oder Prompting?

GPT-4o, Claude 3.5. Multimodal.

Dauer: Stunden

Kosten: $10 - $100

Voraussetzung: API-Call

2025 - 2026

Konfiguration reicht

GPT-5, Claude Opus 4. Reasoning.

Dauer: Minuten

Kosten: $10 - $100

Voraussetzung: API-Call

Kumar Gauraw bringt es auf den Punkt: “Die meisten greifen zu früh zum Fine-Tuning.”^[5] Nicht weil Fine-Tuning schlecht ist. Sondern weil es 2026 für die meisten Enterprise-Aufgaben nicht mehr nötig ist.

Was ein trainiertes Modell nicht kann: eine Einzelentscheidung erklären

Ein Kandidat wird von Ihrem Recruiting-Agent abgelehnt. Er fragt: Warum?

Zwei Antworten. Zwei Architekturen.

Trainiertes Modell: “Unser Modell hat auf Basis von 50.000 historischen Einstellungsentscheidungen gelernt, dass Ihr Profil eine Erfolgswahrscheinlichkeit von 34% hat.”

Konfigurierter Agent: “Ihre Qualifikation Maschinenbau erfüllt Anforderung 3 (Elektrotechnik oder vergleichbar) nicht. Regel: Stellenprofil v2026-03. Anfechtbar: Ja. Prozess: Fachbereich prüft, ob Maschinenbau als ‘vergleichbar’ gilt.”

Die erste Antwort ist ab August 2026 illegal.

EU AI Act, Art. 13 (Transparenz), Art. 14 (menschliche Aufsicht), Art. 86 (Recht auf Erklärung).^[10] Für Hochrisiko-Systeme - und Recruiting ist Hochrisiko, Annex III(4) - muss jede Einzelentscheidung nachvollziehbar, erklärbar und anfechtbar sein.

Nicht das Modell. Die einzelne Entscheidung. Für diesen Kandidaten. Mit dieser Begründung.

Ein trainiertes Modell kann das nicht. Es hat keine Entscheidungsakte. Es hat Gewichte. Und Gewichte erklären einem Betriebsrat nichts.

Der Compliance-Test: Trainiert vs. Konfiguriert

Architektur A

Trainiertes Modell

"Warum diese Entscheidung?"

"Modell hat gelernt" - Black Box

Nicht erklärbar

"Gesetz ändert sich?"

Nachtrainieren. 2 - 4 Wochen, $5.000 - $20.000

Teuer und langsam

"Kann der Betroffene anfechten?"

Gegen was? Gegen Gewichte?

Nicht anfechtbar

"Neues LLM-Modell verfügbar?"

Neues Training nötig. Wochen, Lock-in.

Anbieter-Abhängigkeit

"EU AI Act konform?"

Art. 13: Transparenz fehlt. Art. 14: Eingriff = Modell ersetzen. Art. 86: Erklärung nicht möglich.

Problematisch

Lock-in: Ja | Audit: Schwierig | EU AI Act: Problematisch

Architektur B

Konfigurierter Agent

"Warum diese Entscheidung?"

"§9 EStG v2026-01, Abwesenheit 14h15min"

Regel, Version, Kontext dokumentiert

"Gesetz ändert sich?"

Regel aktualisieren. Sofort wirksam, $0.

Versioniert und auditierbar

"Kann der Betroffene anfechten?"

"Frühstück war nicht inklusive." Sachbearbeiter prüft.

Anfechtbar mit Entscheidungsakte

"Neues LLM-Modell verfügbar?"

Regelwerk bleibt. 0 Aufwand, kein Lock-in.

Modell-agnostisch

"EU AI Act konform?"

Entscheidungsakte pro Micro-Decision. Regel übersteuern, nicht Modell ersetzen.

Konform by Design

Lock-in: Nein | Audit: By Design | EU AI Act: Konform

Das Compliance-Problem ist aber nur die Oberfläche. Darunter liegt ein Architekturproblem.

92% vs. 72%

Forscher haben 2025 getestet, wie gut ein LLM Anwaltsrechnungen gegen Billing Guidelines prüfen kann.^[1] Kein Fine-Tuning. Kein Training. Nur das Regelwerk als Kontext.

Das Ergebnis:

Anwaltsrechnung: regelkonform oder nicht?

Better Bill GPT, Whitehouse et al. (April 2025). Peer-reviewed. LLM erhielt Regelwerk als Kontext, kein Fine-Tuning.^[1]

Gesamtgenauigkeit

LLM (kein Training)

92%

Erfahrene Juristen

72%

Einzelposition-Klassifikation (F-Score)

LLM (kein Training)

81%

Beste menschliche Gruppe

43%

Zeit pro Rechnung

LLM

3,6 Sek.

Juristen

~250 Sek.

Kosten pro Rechnung

LLM

< $0,01

Juristen

$4,27

Kostenreduktion: 99,97%.^[4] Mechanismus übertragbar auf jede regelbasierte Compliance-Aufgabe.

Das LLM wurde nicht auf Rechnungen trainiert. Es hat die Billing Guidelines als Kontext erhalten. Und sofort entschieden.

Warum das LLM besser war

Nicht weil es schlauer ist. Sondern weil es um 15 Uhr dieselbe Regel genauso anwendet wie um 9 Uhr. Inkonsistenz ist das Problem des Menschen, nicht Inkompetenz.^[1]

Erfahrene Juristen treffen 72% korrekte Entscheidungen - aber jeder Jurist trifft andere falsche Entscheidungen. Die Fehler sind nicht systematisch, sondern zufällig. Ermüdung, Zeitdruck, persönliche Interpretation. Ein LLM kennt keine Ermüdung.

Der übertragbare Mechanismus

Ob das Regelwerk “Billing Guideline”, “§14 UStG” oder “BMF-Pauschalen 2026” heißt: Dokument gegen Regel prüfen, Abweichung identifizieren, Entscheidung dokumentieren. Der Mechanismus ist identisch.

Dimension	Trainiertes Modell	Konfigurierter Agent
Regeländerung	Nachtraining (Wochen, $5k - $20k)	Regelwerk-Update (Minuten, $0)
Erklärbarkeit	"Modell hat gelernt" (Black Box)	Regel + Version + Kontext (Entscheidungsakte)
Anfechtbarkeit	Nicht möglich (keine Entscheidungsakte)	Ja (Betroffener sieht Regel und kann widersprechen)
Modellwechsel	Neues Training nötig (Lock-in)	0 Aufwand (modell-agnostisch)
Audit Trail	Eingabe + Ausgabe (keine Begründung)	Eingabe + Regel + Version + Konfidenz + Ergebnis
EU AI Act (Aug 2026)	Art. 13, 14, 86: Problematisch	Art. 13, 14, 86: Konform by Design
Break-Even Fine-Tuning	Ab ~35.000 Queries/Monat^[6]	Sofort wirtschaftlich

Eine Studie von Chauhan et al. (2025) beziffert den Break-Even-Punkt von Fine-Tuning gegenüber Prompting auf etwa 35.000 Queries pro Monat.^[6] Die meisten Enterprise-HR- und Finance-Prozesse liegen weit darunter.

Drei Dinge statt Training

Wenn kein Training, was dann? Drei Komponenten ersetzen das, was Fine-Tuning verspricht, aber strukturell nicht halten kann.

1. Regelwerk

Alles was ein Agent wissen muss, steht in einem Gesetz, einer Verordnung, einem Tarifvertrag oder einer Betriebsvereinbarung. Diese Regeln ändern sich. Steuerrecht ändert sich jährlich. BMF-Pauschalen ändern sich jährlich. EU-Verordnungen ändern sich.

Ein trainiertes Modell muss bei jeder Änderung nachtrainiert werden. Ein Regelwerk wird aktualisiert. Sofort wirksam, versioniert, auditierbar. Kein GPU-Cluster, kein Evaluierungszyklus, keine Regressionsrisiken.

RAG (Retrieval Augmented Generation) reduziert faktische Fehler um bis zu 50%.^[11] Nicht weil das Modell schlauer wird. Sondern weil es die aktuelle Regel sieht statt eine veraltete Gewichtung abzurufen.

2. Kontext

Der Agent braucht nicht 10.000 historische Reisekostenabrechnungen. Er braucht diese eine Abrechnung: Reisedatum, Abfahrt, Rückkehr, Hotel, Frühstück inklusive oder nicht. Das ist der Kontext dieser Entscheidung.

Er wird über strukturierte Eingaben oder RAG zugeführt, nicht eintrainiert. Wenn sich der Kontext ändert - andere Reise, anderer Mitarbeiter - ändert sich die Entscheidung. Nicht das Modell.

Ein konkretes Beispiel: Die Reisekosten-Engine prüft Verpflegungspauschalen gegen §9 EStG. Der Kontext ist die einzelne Reise. Das Regelwerk ist das aktuelle Steuerrecht. Das Foundation Model ist austauschbar.

3. Entscheidungsrahmen

Wer entscheidet was? Nicht jede Entscheidung in einem Prozess ist gleich.

Die Verpflegungspauschale ist Regelwerk: §9 EStG, deterministisch, 100% Confidence. Die Frage, ob ein Bewirtungsaufwand “angemessen” ist, ist Ermessen: Mensch. Die Klassifikation eines unleserlichen Kassenbons ist KI: LLM-Extraktion, probabilistisch.

Diese Zerlegung in Micro-Decisions mit Zuordnung Mensch/Regelwerk/KI ist die eigentliche Architekturarbeit. Nicht das Training. Der Decision Layer formalisiert genau diese Zerlegung. Details zur Architektur: Decision Layer erklärt.

Micro-Decision in der Praxis

Reisekostenabrechnung: 8-Stunden-Tag, Inlandsreise, Hotel mit Frühstück

#1 Reisedatum und Abwesenheitsdauer Kontext Input: Belege

#2 Verpflegungspauschale berechnen Regelwerk §9 EStG v2026-01

#3 Frühstückskürzung anwenden Regelwerk §9 Abs. 4a S. 8 EStG

#4 Kassenbon klassifizieren KI LLM-Extraktion, Confidence: 87%

#5 Bewirtungsaufwand "angemessen"? Mensch Ermessen, Sachbearbeiter prüft

#6 GoBD-konforme Buchung erstellen Regelwerk GoBD §146 AO, versioniert

Jeder dieser Schritte hat einen festen Typ: Regelwerk (deterministisch), KI (probabilistisch, mit Confidence-Schwelle) oder Mensch (Ermessen). Wenn sich §9 EStG ändert, wird die Regel aktualisiert. Kein Nachtraining. Kein neues Modell.

Die drei Schichten: Architektur statt Training

Die Architektur hinter einem konfigurierten Agent besteht aus drei Schichten. Jede Schicht ist unabhängig austauschbar.

Schicht 3 Decision Layer

Micro-Decisions Mensch / Regelwerk / KI Entscheidungsakte Audit Trail

Schicht 2 Regelwerk (versioniert, austauschbar)

UStG EStG GoBD Tarifvertrag BV EU AI Act

Schicht 1 Foundation Model (austauschbar)

Claude GPT Llama Mistral Gemini

↑

Alles oberhalb von Schicht 1 bleibt, wenn das Modell wechselt. Regelwerk, Decision Layer, Entscheidungsakten, Audit Trail - alles modell-agnostisch. Kein Nachtraining. Kein Lock-in.

Warum drei Schichten? Weil jede eine andere Verantwortung hat.

Das Foundation Model liefert Sprachverständnis und Reasoning. Es versteht den Kontext, extrahiert Informationen aus Dokumenten, klassifiziert Eingaben. Es muss nicht wissen, was §9 EStG sagt. Es muss verstehen, was ein Gesetzestext ist.

Das Regelwerk enthält die Geschäftslogik. Gesetze, Verordnungen, Tarifverträge, Betriebsvereinbarungen. Jede Regel hat eine Version. Jede Version hat ein Gültigkeitsdatum. Wenn sich das Gesetz ändert, wird die Regel aktualisiert. Nicht das Modell.

Der Decision Layer steuert, wer was entscheiden darf. Er zerlegt Prozesse in Entscheidungsschritte. Definiert für jeden: Mensch, Regelwerk oder KI. Dokumentiert jede Entscheidung mit Regel, Version, Kontext und Ergebnis.

Was Training wirklich kostet

Nicht in Dollar. In Abhängigkeiten.

Lock-in

Ein fine-getuntes Modell bindet Sie an diesen Anbieter. Das Trainingsset, die Gewichte, die Evaluierungspipeline: alles proprietär. Modellwechsel = neues Training = neue Kosten = neuer Zeitverlust.

Ein konfigurierter Agent wechselt das Foundation Model ohne eine einzige Regel zu ändern. Claude heute, GPT morgen, ein Open-Source-Modell nächste Woche. Das Regelwerk bleibt. Der Decision Layer bleibt. Die Entscheidungsakten bleiben.

Wartung

Jede Gesetzesänderung erfordert Nachtraining. In Finance ändern sich Steuerrecht, BMF-Schreiben und SV-Beitragssätze jährlich. In HR ändern sich Tarifverträge, Betriebsvereinbarungen und EU-Regulatorik.

Ein trainierter Agent braucht kontinuierliche Pflege, die aussieht wie ein Softwareprojekt. Ein konfigurierter Agent braucht einen Regelwerk-Editor.

MIT und Stanford (Choi & Xie, 2025) zeigen: AI reduziert den Monatsabschluss um 7,5 Tage.^[7] Aber 62% der Buchhalter sorgen sich über AI-Fehler.^[8] Die Sorge ist berechtigt - bei trainierten Modellen. Bei konfigurierten Agenten mit Entscheidungsakte und Anfechtungsmöglichkeit ist jeder Fehler identifizierbar und korrigierbar.

Erklärbarkeit

Ein trainiertes Modell kann Ihnen sagen, was es entschieden hat. Es kann nicht sagen, warum.

“Das Modell hat gelernt” ist keine Begründung, die ein Betriebsprüfer akzeptiert. Kein Betriebsrat akzeptiert sie. Kein abgelehnter Kandidat akzeptiert sie.

“Regel §9 EStG v2026-01, angewandt auf Abwesenheit 14h15min” ist eine Begründung.

Wenn Sie die Entscheidung nicht erklären können, können Sie sie nicht anfechten lassen. Und wenn Sie sie nicht anfechten lassen können, ist sie ab August 2026 in der EU nicht mehr rechtskonform.^[10]

Hat Fine-Tuning seinen Platz?

Ja. Ab etwa 35.000 Queries pro Monat mit stabilem Regelwerk wird Fine-Tuning wirtschaftlich.^[6] Sprach-Adaption, domänenspezifischer Jargon, Latenz-Optimierung: dafür gibt es gute Gründe.

Aber dort, wo die Branche es heute verkauft - Enterprise HR und Finance mit jährlich wechselnden Gesetzen - ist es die falsche Architekturentscheidung. Gartner prognostiziert, dass über 40% der Agentic-AI-Projekte bis 2027 scheitern werden.^[9] Nicht an der Modellleistung. An der Governance.

Die Frage, die Ihr Board stellen sollte

Nicht: “Auf welchen Daten wurde euer Agent trainiert?”

Sondern:

1. Welches Regelwerk liegt der Entscheidung zugrunde? Welche Version galt zum Entscheidungszeitpunkt?

Wenn die Antwort “Das ist im Modell” lautet, gibt es keine Version. Keine Änderungshistorie. Keinen Audit Trail.

2. Was passiert, wenn sich die Regel ändert? Retraining oder Update?

Wenn die Antwort “Wir trainieren nach” lautet, bezahlen Sie für Wartung, die unnötig ist.

3. Kann der Betroffene die Einzelentscheidung einsehen und anfechten?

Wenn keine Antwort kommt, haben Sie ab August 2026 ein Compliance-Problem. Art. 86 EU AI Act: Recht auf Erklärung. Nicht optional.^[10]

Gosigns Ansatz

Gosigns Decision Layer ist eine Implementierung dieser Architektur. Er zerlegt Prozesse in Entscheidungsschritte. Definiert für jeden: Mensch, Regelwerk oder KI. Regelwerke sind versioniert. Entscheidungen sind auditierbar. Ergebnisse sind anfechtbar.

48 HR-Agenten und 49 Finance-Agenten, jeder mit Micro-Decision-Tabelle. Kein Fine-Tuning. Kein Lock-in. Kein Nachtraining bei Gesetzesänderungen.

Quellenangaben

Better Bill GPT, Whitehouse et al. (April 2025). Legal Invoice Review: LLM erreicht 92% Accuracy bei Prüfung von Anwaltshonoraren gegen Billing Guidelines. Peer-reviewed.
Better Bill GPT, Whitehouse et al. (April 2025). F-Score bei Einzelposition-Klassifikation: LLM 81% vs. beste menschliche Gruppe 43%.
Better Bill GPT, Whitehouse et al. (April 2025). Bearbeitungszeit pro Rechnung: LLM 3,6 Sekunden vs. erfahrene Juristen 194 bis 316 Sekunden.
Better Bill GPT, Whitehouse et al. (April 2025). Kostenreduktion bei Legal Invoice Review: 99,97% ($4,27 vs. <$0,01 pro Rechnung).
Kumar Gauraw (März 2026). "Die meisten greifen zu früh zum Fine-Tuning."
Chauhan et al., Journal of Information Systems Engineering (2025). Break-Even Fine-Tuning vs. Prompting: ~35.000 Queries pro Monat.
MIT/Stanford, Choi & Xie (August 2025). AI reduziert den Monatsabschluss um durchschnittlich 7,5 Tage.
MIT/Stanford, Choi & Xie (August 2025). 62% der Buchhalter äußern Bedenken über AI-Fehler in Finanzprozessen.
Gartner (Juni 2025). Prognose: Über 40% der Agentic-AI-Projekte scheitern bis 2027.
EU AI Act (VO 2024/1689), Crowell & Moring (Februar 2026). Hochrisiko-Pflichten ab August 2026: Art. 13 (Transparenz), Art. 14 (menschliche Aufsicht), Art. 86 (Recht auf Erklärung). Annex III(4): Recruiting als Hochrisiko-System.
IBM (2024). RAG reduziert faktische Fehler in LLM-Ausgaben um bis zu 50%.

Bert Gogolin

Geschäftsführer, Gosign

AI Governance Briefing

Enterprise AI, Regulierung und Infrastruktur - einmal im Monat, direkt von mir.