Was ist RAG (Retrieval Augmented Generation)?

RAG ist ein Verfahren, mit dem ein KI-Modell Fragen auf Basis Ihrer Unternehmensdokumente beantwortet, ohne mit diesen Dokumenten trainiert zu werden. Die Dokumente werden indexiert und relevante Abschnitte werden dem Modell bei jeder Anfrage übergeben.

Wann RAG, wann Fine-Tuning?

RAG für 90% aller Enterprise-Anwendungsfälle: große Wissensbasen, häufig aktualisierte Dokumente. Fine-Tuning nur wenn das Modell eine völlig neue Fachsprache lernen muss oder ein sehr spezifisches Antwortformat erforderlich ist.

Wie funktioniert PII-Anonymisierung bei KI?

Personenbezogene Daten werden vor der Übergabe an das KI-Modell automatisch pseudonymisiert. Das Modell sieht zu keinem Zeitpunkt Klarnamen, Gehälter oder andere sensible Daten. Im Ergebnis werden die Platzhalter wieder durch Originaldaten ersetzt.

Kann RAG auch mit PDFs und gescannten Dokumenten arbeiten?

Ja. Moderne RAG-Pipelines unterstützen PDF, DOCX, HTML und über OCR auch gescannte Dokumente. Die Qualität der Ergebnisse hängt von der Qualität der Indexierung ab.

RAG & Document Intelligence: Wie KI Ihre Dokumente versteht

Die zentrale Frage: Kann die KI unsere eigenen Dokumente verstehen?

„Können wir die KI auf unsere eigenen Dokumente antworten lassen?” Diese Frage stellen Fachbereiche in nahezu jedem Unternehmen. Die Antwort ist ja, mit RAG (Retrieval Augmented Generation). Das Prinzip: Ihre Dokumente bleiben in Ihrer Infrastruktur. Das Sprachmodell wird nicht mit Ihren Daten trainiert. Stattdessen werden relevante Dokumentenabschnitte dem Modell bei jeder Anfrage als Kontext übergeben. Das Modell antwortet auf Basis dieser Abschnitte, mit Quellenangabe.

Kein Datenabfluss an Dritte. Kein Nachtrainieren. Kein Kontrollverlust. Und trotzdem Antworten in natürlicher Sprache, die direkt auf Ihrem Unternehmenswissen basieren.

RAG ist heute der Standard-Ansatz, um Sprachmodelle mit unternehmensspezifischem Wissen zu verbinden. Dieser Artikel erklärt, wie RAG funktioniert, wann es die richtige Wahl ist, und warum Document Intelligence weit über eine bessere Suchfunktion hinausgeht, einschließlich PII-Anonymisierung, Vertragsschwärzung und Signaturerkennung.

IDC (2025) schätzt, dass 90 % aller neuen Unternehmensdaten unstrukturiert sind - Dokumente, E-Mails, Verträge, Besprechungsnotizen. RAG ist das Standardverfahren, um diese Daten KI-zugänglich zu machen, ohne das Modell neu zu trainieren.

Auf einen Blick - RAG & Document Intelligence

RAG verbindet Sprachmodelle mit Ihren Unternehmensdokumenten - ohne Training, ohne Datenabfluss. Dokumente bleiben in Ihrer Infrastruktur.
Für 90 % der Enterprise-Anwendungsfälle schlägt RAG Fine-Tuning: geringere Kosten, sofortige Aktualisierung per Re-Indexierung, integrierte Quellenangaben.
Document Intelligence geht über Suche hinaus: PII-Anonymisierung, Vertragsschwärzung und Signaturerkennung sind produktionsreife Funktionen.
Indexierungsqualität bestimmt Antwortqualität. Chunk-Strategie, Metadaten-Anreicherung und Zugriffssteuerung sind nicht verhandelbar.
RAG integriert sich in das Enterprise-AI-Portal, sodass jede Abteilung nur auf ihre autorisierte Wissensbasis zugreift.

Wie RAG funktioniert

RAG besteht aus zwei Phasen: der Indexierung Ihrer Dokumente und der Beantwortung von Anfragen. Der Ablauf lässt sich in einem Flussdiagramm darstellen:

Dokumente → Chunking → Embedding → Vektordatenbank
│
Nutzer-Anfrage → Query Embedding → Ähnlichkeitssuche
│
Relevante Abschnitte + Anfrage → LLM → Antwort mit Quellenangabe

Phase 1: Indexierung. Ihre Dokumente, PDFs, Word-Dateien, HTML-Seiten, gescannte Belege, werden in sinnvolle Abschnitte zerlegt (Chunking). Jeder Abschnitt wird durch ein Embedding-Modell in einen mathematischen Vektor umgewandelt. Diese Vektoren werden in einer Vektordatenbank gespeichert. Der Vektor repräsentiert die Bedeutung des Abschnitts, nicht den Wortlaut. „Regelung zur Telearbeit” und „Homeoffice-Vereinbarung” liegen im Vektorraum nahe beieinander, obwohl sie unterschiedliche Wörter verwenden.

Phase 2: Anfrage. Wenn ein Nutzer eine Frage stellt, wird diese ebenfalls in einen Vektor umgewandelt. Die Vektordatenbank findet die Abschnitte, die der Frage semantisch am nächsten liegen, nicht per Stichwortsuche, sondern per Ähnlichkeitsberechnung. Diese relevanten Abschnitte werden zusammen mit der ursprünglichen Frage an das Sprachmodell übergeben. Das Modell generiert eine Antwort auf Basis dieser konkreten Quellen.

Das Ergebnis: Eine Antwort in natürlicher Sprache, die auf Ihren Dokumenten basiert, mit Verweis auf die Quellstellen, aus denen die Information stammt.

Entscheidend ist die Qualität der Indexierung. Zu große Chunks verwässern die Relevanz. Zu kleine Chunks verlieren den Kontext. Die Chunk-Strategie, Größe, Überlappung, Metadaten-Anreicherung, bestimmt maßgeblich die Antwortqualität. Eine gute RAG-Pipeline ist nicht die Technologie selbst, sondern deren Konfiguration auf Ihre spezifische Dokumentenlandschaft.

RAG vs. Fine-Tuning vs. Prompting

RAG ist nicht der einzige Weg, ein Sprachmodell mit Fachwissen zu versehen. Es gibt drei grundlegende Ansätze, die sich in Aufwand, Kosten und Eignung unterscheiden:

Ansatz	Was passiert	Wann sinnvoll	Kosten	Aktualität
Prompting	Kontext direkt im Prompt	Kleine Datenmengen	Gering	Sofort
RAG	Relevante Docs automatisch gefunden	Große Wissensbasen	Mittel	Re-Indexierung
Fine-Tuning	Modell nachtrainiert	Spezialsprache/Domäne	Hoch	Nur durch Re-Training

Prompting funktioniert, wenn der relevante Kontext in das Kontextfenster des Modells passt, typischerweise einige Dutzend Seiten. Für eine einzelne Betriebsvereinbarung ist das ausreichend. Für eine Wissensdatenbank mit Hunderten von Dokumenten nicht.

RAG skaliert auf große Dokumentenbestände. Die Vektordatenbank kann Hunderttausende von Abschnitten enthalten. Bei jeder Anfrage werden nur die relevanten Abschnitte gefunden und dem Modell übergeben. Die Dokumente können jederzeit aktualisiert werden, eine Re-Indexierung genügt. Das Modell muss nicht neu trainiert werden.

Fine-Tuning verändert die Gewichte des Modells selbst. Das ist sinnvoll, wenn das Modell eine völlig neue Fachsprache lernen muss, etwa medizinische Terminologie oder eine proprietäre Nomenklatur, oder wenn ein sehr spezifisches Antwortformat erforderlich ist. Fine-Tuning ist aufwendig, teuer und erfordert bei jeder Aktualisierung ein erneutes Training.

Für 90 % aller Enterprise-Anwendungsfälle ist RAG der richtige Ansatz. Die Kombination aus großen Wissensbasen, häufiger Aktualisierung und dem Bedarf an Quellenangaben macht RAG zum Standard für Unternehmenswissen.

Document Intelligence: mehr als Suche

RAG beantwortet Fragen auf Basis von Dokumenten. Document Intelligence geht weiter: Sie umfasst alle Verfahren, mit denen KI Dokumente nicht nur liest, sondern versteht, klassifiziert und verarbeitet, einschließlich des Schutzes sensibler Informationen.

Die drei wichtigsten Anwendungsfelder im Enterprise-Kontext: PII-Anonymisierung, Vertragsschwärzung und Signaturerkennung.

PII-Anonymisierung: Roundtrip-Pseudonymisierung

Personenbezogene Daten (PII, Personally Identifiable Information) dürfen in vielen Anwendungsfällen nicht an ein Sprachmodell übergeben werden. Gehälter, Klarnamen, Personalnummern, Gesundheitsdaten. Die DSGVO und interne Datenschutzrichtlinien setzen klare Grenzen.

Die Lösung ist Roundtrip-Pseudonymisierung. Ein konkretes Beispiel:

Originaldokument: „Max Müller, Abteilung Finanzen, Gehalt 85.000 Euro, tritt der Betriebsvereinbarung zur flexiblen Arbeitszeit bei.”

Nach Pseudonymisierung (Input an das Modell): „Person_A, Abteilung_X, Gehalt_Y, tritt der Betriebsvereinbarung zur flexiblen Arbeitszeit bei.”

Das Sprachmodell verarbeitet die Anfrage mit den pseudonymisierten Daten. Es sieht zu keinem Zeitpunkt den Klarnamen, die Abteilung oder das Gehalt.

Nach Re-Identifizierung (Output an den Nutzer): Die Platzhalter werden im Ergebnis wieder durch die Originaldaten ersetzt. Der Nutzer sieht die vollständige Antwort. Das Modell hat sie nie gesehen.

Dieser Roundtrip geschieht automatisch. Für den Nutzer ist der Vorgang transparent. Für das Modell sind die Daten zu keinem Zeitpunkt zugänglich. Für die Infrastruktur bedeutet das: Die Pseudonymisierungs-Schicht sitzt zwischen Nutzer und Modell und ist technisch erzwungen, nicht optional.

PII-Anonymisierung ist besonders relevant für HR-Anwendungen, in denen Personalakten, Gehaltsabrechnungen oder Beurteilungen KI-gestützt verarbeitet werden sollen. Ohne Anonymisierung sind solche Anwendungsfälle in der EU nicht DSGVO-konform umsetzbar.

Vertragsschwärzung (Redaction)

Vertragsschwärzung geht über Pseudonymisierung hinaus. Während Pseudonymisierung Daten ersetzt und am Ende wieder einblendet, entfernt Redaction Inhalte physisch aus dem Dokument, unwiderruflich für den jeweiligen Empfänger.

Der Anwendungsfall: Unterschiedliche Abteilungen benötigen unterschiedliche Sichten auf denselben Vertrag. Die Rechtsabteilung sieht den vollständigen Vertrag. Der Einkauf sieht eine Version ohne Haftungsklauseln. Die Geschäftsführung sieht eine Zusammenfassung ohne operative Details.

Vertragsschwärzung funktioniert regelbasiert. Für jede Dokumentenkategorie und jede Empfängergruppe ist definiert, welche Abschnitte sichtbar sind und welche geschwärzt werden. Die Regeln werden im Decision Layer konfiguriert und versioniert, nicht manuell angewendet.

Das Ergebnis: Jede Rolle sieht genau die Information, die für sie relevant und freigegeben ist. Keine manuelle Schwärzung mit Edding. Keine vergessenen Passagen. Keine Versionen, die versehentlich vollständig weitergeleitet werden.

Signaturerkennung

Vertragsarchive in Unternehmen umfassen häufig Tausende von Dokumenten. Die Frage, ob ein bestimmter Vertrag vollständig unterschrieben ist, erfordert heute oft manuelles Durchblättern. Bei Hunderten von Verträgen ist das nicht praktikabel.

Document Intelligence löst dieses Problem durch automatisierte Signaturerkennung. Das System prüft gescannte Verträge auf das Vorhandensein von Unterschriften an den vorgesehenen Stellen. Fehlende Signaturen werden automatisch markiert. Das Ergebnis: eine Übersicht aller Verträge im Archiv, die noch nicht vollständig gezeichnet sind, in Minuten statt Wochen.

Der Anwendungsfall geht über die reine Erkennung hinaus. In Kombination mit einer RAG-Pipeline kann das System auch Fragen beantworten wie: „Welche Rahmenverträge mit einer Laufzeit über 3 Jahre wurden im letzten Quartal verlängert, ohne dass eine Unterschrift der Geschäftsführung vorliegt?”

Praxis-Beispiel: Der Betriebsvereinbarungs-Assistent

Ein konkretes Szenario aus der HR-Praxis. Eine Personalabteilung eines mittelständischen Unternehmens verwaltet über 100 aktive Betriebsvereinbarungen: Arbeitszeit, Homeoffice, Dienstreisen, Weiterbildung, Altersvorsorge, betriebliches Eingliederungsmanagement, Datenschutz, IT-Nutzung, und mehr. Jede Vereinbarung hat Nachträge, Anlagen, Verweise auf andere Vereinbarungen.

Wenn ein Sachbearbeiter die Frage beantworten muss: „Welche Regelung gilt für Homeoffice-Tage bei Teilzeitkräften in der Produktion?”, dann bedeutet das heute: die richtige Betriebsvereinbarung finden, die relevante Passage lokalisieren, prüfen ob ein Nachtrag existiert, gegenprüfen mit dem Tarifvertrag, Sonderregelungen für den Standort berücksichtigen. Ergebnis: 30 bis 45 Minuten Recherchezeit. Bei Unsicherheit Rückfrage an die Rechtsabteilung. Nochmals Tage Wartezeit.

Mit einem RAG-basierten Betriebsvereinbarungs-Assistenten: Alle Betriebsvereinbarungen werden indexiert, einschließlich Nachträgen, Anlagen und Querverweisen. Der Sachbearbeiter stellt die Frage in natürlicher Sprache. Das System findet die relevanten Passagen aus den richtigen Dokumenten, berücksichtigt den Nachtrag vom März 2025, verweist auf die Sonderregelung für Produktionsmitarbeitende und liefert die Antwort in 10 Sekunden. Mit Quellenangabe. Mit Regelversion.

Das ist kein theoretisches Szenario. Es ist der Standardanwendungsfall, mit dem Unternehmen ihre erste RAG-Pipeline aufsetzen. Der Aufwand ist überschaubar: Dokumente bereitstellen, Chunk-Strategie konfigurieren, Zugriffsrechte definieren, testen. Die Infrastruktur, Vektordatenbank, Embedding-Modell, Sprachmodell, Retrieval-Pipeline, wird einmal aufgebaut und steht dann für weitere Anwendungsfälle zur Verfügung.

Qualitätssicherung: Warum RAG-Ergebnisse nur so gut sind wie die Indexierung

RAG ist kein Selbstläufer. Die häufigsten Fehlerquellen in der Praxis:

Schlechte Chunk-Strategie. Zu große Chunks (ganze Kapitel) liefern zu viel irrelevanten Kontext. Zu kleine Chunks (einzelne Absätze) verlieren den Zusammenhang. Die richtige Chunk-Größe hängt von der Dokumentenart ab, eine technische Spezifikation erfordert andere Chunks als eine Betriebsvereinbarung.

Fehlende Metadaten. Ohne Metadaten (Dokumenttyp, Gültigkeitsdatum, Version, Geltungsbereich) kann die Retrieval-Pipeline nicht zwischen einer aktuellen und einer veralteten Regelung unterscheiden. Metadaten-Anreicherung beim Indexieren ist keine Kür, sondern Pflicht.

Keine Zugriffssteuerung. In einem Enterprise-Umfeld darf nicht jeder Nutzer auf alle Dokumente zugreifen. Die RAG-Pipeline muss die bestehende Berechtigungsstruktur abbilden: HR-Dokumente nur für HR, Finanzdaten nur für Finance, Vorstandskommunikation nur für berechtigte Personen.

Keine Quellenprüfung. RAG liefert Quellenangaben. Aber sind diese korrekt? Eine Qualitätssicherung, stichprobenartige Prüfung der Quellenverweise, Feedback-Mechanismus für Nutzer, regelmäßige Evaluierung, ist notwendig, um Halluzinationen zu erkennen und die Pipeline zu verbessern.

Diese Qualitätssicherung ist Teil des laufenden Betriebs, nicht ein einmaliges Setup. Dokumente ändern sich. Neue kommen hinzu. Alte werden ungültig. Die RAG-Pipeline muss mitwachsen, durch regelmäßige Re-Indexierung, Metadaten-Updates und Nutzerfeedback.

Integration in das Enterprise-AI-Portal

RAG ist kein isoliertes System. In einer durchdachten Architektur ist die RAG-Pipeline in das Enterprise-AI-Portal integriert. Mitarbeitende stellen Fragen über eine einheitliche Oberfläche, dieselbe, über die sie auch mit KI-Agenten interagieren.

Das Portal steuert die Zugriffsrechte: Wer darf welche Wissensbasis abfragen? HR-Mitarbeitende sehen den Betriebsvereinbarungs-Assistenten. Die Rechtsabteilung sieht den Vertrags-Assistenten. Der Einkauf sieht den Lieferantenrichtlinien-Assistenten. Jeder sieht nur das, wofür er berechtigt ist.

Die Kombination aus RAG und KI-Agenten eröffnet erweiterte Möglichkeiten: Ein Agent kann nicht nur eine Frage beantworten, sondern auf Basis der RAG-Ergebnisse eine Handlung auslösen, etwa eine Fristwarnung erzeugen, wenn ein Vertrag ausläuft, oder eine Checkliste generieren, wenn eine neue Betriebsvereinbarung in Kraft tritt.

📘 Enterprise AI-Infrastruktur Blueprint 2026 - Artikel-Serie

← Vorheriger	Übersicht	Nächster →
Enterprise-AI-Portal: Vier Open-Source-Interfaces im Vergleich	Zur Übersicht	Von Chatbots zu AI-Agenten: MCP, A2A und Multi-Agent-Systeme

Alle Artikel dieser Serie: Enterprise AI-Infrastruktur Blueprint 2026

Sie wollen Ihr Unternehmenswissen KI-zugänglich machen? Gosign baut RAG-Pipelines und Document-Intelligence-Lösungen für Enterprise-Kunden, modell-agnostisch, mit PII-Anonymisierung und vollständiger Zugriffssteuerung.

Termin vereinbaren. 30 Minuten, in denen wir klären, welche Dokumente zuerst KI-zugänglich werden sollten.

Bert Gogolin

Geschäftsführer, Gosign

AI Governance Briefing

Enterprise AI, Regulierung und Infrastruktur - einmal im Monat, direkt von mir.