Document Intelligence
PII-Anonymisierung. Vertragsschwärzung. Signaturerkennung.
Dokumente DSGVO-konform mit KI verarbeiten - ohne personenbezogene Daten preiszugeben. Roundtrip-Pseudonymisierung für LLM-Input, regelbasierte Schwärzung für Weitergabe, automatische Signaturerkennung für Vertragsmanagement.
Auswahl aus über 5.000 Projekten in 25 Jahren Softwareentwicklung
Das Problem: Personenbezogene Daten in jedem Dokument
Unternehmen wollen Dokumente mit KI verarbeiten - Verträge analysieren, Belege klassifizieren, Policys abfragen. Aber jedes Dokument enthält personenbezogene Daten: Namen, Gehälter, Sozialversicherungsnummern, Adressen, Bankverbindungen, Unterschriften.
An ein Sprachmodell - auch an ein selbst gehostetes - dürfen diese Daten nicht ungeschützt. Die DSGVO verlangt Datensparsamkeit. Betriebsvereinbarungen schränken die Verarbeitung personenbezogener Mitarbeiterdaten ein. Geschäftsgeheimnisse in Verträgen dürfen Dritte nicht sehen.
Die bisherigen Lösungen sind unbefriedigend: Manuelle Schwärzung in Adobe Acrobat - zeitaufwendig, fehleranfällig, und oft nur optisch (der Text bleibt unter dem schwarzen Balken erhalten). Oder Verzicht auf KI-Verarbeitung sensibler Dokumente - was den größten Teil des Produktivitätsgewinns zunichte macht.
Drei Capabilities
PII-Anonymisierung für LLM-Input
Roundtrip-Pseudonymisierung: Personenbezogene Daten werden vor dem LLM-Input durch konsistente Pseudonyme ersetzt. Der Output wird re-anonymisiert - die echten Daten erscheinen nur im Ergebnis, nie im Modell. Die Zuordnungstabelle verlässt nie den Pre-Processing Layer.
DetailsVertragsschwärzung
Regelbasierte Schwärzung für unterschiedliche Empfänger. Derselbe Vertrag wird für Betriebsrat, Due Diligence oder externe Berater unterschiedlich geschwärzt - gesteuert durch versionierte Schwärzungsregeln im Decision Layer. Echte Schwärzung, nicht nur optisch.
DetailsSignaturerkennung
Automatische Erkennung von Unterschriftenfeldern und vorhandenen Unterschriften in Dokumenten. Massenprüfung von Vertragsarchiven, Onboarding-Qualitätsprüfung, Audit-Vorbereitung. Anomalien werden an Menschen eskaliert - nie autonom akzeptiert.
DetailsPII-Anonymisierung: Roundtrip-Pseudonymisierung für LLM-Input
Die meisten PII-Tools am Markt sind Einweg-Schwärzung - sie entfernen Daten. Für die Verarbeitung mit Sprachmodellen reicht das nicht. Wenn ein Agent einen Vertrag analysieren soll, braucht er den Kontext: "Mitarbeiter X hat Gehalt Y an Standort Z." Ohne diesen Kontext kann das Modell keine sinnvolle Bewertung abgeben.
Die Gosign-Lösung ist Roundtrip-Pseudonymisierung: Daten werden vor dem Modell pseudonymisiert, vom Modell verarbeitet, und im Ergebnis re-anonymisiert. Das Modell sieht nur Pseudonyme. Das Ergebnis enthält die echten Daten.
┌─────────────┐ ┌──────────────────┐ ┌─────────────┐ ┌──────────────────┐ ┌─────────────┐
│ Dokument │ │ PII-Erkennung │ │ Pseudonym- │ │ Sprachmodell │ │ Re-Mapping │
│ (Original) │────▶│ & Klassifi- │────▶│ isierung │────▶│ verarbeitet │────▶│ Pseudonyme │
│ │ │ zierung │ │ │ │ nur Pseudonyme │ │ → Echtdaten│
└─────────────┘ └──────────────────┘ └──────────────┘ └──────────────────┘ └─────────────┘
│ │ │
▼ ▼ ▼
┌──────────────┐ ┌──────────────┐ ┌──────────────┐
│ Decision │ │ Mapping- │ │ Ergebnis │
│ Layer: │ │ Tabelle │◀─────────────────────────────│ mit echten │
│ Was wird │ │ (bleibt │ Rück-Zuordnung │ Daten │
│ anonymisiert│ │ lokal) │ └──────────────┘
└──────────────┘ └──────────────┘
Entscheidungsschritte im PII-Prozess
| Micro-Entscheidung | Wer entscheidet | Warum |
|---|---|---|
| PII-Kategorien definieren | Mensch + Regelwerk | DSGVO-Vorgaben, Betriebsvereinbarung, kundenspezifisch |
| PII im Dokument erkennen | KI (NER + Pattern) | Named Entity Recognition + regelbasierte Muster |
| Falsch-Positive prüfen | KI, bei Unsicherheit Mensch | Confidence Routing - "Müller" als Name oder Firmenname? |
| Pseudonyme zuweisen | Automatisch | Konsistente Zuordnung, "Person_A" statt "Max Müller" |
| Pseudonymisiertes Dokument ans Modell | Automatisch | Keine Entscheidung, reine Weiterleitung |
| Output re-anonymisieren | Automatisch | Mapping-Tabelle rückwärts anwenden |
| Audit: Was wurde anonymisiert | Automatisch | DSGVO-Nachweis im Audit Trail |
Die Zuordnungstabelle (Pseudonym → Echtdaten) verlässt nie den Pre-Processing Layer. Sie wird nach Abschluss der Verarbeitung gelöscht - oder für einen definierten Zeitraum aufbewahrt, je nach Konfiguration. Das Sprachmodell sieht zu keinem Zeitpunkt personenbezogene Daten.
Vertragsschwärzung: Regelbasiert, empfängerabhängig, physisch
Verträge müssen regelmäßig in anonymisierter Form weitergegeben werden - an Wirtschaftsprüfer, an potenzielle Käufer bei Due Diligence, an den Betriebsrat, an externe Berater. Heute macht das jemand manuell. Das dauert Stunden pro Vertrag, ist fehleranfällig, und die Schwärzung ist oft nur optisch: Der Text bleibt unter dem schwarzen Balken erhalten. Ein häufig unterschätztes Datenleck.
Die Gosign-Lösung: Der Document Agent erkennt Vertragsstruktur - Parteien, Beträge, Laufzeiten, Klauseln, Unterschriften. Der Decision Layer definiert empfängerabhängig, was geschwärzt wird:
| Vertragselement | Betriebsrat | Due Diligence | Externer Berater | Wirtschaftsprüfer |
|---|---|---|---|---|
| Vertragsparteien (Namen) | ✓ Sichtbar | ✗ Geschwärzt | ✗ Geschwärzt | ✓ Sichtbar |
| Vertragswerte / Beträge | ✓ Sichtbar | ✓ Sichtbar | ✗ Geschwärzt | ✓ Sichtbar |
| Gehälter / Vergütung | ✓ Sichtbar | Aggregiert | ✗ Geschwärzt | ✓ Sichtbar |
| Vertragsklauseln | ✓ Sichtbar | ✓ Sichtbar | Nur Klauseltypen | ✓ Sichtbar |
| Geschäftsgeheimnisse | ✗ Geschwärzt | ✓ Sichtbar | ✗ Geschwärzt | ✓ Sichtbar |
| Unterschriften | ✗ Geschwärzt | ✗ Geschwärzt | ✗ Geschwärzt | ✓ Sichtbar |
Die Schwärzungsregeln sind versioniert im Decision Layer. Wenn sich die Anforderungen ändern - neuer Empfängerkreis, andere Betriebsvereinbarung, geänderte Compliance-Regel - entsteht eine neue Regelversion. Die alte bleibt nachvollziehbar.
Physische Schwärzung: Das PDF wird neu gerendert. Die Originaldaten sind physisch nicht mehr im Dokument enthalten. Kein Copy-Paste unter schwarzen Balken, kein PDF-Editing zum Freilegen. Das ist keine Kosmetik - es ist kryptographisch sauber.
Signaturerkennung: Unterschriften finden, prüfen, dokumentieren
Vertragsmanagement, Audit-Vorbereitung, Compliance-Prüfung - überall muss regelmäßig geprüft werden: Ist das Dokument unterschrieben? Wo ist die Unterschrift? Fehlt eine Gegenzeichnung? Bei 5.000 Verträgen im Archiv ist das manuell nicht leistbar.
Signature Detection - Unterschriften finden
Der Document Agent erkennt Unterschriftenfelder und vorhandene Unterschriften in gescannten Dokumenten und PDFs. Computer Vision, kein Sprachmodell - spezialisierte ML-Modelle für Bildanalyse. Der Output ist strukturiert: Seite, Position, Konfidenz dass eine Unterschrift vorhanden ist.
Massenprüfung Vertragsarchiv: "In welchen der 5.000 Verträge fehlt die Gegenzeichnung?" - Ergebnis in Minuten statt Wochen.
Onboarding-Qualitätsprüfung: "Sind alle Pflichtdokumente des neuen Mitarbeiters unterschrieben?" - Automatische Checkliste, fehlende Unterschriften werden als Workflow-Aufgabe eskaliert.
Audit-Vorbereitung: "Zeige alle Dokumente ohne Unterschrift im Zeitraum Q3 2025." - Strukturierte Exportliste für den Prüfer.
┌─────────────┐ ┌──────────────────┐ ┌──────────────────┐
│ Dokument │ │ Signatur- │ │ Vergleich mit │
│ mit Unter- │────▶│ erkennung │────▶│ Referenz- │
│ schrift │ │ (Position, │ │ unterschrift │
│ │ │ Konfidenz) │ │ │
└─────────────┘ └──────────────────┘ └──────────────────┘
│
┌───────────┼───────────┐
▼ ▼ ▼
┌────────────┐ ┌────────┐ ┌────────────┐
│ Hohe │ │Mittlere│ │ Niedrige │
│ Überein- │ │Überein-│ │ Überein- │
│ stimmung │ │stimmung│ │ stimmung │
└────────────┘ └────────┘ └────────────┘
│ │ │
▼ ▼ ▼
Automatisch Eskalation Blockierung
akzeptiert, an Sach- Menschliche
dokumentiert bearbeiter Prüfung
mit Ver- Pflicht
gleichs-
ansicht
Wichtig: Der Signaturvergleich ist ein Anomalie-Detektor, kein Fälschungsdetektor. Unterschriften variieren natürlich - Tagesform, Stift, Untergrund. Das System erkennt Auffälligkeiten und eskaliert sie an einen Menschen. Es behauptet nie "diese Unterschrift ist gefälscht" oder "diese Unterschrift ist echt". Das wäre unseriös.
Der Decision Layer: Wer entscheidet was anonymisiert, geschwärzt oder eskaliert wird?
Der Decision Layer zerlegt jeden Dokumentenprozess in einzelne Entscheidungsschritte. Für jeden Schritt ist definiert: Mensch, Regelwerk oder KI.
| Prozess | Micro-Entscheidung | Wer entscheidet | Warum |
|---|---|---|---|
| PII | Welche Datenfelder sind PII? | Regelwerk | DSGVO Art. 4, Betriebsvereinbarung |
| PII | Ist "Müller" ein Name oder eine Firma? | KI, bei <80% Konfidenz: Mensch | NER-Ambiguität - Falsch-Positive vermeiden |
| PII | Pseudonymisierungsmethode wählen | Regelwerk | Konsistente Pseudonyme vs. Zufallswerte |
| Schwärzung | Welcher Empfängerkreis? | Mensch | Fachliche Entscheidung, nicht automatisierbar |
| Schwärzung | Welche Felder werden geschwärzt? | Regelwerk | Empfängerabhängige Schwärzungsmatrix |
| Schwärzung | Unbekannter Klauseltyp erkannt | Mensch | Neue Klauseltypen müssen klassifiziert werden |
| Signatur | Unterschrift vorhanden? | KI | Computer Vision mit Konfidenzwert |
| Signatur | Stimmt Signatur mit Referenz überein? | KI + Mensch bei Anomalie | Hohe Übereinstimmung: akzeptiert. Anomalie: eskaliert |
| Signatur | Keine Referenz vorhanden | Mensch | Neue Referenzunterschrift muss erfasst werden |
| Alle | Audit Trail dokumentieren | Automatisch | Jede Entscheidung unveränderlich protokolliert |
Integration
Document Intelligence ist eine Capability des bestehenden Document Agent - keine separate Software. Die Integration erfolgt über dieselben Schnittstellen:
- SAP DMS, SAP ArchiveLink - Verträge und Belege aus SAP-Archiven
- SharePoint, OneDrive - Dokumentenmanagement via Microsoft Graph
- E-Mail-Eingänge (IMAP/Exchange) - Anhänge automatisch verarbeiten
- Dateisystem-Watcher - Lokale Verzeichnisse überwachen
- REST API - Für kundenspezifische DMS-Systeme
Die Document-Intelligence-Capabilities werden pro Mandant konfiguriert: Welche PII-Kategorien erkannt werden, welche Schwärzungsregeln gelten, welche Referenz-Signaturen hinterlegt sind. Alles versioniert, alles im Decision Layer.
Business Impact
DSGVO-konforme LLM-Verarbeitung: Dokumente mit personenbezogenen Daten können erstmals sicher mit Sprachmodellen verarbeitet werden - ohne Datenschutzrisiko.
Vertragsschwärzung in Minuten statt Stunden: Regelbasiert, empfängerabhängig, physisch sicher. Ein Vertrag, der manuell 2 Stunden dauert, wird in Sekunden verarbeitet.
Signaturlücken proaktiv erkennen: Fehlende Unterschriften werden gefunden bevor der Prüfer fragt - nicht danach.
Audit-Nachweis für Datenschutz: Der Audit Trail dokumentiert jede Anonymisierung, jede Schwärzung, jede Signaturprüfung. Bei einer DSGVO-Anfrage oder Betriebsprüfung ist nachweisbar, welche Daten wann wie verarbeitet wurden.
Kein neues Tool: Document Intelligence ist Teil der bestehenden Agent-Architektur. Kein zusätzlicher Vendor, keine zusätzliche Lizenz, keine zusätzliche Schulung.
Vertiefung im Agent Briefing
Unsere Fachartikel-Serie für Entscheider, die AI Agents im Unternehmen einführen.
Häufige Fragen zu Document Intelligence
Was ist der Unterschied zwischen Anonymisierung und Pseudonymisierung?
Funktioniert die PII-Erkennung auch für gescannte Dokumente?
Ist die Vertragsschwärzung wirklich sicher?
Kann der Signaturvergleich Fälschungen erkennen?
Welche Dokumente sollen geschützt verarbeitet werden?
PII-Anonymisierung, Vertragsschwärzung oder Signaturerkennung - wir starten mit einem konkreten Dokumententyp.