Zum Inhalt springen

Document Intelligence

PII-Anonymisierung. Vertragsschwärzung. Signaturerkennung.

Dokumente DSGVO-konform mit KI verarbeiten – ohne personenbezogene Daten preiszugeben. Roundtrip-Pseudonymisierung für LLM-Input, regelbasierte Schwärzung für Weitergabe, automatische Signaturerkennung für Vertragsmanagement.

Das Problem: Personenbezogene Daten in jedem Dokument

Unternehmen wollen Dokumente mit KI verarbeiten – Verträge analysieren, Belege klassifizieren, Policys abfragen. Aber jedes Dokument enthält personenbezogene Daten: Namen, Gehälter, Sozialversicherungsnummern, Adressen, Bankverbindungen, Unterschriften.

An ein Sprachmodell – auch an ein selbst gehostetes – dürfen diese Daten nicht ungeschützt. Die DSGVO verlangt Datensparsamkeit. Betriebsvereinbarungen schränken die Verarbeitung personenbezogener Mitarbeiterdaten ein. Geschäftsgeheimnisse in Verträgen dürfen Dritte nicht sehen.

Die bisherigen Lösungen sind unbefriedigend: Manuelle Schwärzung in Adobe Acrobat – zeitaufwendig, fehleranfällig, und oft nur optisch (der Text bleibt unter dem schwarzen Balken erhalten). Oder Verzicht auf KI-Verarbeitung sensibler Dokumente – was den größten Teil des Produktivitätsgewinns zunichte macht.

Drei Capabilities

PII-Anonymisierung für LLM-Input

Roundtrip-Pseudonymisierung: Personenbezogene Daten werden vor dem LLM-Input durch konsistente Pseudonyme ersetzt. Der Output wird re-anonymisiert – die echten Daten erscheinen nur im Ergebnis, nie im Modell. Die Zuordnungstabelle verlässt nie den Pre-Processing Layer.

Details

Vertragsschwärzung

Regelbasierte Schwärzung für unterschiedliche Empfänger. Derselbe Vertrag wird für Betriebsrat, Due Diligence oder externe Berater unterschiedlich geschwärzt – gesteuert durch versionierte Schwärzungsregeln im Decision Layer. Echte Schwärzung, nicht nur optisch.

Details

Signaturerkennung

Automatische Erkennung von Unterschriftenfeldern und vorhandenen Unterschriften in Dokumenten. Massenprüfung von Vertragsarchiven, Onboarding-Qualitätsprüfung, Audit-Vorbereitung. Anomalien werden an Menschen eskaliert – nie autonom akzeptiert.

Details

PII-Anonymisierung: Roundtrip-Pseudonymisierung für LLM-Input

Die meisten PII-Tools am Markt sind Einweg-Schwärzung – sie entfernen Daten. Für die Verarbeitung mit Sprachmodellen reicht das nicht. Wenn ein Agent einen Vertrag analysieren soll, braucht er den Kontext: "Mitarbeiter X hat Gehalt Y an Standort Z." Ohne diesen Kontext kann das Modell keine sinnvolle Bewertung abgeben.

Die Gosign-Lösung ist Roundtrip-Pseudonymisierung: Daten werden vor dem Modell pseudonymisiert, vom Modell verarbeitet, und im Ergebnis re-anonymisiert. Das Modell sieht nur Pseudonyme. Das Ergebnis enthält die echten Daten.

┌─────────────┐     ┌──────────────────┐     ┌─────────────┐     ┌──────────────────┐     ┌─────────────┐
│  Dokument   │     │  PII-Erkennung   │     │  Pseudonym-  │     │  Sprachmodell    │     │  Re-Mapping │
│  (Original) │────▶│  & Klassifi-     │────▶│  isierung    │────▶│  verarbeitet     │────▶│  Pseudonyme │
│             │     │  zierung         │     │              │     │  nur Pseudonyme  │     │  → Echtdaten│
└─────────────┘     └──────────────────┘     └──────────────┘     └──────────────────┘     └─────────────┘
                           │                        │                                            │
                           ▼                        ▼                                            ▼
                    ┌──────────────┐         ┌──────────────┐                              ┌──────────────┐
                    │  Decision    │         │  Mapping-    │                              │  Ergebnis    │
                    │  Layer:      │         │  Tabelle     │◀─────────────────────────────│  mit echten  │
                    │  Was wird    │         │  (bleibt     │   Rück-Zuordnung            │  Daten       │
                    │  anonymisiert│         │  lokal)      │                              └──────────────┘
                    └──────────────┘         └──────────────┘

Entscheidungsschritte im PII-Prozess

Micro-Entscheidung Wer entscheidet Warum
PII-Kategorien definierenMensch + RegelwerkDSGVO-Vorgaben, Betriebsvereinbarung, kundenspezifisch
PII im Dokument erkennenKI (NER + Pattern)Named Entity Recognition + regelbasierte Muster
Falsch-Positive prüfenKI, bei Unsicherheit MenschConfidence Routing – "Müller" als Name oder Firmenname?
Pseudonyme zuweisenAutomatischKonsistente Zuordnung, "Person_A" statt "Max Müller"
Pseudonymisiertes Dokument ans ModellAutomatischKeine Entscheidung, reine Weiterleitung
Output re-anonymisierenAutomatischMapping-Tabelle rückwärts anwenden
Audit: Was wurde anonymisiertAutomatischDSGVO-Nachweis im Audit Trail

Die Zuordnungstabelle (Pseudonym → Echtdaten) verlässt nie den Pre-Processing Layer. Sie wird nach Abschluss der Verarbeitung gelöscht – oder für einen definierten Zeitraum aufbewahrt, je nach Konfiguration. Das Sprachmodell sieht zu keinem Zeitpunkt personenbezogene Daten.

Vertragsschwärzung: Regelbasiert, empfängerabhängig, physisch

Verträge müssen regelmäßig in anonymisierter Form weitergegeben werden – an Wirtschaftsprüfer, an potenzielle Käufer bei Due Diligence, an den Betriebsrat, an externe Berater. Heute macht das jemand manuell. Das dauert Stunden pro Vertrag, ist fehleranfällig, und die Schwärzung ist oft nur optisch: Der Text bleibt unter dem schwarzen Balken erhalten. Ein häufig unterschätztes Datenleck.

Die Gosign-Lösung: Der Document Agent erkennt Vertragsstruktur – Parteien, Beträge, Laufzeiten, Klauseln, Unterschriften. Der Decision Layer definiert empfängerabhängig, was geschwärzt wird:

Vertragselement Betriebsrat Due Diligence Externer Berater Wirtschaftsprüfer
Vertragsparteien (Namen)✓ Sichtbar✗ Geschwärzt✗ Geschwärzt✓ Sichtbar
Vertragswerte / Beträge✓ Sichtbar✓ Sichtbar✗ Geschwärzt✓ Sichtbar
Gehälter / Vergütung✓ SichtbarAggregiert✗ Geschwärzt✓ Sichtbar
Vertragsklauseln✓ Sichtbar✓ SichtbarNur Klauseltypen✓ Sichtbar
Geschäftsgeheimnisse✗ Geschwärzt✓ Sichtbar✗ Geschwärzt✓ Sichtbar
Unterschriften✗ Geschwärzt✗ Geschwärzt✗ Geschwärzt✓ Sichtbar

Die Schwärzungsregeln sind versioniert im Decision Layer. Wenn sich die Anforderungen ändern – neuer Empfängerkreis, andere Betriebsvereinbarung, geänderte Compliance-Regel – entsteht eine neue Regelversion. Die alte bleibt nachvollziehbar.

Physische Schwärzung: Das PDF wird neu gerendert. Die Originaldaten sind physisch nicht mehr im Dokument enthalten. Kein Copy-Paste unter schwarzen Balken, kein PDF-Editing zum Freilegen. Das ist keine Kosmetik – es ist kryptographisch sauber.

Signaturerkennung: Unterschriften finden, prüfen, dokumentieren

Vertragsmanagement, Audit-Vorbereitung, Compliance-Prüfung – überall muss regelmäßig geprüft werden: Ist das Dokument unterschrieben? Wo ist die Unterschrift? Fehlt eine Gegenzeichnung? Bei 5.000 Verträgen im Archiv ist das manuell nicht leistbar.

Signature Detection – Unterschriften finden

Der Document Agent erkennt Unterschriftenfelder und vorhandene Unterschriften in gescannten Dokumenten und PDFs. Computer Vision, kein Sprachmodell – spezialisierte ML-Modelle für Bildanalyse. Der Output ist strukturiert: Seite, Position, Konfidenz dass eine Unterschrift vorhanden ist.

Massenprüfung Vertragsarchiv: "In welchen der 5.000 Verträge fehlt die Gegenzeichnung?" – Ergebnis in Minuten statt Wochen.

Onboarding-Qualitätsprüfung: "Sind alle Pflichtdokumente des neuen Mitarbeiters unterschrieben?" – Automatische Checkliste, fehlende Unterschriften werden als Workflow-Aufgabe eskaliert.

Audit-Vorbereitung: "Zeige alle Dokumente ohne Unterschrift im Zeitraum Q3 2025." – Strukturierte Exportliste für den Prüfer.

┌─────────────┐     ┌──────────────────┐     ┌──────────────────┐
│  Dokument   │     │  Signatur-       │     │  Vergleich mit   │
│  mit Unter- │────▶│  erkennung       │────▶│  Referenz-       │
│  schrift    │     │  (Position,      │     │  unterschrift    │
│             │     │   Konfidenz)     │     │                  │
└─────────────┘     └──────────────────┘     └──────────────────┘
                                                      │
                                          ┌───────────┼───────────┐
                                          ▼           ▼           ▼
                                   ┌────────────┐ ┌────────┐ ┌────────────┐
                                   │  Hohe      │ │Mittlere│ │  Niedrige  │
                                   │  Überein-  │ │Überein-│ │  Überein-  │
                                   │  stimmung  │ │stimmung│ │  stimmung  │
                                   └────────────┘ └────────┘ └────────────┘
                                        │              │           │
                                        ▼              ▼           ▼
                                   Automatisch    Eskalation   Blockierung
                                   akzeptiert,    an Sach-     Menschliche
                                   dokumentiert   bearbeiter   Prüfung
                                                  mit Ver-     Pflicht
                                                  gleichs-
                                                  ansicht

Wichtig: Der Signaturvergleich ist ein Anomalie-Detektor, kein Fälschungsdetektor. Unterschriften variieren natürlich – Tagesform, Stift, Untergrund. Das System erkennt Auffälligkeiten und eskaliert sie an einen Menschen. Es behauptet nie "diese Unterschrift ist gefälscht" oder "diese Unterschrift ist echt". Das wäre unseriös.

Der Decision Layer: Wer entscheidet was anonymisiert, geschwärzt oder eskaliert wird?

Der Decision Layer zerlegt jeden Dokumentenprozess in einzelne Entscheidungsschritte. Für jeden Schritt ist definiert: Mensch, Regelwerk oder KI.

Prozess Micro-Entscheidung Wer entscheidet Warum
PIIWelche Datenfelder sind PII?RegelwerkDSGVO Art. 4, Betriebsvereinbarung
PIIIst "Müller" ein Name oder eine Firma?KI, bei <80% Konfidenz: MenschNER-Ambiguität – Falsch-Positive vermeiden
PIIPseudonymisierungsmethode wählenRegelwerkKonsistente Pseudonyme vs. Zufallswerte
SchwärzungWelcher Empfängerkreis?MenschFachliche Entscheidung, nicht automatisierbar
SchwärzungWelche Felder werden geschwärzt?RegelwerkEmpfängerabhängige Schwärzungsmatrix
SchwärzungUnbekannter Klauseltyp erkanntMenschNeue Klauseltypen müssen klassifiziert werden
SignaturUnterschrift vorhanden?KIComputer Vision mit Konfidenzwert
SignaturStimmt Signatur mit Referenz überein?KI + Mensch bei AnomalieHohe Übereinstimmung: akzeptiert. Anomalie: eskaliert
SignaturKeine Referenz vorhandenMenschNeue Referenzunterschrift muss erfasst werden
AlleAudit Trail dokumentierenAutomatischJede Entscheidung unveränderlich protokolliert

Integration

Document Intelligence ist eine Capability des bestehenden Document Agent – keine separate Software. Die Integration erfolgt über dieselben Schnittstellen:

  • SAP DMS, SAP ArchiveLink – Verträge und Belege aus SAP-Archiven
  • SharePoint, OneDrive – Dokumentenmanagement via Microsoft Graph
  • E-Mail-Eingänge (IMAP/Exchange) – Anhänge automatisch verarbeiten
  • Dateisystem-Watcher – Lokale Verzeichnisse überwachen
  • REST API – Für kundenspezifische DMS-Systeme

Die Document-Intelligence-Capabilities werden pro Mandant konfiguriert: Welche PII-Kategorien erkannt werden, welche Schwärzungsregeln gelten, welche Referenz-Signaturen hinterlegt sind. Alles versioniert, alles im Decision Layer.

Business Impact

DSGVO-konforme LLM-Verarbeitung: Dokumente mit personenbezogenen Daten können erstmals sicher mit Sprachmodellen verarbeitet werden – ohne Datenschutzrisiko.

Vertragsschwärzung in Minuten statt Stunden: Regelbasiert, empfängerabhängig, physisch sicher. Ein Vertrag, der manuell 2 Stunden dauert, wird in Sekunden verarbeitet.

Signaturlücken proaktiv erkennen: Fehlende Unterschriften werden gefunden bevor der Prüfer fragt – nicht danach.

Audit-Nachweis für Datenschutz: Der Audit Trail dokumentiert jede Anonymisierung, jede Schwärzung, jede Signaturprüfung. Bei einer DSGVO-Anfrage oder Betriebsprüfung ist nachweisbar, welche Daten wann wie verarbeitet wurden.

Kein neues Tool: Document Intelligence ist Teil der bestehenden Agent-Architektur. Kein zusätzlicher Vendor, keine zusätzliche Lizenz, keine zusätzliche Schulung.

Häufige Fragen zu Document Intelligence

Was ist der Unterschied zwischen Anonymisierung und Pseudonymisierung?

Anonymisierung entfernt personenbezogene Daten unwiderruflich – die Zuordnung zur Person ist nicht mehr möglich. Pseudonymisierung ersetzt die Daten durch Pseudonyme, die Zuordnung bleibt über eine separate Tabelle möglich. Für LLM-Verarbeitung nutzen wir Pseudonymisierung mit anschließender Re-Anonymisierung: Das Modell sieht nur Pseudonyme, das Ergebnis enthält wieder die echten Daten.

Funktioniert die PII-Erkennung auch für gescannte Dokumente?

Ja. Gescannte Dokumente werden zuerst per OCR in maschinenlesbaren Text umgewandelt. Anschließend durchläuft der Text dieselbe PII-Erkennung wie digitale Dokumente. Die Erkennungsgenauigkeit hängt von der Scan-Qualität ab – bei Standardscans (300 DPI) liegt die OCR-Genauigkeit bei über 99%.

Ist die Vertragsschwärzung wirklich sicher?

Ja. Anders als bei manueller Schwärzung in PDF-Editoren wird das Dokument physisch neu gerendert. Die geschwärzten Inhalte sind nicht mehr im Dokument enthalten – weder als Text, noch als Metadaten, noch als unsichtbare Layer. Das ist kryptographisch verifizierbar.

Kann der Signaturvergleich Fälschungen erkennen?

Der Signaturvergleich erkennt Anomalien – Abweichungen von einer Referenzunterschrift. Bei Auffälligkeiten wird automatisch an einen Menschen eskaliert. Das System behauptet nie, eine Unterschrift sei gefälscht oder echt. Diese Entscheidung trifft ein Mensch. Das ist der einzige seriöse Ansatz.

Welche Dokumente sollen geschützt verarbeitet werden?

PII-Anonymisierung, Vertragsschwärzung oder Signaturerkennung – wir starten mit einem konkreten Dokumententyp.

Gespräch vereinbaren