PII (Personally Identifiable Information) sind personenbezogene Daten die eine natürliche Person direkt oder indirekt identifizierbar machen: Name, Adresse, Geburtsdatum, Sozialversicherungsnummer, E-Mail-Adresse, Bankverbindung, biometrische Daten, IP-Adressen.

Darf man personenbezogene Daten an ein LLM senden?

Grundsätzlich nur mit Rechtsgrundlage und unter Einhaltung der DSGVO-Grundsätze – insbesondere Datensparsamkeit (Art. 5 Abs. 1 lit. c DSGVO). Roundtrip-Pseudonymisierung stellt sicher, dass das Modell nur Pseudonyme sieht, keine personenbezogenen Daten.

Was ist der Unterschied zwischen Anonymisierung und Pseudonymisierung?

Anonymisierung entfernt den Personenbezug unwiderruflich. Pseudonymisierung ersetzt ihn durch Pseudonyme, die Zuordnung bleibt über eine separate Tabelle möglich. Für LLM-Verarbeitung ist Pseudonymisierung mit Re-Anonymisierung der richtige Ansatz: Das Modell sieht nur Pseudonyme, das Ergebnis enthält wieder die echten Daten.

Funktioniert das auch bei selbst gehosteten Modellen?

Ja – und es ist auch dort sinnvoll. Selbst bei Self-Hosting kann es mandantenspezifische Trennungspflichten geben: verschiedene Abteilungen, verschiedene Kunden, verschiedene Datenschutz-Niveaus. Die Pseudonymisierung ist modellunabhängig.

PII-Anonymisierung für Enterprise AI

Warum personenbezogene Daten ein Problem für KI-Verarbeitung sind

Wenn ein AI Agent einen Arbeitsvertrag analysiert, eine Gehaltsabrechnung prüft oder eine Krankmeldung verarbeitet, arbeitet er mit personenbezogenen Daten. Name, Adresse, Geburtsdatum, Sozialversicherungsnummer, Gehalt, Diagnose.

Diese Daten an ein Sprachmodell zu senden – auch an ein selbst gehostetes – ist datenschutzrechtlich problematisch. Die DSGVO verlangt Datensparsamkeit (Art. 5 Abs. 1 lit. c): Es dürfen nur die Daten verarbeitet werden, die für den Zweck erforderlich sind. Für die Klassifizierung eines Belegtyps braucht das Modell keinen Mitarbeiternamen. Für die Prüfung einer Gehaltsband-Compliance braucht es kein Geburtsdatum.

Trotzdem braucht das Modell Kontext. Ein Vertrag ohne jegliche Personeninformation ist für eine KI-Analyse wertlos – es fehlen die Bezüge, die Relationen, die Zusammenhänge.

Die Lösung ist nicht Schwärzung, sondern Pseudonymisierung.

Roundtrip-Pseudonymisierung: Das Prinzip

Roundtrip-Pseudonymisierung ist ein dreistufiger Prozess:

Schritt 1: Erkennen und Ersetzen. Der Pre-Processing Layer erkennt alle personenbezogenen Daten im Dokument. Jede PII-Instanz wird durch ein konsistentes Pseudonym ersetzt: “Max Müller” wird zu “Person_A”, “52.000 EUR” wird zu “Gehalt_A”, “Hallerstraße 8” wird zu “Adresse_A”. Wichtig: Die Pseudonyme sind konsistent – wenn “Max Müller” auf Seite 3 nochmals erwähnt wird, ist er dort ebenfalls “Person_A”. Das erhält die Dokumentenstruktur.

Schritt 2: Verarbeiten. Das pseudonymisierte Dokument wird an das Sprachmodell übergeben. Das Modell sieht: “Person_A hat Gehalt_A an Adresse_A. Der Vertrag läuft bis 2027.” Es kann die Vertragsanalyse durchführen, die Gehaltsband-Prüfung, die Klausel-Klassifizierung – ohne je einen echten Namen oder ein echtes Gehalt gesehen zu haben.

Schritt 3: Re-Anonymisieren. Der Output des Modells enthält Pseudonyme: “Person_A liegt innerhalb des Gehaltsbands E3.” Der Re-Anonymisierungs-Layer ersetzt die Pseudonyme durch die Echtdaten: “Max Müller liegt innerhalb des Gehaltsbands E3.” Die Zuordnungstabelle wird nach Abschluss gelöscht.

Was der Decision Layer steuert

Nicht jedes Datenfeld muss pseudonymisiert werden. Der Decision Layer definiert, welche PII-Kategorien erkannt und ersetzt werden – gesteuert durch ein versioniertes Regelwerk:

Für einen HR-Prozess: Namen, Gehälter, Adressen, Sozialversicherungsnummern pseudonymisieren. Jobtitel und Abteilungen können bleiben – sie sind für die Analyse relevant und nicht personenbezogen.

Für einen Finance-Prozess: Firmennamen bleiben, Ansprechpartner werden pseudonymisiert, Beträge bleiben (sie sind für die Buchungsentscheidung relevant), Bankverbindungen werden pseudonymisiert.

Für einen Compliance-Prozess: Alles pseudonymisieren – auch Firmennamen, wenn die Analyse produktübergreifend sein soll.

Diese Regeln sind mandantenspezifisch und versioniert. Wenn sich die Betriebsvereinbarung ändert, entsteht eine neue Regelversion. Bei einer Prüfung ist nachvollziehbar, welche PII-Regel in welcher Version zum Verarbeitungszeitpunkt galt.

Grenzen und ehrliche Einschätzung

PII-Erkennung ist nicht perfekt. Named Entity Recognition (NER) macht Fehler – besonders bei:

Ambigen Namen: “Müller” kann ein Nachname oder eine Firmenbezeichnung sein. “Frankfurt” kann eine Stadt oder ein Nachname sein. Der Decision Layer adressiert das durch Confidence Routing: Bei hoher Konfidenz wird automatisch pseudonymisiert. Bei niedriger Konfidenz wird an einen Menschen eskaliert.

Impliziten Identifikatoren: “Die einzige Entwicklerin in der Hamburger Niederlassung” enthält keine explizite PII, identifiziert aber eine Person. Solche indirekten Identifikatoren sind schwer automatisch zu erkennen. Der Ansatz: Kontextregeln im Regelwerk definieren die Kombination aus Merkmalen die eine Identifikation ermöglichen.

Neuen Dokumententypen: Wenn ein neuer Dokumententyp verarbeitet wird, muss das PII-Regelwerk geprüft und ggf. erweitert werden. Das ist kein einmaliges Setup, sondern ein laufender Prozess.

Mehr zu Document Intelligence: Document Intelligence – PII, Vertragsschwärzung, Signaturerkennung

Termin vereinbaren – Wir zeigen Ihnen die Roundtrip-Pseudonymisierung an Ihren Dokumenten.