Anonimizacja PII dla Enterprise AI
Jak przetwarzać dokumenty z danymi osobowymi zgodnie z RODO przy pomocy AI? Pseudonimizacja roundtrip, Decision Layer, Audit Trail.
Dlaczego dane osobowe stanowią problem przy przetwarzaniu przez AI
Gdy agent AI analizuje umowę o pracę, sprawdza listę płac lub przetwarza zwolnienie lekarskie, operuje na danych osobowych. Imię i nazwisko, adres, data urodzenia, numer PESEL, wynagrodzenie, diagnoza.
Przesyłanie tych danych do modelu językowego, nawet hostowanego lokalnie, jest problematyczne z punktu widzenia ochrony danych. RODO wymaga minimalizacji danych (art. 5 ust. 1 lit. c): przetwarzane mogą być wyłącznie dane niezbędne do realizacji celu. Do klasyfikacji typu dokumentu model nie potrzebuje nazwiska pracownika. Do weryfikacji zgodności z siatką płac nie potrzebuje daty urodzenia.
Jednocześnie model potrzebuje kontekstu. Umowa pozbawiona wszelkich informacji o osobach jest bezwartościowa dla analizy AI, brakuje w niej odniesień, relacji i powiązań.
Rozwiązaniem nie jest zamazywanie, lecz pseudonimizacja.
Pseudonimizacja roundtrip: zasada działania
Pseudonimizacja roundtrip to proces trzyetapowy:
Krok 1: Rozpoznanie i zastąpienie. Warstwa pre-processingu rozpoznaje wszystkie dane osobowe w dokumencie. Każda instancja PII jest zastępowana spójnym pseudonimem: “Jan Kowalski” staje się “Osoba_A”, “12 000 PLN” staje się “Wynagrodzenie_A”, “ul. Marszałkowska 8” staje się “Adres_A”. Kluczowe: pseudonimy są spójne. Jeśli “Jan Kowalski” pojawia się ponownie na stronie 3, nadal jest “Osoba_A”. To zachowuje strukturę dokumentu.
Krok 2: Przetworzenie. Spseudominizowany dokument trafia do modelu językowego. Model widzi: “Osoba_A ma Wynagrodzenie_A pod Adres_A. Umowa obowiązuje do 2027 roku.” Może przeprowadzić analizę umowy, weryfikację siatki płac, klasyfikację klauzul, nie widząc nigdy prawdziwego nazwiska ani wynagrodzenia.
Krok 3: Re-anonimizacja. Wynik modelu zawiera pseudonimy: “Osoba_A mieści się w grupie zaszeregowania E3.” Warstwa re-anonimizacji zastępuje pseudonimy prawdziwymi danymi: “Jan Kowalski mieści się w grupie zaszeregowania E3.” Tabela przyporządkowań jest usuwana po zakończeniu przetwarzania.
Co steruje Decision Layer
Nie każde pole danych wymaga pseudonimizacji. Decision Layer definiuje, które kategorie PII są rozpoznawane i zastępowane, na podstawie wersjonowanego zestawu reguł:
W procesie HR: pseudonimizacja imion i nazwisk, wynagrodzeń, adresów, numerów PESEL. Stanowiska i działy mogą pozostać, są istotne dla analizy i nie stanowią danych osobowych.
W procesie finansowym: nazwy firm pozostają, dane kontaktowe osób są pseudonimizowane, kwoty pozostają (są istotne dla decyzji księgowych), dane bankowe są pseudonimizowane.
W procesie compliance: pseudonimizacja wszystkiego, łącznie z nazwami firm, jeśli analiza ma być międzydziałowa.
Te reguły są specyficzne dla danego mandanta i wersjonowane. Gdy zmienia się porozumienie zakładowe, powstaje nowa wersja reguł. Podczas kontroli można prześledzić, jaka reguła PII w jakiej wersji obowiązywała w momencie przetwarzania.
Ograniczenia i uczciwa ocena
Rozpoznawanie PII nie jest perfekcyjne. Named Entity Recognition (NER) popełnia błędy, szczególnie w przypadku:
Niejednoznacznych nazw: “Kowalski” może być nazwiskiem lub nazwą firmy. “Warszawa” może być miastem lub częścią nazwy własnej. Decision Layer adresuje to poprzez Confidence Routing: przy wysokim poziomie pewności pseudonimizacja następuje automatycznie. Przy niskim poziomie pewności sprawa jest eskalowana do człowieka.
Ukrytych identyfikatorów: “Jedyna programistka w oddziale w Krakowie” nie zawiera jawnych danych PII, ale umożliwia identyfikację osoby. Takie pośrednie identyfikatory są trudne do automatycznego wykrycia. Podejście: reguły kontekstowe w zestawie reguł definiują kombinacje cech umożliwiające identyfikację.
Nowych typów dokumentów: gdy pojawia się nowy typ dokumentu, zestaw reguł PII musi być zweryfikowany i ewentualnie rozszerzony. To nie jest jednorazowa konfiguracja, lecz ciągły proces.
Więcej o Document Intelligence: Document Intelligence - PII, redakcja umów, rozpoznawanie podpisów
Umów spotkanie - Pokażemy pseudonimizację roundtrip na Twoich dokumentach.