PII (Personally Identifiable Information) to dane osobowe, które umożliwiają bezpośrednią lub pośrednią identyfikację osoby fizycznej: imię i nazwisko, adres, data urodzenia, numer PESEL, adres e-mail, dane bankowe, dane biometryczne, adresy IP.

Czy można przesyłać dane osobowe do modelu LLM?

Tylko na podstawie prawnej i z zachowaniem zasad RODO, w szczególności zasady minimalizacji danych (art. 5 ust. 1 lit. c RODO). Pseudonimizacja roundtrip zapewnia, że model widzi wyłącznie pseudonimy, a nie dane osobowe.

Jaka jest różnica między anonimizacją a pseudonimizacją?

Anonimizacja usuwa powiązanie z osobą w sposób nieodwracalny. Pseudonimizacja zastępuje je pseudonimami, przy czym przyporządkowanie pozostaje możliwe za pomocą oddzielnej tabeli. W przypadku przetwarzania przez LLM właściwym podejściem jest pseudonimizacja z re-anonimizacją: model widzi tylko pseudonimy, a wynik zawiera ponownie prawdziwe dane.

Anonimizacja PII dla Enterprise AI

Dlaczego dane osobowe stanowią problem przy przetwarzaniu przez AI

Gdy agent AI analizuje umowę o pracę, sprawdza listę płac lub przetwarza zwolnienie lekarskie, operuje na danych osobowych. Imię i nazwisko, adres, data urodzenia, numer PESEL, wynagrodzenie, diagnoza.

Przesyłanie tych danych do modelu językowego, nawet hostowanego lokalnie, jest problematyczne z punktu widzenia ochrony danych. RODO wymaga minimalizacji danych (art. 5 ust. 1 lit. c): przetwarzane mogą być wyłącznie dane niezbędne do realizacji celu. Do klasyfikacji typu dokumentu model nie potrzebuje nazwiska pracownika. Do weryfikacji zgodności z siatką płac nie potrzebuje daty urodzenia.

Jednocześnie model potrzebuje kontekstu. Umowa pozbawiona wszelkich informacji o osobach jest bezwartościowa dla analizy AI, brakuje w niej odniesień, relacji i powiązań.

Rozwiązaniem nie jest zamazywanie, lecz pseudonimizacja.

Pseudonimizacja roundtrip: zasada działania

Pseudonimizacja roundtrip to proces trzyetapowy:

Krok 1: Rozpoznanie i zastąpienie. Warstwa pre-processingu rozpoznaje wszystkie dane osobowe w dokumencie. Każda instancja PII jest zastępowana spójnym pseudonimem: “Jan Kowalski” staje się “Osoba_A”, “12 000 PLN” staje się “Wynagrodzenie_A”, “ul. Marszałkowska 8” staje się “Adres_A”. Kluczowe: pseudonimy są spójne. Jeśli “Jan Kowalski” pojawia się ponownie na stronie 3, nadal jest “Osoba_A”. To zachowuje strukturę dokumentu.

Krok 2: Przetworzenie. Spseudominizowany dokument trafia do modelu językowego. Model widzi: “Osoba_A ma Wynagrodzenie_A pod Adres_A. Umowa obowiązuje do 2027 roku.” Może przeprowadzić analizę umowy, weryfikację siatki płac, klasyfikację klauzul, nie widząc nigdy prawdziwego nazwiska ani wynagrodzenia.

Krok 3: Re-anonimizacja. Wynik modelu zawiera pseudonimy: “Osoba_A mieści się w grupie zaszeregowania E3.” Warstwa re-anonimizacji zastępuje pseudonimy prawdziwymi danymi: “Jan Kowalski mieści się w grupie zaszeregowania E3.” Tabela przyporządkowań jest usuwana po zakończeniu przetwarzania.

Co steruje Decision Layer

Nie każde pole danych wymaga pseudonimizacji. Decision Layer definiuje, które kategorie PII są rozpoznawane i zastępowane, na podstawie wersjonowanego zestawu reguł:

W procesie HR: pseudonimizacja imion i nazwisk, wynagrodzeń, adresów, numerów PESEL. Stanowiska i działy mogą pozostać, są istotne dla analizy i nie stanowią danych osobowych.

W procesie finansowym: nazwy firm pozostają, dane kontaktowe osób są pseudonimizowane, kwoty pozostają (są istotne dla decyzji księgowych), dane bankowe są pseudonimizowane.

W procesie compliance: pseudonimizacja wszystkiego, łącznie z nazwami firm, jeśli analiza ma być międzydziałowa.

Te reguły są specyficzne dla danego mandanta i wersjonowane. Gdy zmienia się porozumienie zakładowe, powstaje nowa wersja reguł. Podczas kontroli można prześledzić, jaka reguła PII w jakiej wersji obowiązywała w momencie przetwarzania.

Ograniczenia i uczciwa ocena

Rozpoznawanie PII nie jest perfekcyjne. Named Entity Recognition (NER) popełnia błędy, szczególnie w przypadku:

Niejednoznacznych nazw: “Kowalski” może być nazwiskiem lub nazwą firmy. “Warszawa” może być miastem lub częścią nazwy własnej. Decision Layer adresuje to poprzez Confidence Routing: przy wysokim poziomie pewności pseudonimizacja następuje automatycznie. Przy niskim poziomie pewności sprawa jest eskalowana do człowieka.

Ukrytych identyfikatorów: “Jedyna programistka w oddziale w Krakowie” nie zawiera jawnych danych PII, ale umożliwia identyfikację osoby. Takie pośrednie identyfikatory są trudne do automatycznego wykrycia. Podejście: reguły kontekstowe w zestawie reguł definiują kombinacje cech umożliwiające identyfikację.

Nowych typów dokumentów: gdy pojawia się nowy typ dokumentu, zestaw reguł PII musi być zweryfikowany i ewentualnie rozszerzony. To nie jest jednorazowa konfiguracja, lecz ciągły proces.

Więcej o Document Intelligence: Document Intelligence - PII, redakcja umów, rozpoznawanie podpisów

Umów spotkanie - Pokażemy pseudonimizację roundtrip na Twoich dokumentach.