Przejdź do treści
Governance & Compliance

Anonimizacja PII dla Enterprise AI

Jak przetwarzać dokumenty z danymi osobowymi zgodnie z RODO przy pomocy AI? Pseudonimizacja roundtrip, Decision Layer, Audit Trail.

Dieter Gogolin
Dieter Gogolin
CEO i współzałożyciel 6 min czytania

Dlaczego dane osobowe stanowią problem przy przetwarzaniu przez AI

Gdy agent AI analizuje umowę o pracę, sprawdza listę płac lub przetwarza zwolnienie lekarskie, operuje na danych osobowych. Imię i nazwisko, adres, data urodzenia, numer PESEL, wynagrodzenie, diagnoza.

Przesyłanie tych danych do modelu językowego, nawet hostowanego lokalnie, jest problematyczne z punktu widzenia ochrony danych. RODO wymaga minimalizacji danych (art. 5 ust. 1 lit. c): przetwarzane mogą być wyłącznie dane niezbędne do realizacji celu. Do klasyfikacji typu dokumentu model nie potrzebuje nazwiska pracownika. Do weryfikacji zgodności z siatką płac nie potrzebuje daty urodzenia.

Jednocześnie model potrzebuje kontekstu. Umowa pozbawiona wszelkich informacji o osobach jest bezwartościowa dla analizy AI, brakuje w niej odniesień, relacji i powiązań.

Rozwiązaniem nie jest zamazywanie, lecz pseudonimizacja.

Pseudonimizacja roundtrip: zasada działania

Pseudonimizacja roundtrip to proces trzyetapowy:

Krok 1: Rozpoznanie i zastąpienie. Warstwa pre-processingu rozpoznaje wszystkie dane osobowe w dokumencie. Każda instancja PII jest zastępowana spójnym pseudonimem: “Jan Kowalski” staje się “Osoba_A”, “12 000 PLN” staje się “Wynagrodzenie_A”, “ul. Marszałkowska 8” staje się “Adres_A”. Kluczowe: pseudonimy są spójne. Jeśli “Jan Kowalski” pojawia się ponownie na stronie 3, nadal jest “Osoba_A”. To zachowuje strukturę dokumentu.

Krok 2: Przetworzenie. Spseudominizowany dokument trafia do modelu językowego. Model widzi: “Osoba_A ma Wynagrodzenie_A pod Adres_A. Umowa obowiązuje do 2027 roku.” Może przeprowadzić analizę umowy, weryfikację siatki płac, klasyfikację klauzul, nie widząc nigdy prawdziwego nazwiska ani wynagrodzenia.

Krok 3: Re-anonimizacja. Wynik modelu zawiera pseudonimy: “Osoba_A mieści się w grupie zaszeregowania E3.” Warstwa re-anonimizacji zastępuje pseudonimy prawdziwymi danymi: “Jan Kowalski mieści się w grupie zaszeregowania E3.” Tabela przyporządkowań jest usuwana po zakończeniu przetwarzania.

Co steruje Decision Layer

Nie każde pole danych wymaga pseudonimizacji. Decision Layer definiuje, które kategorie PII są rozpoznawane i zastępowane, na podstawie wersjonowanego zestawu reguł:

W procesie HR: pseudonimizacja imion i nazwisk, wynagrodzeń, adresów, numerów PESEL. Stanowiska i działy mogą pozostać, są istotne dla analizy i nie stanowią danych osobowych.

W procesie finansowym: nazwy firm pozostają, dane kontaktowe osób są pseudonimizowane, kwoty pozostają (są istotne dla decyzji księgowych), dane bankowe są pseudonimizowane.

W procesie compliance: pseudonimizacja wszystkiego, łącznie z nazwami firm, jeśli analiza ma być międzydziałowa.

Te reguły są specyficzne dla danego mandanta i wersjonowane. Gdy zmienia się porozumienie zakładowe, powstaje nowa wersja reguł. Podczas kontroli można prześledzić, jaka reguła PII w jakiej wersji obowiązywała w momencie przetwarzania.

Ograniczenia i uczciwa ocena

Rozpoznawanie PII nie jest perfekcyjne. Named Entity Recognition (NER) popełnia błędy, szczególnie w przypadku:

Niejednoznacznych nazw: “Kowalski” może być nazwiskiem lub nazwą firmy. “Warszawa” może być miastem lub częścią nazwy własnej. Decision Layer adresuje to poprzez Confidence Routing: przy wysokim poziomie pewności pseudonimizacja następuje automatycznie. Przy niskim poziomie pewności sprawa jest eskalowana do człowieka.

Ukrytych identyfikatorów: “Jedyna programistka w oddziale w Krakowie” nie zawiera jawnych danych PII, ale umożliwia identyfikację osoby. Takie pośrednie identyfikatory są trudne do automatycznego wykrycia. Podejście: reguły kontekstowe w zestawie reguł definiują kombinacje cech umożliwiające identyfikację.

Nowych typów dokumentów: gdy pojawia się nowy typ dokumentu, zestaw reguł PII musi być zweryfikowany i ewentualnie rozszerzony. To nie jest jednorazowa konfiguracja, lecz ciągły proces.

Więcej o Document Intelligence: Document Intelligence - PII, redakcja umów, rozpoznawanie podpisów

Umów spotkanie - Pokażemy pseudonimizację roundtrip na Twoich dokumentach.

PII Anonimizacja RODO LLM Document Intelligence Decision Layer
Udostępnij artykuł

Najczęściej zadawane pytania

Czym jest PII?

PII (Personally Identifiable Information) to dane osobowe, które umożliwiają bezpośrednią lub pośrednią identyfikację osoby fizycznej: imię i nazwisko, adres, data urodzenia, numer PESEL, adres e-mail, dane bankowe, dane biometryczne, adresy IP.

Czy można przesyłać dane osobowe do modelu LLM?

Tylko na podstawie prawnej i z zachowaniem zasad RODO, w szczególności zasady minimalizacji danych (art. 5 ust. 1 lit. c RODO). Pseudonimizacja roundtrip zapewnia, że model widzi wyłącznie pseudonimy, a nie dane osobowe.

Jaka jest różnica między anonimizacją a pseudonimizacją?

Anonimizacja usuwa powiązanie z osobą w sposób nieodwracalny. Pseudonimizacja zastępuje je pseudonimami, przy czym przyporządkowanie pozostaje możliwe za pomocą oddzielnej tabeli. W przypadku przetwarzania przez LLM właściwym podejściem jest pseudonimizacja z re-anonimizacją: model widzi tylko pseudonimy, a wynik zawiera ponownie prawdziwe dane.

Jaki proces powinien obsługiwać Twój pierwszy agent?

Porozmawiaj z nami o konkretnym przypadku użycia.

Zarezerwuj rozmowę