PII (Personally Identifiable Information) sao dados pessoais que permitem identificar direta ou indiretamente uma pessoa fisica: nome, endereco, data de nascimento, CPF (PT: NIF), e-mail, dados bancarios, dados biometricos, enderecos IP.

Dados pessoais podem ser enviados para um LLM?

Somente com base legal e em conformidade com os principios da LGPD (PT: RGPD), em particular a minimização de dados (art. 6o da LGPD). A pseudonimizacao roundtrip garante que o modelo veja apenas pseudonimos, nunca dados pessoais.

Qual a diferenca entre anonimizacao e pseudonimizacao?

A anonimizacao remove a referência pessoal de forma irreversivel. A pseudonimizacao a substitui por pseudonimos, mantendo a possibilidade de correspondencia por meio de uma tabela separada. Para processamento por LLM, a pseudonimizacao com re-anonimizacao e a abordagem correta: o modelo ve apenas pseudonimos, o resultado contem novamente os dados reais.

Este conteúdo aplica-se também a empresas em Portugal?

Sim. Embora o Brasil seja regido pela LGPD e Portugal pelo RGPD, os principios de pseudonimizacao roundtrip sao aplicaveis em ambos os contextos regulatórios. A ANPD (BR) e a CNPD (PT) reconhecem a pseudonimizacao como medida técnica adequada de proteção de dados. A arquitetura e identica, apenas os fundamentos legais diferem.

Anonimizacao de PII para IA Empresarial

Por que dados pessoais sao um problema para o processamento com IA

Quando um agente de IA analisa um contrato de trabalho, verifica uma folha de pagamento ou processa um atestado médico, ele opera com dados pessoais. Nome, endereco, data de nascimento, CPF (PT: NIF), salario, diagnostico.

Enviar esses dados a um modelo de linguagem, mesmo a um modelo auto-hospedado, cria risco de conformidade com a LGPD (PT: RGPD). A legislacao exige minimização de dados (art. 6o da LGPD / art. 5.1.c do RGPD): somente os dados necessarios para a finalidade podem ser processados. Para classificar um tipo de documento, o modelo não precisa do nome do colaborador. Para verificar a conformidade com a faixa salarial, não precisa da data de nascimento.

Porem, o modelo precisa de contexto. Um contrato sem nenhuma informação pessoal e inutil para a análise de IA, faltam as referências, as relacoes e as conexoes.

A solução não e o mascaramento, mas a pseudonimizacao.

Pseudonimizacao roundtrip: o principio

A pseudonimizacao roundtrip e um processo em tres etapas:

Passo 1: Detectar e substituir. A camada de pre-processamento identifica todos os dados pessoais no documento. Cada instância de PII e substituida por um pseudonimo consistente: “Joao Silva” se torna “Pessoa_A”, “R$ 15.000” se torna “Salario_A”, “Rua Augusta 100” se torna “Endereco_A”. O ponto essencial: os pseudonimos sao consistentes. Se “Joao Silva” aparece novamente na página 3, ele contínua sendo “Pessoa_A”. Isso preserva a estrutura do documento.

Passo 2: Processar. O documento pseudonimizado e enviado ao modelo de linguagem. O modelo ve: “Pessoa_A tem Salario_A em Endereco_A. O contrato vigora até 2027.” Ele pode realizar a análise contratual, a verificação de faixa salarial, a classificação de clausulas, sem jamais ter visto um nome ou salario real.

Passo 3: Re-anonimizar. A saida do modelo contem pseudonimos: “Pessoa_A esta dentro da faixa salarial E3.” A camada de re-anonimizacao substitui os pseudonimos pelos dados reais: “Joao Silva esta dentro da faixa salarial E3.” A tabela de correspondencia e excluida apos o processamento.

O que o Decision Layer controla

Nem todo campo de dados requer pseudonimizacao. O Decision Layer define quais categorias de PII sao detectadas e substituidas, governado por conjuntos de regras versionados:

Para um processo de RH: pseudonimizar nomes, salarios, enderecos, CPFs (PT: NIFs). Cargos e departamentos podem permanecer, sao relevantes para a análise e não constituem dados pessoais.

Para um processo financeiro: nomes de empresas permanecem, pessoas de contato sao pseudonimizadas, valores permanecem (sao necessarios para decisoes contabeis), dados bancarios sao pseudonimizados.

Para um processo de compliance: pseudonimizar tudo, incluindo nomes de empresas, se a análise deve ser transversal.

Essas regras sao específicas por mandante e versionadas. Quando um acordo coletivo (PT: acordo de empresa) muda, uma nova versão de regras e criada. Em uma auditoria, e rastreável qual regra de PII, em qual versão, estava vigente no momento do processamento.

Limitacoes e avaliação honesta

A deteccao de PII não e perfeita. O reconhecimento de entidades nomeadas (NER) comete erros, especialmente com:

Nomes ambiguos: “Santos” pode ser um sobrenome ou uma cidade. “Salvador” pode ser uma cidade ou um nome próprio. O Decision Layer aborda isso por meio de Confidence Routing: com alta confiança, a pseudonimizacao e automática. Com baixa confiança, a questao e escalada para um ser humano.

Identificadores implicitos: “A única desenvolvedora no escritorio de Curitiba” não contem PII explicita, mas identifica uma pessoa. Esses identificadores indiretos sao dificeis de detectar automaticamente. A abordagem: regras de contexto no conjunto de regras definem quais combinacoes de atributos permitem a identificação.

Novos tipos de documentos: quando um novo tipo de documento entra no processamento, o conjunto de regras de PII deve ser revisado e possivelmente ampliado. Isso não é uma configuração única, mas um processo contínuo.

Mais sobre Document Intelligence: Document Intelligence - PII, redacao de contratos, deteccao de assinaturas

Agendar reunião - Demonstramos a pseudonimizacao roundtrip com seus documentos.