Anonimizacao de PII para IA Empresarial
Como processar documentos com dados pessoais em conformidade com a LGPD usando IA. Pseudonimizacao roundtrip, Decision Layer, Audit Trail.
Por que dados pessoais sao um problema para o processamento com IA
Quando um agente de IA analisa um contrato de trabalho, verifica uma folha de pagamento ou processa um atestado médico, ele opera com dados pessoais. Nome, endereco, data de nascimento, CPF (PT: NIF), salario, diagnostico.
Enviar esses dados a um modelo de linguagem, mesmo a um modelo auto-hospedado, cria risco de conformidade com a LGPD (PT: RGPD). A legislacao exige minimização de dados (art. 6o da LGPD / art. 5.1.c do RGPD): somente os dados necessarios para a finalidade podem ser processados. Para classificar um tipo de documento, o modelo não precisa do nome do colaborador. Para verificar a conformidade com a faixa salarial, não precisa da data de nascimento.
Porem, o modelo precisa de contexto. Um contrato sem nenhuma informação pessoal e inutil para a análise de IA, faltam as referências, as relacoes e as conexoes.
A solução não e o mascaramento, mas a pseudonimizacao.
Pseudonimizacao roundtrip: o principio
A pseudonimizacao roundtrip e um processo em tres etapas:
Passo 1: Detectar e substituir. A camada de pre-processamento identifica todos os dados pessoais no documento. Cada instância de PII e substituida por um pseudonimo consistente: “Joao Silva” se torna “Pessoa_A”, “R$ 15.000” se torna “Salario_A”, “Rua Augusta 100” se torna “Endereco_A”. O ponto essencial: os pseudonimos sao consistentes. Se “Joao Silva” aparece novamente na página 3, ele contínua sendo “Pessoa_A”. Isso preserva a estrutura do documento.
Passo 2: Processar. O documento pseudonimizado e enviado ao modelo de linguagem. O modelo ve: “Pessoa_A tem Salario_A em Endereco_A. O contrato vigora até 2027.” Ele pode realizar a análise contratual, a verificação de faixa salarial, a classificação de clausulas, sem jamais ter visto um nome ou salario real.
Passo 3: Re-anonimizar. A saida do modelo contem pseudonimos: “Pessoa_A esta dentro da faixa salarial E3.” A camada de re-anonimizacao substitui os pseudonimos pelos dados reais: “Joao Silva esta dentro da faixa salarial E3.” A tabela de correspondencia e excluida apos o processamento.
O que o Decision Layer controla
Nem todo campo de dados requer pseudonimizacao. O Decision Layer define quais categorias de PII sao detectadas e substituidas, governado por conjuntos de regras versionados:
Para um processo de RH: pseudonimizar nomes, salarios, enderecos, CPFs (PT: NIFs). Cargos e departamentos podem permanecer, sao relevantes para a análise e não constituem dados pessoais.
Para um processo financeiro: nomes de empresas permanecem, pessoas de contato sao pseudonimizadas, valores permanecem (sao necessarios para decisoes contabeis), dados bancarios sao pseudonimizados.
Para um processo de compliance: pseudonimizar tudo, incluindo nomes de empresas, se a análise deve ser transversal.
Essas regras sao específicas por mandante e versionadas. Quando um acordo coletivo (PT: acordo de empresa) muda, uma nova versão de regras e criada. Em uma auditoria, e rastreável qual regra de PII, em qual versão, estava vigente no momento do processamento.
Limitacoes e avaliação honesta
A deteccao de PII não e perfeita. O reconhecimento de entidades nomeadas (NER) comete erros, especialmente com:
Nomes ambiguos: “Santos” pode ser um sobrenome ou uma cidade. “Salvador” pode ser uma cidade ou um nome próprio. O Decision Layer aborda isso por meio de Confidence Routing: com alta confiança, a pseudonimizacao e automática. Com baixa confiança, a questao e escalada para um ser humano.
Identificadores implicitos: “A única desenvolvedora no escritorio de Curitiba” não contem PII explicita, mas identifica uma pessoa. Esses identificadores indiretos sao dificeis de detectar automaticamente. A abordagem: regras de contexto no conjunto de regras definem quais combinacoes de atributos permitem a identificação.
Novos tipos de documentos: quando um novo tipo de documento entra no processamento, o conjunto de regras de PII deve ser revisado e possivelmente ampliado. Isso não é uma configuração única, mas um processo contínuo.
Mais sobre Document Intelligence: Document Intelligence - PII, redacao de contratos, deteccao de assinaturas
Agendar reunião - Demonstramos a pseudonimizacao roundtrip com seus documentos.