PII (Personally Identifiable Information) son datos personales que permiten identificar directa o indirectamente a una persona física: nombre, dirección, fecha de nacimiento, número de la Seguridad Social, correo electrónico, datos bancarios, datos biométricos, direcciones IP.

¿Se pueden enviar datos personales a un LLM?

Solo con base jurídica y cumpliendo los principios del RGPD, en particular la minimización de datos (art. 5.1.c RGPD). La pseudonimización roundtrip garantiza que el modelo solo vea pseudónimos, nunca datos personales.

¿Cuál es la diferencia entre anonimización y pseudonimización?

La anonimización elimina la referencia personal de forma irreversible. La pseudonimización la sustituye por pseudónimos, manteniendo la posibilidad de asignación mediante una tabla separada. Para el procesamiento por LLM, la pseudonimización con re-anonimización es el enfoque correcto: el modelo ve solo pseudónimos, el resultado contiene de nuevo los datos reales.

Anonimización de PII para IA Empresarial

Por qué los datos personales son un problema para el procesamiento con IA

Cuando un agente de IA analiza un contrato laboral, revisa una nómina o procesa un parte de baja, trabaja con datos personales. Nombre, dirección, fecha de nacimiento, número de la Seguridad Social, salario, diagnóstico.

Enviar estos datos a un modelo de lenguaje, incluso a uno autoalojado, plantea un riesgo de cumplimiento con el RGPD. El reglamento exige la minimización de datos (art. 5.1.c): solo pueden procesarse los datos necesarios para la finalidad. Para clasificar un tipo de documento, el modelo no necesita el nombre del empleado. Para verificar la adecuación salarial, no necesita la fecha de nacimiento.

Sin embargo, el modelo necesita contexto. Un contrato desprovisto de toda información personal resulta inútil para el análisis con IA: faltan las referencias, las relaciones y las conexiones.

La solución no es la supresión, sino la pseudonimización.

Pseudonimización roundtrip: el principio

La pseudonimización roundtrip es un proceso en tres fases:

Paso 1: Detectar y sustituir. La capa de preprocesamiento identifica todos los datos personales del documento. Cada instancia de PII se sustituye por un pseudónimo coherente: “Carlos García” se convierte en “Persona_A”, “45.000 EUR” se convierte en “Salario_A”, “Calle Gran Vía 8” se convierte en “Dirección_A”. Lo fundamental: los pseudónimos son coherentes. Si “Carlos García” aparece de nuevo en la página 3, sigue siendo “Persona_A”. Esto preserva la estructura del documento.

Paso 2: Procesar. El documento pseudonimizado se envía al modelo de lenguaje. El modelo ve: “Persona_A tiene Salario_A en Dirección_A. El contrato es vigente hasta 2027.” Puede realizar el análisis contractual, la verificación de bandas salariales, la clasificación de cláusulas, sin haber visto nunca un nombre o salario real.

Paso 3: Re-anonimizar. La salida del modelo contiene pseudónimos: “Persona_A se sitúa dentro de la banda salarial E3.” La capa de re-anonimización sustituye los pseudónimos por los datos reales: “Carlos García se sitúa dentro de la banda salarial E3.” La tabla de asignación se elimina tras el procesamiento.

Qué controla el Decision Layer

No todos los campos de datos requieren pseudonimización. El Decision Layer define qué categorías de PII se detectan y sustituyen, gobernado por conjuntos de reglas versionados:

Para un proceso de RRHH: pseudonimizar nombres, salarios, direcciones, números de la Seguridad Social. Los cargos y departamentos pueden permanecer: son relevantes para el análisis y no constituyen datos personales.

Para un proceso financiero: los nombres de empresa permanecen, las personas de contacto se pseudonimizan, los importes permanecen (son necesarios para las decisiones contables), los datos bancarios se pseudonimizan.

Para un proceso de compliance: pseudonimizar todo, incluidos los nombres de empresa, si el análisis debe ser transversal.

Estas reglas son específicas por mandante y están versionadas. Cuando cambia un acuerdo de empresa, se crea una nueva versión de reglas. En una auditoría es trazable qué regla de PII, en qué versión, estaba vigente en el momento del procesamiento.

Limitaciones y valoración honesta

La detección de PII no es perfecta. El reconocimiento de entidades nombradas (NER) comete errores, especialmente con:

Nombres ambiguos: “Pastor” puede ser un apellido o una profesión. “León” puede ser una ciudad o un apellido. El Decision Layer lo aborda mediante Confidence Routing: con alta confianza, la pseudonimización es automática. Con baja confianza, se escala a una persona.

Identificadores implícitos: “La única desarrolladora de la oficina de Barcelona” no contiene PII explícita, pero identifica a una persona. Estos identificadores indirectos son difíciles de detectar automáticamente. El enfoque: las reglas de contexto en el conjunto de reglas definen qué combinaciones de atributos permiten la identificación.

Nuevos tipos de documentos: cuando se procesa un nuevo tipo de documento, el conjunto de reglas de PII debe revisarse y, en su caso, ampliarse. Esto no es una configuración única, sino un proceso continuo.

Más sobre Document Intelligence: Document Intelligence - PII, redacción de contratos, detección de firmas

Agendar reunión - Le mostramos la pseudonimización roundtrip con sus documentos.