Ir al contenido
Governance & Compliance

Por qué ya no entrenamos agentes AI

92% de precisión sin entrenamiento. Desde agosto 2026, el EU AI Act exige decisiones individuales explicables. Los modelos entrenados no pueden cumplirlo.

Bert Gogolin
Bert Gogolin
CEO y fundador 12 min de lectura

El entrenamiento es el nuevo fax

En 2019 teníamos que entrenar modelos AI. Eran demasiado limitados para cualquier otra cosa. GPT-2 no podía escribir un párrafo coherente. BERT necesitaba miles de ejemplos etiquetados para cada tarea y un clúster GPU durante días.

Eso fue hace seis años. Seis años en los que las capacidades de los modelos de lenguaje mejoraron en órdenes de magnitud. Pero la industria sigue actuando como si “entrenar” fuera el primer paso natural.

De un vistazo - Por qué el entrenamiento es la arquitectura equivocada

  • Un LLM alcanza el 92% de decisiones correctas en la revisión de facturas - sin un solo ejemplo de entrenamiento. Juristas experimentados alcanzan el 72%.[1]
  • Desde agosto 2026, el EU AI Act (Art. 13, 14, 86) exige decisiones individuales explicables para sistemas de alto riesgo. Los modelos entrenados no pueden cumplirlo.[10]
  • La alternativa: conjunto de reglas (versionado), contexto (por decisión), Decision Layer (persona/regla/AI por Micro-Decision).
  • Los agentes configurados son modelo-agnósticos: cambio de modelo Foundation sin cambio en el conjunto de reglas. Sin lock-in, sin reentrenamiento.
  • Más del 40% de los proyectos de Agentic AI fracasarán hasta 2027 - principalmente por falta de governance, no por falta de rendimiento del modelo.[9]

Si alguien en 2026 dice “Entrenamos nuestros agentes AI”, es como decir en 2010 “Enviamos nuestros pedidos por fax”. Funciona. Pero demuestra que no se ha entendido la arquitectura.

De entrenamiento a configuración

2018 - 2020

El entrenamiento es obligatorio

BERT, GPT-2. 110M - 1,5B parámetros.

Duración: semanas

Coste: $10 000 - $100 000

Requisito: clúster GPU

2021 - 2023

El entrenamiento se vuelve opcional

GPT-3/3.5. 175B parámetros.

Duración: días

Coste: $1000 - $10 000

Requisito: GPU necesaria

2024

¿Entrenamiento o prompting?

GPT-4o, Claude 3.5. Multimodal.

Duración: horas

Coste: $10 - $100

Requisito: API-Call

2025 - 2026

La configuración es suficiente

GPT-5, Claude Opus 4. Reasoning.

Duración: minutos

Coste: $10 - $100

Requisito: API-Call

Kumar Gauraw lo resume con precisión: “La mayoría recurre al Fine-Tuning demasiado pronto.”[5] No porque el Fine-Tuning sea malo. Sino porque en 2026 ya no es necesario para la mayoría de las tareas enterprise.

Lo que un modelo entrenado no puede hacer: explicar una decisión individual

Un candidato es rechazado por su agente de recruiting. Pregunta: ¿por qué?

Dos respuestas. Dos arquitecturas.

Modelo entrenado: “Nuestro modelo ha aprendido, basándose en 50 000 decisiones históricas de contratación, que su perfil tiene una probabilidad de éxito del 34%.”

Agente configurado: “Su cualificación en ingeniería mecánica no cumple el requisito 3 (electrotecnia o equivalente). Regla: perfil del puesto v2026-03. Recurrible: sí. Proceso: el departamento técnico evalúa si la ingeniería mecánica se considera ‘equivalente’.”

La primera respuesta es ilegal desde agosto de 2026.

EU AI Act, Art. 13 (transparencia), Art. 14 (supervisión humana), Art. 86 (derecho a explicación).[10] Para sistemas de alto riesgo - y el recruiting es alto riesgo, Anexo III(4) - cada decisión individual debe ser comprensible, explicable y recurrible. En España, la AESIA supervisa la aplicación de estas obligaciones.

No el modelo. La decisión individual. Para este candidato. Con esta fundamentación.

Un modelo entrenado no puede hacerlo. No tiene expediente de decisión. Tiene pesos. Y los pesos no explican nada al comité de empresa.

La prueba de compliance: entrenado vs. configurado

Arquitectura A

Modelo entrenado

"¿Por qué esta decisión?"

"El modelo ha aprendido" - Black Box

No explicable

"¿Cambia la ley?"

Reentrenamiento. 2 - 4 semanas, $5000 - $20 000

Caro y lento

"¿Puede el afectado recurrir?"

¿Contra qué? ¿Contra pesos?

No recurrible

"¿Nuevo modelo LLM disponible?"

Nuevo entrenamiento necesario. Semanas, lock-in.

Dependencia del proveedor

"¿Conforme al EU AI Act?"

Art. 13: falta transparencia. Art. 14: intervención = reemplazar modelo. Art. 86: explicación no posible.

Problemático

Lock-in: sí | Auditoría: difícil | EU AI Act: problemático

Arquitectura B

Agente configurado

"¿Por qué esta decisión?"

"§9 EStG v2026-01, ausencia 14h15min" (ley fiscal alemana - reglas análogas en cada jurisdicción)

Regla, versión, contexto documentados

"¿Cambia la ley?"

Actualizar regla. Efecto inmediato, $0.

Versionado y auditable

"¿Puede el afectado recurrir?"

"El desayuno no estaba incluido." El responsable revisa.

Recurrible con expediente de decisión

"¿Nuevo modelo LLM disponible?"

El conjunto de reglas permanece. 0 esfuerzo, sin lock-in.

Modelo-agnóstico

"¿Conforme al EU AI Act?"

Expediente de decisión por Micro-Decision. Anular regla, no reemplazar modelo.

Conforme by Design

Lock-in: no | Auditoría: by Design | EU AI Act: conforme

El problema de compliance es solo la superficie. Debajo hay un problema de arquitectura.

92% vs. 72%

Investigadores probaron en 2025 cómo de bien un LLM puede revisar facturas de abogados contra Billing Guidelines.[1] Sin Fine-Tuning. Sin entrenamiento. Solo el conjunto de reglas como contexto.

El resultado:

Factura de abogado: ¿conforme a las reglas o no?

Better Bill GPT, Whitehouse et al. (abril 2025). Peer-reviewed. El LLM recibió el conjunto de reglas como contexto, sin Fine-Tuning.[1]

Precisión global

LLM (sin entrenamiento)

92%

Juristas experimentados

72%

Clasificación de partidas individuales (F-Score)

LLM (sin entrenamiento)

81%

Mejor grupo humano

43%

Tiempo por factura

LLM

3,6 seg.

Juristas

~250 seg.

Coste por factura

LLM

< $0,01

Juristas

$4,27

Reducción de costes: 99,97%.[4] Mecanismo transferible a cualquier tarea de compliance basada en reglas.

El LLM no fue entrenado con facturas. Recibió las Billing Guidelines como contexto. Y decidió al instante.

Por qué el LLM fue mejor

No porque sea más inteligente. Sino porque a las 15:00 aplica la misma regla igual que a las 9:00. La inconsistencia es el problema del ser humano, no la incompetencia.[1]

Los juristas experimentados toman el 72% de decisiones correctas - pero cada jurista comete errores diferentes. Los fallos no son sistemáticos, sino aleatorios. Fatiga, presión de tiempo, interpretación personal. Un LLM no conoce la fatiga.

El mecanismo transferible

Da igual si el conjunto de reglas se llama “Billing Guideline”, “§14 UStG” o “Dietas de viaje 2026”: verificar documento contra regla, identificar desviación, documentar decisión. El mecanismo es idéntico.

Dimensión Modelo entrenado Agente configurado
Cambio de reglas Reentrenamiento (semanas, $5k - $20k) Actualización del conjunto de reglas (minutos, $0)
Explicabilidad "El modelo ha aprendido" (Black Box) Regla + versión + contexto (expediente de decisión)
Recurribilidad No posible (sin expediente de decisión) Sí (el afectado ve la regla y puede objetar)
Cambio de modelo Nuevo entrenamiento necesario (lock-in) 0 esfuerzo (modelo-agnóstico)
Audit Trail Entrada + salida (sin fundamentación) Entrada + regla + versión + confianza + resultado
EU AI Act (ago. 2026) Art. 13, 14, 86: problemático Art. 13, 14, 86: conforme by Design
Break-Even Fine-Tuning A partir de ~35 000 consultas/mes[6] Rentable de inmediato

Un estudio de Chauhan et al. (2025) cifra el punto de Break-Even del Fine-Tuning frente al prompting en aproximadamente 35 000 consultas al mes.[6] La mayoría de los procesos de HR y Finance en empresas están muy por debajo.

Tres cosas en vez de entrenamiento

Si no entrenamiento, ¿entonces qué? Tres componentes sustituyen lo que el Fine-Tuning promete pero estructuralmente no puede cumplir.

1. Conjunto de reglas

Todo lo que un agente necesita saber está en una ley, un reglamento, un convenio colectivo o un acuerdo marco. Estas reglas cambian. El derecho fiscal cambia anualmente. Las dietas oficiales cambian anualmente. Los reglamentos de la UE cambian.

Un modelo entrenado debe reentrenarse con cada cambio. Un conjunto de reglas se actualiza. Efecto inmediato, versionado, auditable. Sin clúster GPU, sin ciclo de evaluación, sin riesgos de regresión.

RAG (Retrieval Augmented Generation) reduce los errores fácticos en hasta un 50%.[11] No porque el modelo se vuelva más inteligente. Sino porque ve la regla actual en lugar de recuperar una ponderación obsoleta.

2. Contexto

El agente no necesita 10 000 liquidaciones de gastos de viaje históricas. Necesita esta liquidación: fecha de viaje, salida, regreso, hotel, desayuno incluido o no. Ese es el contexto de esta decisión.

Se suministra mediante entradas estructuradas o RAG, no mediante entrenamiento. Cuando el contexto cambia - otro viaje, otro empleado - cambia la decisión. No el modelo.

Un ejemplo concreto: el Travel Decision Layer verifica las dietas de viaje contra §9 EStG (ley fiscal alemana de gastos de viaje). El contexto es el viaje individual. El conjunto de reglas es el derecho fiscal vigente. El modelo Foundation es intercambiable.

3. Marco de decisión

¿Quién decide qué? No todas las decisiones en un proceso son iguales.

La dieta de viaje es conjunto de reglas: §9 EStG, determinista, 100% confianza. La pregunta de si un gasto de representación es “razonable” es criterio humano: persona. La clasificación de un tique de caja ilegible es AI: extracción LLM, probabilística.

Esta descomposición en Micro-Decisions con asignación persona/regla/AI es el verdadero trabajo de arquitectura. No el entrenamiento. El Decision Layer formaliza exactamente esta descomposición. Detalles de la arquitectura: Decision Layer explicado.

Micro-Decision en la práctica

Liquidación de gastos de viaje: jornada de 8 horas, viaje nacional, hotel con desayuno

#1 Fecha de viaje y duración de la ausencia Contexto Input: justificantes
#2 Calcular dieta de viaje Conjunto de reglas §9 EStG v2026-01
#3 Aplicar deducción por desayuno Conjunto de reglas §9 Abs. 4a S. 8 EStG
#4 Clasificar tique de caja AI Extracción LLM, Confidence: 87%
#5 ¿Es el gasto de representación "razonable"? Persona Criterio, el responsable revisa
#6 Crear asiento contable conforme a normativa Conjunto de reglas Normativa contable, versionada

Cada uno de estos pasos tiene un tipo fijo: conjunto de reglas (determinista), AI (probabilístico, con umbral de confianza) o persona (criterio). Cuando §9 EStG cambia, se actualiza la regla. Sin reentrenamiento. Sin nuevo modelo.

Las tres capas: arquitectura en vez de entrenamiento

La arquitectura detrás de un agente configurado consta de tres capas. Cada capa es independientemente intercambiable.

Capa 3 Decision Layer
Micro-Decisions Persona / Reglas / AI Expediente de decisión Audit Trail
Capa 2 Conjunto de reglas (versionado, intercambiable)
Legislación fiscal Reglamentos Normativa contable Convenio colectivo Acuerdo marco EU AI Act
Capa 1 Foundation Model (intercambiable)
Claude GPT Llama Mistral Gemini

Todo por encima de la capa 1 permanece cuando el modelo cambia. Conjunto de reglas, Decision Layer, expedientes de decisión, Audit Trail - todo modelo-agnóstico. Sin reentrenamiento. Sin lock-in.

¿Por qué tres capas? Porque cada una tiene una responsabilidad diferente.

El Foundation Model proporciona comprensión lingüística y reasoning. Entiende el contexto, extrae información de documentos, clasifica entradas. No necesita saber qué dice §9 EStG. Necesita entender qué es un texto legal.

El conjunto de reglas contiene la lógica de negocio. Leyes, reglamentos, convenios colectivos, acuerdos marco. Cada regla tiene una versión. Cada versión tiene una fecha de vigencia. Cuando la ley cambia, se actualiza la regla. No el modelo.

El Decision Layer controla quién puede decidir qué. Descompone los procesos en pasos de decisión. Define para cada uno: persona, conjunto de reglas o AI. Documenta cada decisión con regla, versión, contexto y resultado.

Lo que el entrenamiento realmente cuesta

No en dólares. En dependencias.

Lock-in

Un modelo fine-tuned le vincula a ese proveedor. El dataset de entrenamiento, los pesos, el pipeline de evaluación: todo propietario. Cambio de modelo = nuevo entrenamiento = nuevos costes = nueva pérdida de tiempo.

Un agente configurado cambia el Foundation Model sin modificar una sola regla. Claude hoy, GPT mañana, un modelo open-source la semana que viene. El conjunto de reglas permanece. El Decision Layer permanece. Los expedientes de decisión permanecen.

Mantenimiento

Cada cambio legislativo requiere reentrenamiento. En Finance, la legislación fiscal, las directrices ministeriales y las cuotas de seguridad social cambian anualmente. En HR cambian los convenios colectivos, los acuerdos marco y la regulación de la UE.

Un agente entrenado necesita un mantenimiento continuo que parece un proyecto de software. Un agente configurado necesita un editor de conjunto de reglas.

MIT y Stanford (Choi & Xie, 2025) demuestran: la AI reduce el cierre mensual en 7,5 días.[7] Pero el 62% de los contables se preocupa por los errores de la AI.[8] La preocupación es justificada - con modelos entrenados. Con agentes configurados con expediente de decisión y posibilidad de recurso, cada error es identificable y corregible.

Explicabilidad

Un modelo entrenado puede decirle qué ha decidido. No puede decirle por qué.

“El modelo ha aprendido” no es una fundamentación que acepte un auditor. Ningún comité de empresa la acepta. Ningún candidato rechazado la acepta.

“Regla §9 EStG v2026-01, aplicada a ausencia 14h15min” es una fundamentación.

Si no puede explicar la decisión, no puede permitir que se recurra. Y si no puede permitir que se recurra, desde agosto de 2026 no es conforme a la ley en la UE.[10]

¿Tiene el Fine-Tuning su lugar?

Sí. A partir de aproximadamente 35 000 consultas al mes con un conjunto de reglas estable, el Fine-Tuning resulta rentable.[6] Adaptación lingüística, jerga de dominio, optimización de latencia: para eso hay buenas razones.

Pero donde la industria lo vende hoy - Enterprise HR y Finance con leyes que cambian anualmente - es la decisión arquitectónica equivocada. Gartner pronostica que más del 40% de los proyectos de Agentic AI fracasarán hasta 2027.[9] No por el rendimiento del modelo. Por la governance.

La pregunta que debería hacer su consejo

No: “¿Con qué datos se entrenó vuestro agente?”

Sino:

1. ¿Qué conjunto de reglas fundamenta la decisión? ¿Qué versión estaba vigente en el momento de la decisión?

Si la respuesta es “Eso está en el modelo”, no hay versión. No hay historial de cambios. No hay Audit Trail.

2. ¿Qué pasa cuando cambia la regla? ¿Reentrenamiento o actualización?

Si la respuesta es “Reentrenamos”, está pagando por un mantenimiento innecesario.

3. ¿Puede el afectado ver la decisión individual y recurrirla?

Si no hay respuesta, desde agosto de 2026 tiene un problema de compliance. Art. 86 EU AI Act: derecho a explicación. No es opcional.[10]

El enfoque de Gosign

El Decision Layer de Gosign es una implementación de esta arquitectura. Descompone los procesos en pasos de decisión. Define para cada uno: persona, conjunto de reglas o AI. Los conjuntos de reglas están versionados. Las decisiones son auditables. Los resultados son recurribles.

48 agentes HR y 49 agentes Finance, cada uno con tabla Micro-Decision. Sin Fine-Tuning. Sin lock-in. Sin reentrenamiento cuando cambian las leyes.


Referencias

  1. Better Bill GPT, Whitehouse et al. (abril 2025). Legal Invoice Review: el LLM alcanza un 92% de precisión en la revisión de honorarios de abogados contra Billing Guidelines. Peer-reviewed.
  2. Better Bill GPT, Whitehouse et al. (abril 2025). F-Score en clasificación de partidas individuales: LLM 81% vs. mejor grupo humano 43%.
  3. Better Bill GPT, Whitehouse et al. (abril 2025). Tiempo de procesamiento por factura: LLM 3,6 segundos vs. juristas experimentados 194 a 316 segundos.
  4. Better Bill GPT, Whitehouse et al. (abril 2025). Reducción de costes en Legal Invoice Review: 99,97% ($4,27 vs. <$0,01 por factura).
  5. Kumar Gauraw (marzo 2026). "La mayoría recurre al Fine-Tuning demasiado pronto."
  6. Chauhan et al., Journal of Information Systems Engineering (2025). Break-Even Fine-Tuning vs. Prompting: ~35 000 consultas al mes.
  7. MIT/Stanford, Choi & Xie (agosto 2025). La AI reduce el cierre mensual en un promedio de 7,5 días.
  8. MIT/Stanford, Choi & Xie (agosto 2025). El 62% de los contables expresan preocupación sobre errores de la AI en procesos financieros.
  9. Gartner (junio 2025). Pronóstico: más del 40% de los proyectos de Agentic AI fracasarán hasta 2027.
  10. EU AI Act (VO 2024/1689), Crowell & Moring (febrero 2026). Obligaciones para sistemas de alto riesgo desde agosto 2026: Art. 13 (transparencia), Art. 14 (supervisión humana), Art. 86 (derecho a explicación). Anexo III(4): recruiting como sistema de alto riesgo.
  11. IBM (2024). RAG reduce los errores fácticos en las salidas de LLM en hasta un 50%.
Bert Gogolin

Bert Gogolin

Director General, Gosign

AI Governance Briefing

IA empresarial, regulación e infraestructura - una vez al mes, directamente de mi parte.

Sin spam. Cancelable en cualquier momento. Política de privacidad

Decision Layer EU AI Act Fine-Tuning Governance Regelwerk
Compartir este artículo

Preguntas frecuentes

¿Por qué el Fine-Tuning es problemático en agentes enterprise?

El Fine-Tuning incorpora reglas de negocio en los pesos del modelo. La consecuencia: las decisiones individuales no pueden atribuirse a una regla concreta, los cambios legales requieren un costoso reentrenamiento y un cambio de modelo significa pérdida total. Desde agosto 2026, el EU AI Act (Art. 13, 14, 86) exige decisiones individuales trazables para sistemas de alto riesgo. Los modelos entrenados no pueden cumplirlo por diseño arquitectónico.

¿Cuál es la diferencia entre entrenamiento y configuración?

El entrenamiento (Fine-Tuning) modifica los pesos de un modelo. Las reglas de negocio se convierten en parte del modelo y ya no pueden identificarse individualmente. Configuración significa: el modelo Foundation permanece inalterado. Las reglas de negocio se mantienen como un conjunto de reglas versionado, el caso actual se pasa como contexto. Resultado: cada decisión es atribuible a una regla concreta, auditable y recurrible.

¿El Fine-Tuning nunca tiene sentido?

El Fine-Tuning tiene su lugar. A partir de aproximadamente 35 000 consultas al mes con un conjunto de reglas estable y que rara vez cambia, resulta rentable. Pero donde la industria lo vende hoy - Enterprise HR y Finance con leyes, convenios colectivos y acuerdos marco que cambian anualmente - es la decisión arquitectónica equivocada.

¿Qué significa modelo-agnóstico?

Modelo-agnóstico significa: el conjunto de reglas y el Decision Layer funcionan independientemente del modelo Foundation utilizado. Ya sea Claude, GPT, Llama o Mistral - las reglas de negocio, los niveles de decisión y los Audit Trails permanecen idénticos. Un cambio de modelo requiere cero adaptaciones en el conjunto de reglas. Sin lock-in, sin costes de reentrenamiento.

¿Qué proceso debería manejar su primer agente?

Deje su email - recibirá su enlace personal de reserva al instante.