Por qué ya no entrenamos agentes AI
92% de precisión sin entrenamiento. Desde agosto 2026, el EU AI Act exige decisiones individuales explicables. Los modelos entrenados no pueden cumplirlo.
El entrenamiento es el nuevo fax
En 2019 teníamos que entrenar modelos AI. Eran demasiado limitados para cualquier otra cosa. GPT-2 no podía escribir un párrafo coherente. BERT necesitaba miles de ejemplos etiquetados para cada tarea y un clúster GPU durante días.
Eso fue hace seis años. Seis años en los que las capacidades de los modelos de lenguaje mejoraron en órdenes de magnitud. Pero la industria sigue actuando como si “entrenar” fuera el primer paso natural.
De un vistazo - Por qué el entrenamiento es la arquitectura equivocada
- Un LLM alcanza el 92% de decisiones correctas en la revisión de facturas - sin un solo ejemplo de entrenamiento. Juristas experimentados alcanzan el 72%.[1]
- Desde agosto 2026, el EU AI Act (Art. 13, 14, 86) exige decisiones individuales explicables para sistemas de alto riesgo. Los modelos entrenados no pueden cumplirlo.[10]
- La alternativa: conjunto de reglas (versionado), contexto (por decisión), Decision Layer (persona/regla/AI por Micro-Decision).
- Los agentes configurados son modelo-agnósticos: cambio de modelo Foundation sin cambio en el conjunto de reglas. Sin lock-in, sin reentrenamiento.
- Más del 40% de los proyectos de Agentic AI fracasarán hasta 2027 - principalmente por falta de governance, no por falta de rendimiento del modelo.[9]
Si alguien en 2026 dice “Entrenamos nuestros agentes AI”, es como decir en 2010 “Enviamos nuestros pedidos por fax”. Funciona. Pero demuestra que no se ha entendido la arquitectura.
De entrenamiento a configuración
2018 - 2020
El entrenamiento es obligatorio
BERT, GPT-2. 110M - 1,5B parámetros.
Duración: semanas
Coste: $10 000 - $100 000
Requisito: clúster GPU
2021 - 2023
El entrenamiento se vuelve opcional
GPT-3/3.5. 175B parámetros.
Duración: días
Coste: $1000 - $10 000
Requisito: GPU necesaria
2024
¿Entrenamiento o prompting?
GPT-4o, Claude 3.5. Multimodal.
Duración: horas
Coste: $10 - $100
Requisito: API-Call
2025 - 2026
La configuración es suficiente
GPT-5, Claude Opus 4. Reasoning.
Duración: minutos
Coste: $10 - $100
Requisito: API-Call
Kumar Gauraw lo resume con precisión: “La mayoría recurre al Fine-Tuning demasiado pronto.”[5] No porque el Fine-Tuning sea malo. Sino porque en 2026 ya no es necesario para la mayoría de las tareas enterprise.
Lo que un modelo entrenado no puede hacer: explicar una decisión individual
Un candidato es rechazado por su agente de recruiting. Pregunta: ¿por qué?
Dos respuestas. Dos arquitecturas.
Modelo entrenado: “Nuestro modelo ha aprendido, basándose en 50 000 decisiones históricas de contratación, que su perfil tiene una probabilidad de éxito del 34%.”
Agente configurado: “Su cualificación en ingeniería mecánica no cumple el requisito 3 (electrotecnia o equivalente). Regla: perfil del puesto v2026-03. Recurrible: sí. Proceso: el departamento técnico evalúa si la ingeniería mecánica se considera ‘equivalente’.”
La primera respuesta es ilegal desde agosto de 2026.
EU AI Act, Art. 13 (transparencia), Art. 14 (supervisión humana), Art. 86 (derecho a explicación).[10] Para sistemas de alto riesgo - y el recruiting es alto riesgo, Anexo III(4) - cada decisión individual debe ser comprensible, explicable y recurrible. En España, la AESIA supervisa la aplicación de estas obligaciones.
No el modelo. La decisión individual. Para este candidato. Con esta fundamentación.
Un modelo entrenado no puede hacerlo. No tiene expediente de decisión. Tiene pesos. Y los pesos no explican nada al comité de empresa.
La prueba de compliance: entrenado vs. configurado
Arquitectura A
Modelo entrenado
"¿Por qué esta decisión?"
"El modelo ha aprendido" - Black Box
No explicable
"¿Cambia la ley?"
Reentrenamiento. 2 - 4 semanas, $5000 - $20 000
Caro y lento
"¿Puede el afectado recurrir?"
¿Contra qué? ¿Contra pesos?
No recurrible
"¿Nuevo modelo LLM disponible?"
Nuevo entrenamiento necesario. Semanas, lock-in.
Dependencia del proveedor
"¿Conforme al EU AI Act?"
Art. 13: falta transparencia. Art. 14: intervención = reemplazar modelo. Art. 86: explicación no posible.
Problemático
Lock-in: sí | Auditoría: difícil | EU AI Act: problemático
Arquitectura B
Agente configurado
"¿Por qué esta decisión?"
"§9 EStG v2026-01, ausencia 14h15min" (ley fiscal alemana - reglas análogas en cada jurisdicción)
Regla, versión, contexto documentados
"¿Cambia la ley?"
Actualizar regla. Efecto inmediato, $0.
Versionado y auditable
"¿Puede el afectado recurrir?"
"El desayuno no estaba incluido." El responsable revisa.
Recurrible con expediente de decisión
"¿Nuevo modelo LLM disponible?"
El conjunto de reglas permanece. 0 esfuerzo, sin lock-in.
Modelo-agnóstico
"¿Conforme al EU AI Act?"
Expediente de decisión por Micro-Decision. Anular regla, no reemplazar modelo.
Conforme by Design
Lock-in: no | Auditoría: by Design | EU AI Act: conforme
El problema de compliance es solo la superficie. Debajo hay un problema de arquitectura.
92% vs. 72%
Investigadores probaron en 2025 cómo de bien un LLM puede revisar facturas de abogados contra Billing Guidelines.[1] Sin Fine-Tuning. Sin entrenamiento. Solo el conjunto de reglas como contexto.
El resultado:
Factura de abogado: ¿conforme a las reglas o no?
Better Bill GPT, Whitehouse et al. (abril 2025). Peer-reviewed. El LLM recibió el conjunto de reglas como contexto, sin Fine-Tuning.[1]
Precisión global
LLM (sin entrenamiento)
92%
Juristas experimentados
72%
Clasificación de partidas individuales (F-Score)
LLM (sin entrenamiento)
81%
Mejor grupo humano
43%
Tiempo por factura
LLM
3,6 seg.
Juristas
~250 seg.
Coste por factura
LLM
< $0,01
Juristas
$4,27
Reducción de costes: 99,97%.[4] Mecanismo transferible a cualquier tarea de compliance basada en reglas.
El LLM no fue entrenado con facturas. Recibió las Billing Guidelines como contexto. Y decidió al instante.
Por qué el LLM fue mejor
No porque sea más inteligente. Sino porque a las 15:00 aplica la misma regla igual que a las 9:00. La inconsistencia es el problema del ser humano, no la incompetencia.[1]
Los juristas experimentados toman el 72% de decisiones correctas - pero cada jurista comete errores diferentes. Los fallos no son sistemáticos, sino aleatorios. Fatiga, presión de tiempo, interpretación personal. Un LLM no conoce la fatiga.
El mecanismo transferible
Da igual si el conjunto de reglas se llama “Billing Guideline”, “§14 UStG” o “Dietas de viaje 2026”: verificar documento contra regla, identificar desviación, documentar decisión. El mecanismo es idéntico.
| Dimensión | Modelo entrenado | Agente configurado |
|---|---|---|
| Cambio de reglas | Reentrenamiento (semanas, $5k - $20k) | Actualización del conjunto de reglas (minutos, $0) |
| Explicabilidad | "El modelo ha aprendido" (Black Box) | Regla + versión + contexto (expediente de decisión) |
| Recurribilidad | No posible (sin expediente de decisión) | Sí (el afectado ve la regla y puede objetar) |
| Cambio de modelo | Nuevo entrenamiento necesario (lock-in) | 0 esfuerzo (modelo-agnóstico) |
| Audit Trail | Entrada + salida (sin fundamentación) | Entrada + regla + versión + confianza + resultado |
| EU AI Act (ago. 2026) | Art. 13, 14, 86: problemático | Art. 13, 14, 86: conforme by Design |
| Break-Even Fine-Tuning | A partir de ~35 000 consultas/mes[6] | Rentable de inmediato |
Un estudio de Chauhan et al. (2025) cifra el punto de Break-Even del Fine-Tuning frente al prompting en aproximadamente 35 000 consultas al mes.[6] La mayoría de los procesos de HR y Finance en empresas están muy por debajo.
Tres cosas en vez de entrenamiento
Si no entrenamiento, ¿entonces qué? Tres componentes sustituyen lo que el Fine-Tuning promete pero estructuralmente no puede cumplir.
1. Conjunto de reglas
Todo lo que un agente necesita saber está en una ley, un reglamento, un convenio colectivo o un acuerdo marco. Estas reglas cambian. El derecho fiscal cambia anualmente. Las dietas oficiales cambian anualmente. Los reglamentos de la UE cambian.
Un modelo entrenado debe reentrenarse con cada cambio. Un conjunto de reglas se actualiza. Efecto inmediato, versionado, auditable. Sin clúster GPU, sin ciclo de evaluación, sin riesgos de regresión.
RAG (Retrieval Augmented Generation) reduce los errores fácticos en hasta un 50%.[11] No porque el modelo se vuelva más inteligente. Sino porque ve la regla actual en lugar de recuperar una ponderación obsoleta.
2. Contexto
El agente no necesita 10 000 liquidaciones de gastos de viaje históricas. Necesita esta liquidación: fecha de viaje, salida, regreso, hotel, desayuno incluido o no. Ese es el contexto de esta decisión.
Se suministra mediante entradas estructuradas o RAG, no mediante entrenamiento. Cuando el contexto cambia - otro viaje, otro empleado - cambia la decisión. No el modelo.
Un ejemplo concreto: el Travel Decision Layer verifica las dietas de viaje contra §9 EStG (ley fiscal alemana de gastos de viaje). El contexto es el viaje individual. El conjunto de reglas es el derecho fiscal vigente. El modelo Foundation es intercambiable.
3. Marco de decisión
¿Quién decide qué? No todas las decisiones en un proceso son iguales.
La dieta de viaje es conjunto de reglas: §9 EStG, determinista, 100% confianza. La pregunta de si un gasto de representación es “razonable” es criterio humano: persona. La clasificación de un tique de caja ilegible es AI: extracción LLM, probabilística.
Esta descomposición en Micro-Decisions con asignación persona/regla/AI es el verdadero trabajo de arquitectura. No el entrenamiento. El Decision Layer formaliza exactamente esta descomposición. Detalles de la arquitectura: Decision Layer explicado.
Micro-Decision en la práctica
Liquidación de gastos de viaje: jornada de 8 horas, viaje nacional, hotel con desayuno
Cada uno de estos pasos tiene un tipo fijo: conjunto de reglas (determinista), AI (probabilístico, con umbral de confianza) o persona (criterio). Cuando §9 EStG cambia, se actualiza la regla. Sin reentrenamiento. Sin nuevo modelo.
Las tres capas: arquitectura en vez de entrenamiento
La arquitectura detrás de un agente configurado consta de tres capas. Cada capa es independientemente intercambiable.
Todo por encima de la capa 1 permanece cuando el modelo cambia. Conjunto de reglas, Decision Layer, expedientes de decisión, Audit Trail - todo modelo-agnóstico. Sin reentrenamiento. Sin lock-in.
¿Por qué tres capas? Porque cada una tiene una responsabilidad diferente.
El Foundation Model proporciona comprensión lingüística y reasoning. Entiende el contexto, extrae información de documentos, clasifica entradas. No necesita saber qué dice §9 EStG. Necesita entender qué es un texto legal.
El conjunto de reglas contiene la lógica de negocio. Leyes, reglamentos, convenios colectivos, acuerdos marco. Cada regla tiene una versión. Cada versión tiene una fecha de vigencia. Cuando la ley cambia, se actualiza la regla. No el modelo.
El Decision Layer controla quién puede decidir qué. Descompone los procesos en pasos de decisión. Define para cada uno: persona, conjunto de reglas o AI. Documenta cada decisión con regla, versión, contexto y resultado.
Lo que el entrenamiento realmente cuesta
No en dólares. En dependencias.
Lock-in
Un modelo fine-tuned le vincula a ese proveedor. El dataset de entrenamiento, los pesos, el pipeline de evaluación: todo propietario. Cambio de modelo = nuevo entrenamiento = nuevos costes = nueva pérdida de tiempo.
Un agente configurado cambia el Foundation Model sin modificar una sola regla. Claude hoy, GPT mañana, un modelo open-source la semana que viene. El conjunto de reglas permanece. El Decision Layer permanece. Los expedientes de decisión permanecen.
Mantenimiento
Cada cambio legislativo requiere reentrenamiento. En Finance, la legislación fiscal, las directrices ministeriales y las cuotas de seguridad social cambian anualmente. En HR cambian los convenios colectivos, los acuerdos marco y la regulación de la UE.
Un agente entrenado necesita un mantenimiento continuo que parece un proyecto de software. Un agente configurado necesita un editor de conjunto de reglas.
MIT y Stanford (Choi & Xie, 2025) demuestran: la AI reduce el cierre mensual en 7,5 días.[7] Pero el 62% de los contables se preocupa por los errores de la AI.[8] La preocupación es justificada - con modelos entrenados. Con agentes configurados con expediente de decisión y posibilidad de recurso, cada error es identificable y corregible.
Explicabilidad
Un modelo entrenado puede decirle qué ha decidido. No puede decirle por qué.
“El modelo ha aprendido” no es una fundamentación que acepte un auditor. Ningún comité de empresa la acepta. Ningún candidato rechazado la acepta.
“Regla §9 EStG v2026-01, aplicada a ausencia 14h15min” es una fundamentación.
Si no puede explicar la decisión, no puede permitir que se recurra. Y si no puede permitir que se recurra, desde agosto de 2026 no es conforme a la ley en la UE.[10]
¿Tiene el Fine-Tuning su lugar?
Sí. A partir de aproximadamente 35 000 consultas al mes con un conjunto de reglas estable, el Fine-Tuning resulta rentable.[6] Adaptación lingüística, jerga de dominio, optimización de latencia: para eso hay buenas razones.
Pero donde la industria lo vende hoy - Enterprise HR y Finance con leyes que cambian anualmente - es la decisión arquitectónica equivocada. Gartner pronostica que más del 40% de los proyectos de Agentic AI fracasarán hasta 2027.[9] No por el rendimiento del modelo. Por la governance.
La pregunta que debería hacer su consejo
No: “¿Con qué datos se entrenó vuestro agente?”
Sino:
1. ¿Qué conjunto de reglas fundamenta la decisión? ¿Qué versión estaba vigente en el momento de la decisión?
Si la respuesta es “Eso está en el modelo”, no hay versión. No hay historial de cambios. No hay Audit Trail.
2. ¿Qué pasa cuando cambia la regla? ¿Reentrenamiento o actualización?
Si la respuesta es “Reentrenamos”, está pagando por un mantenimiento innecesario.
3. ¿Puede el afectado ver la decisión individual y recurrirla?
Si no hay respuesta, desde agosto de 2026 tiene un problema de compliance. Art. 86 EU AI Act: derecho a explicación. No es opcional.[10]
El enfoque de Gosign
El Decision Layer de Gosign es una implementación de esta arquitectura. Descompone los procesos en pasos de decisión. Define para cada uno: persona, conjunto de reglas o AI. Los conjuntos de reglas están versionados. Las decisiones son auditables. Los resultados son recurribles.
48 agentes HR y 49 agentes Finance, cada uno con tabla Micro-Decision. Sin Fine-Tuning. Sin lock-in. Sin reentrenamiento cuando cambian las leyes.
Referencias
- Better Bill GPT, Whitehouse et al. (abril 2025). Legal Invoice Review: el LLM alcanza un 92% de precisión en la revisión de honorarios de abogados contra Billing Guidelines. Peer-reviewed.
- Better Bill GPT, Whitehouse et al. (abril 2025). F-Score en clasificación de partidas individuales: LLM 81% vs. mejor grupo humano 43%.
- Better Bill GPT, Whitehouse et al. (abril 2025). Tiempo de procesamiento por factura: LLM 3,6 segundos vs. juristas experimentados 194 a 316 segundos.
- Better Bill GPT, Whitehouse et al. (abril 2025). Reducción de costes en Legal Invoice Review: 99,97% ($4,27 vs. <$0,01 por factura).
- Kumar Gauraw (marzo 2026). "La mayoría recurre al Fine-Tuning demasiado pronto."
- Chauhan et al., Journal of Information Systems Engineering (2025). Break-Even Fine-Tuning vs. Prompting: ~35 000 consultas al mes.
- MIT/Stanford, Choi & Xie (agosto 2025). La AI reduce el cierre mensual en un promedio de 7,5 días.
- MIT/Stanford, Choi & Xie (agosto 2025). El 62% de los contables expresan preocupación sobre errores de la AI en procesos financieros.
- Gartner (junio 2025). Pronóstico: más del 40% de los proyectos de Agentic AI fracasarán hasta 2027.
- EU AI Act (VO 2024/1689), Crowell & Moring (febrero 2026). Obligaciones para sistemas de alto riesgo desde agosto 2026: Art. 13 (transparencia), Art. 14 (supervisión humana), Art. 86 (derecho a explicación). Anexo III(4): recruiting como sistema de alto riesgo.
- IBM (2024). RAG reduce los errores fácticos en las salidas de LLM en hasta un 50%.

Bert Gogolin
Director General, Gosign
AI Governance Briefing
IA empresarial, regulación e infraestructura - una vez al mes, directamente de mi parte.