Por que não treinamos mais agentes AI
92% de precisão sem treinamento. A partir de agosto de 2026, o EU AI Act exige decisões individuais explicáveis. Modelos treinados não conseguem isso.
Treinamento é o novo fax
Em 2019, precisávamos treinar modelos AI. Eram limitados demais para qualquer outra coisa. O GPT-2 não conseguia escrever um parágrafo coerente. O BERT precisava de milhares de exemplos rotulados para cada tarefa e de um cluster GPU por dias.
Isso foi há seis anos. Seis anos em que as capacidades dos modelos de linguagem melhoraram em ordens de grandeza. Mas o setor continua agindo como se “treinar” fosse o primeiro passo natural.
Visão geral - Por que treinamento é a arquitetura errada
- Um LLM alcança 92% de decisões corretas na verificação de faturas - sem um único exemplo de treinamento. Juristas experientes alcançam 72%.[1]
- A partir de agosto de 2026, o EU AI Act (Art. 13, 14, 86) exige decisões individuais explicáveis para sistemas de alto risco. No Brasil, o PL 2338/2023 prevê obrigações semelhantes. Modelos treinados não conseguem cumprir isso.[10]
- A alternativa: conjunto de regras (versionado), contexto (por decisão), Decision Layer (pessoa/regra/AI por Micro-Decision).
- Agentes configurados são modelo-agnósticos: troca de modelo Foundation sem alterar o conjunto de regras. Sem lock-in, sem retreinamento.
- Mais de 40% dos projetos de Agentic AI fracassarão até 2027 - principalmente por falta de governance, não por falta de desempenho do modelo.[9]
Se alguém em 2026 diz “Treinamos nossos agentes AI”, é como dizer em 2010 “Enviamos nossos pedidos por fax”. Funciona. Mas mostra que não se entendeu a arquitetura.
De treinamento a configuração
2018 - 2020
Treinamento é obrigatório
BERT, GPT-2. 110M - 1,5B parâmetros.
Duração: semanas
Custo: $10 000 - $100 000
Requisito: cluster GPU
2021 - 2023
Treinamento se torna opcional
GPT-3/3.5. 175B parâmetros.
Duração: dias
Custo: $1000 - $10 000
Requisito: GPU necessária
2024
Treinamento ou prompting?
GPT-4o, Claude 3.5. Multimodal.
Duração: horas
Custo: $10 - $100
Requisito: API-Call
2025 - 2026
Configuração é suficiente
GPT-5, Claude Opus 4. Reasoning.
Duração: minutos
Custo: $10 - $100
Requisito: API-Call
Kumar Gauraw resume com precisão: “A maioria recorre ao Fine-Tuning cedo demais.”[5] Não porque o Fine-Tuning seja ruim. Mas porque em 2026 já não é necessário para a maioria das tarefas enterprise.
O que um modelo treinado não consegue: explicar uma decisão individual
Um candidato é rejeitado pelo seu agente de recrutamento. Ele pergunta: por quê?
Duas respostas. Duas arquiteturas.
Modelo treinado: “Nosso modelo aprendeu com base em 50 000 decisões históricas de contratação que seu perfil tem uma probabilidade de sucesso de 34%.”
Agente configurado: “Sua qualificação em engenharia mecânica não atende o requisito 3 (eletrotécnica ou equivalente). Regra: perfil do cargo v2026-03. Contestável: sim. Processo: o departamento técnico avalia se engenharia mecânica se qualifica como ‘equivalente’.”
A primeira resposta é ilegal a partir de agosto de 2026.
EU AI Act, Art. 13 (transparência), Art. 14 (supervisão humana), Art. 86 (direito à explicação).[10] Para sistemas de alto risco - e recrutamento é alto risco, Anexo III(4) - cada decisão individual deve ser compreensível, explicável e contestável. No Brasil, o PL 2338/2023 prevê obrigações análogas para sistemas de inteligência artificial de alto risco.
Não o modelo. A decisão individual. Para este candidato. Com esta fundamentação.
Um modelo treinado não consegue fazer isso. Não tem registro de decisão. Tem pesos. E pesos não explicam nada à CIPA ou ao sindicato.
O teste de compliance: treinado vs. configurado
Arquitetura A
Modelo treinado
"Por que esta decisão?"
"O modelo aprendeu" - Black Box
Não explicável
"Mudança na legislação?"
Retreinamento. 2 - 4 semanas, $5000 - $20 000
Caro e lento
"O afetado pode contestar?"
Contra o quê? Contra pesos?
Não contestável
"Novo modelo LLM disponível?"
Novo treinamento necessário. Semanas, lock-in.
Dependência do fornecedor
"Conforme ao EU AI Act?"
Art. 13: falta transparência. Art. 14: intervenção = substituir modelo. Art. 86: explicação não possível.
Problemático
Lock-in: sim | Auditoria: difícil | EU AI Act: problemático
Arquitetura B
Agente configurado
"Por que esta decisão?"
"§9 EStG v2026-01, ausência 14h15min" (lei fiscal alemã - regras análogas em cada jurisdição)
Regra, versão, contexto documentados
"Mudança na legislação?"
Atualizar regra. Efeito imediato, $0.
Versionado e auditável
"O afetado pode contestar?"
"O café da manhã não estava incluído." O responsável verifica.
Contestável com registro de decisão
"Novo modelo LLM disponível?"
O conjunto de regras permanece. 0 esforço, sem lock-in.
Modelo-agnóstico
"Conforme ao EU AI Act?"
Registro de decisão por Micro-Decision. Sobrescrever regra, não substituir modelo.
Conforme by Design
Lock-in: não | Auditoria: by Design | EU AI Act: conforme
O problema de compliance é apenas a superfície. Por baixo, há um problema de arquitetura.
92% vs. 72%
Pesquisadores testaram em 2025 quão bem um LLM consegue verificar faturas jurídicas contra Billing Guidelines.[1] Sem Fine-Tuning. Sem treinamento. Apenas o conjunto de regras como contexto.
O resultado:
Fatura jurídica: conforme às regras ou não?
Better Bill GPT, Whitehouse et al. (abril 2025). Peer-reviewed. O LLM recebeu o conjunto de regras como contexto, sem Fine-Tuning.[1]
Precisão geral
LLM (sem treinamento)
92%
Juristas experientes
72%
Classificação de itens individuais (F-Score)
LLM (sem treinamento)
81%
Melhor grupo humano
43%
Tempo por fatura
LLM
3,6 seg.
Juristas
~250 seg.
Custo por fatura
LLM
< $0,01
Juristas
$4,27
Redução de custos: 99,97%.[4] Mecanismo transferível para qualquer tarefa de compliance baseada em regras.
O LLM não foi treinado em faturas. Recebeu as Billing Guidelines como contexto. E decidiu na hora.
Por que o LLM foi melhor
Não porque é mais inteligente. Mas porque às 15h aplica a mesma regra da mesma forma que às 9h. Inconsistência é o problema do ser humano, não incompetência.[1]
Juristas experientes tomam 72% de decisões corretas - mas cada jurista comete erros diferentes. Os erros não são sistemáticos, e sim aleatórios. Fadiga, pressão de tempo, interpretação pessoal. Um LLM não conhece fadiga.
O mecanismo transferível
Seja o conjunto de regras chamado “Billing Guideline”, “§14 UStG” ou “Diárias de viagem 2026”: verificar documento contra regra, identificar desvio, documentar decisão. O mecanismo é idêntico.
| Dimensão | Modelo treinado | Agente configurado |
|---|---|---|
| Mudança de regras | Retreinamento (semanas, $5k - $20k) | Atualização do conjunto de regras (minutos, $0) |
| Explicabilidade | "O modelo aprendeu" (Black Box) | Regra + versão + contexto (registro de decisão) |
| Contestabilidade | Não possível (sem registro de decisão) | Sim (o afetado vê a regra e pode contestar) |
| Troca de modelo | Novo treinamento necessário (lock-in) | 0 esforço (modelo-agnóstico) |
| Audit Trail | Entrada + saída (sem fundamentação) | Entrada + regra + versão + confiança + resultado |
| EU AI Act (ago. 2026) | Art. 13, 14, 86: problemático | Art. 13, 14, 86: conforme by Design |
| Break-Even Fine-Tuning | A partir de ~35 000 consultas/mês[6] | Economicamente viável de imediato |
Um estudo de Chauhan et al. (2025) situa o ponto de Break-Even do Fine-Tuning em relação ao prompting em aproximadamente 35 000 consultas por mês.[6] A maioria dos processos de RH e Finanças em empresas está bem abaixo disso.
Três coisas no lugar de treinamento
Se não treinamento, então o quê? Três componentes substituem o que o Fine-Tuning promete, mas estruturalmente não consegue entregar.
1. Conjunto de regras
Tudo o que um agente precisa saber está em uma lei, um regulamento, uma convenção coletiva (PT: acordo coletivo de trabalho) ou um acordo coletivo. Essas regras mudam. A legislação tributária muda anualmente. As diárias e valores de referência mudam anualmente. Os regulamentos da UE mudam.
Um modelo treinado precisa ser retreinado a cada mudança. Um conjunto de regras é atualizado. Efeito imediato, versionado, auditável. Sem cluster GPU, sem ciclo de avaliação, sem riscos de regressão.
RAG (Retrieval Augmented Generation) reduz erros factuais em até 50%.[11] Não porque o modelo fica mais inteligente. Mas porque vê a regra atual em vez de recuperar uma ponderação desatualizada.
2. Contexto
O agente não precisa de 10 000 prestações de contas de viagem históricas. Precisa desta prestação de contas: data da viagem, partida, retorno, hotel, café da manhã incluído ou não. Esse é o contexto desta decisão.
É fornecido por entradas estruturadas ou RAG, não incorporado por treinamento. Quando o contexto muda - outra viagem, outro colaborador - a decisão muda. Não o modelo.
Um exemplo concreto: o Travel Decision Layer verifica diárias de viagem contra §9 EStG (lei fiscal alemã de despesas de viagem). O contexto é a viagem individual. O conjunto de regras é a legislação tributária vigente. O modelo Foundation é intercambiável.
3. Estrutura de decisão
Quem decide o quê? Nem todas as decisões em um processo são iguais.
A diária de viagem é conjunto de regras: §9 EStG, determinística, 100% confiança. A questão de se uma despesa de representação é “razoável” é critério humano: pessoa. A classificação de um cupom fiscal ilegível é AI: extração LLM, probabilística.
Essa decomposição em Micro-Decisions com atribuição pessoa/regra/AI é o verdadeiro trabalho de arquitetura. Não o treinamento. O Decision Layer formaliza exatamente essa decomposição. Detalhes da arquitetura: Decision Layer explicado.
Micro-Decision na prática
Prestação de contas de viagem: jornada de 8 horas, viagem nacional, hotel com café da manhã
Cada um desses passos tem um tipo fixo: conjunto de regras (determinístico), AI (probabilístico, com limiar de confiança) ou pessoa (critério). Quando §9 EStG muda, a regra é atualizada. Sem retreinamento. Sem novo modelo.
As três camadas: arquitetura no lugar de treinamento
A arquitetura por trás de um agente configurado consiste em três camadas. Cada camada é independentemente intercambiável.
Tudo acima da camada 1 permanece quando o modelo muda. Conjunto de regras, Decision Layer, registros de decisão, Audit Trail - tudo modelo-agnóstico. Sem retreinamento. Sem lock-in.
Por que três camadas? Porque cada uma tem uma responsabilidade diferente.
O Foundation Model fornece compreensão linguística e reasoning. Entende o contexto, extrai informações de documentos, classifica entradas. Não precisa saber o que diz §9 EStG. Precisa entender o que é um texto legal.
O conjunto de regras contém a lógica de negócio. Leis, regulamentos, convenções coletivas, acordos coletivos. Cada regra tem uma versão. Cada versão tem uma data de vigência. Quando a lei muda, a regra é atualizada. Não o modelo.
O Decision Layer controla quem pode decidir o quê. Decompõe os processos em passos de decisão. Define para cada um: pessoa, conjunto de regras ou AI. Documenta cada decisão com regra, versão, contexto e resultado.
O que treinamento realmente custa
Não em dólares. Em dependências.
Lock-in
Um modelo fine-tuned vincula você a esse fornecedor. O dataset de treinamento, os pesos, o pipeline de avaliação: tudo proprietário. Troca de modelo = novo treinamento = novos custos = nova perda de tempo.
Um agente configurado troca o Foundation Model sem alterar uma única regra. Claude hoje, GPT amanhã, um modelo open-source na próxima semana. O conjunto de regras permanece. O Decision Layer permanece. Os registros de decisão permanecem.
Manutenção
Cada mudança legislativa exige retreinamento. Em Finanças, a legislação tributária, as instruções normativas e as alíquotas de contribuição mudam anualmente. Em RH mudam as convenções coletivas, os acordos coletivos e a regulação da UE.
Um agente treinado precisa de manutenção contínua que se parece com um projeto de software. Um agente configurado precisa de um editor de conjunto de regras.
MIT e Stanford (Choi & Xie, 2025) mostram: AI reduz o fechamento mensal em 7,5 dias.[7] Mas 62% dos contadores se preocupam com erros da AI.[8] A preocupação é justificada - com modelos treinados. Com agentes configurados com registro de decisão e possibilidade de contestação, cada erro é identificável e corrigível.
Explicabilidade
Um modelo treinado pode dizer o que decidiu. Não pode dizer por quê.
“O modelo aprendeu” não é uma fundamentação que um auditor aceita. Nenhuma CIPA ou sindicato aceita. Nenhum candidato rejeitado aceita.
“Regra §9 EStG v2026-01, aplicada à ausência 14h15min” é uma fundamentação.
Se você não pode explicar a decisão, não pode permitir que seja contestada. E se não pode permitir que seja contestada, a partir de agosto de 2026 não é conforme à lei na UE. No Brasil, o PL 2338/2023 prevê direitos semelhantes de explicação para decisões automatizadas.[10]
O Fine-Tuning tem seu lugar?
Sim. A partir de aproximadamente 35 000 consultas por mês com um conjunto de regras estável, o Fine-Tuning se torna economicamente viável.[6] Adaptação linguística, jargão de domínio, otimização de latência: para isso há boas razões.
Mas onde o setor o vende hoje - Enterprise RH e Finanças com leis que mudam anualmente - é a decisão arquitetônica errada. O Gartner projeta que mais de 40% dos projetos de Agentic AI fracassarão até 2027.[9] Não pelo desempenho dos modelos. Pela governance.
A pergunta que seu conselho deveria fazer
Não: “Em quais dados seu agente foi treinado?”
Mas sim:
1. Qual conjunto de regras fundamenta a decisão? Qual versão estava vigente no momento da decisão?
Se a resposta for “Isso está no modelo”, não há versão. Não há histórico de mudanças. Não há Audit Trail.
2. O que acontece quando a regra muda? Retreinamento ou atualização?
Se a resposta for “Retreinamos”, você está pagando por manutenção desnecessária.
3. O afetado pode ver a decisão individual e contestá-la?
Se não houver resposta, a partir de agosto de 2026 você tem um problema de compliance na UE. Art. 86 EU AI Act: direito à explicação. No Brasil, o PL 2338/2023 estabelece direitos equivalentes. Não é opcional.[10]
A abordagem da Gosign
O Decision Layer da Gosign é uma implementação dessa arquitetura. Decompõe os processos em passos de decisão. Define para cada um: pessoa, conjunto de regras ou AI. Os conjuntos de regras são versionados. As decisões são auditáveis. Os resultados são contestáveis.
48 agentes de RH e 49 agentes de Finanças, cada um com tabela Micro-Decision. Sem Fine-Tuning. Sem lock-in. Sem retreinamento quando a legislação muda.
Referências
- Better Bill GPT, Whitehouse et al. (abril 2025). Legal Invoice Review: LLM alcança 92% de precisão na verificação de honorários jurídicos contra Billing Guidelines. Peer-reviewed.
- Better Bill GPT, Whitehouse et al. (abril 2025). F-Score na classificação de itens individuais: LLM 81% vs. melhor grupo humano 43%.
- Better Bill GPT, Whitehouse et al. (abril 2025). Tempo de processamento por fatura: LLM 3,6 segundos vs. juristas experientes 194 a 316 segundos.
- Better Bill GPT, Whitehouse et al. (abril 2025). Redução de custos na Legal Invoice Review: 99,97% ($4,27 vs. <$0,01 por fatura).
- Kumar Gauraw (março 2026). "A maioria recorre ao Fine-Tuning cedo demais."
- Chauhan et al., Journal of Information Systems Engineering (2025). Break-Even Fine-Tuning vs. Prompting: ~35 000 consultas por mês.
- MIT/Stanford, Choi & Xie (agosto 2025). AI reduz o fechamento mensal em média 7,5 dias.
- MIT/Stanford, Choi & Xie (agosto 2025). 62% dos contadores expressam preocupação sobre erros da AI em processos financeiros.
- Gartner (junho 2025). Projeção: mais de 40% dos projetos de Agentic AI fracassarão até 2027.
- EU AI Act (VO 2024/1689), Crowell & Moring (fevereiro 2026). Obrigações para sistemas de alto risco a partir de agosto 2026: Art. 13 (transparência), Art. 14 (supervisão humana), Art. 86 (direito à explicação). Anexo III(4): recrutamento como sistema de alto risco. No Brasil, o PL 2338/2023 prevê obrigações análogas.
- IBM (2024). RAG reduz erros factuais nas saídas de LLM em até 50%.

Bert Gogolin
Diretor Executivo, Gosign
AI Governance Briefing
IA empresarial, regulamentação e infraestrutura - uma vez por mês, diretamente de mim.