Por que o Fine-Tuning é problemático em agentes enterprise?

O Fine-Tuning incorpora regras de negócio nos pesos do modelo. A consequência: decisões individuais não podem ser atribuídas a uma regra concreta, mudanças legislativas exigem retreinamento caro e uma troca de modelo significa perda total. A partir de agosto de 2026, o EU AI Act (Art. 13, 14, 86) exige decisões individuais rastreáveis para sistemas de alto risco. No Brasil, o PL 2338/2023 prevê obrigações semelhantes. Modelos treinados não conseguem cumprir isso por design arquitetônico.

Qual é a diferença entre treinamento e configuração?

Treinamento (Fine-Tuning) altera os pesos de um modelo. Regras de negócio tornam-se parte do modelo e não podem mais ser identificadas individualmente. Configuração significa: o modelo Foundation permanece inalterado. Regras de negócio ficam como um conjunto de regras versionado, o caso atual é passado como contexto. Resultado: cada decisão é atribuível a uma regra concreta, auditável e contestável.

O Fine-Tuning nunca faz sentido?

O Fine-Tuning tem seu lugar. A partir de aproximadamente 35 000 consultas por mês com um conjunto de regras estável e que raramente muda, torna-se economicamente viável. Mas onde o setor o vende hoje - Enterprise RH e Finanças com leis, convenções coletivas (PT: acordos coletivos de trabalho) e acordos coletivos que mudam anualmente - é a decisão arquitetônica errada.

O que significa modelo-agnóstico?

Modelo-agnóstico significa: o conjunto de regras e o Decision Layer funcionam independentemente do modelo Foundation utilizado. Seja Claude, GPT, Llama ou Mistral - as regras de negócio, os níveis de decisão e os Audit Trails permanecem idênticos. Uma troca de modelo requer zero adaptações no conjunto de regras. Sem lock-in, sem custos de retreinamento.

Por que não treinamos mais agentes AI

Treinamento é o novo fax

Em 2019, precisávamos treinar modelos AI. Eram limitados demais para qualquer outra coisa. O GPT-2 não conseguia escrever um parágrafo coerente. O BERT precisava de milhares de exemplos rotulados para cada tarefa e de um cluster GPU por dias.

Isso foi há seis anos. Seis anos em que as capacidades dos modelos de linguagem melhoraram em ordens de grandeza. Mas o setor continua agindo como se “treinar” fosse o primeiro passo natural.

Visão geral - Por que treinamento é a arquitetura errada

Um LLM alcança 92% de decisões corretas na verificação de faturas - sem um único exemplo de treinamento. Juristas experientes alcançam 72%.^[1]
A partir de agosto de 2026, o EU AI Act (Art. 13, 14, 86) exige decisões individuais explicáveis para sistemas de alto risco. No Brasil, o PL 2338/2023 prevê obrigações semelhantes. Modelos treinados não conseguem cumprir isso.^[10]
A alternativa: conjunto de regras (versionado), contexto (por decisão), Decision Layer (pessoa/regra/AI por Micro-Decision).
Agentes configurados são modelo-agnósticos: troca de modelo Foundation sem alterar o conjunto de regras. Sem lock-in, sem retreinamento.
Mais de 40% dos projetos de Agentic AI fracassarão até 2027 - principalmente por falta de governance, não por falta de desempenho do modelo.^[9]

Se alguém em 2026 diz “Treinamos nossos agentes AI”, é como dizer em 2010 “Enviamos nossos pedidos por fax”. Funciona. Mas mostra que não se entendeu a arquitetura.

De treinamento a configuração

2018 - 2020

Treinamento é obrigatório

BERT, GPT-2. 110M - 1,5B parâmetros.

Duração: semanas

Custo: $10 000 - $100 000

Requisito: cluster GPU

2021 - 2023

Treinamento se torna opcional

GPT-3/3.5. 175B parâmetros.

Duração: dias

Custo: $1000 - $10 000

Requisito: GPU necessária

2024

Treinamento ou prompting?

GPT-4o, Claude 3.5. Multimodal.

Duração: horas

Custo: $10 - $100

Requisito: API-Call

2025 - 2026

Configuração é suficiente

GPT-5, Claude Opus 4. Reasoning.

Duração: minutos

Custo: $10 - $100

Requisito: API-Call

Kumar Gauraw resume com precisão: “A maioria recorre ao Fine-Tuning cedo demais.”^[5] Não porque o Fine-Tuning seja ruim. Mas porque em 2026 já não é necessário para a maioria das tarefas enterprise.

O que um modelo treinado não consegue: explicar uma decisão individual

Um candidato é rejeitado pelo seu agente de recrutamento. Ele pergunta: por quê?

Duas respostas. Duas arquiteturas.

Modelo treinado: “Nosso modelo aprendeu com base em 50 000 decisões históricas de contratação que seu perfil tem uma probabilidade de sucesso de 34%.”

Agente configurado: “Sua qualificação em engenharia mecânica não atende o requisito 3 (eletrotécnica ou equivalente). Regra: perfil do cargo v2026-03. Contestável: sim. Processo: o departamento técnico avalia se engenharia mecânica se qualifica como ‘equivalente’.”

A primeira resposta é ilegal a partir de agosto de 2026.

EU AI Act, Art. 13 (transparência), Art. 14 (supervisão humana), Art. 86 (direito à explicação).^[10] Para sistemas de alto risco - e recrutamento é alto risco, Anexo III(4) - cada decisão individual deve ser compreensível, explicável e contestável. No Brasil, o PL 2338/2023 prevê obrigações análogas para sistemas de inteligência artificial de alto risco.

Não o modelo. A decisão individual. Para este candidato. Com esta fundamentação.

Um modelo treinado não consegue fazer isso. Não tem registro de decisão. Tem pesos. E pesos não explicam nada à CIPA ou ao sindicato.

O teste de compliance: treinado vs. configurado

Arquitetura A

Modelo treinado

"Por que esta decisão?"

"O modelo aprendeu" - Black Box

Não explicável

"Mudança na legislação?"

Retreinamento. 2 - 4 semanas, $5000 - $20 000

Caro e lento

"O afetado pode contestar?"

Contra o quê? Contra pesos?

Não contestável

"Novo modelo LLM disponível?"

Novo treinamento necessário. Semanas, lock-in.

Dependência do fornecedor

"Conforme ao EU AI Act?"

Art. 13: falta transparência. Art. 14: intervenção = substituir modelo. Art. 86: explicação não possível.

Problemático

Lock-in: sim | Auditoria: difícil | EU AI Act: problemático

Arquitetura B

Agente configurado

"Por que esta decisão?"

"§9 EStG v2026-01, ausência 14h15min" (lei fiscal alemã - regras análogas em cada jurisdição)

Regra, versão, contexto documentados

"Mudança na legislação?"

Atualizar regra. Efeito imediato, $0.

Versionado e auditável

"O afetado pode contestar?"

"O café da manhã não estava incluído." O responsável verifica.

Contestável com registro de decisão

"Novo modelo LLM disponível?"

O conjunto de regras permanece. 0 esforço, sem lock-in.

Modelo-agnóstico

"Conforme ao EU AI Act?"

Registro de decisão por Micro-Decision. Sobrescrever regra, não substituir modelo.

Conforme by Design

Lock-in: não | Auditoria: by Design | EU AI Act: conforme

O problema de compliance é apenas a superfície. Por baixo, há um problema de arquitetura.

92% vs. 72%

Pesquisadores testaram em 2025 quão bem um LLM consegue verificar faturas jurídicas contra Billing Guidelines.^[1] Sem Fine-Tuning. Sem treinamento. Apenas o conjunto de regras como contexto.

O resultado:

Fatura jurídica: conforme às regras ou não?

Better Bill GPT, Whitehouse et al. (abril 2025). Peer-reviewed. O LLM recebeu o conjunto de regras como contexto, sem Fine-Tuning.^[1]

Precisão geral

LLM (sem treinamento)

92%

Juristas experientes

72%

Classificação de itens individuais (F-Score)

LLM (sem treinamento)

81%

Melhor grupo humano

43%

Tempo por fatura

LLM

3,6 seg.

Juristas

~250 seg.

Custo por fatura

LLM

< $0,01

Juristas

$4,27

Redução de custos: 99,97%.^[4] Mecanismo transferível para qualquer tarefa de compliance baseada em regras.

O LLM não foi treinado em faturas. Recebeu as Billing Guidelines como contexto. E decidiu na hora.

Por que o LLM foi melhor

Não porque é mais inteligente. Mas porque às 15h aplica a mesma regra da mesma forma que às 9h. Inconsistência é o problema do ser humano, não incompetência.^[1]

Juristas experientes tomam 72% de decisões corretas - mas cada jurista comete erros diferentes. Os erros não são sistemáticos, e sim aleatórios. Fadiga, pressão de tempo, interpretação pessoal. Um LLM não conhece fadiga.

O mecanismo transferível

Seja o conjunto de regras chamado “Billing Guideline”, “§14 UStG” ou “Diárias de viagem 2026”: verificar documento contra regra, identificar desvio, documentar decisão. O mecanismo é idêntico.

Dimensão	Modelo treinado	Agente configurado
Mudança de regras	Retreinamento (semanas, $5k - $20k)	Atualização do conjunto de regras (minutos, $0)
Explicabilidade	"O modelo aprendeu" (Black Box)	Regra + versão + contexto (registro de decisão)
Contestabilidade	Não possível (sem registro de decisão)	Sim (o afetado vê a regra e pode contestar)
Troca de modelo	Novo treinamento necessário (lock-in)	0 esforço (modelo-agnóstico)
Audit Trail	Entrada + saída (sem fundamentação)	Entrada + regra + versão + confiança + resultado
EU AI Act (ago. 2026)	Art. 13, 14, 86: problemático	Art. 13, 14, 86: conforme by Design
Break-Even Fine-Tuning	A partir de ~35 000 consultas/mês^[6]	Economicamente viável de imediato

Um estudo de Chauhan et al. (2025) situa o ponto de Break-Even do Fine-Tuning em relação ao prompting em aproximadamente 35 000 consultas por mês.^[6] A maioria dos processos de RH e Finanças em empresas está bem abaixo disso.

Três coisas no lugar de treinamento

Se não treinamento, então o quê? Três componentes substituem o que o Fine-Tuning promete, mas estruturalmente não consegue entregar.

1. Conjunto de regras

Tudo o que um agente precisa saber está em uma lei, um regulamento, uma convenção coletiva (PT: acordo coletivo de trabalho) ou um acordo coletivo. Essas regras mudam. A legislação tributária muda anualmente. As diárias e valores de referência mudam anualmente. Os regulamentos da UE mudam.

Um modelo treinado precisa ser retreinado a cada mudança. Um conjunto de regras é atualizado. Efeito imediato, versionado, auditável. Sem cluster GPU, sem ciclo de avaliação, sem riscos de regressão.

RAG (Retrieval Augmented Generation) reduz erros factuais em até 50%.^[11] Não porque o modelo fica mais inteligente. Mas porque vê a regra atual em vez de recuperar uma ponderação desatualizada.

2. Contexto

O agente não precisa de 10 000 prestações de contas de viagem históricas. Precisa desta prestação de contas: data da viagem, partida, retorno, hotel, café da manhã incluído ou não. Esse é o contexto desta decisão.

É fornecido por entradas estruturadas ou RAG, não incorporado por treinamento. Quando o contexto muda - outra viagem, outro colaborador - a decisão muda. Não o modelo.

Um exemplo concreto: o Travel Decision Layer verifica diárias de viagem contra §9 EStG (lei fiscal alemã de despesas de viagem). O contexto é a viagem individual. O conjunto de regras é a legislação tributária vigente. O modelo Foundation é intercambiável.

3. Estrutura de decisão

Quem decide o quê? Nem todas as decisões em um processo são iguais.

A diária de viagem é conjunto de regras: §9 EStG, determinística, 100% confiança. A questão de se uma despesa de representação é “razoável” é critério humano: pessoa. A classificação de um cupom fiscal ilegível é AI: extração LLM, probabilística.

Essa decomposição em Micro-Decisions com atribuição pessoa/regra/AI é o verdadeiro trabalho de arquitetura. Não o treinamento. O Decision Layer formaliza exatamente essa decomposição. Detalhes da arquitetura: Decision Layer explicado.

Micro-Decision na prática

Prestação de contas de viagem: jornada de 8 horas, viagem nacional, hotel com café da manhã

#1 Data da viagem e duração da ausência Contexto Input: comprovantes

#2 Calcular diária de viagem Conjunto de regras §9 EStG v2026-01

#3 Aplicar dedução por café da manhã Conjunto de regras §9 Abs. 4a S. 8 EStG

#4 Classificar cupom fiscal AI Extração LLM, Confidence: 87%

#5 A despesa de representação é "razoável"? Pessoa Critério, o responsável verifica

#6 Criar lançamento contábil conforme normativa Conjunto de regras Normativa contábil, versionada

Cada um desses passos tem um tipo fixo: conjunto de regras (determinístico), AI (probabilístico, com limiar de confiança) ou pessoa (critério). Quando §9 EStG muda, a regra é atualizada. Sem retreinamento. Sem novo modelo.

As três camadas: arquitetura no lugar de treinamento

A arquitetura por trás de um agente configurado consiste em três camadas. Cada camada é independentemente intercambiável.

Camada 3 Decision Layer

Micro-Decisions Pessoa / Regras / AI Registro de decisão Audit Trail

Camada 2 Conjunto de regras (versionado, intercambiável)

Legislação tributária Regulamentos Normativa contábil Convenção coletiva Acordo coletivo EU AI Act

Camada 1 Foundation Model (intercambiável)

Claude GPT Llama Mistral Gemini

↑

Tudo acima da camada 1 permanece quando o modelo muda. Conjunto de regras, Decision Layer, registros de decisão, Audit Trail - tudo modelo-agnóstico. Sem retreinamento. Sem lock-in.

Por que três camadas? Porque cada uma tem uma responsabilidade diferente.

O Foundation Model fornece compreensão linguística e reasoning. Entende o contexto, extrai informações de documentos, classifica entradas. Não precisa saber o que diz §9 EStG. Precisa entender o que é um texto legal.

O conjunto de regras contém a lógica de negócio. Leis, regulamentos, convenções coletivas, acordos coletivos. Cada regra tem uma versão. Cada versão tem uma data de vigência. Quando a lei muda, a regra é atualizada. Não o modelo.

O Decision Layer controla quem pode decidir o quê. Decompõe os processos em passos de decisão. Define para cada um: pessoa, conjunto de regras ou AI. Documenta cada decisão com regra, versão, contexto e resultado.

O que treinamento realmente custa

Não em dólares. Em dependências.

Lock-in

Um modelo fine-tuned vincula você a esse fornecedor. O dataset de treinamento, os pesos, o pipeline de avaliação: tudo proprietário. Troca de modelo = novo treinamento = novos custos = nova perda de tempo.

Um agente configurado troca o Foundation Model sem alterar uma única regra. Claude hoje, GPT amanhã, um modelo open-source na próxima semana. O conjunto de regras permanece. O Decision Layer permanece. Os registros de decisão permanecem.

Manutenção

Cada mudança legislativa exige retreinamento. Em Finanças, a legislação tributária, as instruções normativas e as alíquotas de contribuição mudam anualmente. Em RH mudam as convenções coletivas, os acordos coletivos e a regulação da UE.

Um agente treinado precisa de manutenção contínua que se parece com um projeto de software. Um agente configurado precisa de um editor de conjunto de regras.

MIT e Stanford (Choi & Xie, 2025) mostram: AI reduz o fechamento mensal em 7,5 dias.^[7] Mas 62% dos contadores se preocupam com erros da AI.^[8] A preocupação é justificada - com modelos treinados. Com agentes configurados com registro de decisão e possibilidade de contestação, cada erro é identificável e corrigível.

Explicabilidade

Um modelo treinado pode dizer o que decidiu. Não pode dizer por quê.

“O modelo aprendeu” não é uma fundamentação que um auditor aceita. Nenhuma CIPA ou sindicato aceita. Nenhum candidato rejeitado aceita.

“Regra §9 EStG v2026-01, aplicada à ausência 14h15min” é uma fundamentação.

Se você não pode explicar a decisão, não pode permitir que seja contestada. E se não pode permitir que seja contestada, a partir de agosto de 2026 não é conforme à lei na UE. No Brasil, o PL 2338/2023 prevê direitos semelhantes de explicação para decisões automatizadas.^[10]

O Fine-Tuning tem seu lugar?

Sim. A partir de aproximadamente 35 000 consultas por mês com um conjunto de regras estável, o Fine-Tuning se torna economicamente viável.^[6] Adaptação linguística, jargão de domínio, otimização de latência: para isso há boas razões.

Mas onde o setor o vende hoje - Enterprise RH e Finanças com leis que mudam anualmente - é a decisão arquitetônica errada. O Gartner projeta que mais de 40% dos projetos de Agentic AI fracassarão até 2027.^[9] Não pelo desempenho dos modelos. Pela governance.

A pergunta que seu conselho deveria fazer

Não: “Em quais dados seu agente foi treinado?”

Mas sim:

1. Qual conjunto de regras fundamenta a decisão? Qual versão estava vigente no momento da decisão?

Se a resposta for “Isso está no modelo”, não há versão. Não há histórico de mudanças. Não há Audit Trail.

2. O que acontece quando a regra muda? Retreinamento ou atualização?

Se a resposta for “Retreinamos”, você está pagando por manutenção desnecessária.

3. O afetado pode ver a decisão individual e contestá-la?

Se não houver resposta, a partir de agosto de 2026 você tem um problema de compliance na UE. Art. 86 EU AI Act: direito à explicação. No Brasil, o PL 2338/2023 estabelece direitos equivalentes. Não é opcional.^[10]

A abordagem da Gosign

O Decision Layer da Gosign é uma implementação dessa arquitetura. Decompõe os processos em passos de decisão. Define para cada um: pessoa, conjunto de regras ou AI. Os conjuntos de regras são versionados. As decisões são auditáveis. Os resultados são contestáveis.

48 agentes de RH e 49 agentes de Finanças, cada um com tabela Micro-Decision. Sem Fine-Tuning. Sem lock-in. Sem retreinamento quando a legislação muda.

Referências

Better Bill GPT, Whitehouse et al. (abril 2025). Legal Invoice Review: LLM alcança 92% de precisão na verificação de honorários jurídicos contra Billing Guidelines. Peer-reviewed.
Better Bill GPT, Whitehouse et al. (abril 2025). F-Score na classificação de itens individuais: LLM 81% vs. melhor grupo humano 43%.
Better Bill GPT, Whitehouse et al. (abril 2025). Tempo de processamento por fatura: LLM 3,6 segundos vs. juristas experientes 194 a 316 segundos.
Better Bill GPT, Whitehouse et al. (abril 2025). Redução de custos na Legal Invoice Review: 99,97% ($4,27 vs. <$0,01 por fatura).
Kumar Gauraw (março 2026). "A maioria recorre ao Fine-Tuning cedo demais."
Chauhan et al., Journal of Information Systems Engineering (2025). Break-Even Fine-Tuning vs. Prompting: ~35 000 consultas por mês.
MIT/Stanford, Choi & Xie (agosto 2025). AI reduz o fechamento mensal em média 7,5 dias.
MIT/Stanford, Choi & Xie (agosto 2025). 62% dos contadores expressam preocupação sobre erros da AI em processos financeiros.
Gartner (junho 2025). Projeção: mais de 40% dos projetos de Agentic AI fracassarão até 2027.
EU AI Act (VO 2024/1689), Crowell & Moring (fevereiro 2026). Obrigações para sistemas de alto risco a partir de agosto 2026: Art. 13 (transparência), Art. 14 (supervisão humana), Art. 86 (direito à explicação). Anexo III(4): recrutamento como sistema de alto risco. No Brasil, o PL 2338/2023 prevê obrigações análogas.
IBM (2024). RAG reduz erros factuais nas saídas de LLM em até 50%.

Bert Gogolin

Diretor Executivo, Gosign

AI Governance Briefing

IA empresarial, regulamentação e infraestrutura - uma vez por mês, diretamente de mim.