Qual modelo de IA open-source é o melhor para self-hosting na empresa brasileira?

Mistral Small 3.2 é o workhorse default: 24B parâmetros, Apache 2.0, roda em uma única RTX 4090 (~1.500 EUR), treinamento multilíngue com boa cobertura de português, vision nativo. Adicione gpt-oss-120b em uma H100 para raciocínio pesado on-prem. DeepSeek V4-Flash (284B/13B active MIT, preview de abril de 2026) é a nova opção para raciocínio de fronteira em hardware moderado; V4-Pro (1.6T/49B active) chega perto de Claude Opus mas precisa de infraestrutura classe cluster. Llama 4 Scout para contexto ultra-longo. Não existe um único vencedor - a resposta certa é um stack multi-modelo roteado.

Quanto custa Mistral Small self-hosted na prática?

Hardware: uma única RTX 4090 24GB sai por cerca de 1.500 EUR one-time. Para Mistral Small 3.2 em bf16/fp16 são necessários aproximadamente 55 GB de GPU RAM, então uma H100 80GB ou A100 80GB é o realista em escala - cerca de 30.000 EUR de aquisição ou 1.500-2.500 EUR por mês em provedores EU como Scaleway ou OVHcloud. Em Locaweb ou no Equinix São Paulo, GPU hosting fica em torno de R$ 7.500-12.000/mês para H100. Custo de inferência por milhão de tokens fica abaixo de 1 EUR amortizado.

Onde posso hospedar self-hosted sem exposição ao CLOUD Act?

Para empresas brasileiras puras: Locaweb e Equinix São Paulo oferecem GPU hosting em data center brasileiro - sem CLOUD Act, sem transferência internacional sob LGPD art. 33. AWS Brazil South é Brasil em localização, mas Amazon Web Services Inc. é entidade americana, então CLOUD Act se aplica. Para multinacionais com operações na Europa: Scaleway (França) oferece H100 SXM a cerca de 3,50 EUR/h e A100 a 2,50 EUR/h, GDPR-compliant. OVHcloud (França) oferece H100, RTX 5000, A10 com opções sovereign cloud. Hetzner (Alemanha) tem servidores GPU dedicados a preços menores.

Quando self-hosting vence cloud API em termos econômicos?

O ponto de virada acontece em torno de 50 a 100 milhões de tokens por mês sustentado, dependendo do modelo e do provedor. Abaixo disso, Mistral La Plateforme ou API do Claude sai mais barato. Acima disso, uma H100 dedicada se paga em 12 a 18 meses mesmo em tarifas EU. O outro ponto de virada não é econômico: requisitos regulatórios (Schrems II para multinacionais EU, LGPD art. 33 para transferência internacional, classificação de alto risco sob EU AI Act) podem virar a decisão independente do volume de tokens.

IA open-source auto-hospedada 2026: Enterprise

O mercado de modelos deu para Compras corporativas brasileira uma escolha que ela nunca teve antes. Modelos open-weight igualam modelos proprietários na maioria das cargas enterprise. Três modelos open-source classe frontier foram lançados sob Apache 2.0 só em 2025. Provedores GPU europeus oferecem capacidade H100 a tarifas horárias previsíveis em data centers de Paris e Frankfurt; provedores brasileiros como Locaweb e Equinix São Paulo oferecem GPU hosting com tarifa em reais e residência local. A decisão Schrems II combinada com o US CLOUD Act tornou o self-hosting a única arquitetura com zero exposição a provedor estrangeiro.

Mesmo assim, a conversa em Compras ainda trata “IA open-source self-hosted” como se fosse um único produto. Não é. É uma decisão de stack com quatro modelos sérios, três padrões de deployment e um problema real de cálculo de TCO. Este artigo é o complemento detalhado de Quando Mistral, quando Claude Opus? Decision Routing para a empresa brasileira 2026 - se você já decidiu fazer self-hosting, aqui está como a seleção de modelo realmente acontece.

Em resumo - IA open-source self-hosted para enterprise brasileira 2026

Cinco modelos com self-hosting sério em 2026: Mistral Small 3.2 (Apache 2.0, 24B, GPU consumer única), gpt-oss-120b (Apache 2.0, MoE, H100 única), DeepSeek V4-Flash (MIT, 284B/13B active MoE, preview abril 2026), DeepSeek V4-Pro (MIT, 1.6T/49B active, preview, classe cluster), Llama 4 Scout (Meta License, contexto 10M).
Mistral Small 3.2 ganha o posto de workhorse porque roda em hardware consumer (única RTX 4090), tem treinamento multilíngue com boa cobertura de português, e capacidade nativa de vision para cargas documentais.
DeepSeek V4-Pro (preview, 24 de abril de 2026) chega perto da performance frontier-closed-source sob licença MIT, mas precisa de cluster multi-GPU - self-hosting realista começa com V4-Flash para a maioria.
GPU hosting fora dos EUA já não é gargalo: Locaweb e Equinix São Paulo oferecem GPU em data center brasileiro (sem CLOUD Act). Scaleway oferece H100 SXM a ~3,50 EUR/h, OVHcloud tem tier sovereign, Hetzner provê RTX dedicado, IONOS e T-Systems atendem setores regulados.
Ponto de virada de TCO de cloud API para self-hosted: tipicamente em torno de 50-100 milhões de tokens por mês sustentado. Abaixo disso, API EU ou BR vence; acima disso, hardware dedicado se paga em 12-18 meses.
A arquitetura é multi-modelo, não single-modelo: Mistral Small para volume, gpt-oss-120b ou DeepSeek V4-Flash para raciocínio pesado on-prem, V4-Pro ou R1 como especialistas em matemática/lógica, Llama 4 Scout para contexto ultra-longo. O roteamento decide qual modelo cuida de qual decisão.

Você decidiu fazer self-hosting - a pergunta de modelo começa aqui

A escolha de auto-hospedar um stack LLM raramente é uma decisão de modelo. É uma decisão de compliance: dados classificados acima de um certo nível não podem deixar a rede corporativa - relevante sob LGPD art. 33 quando o controlador brasileiro não quer expor dados pessoais sensíveis a transferência internacional sem garantia explícita. É uma decisão de arquitetura: a camada de inferência precisa ser uma dependência controlada, não uma API externa. É uma decisão de Compras: capex em hardware vs. opex em instâncias GPU hospedadas.

Tomada essa decisão, abre-se a pergunta de modelo. Qual modelo open-source em qual hardware floor para qual mix de carga? Cinco modelos têm production-readiness séria para Q2 2026: Mistral Small 3.2, gpt-oss-120b, DeepSeek V4-Flash, DeepSeek V4-Pro (preview) e Llama 4 Scout. DeepSeek R1 de janeiro de 2025 ainda é production-ready mas em grande medida superado pela linha V4 para deployments novos. Cada modelo tem uma curva custo-qualidade diferente e um perfil operacional diferente.

Este artigo pula a discussão de leaderboard. Pontuações de benchmark convergem o suficiente para que o fit com a carga importe mais que pontos nominais em MMLU ou HumanEval. A pergunta é qual modelo sobrevive 18 meses no seu stack, qual deles paga o próprio hardware e qual combinação produz o audit trail que a LGPD art. 20 e o EU AI Act exigem.

Os modelos self-hostáveis sérios, lado a lado

Modelo	Parâmetros / Arquitetura	Licença	Hardware floor (bf16/fp16)	Custos de hospedagem (CAPEX / OPEX)	Força principal	Fraqueza principal
Mistral Small 3.2	24B dense, GQA (32Q/8KV)	Apache 2.0	~55 GB VRAM (1× H100 80GB ou A100 80GB); RTX 4090 com quant 4-bit	1× RTX 4090 ~1.500 EUR / 1× H100 ~30k EUR / OPEX ~1.500-2.500 EUR/mês	Multilíngue, vision, rápido (~150 tok/s em GPU consumer), amigável ao volume	Não é raciocínio de topo
gpt-oss-120b	117B total / 5,1B active (MoE)	Apache 2.0	1× H100/A100 80GB	~30k EUR CAPEX / OPEX ~1.200-2.500 EUR/mês	Raciocínio nível o4-mini, inferência MoE eficiente	Sem vision, só hardware grau data center
DeepSeek V4-Flash (preview, Abr 2026)	284B total / 13B active (MoE), contexto 1M	MIT	1-2× H100/A100 80GB com quant; multi-GPU para precisão total	1-4× H100 ~30-120k EUR CAPEX / OPEX ~1.500-5.000 EUR/mês	Raciocínio classe frontier em hardware moderado, multimodal nativo, otimizado para agent	Status preview - benchmarks precisam ser reverificados antes de produção
DeepSeek V4-Pro (preview, Abr 2026)	1,6T total / 49B active (MoE), contexto 1M	MIT	Cluster multi-GPU (mínimo 8× H100); self-hosting realista só para infraestrutura classe hyperscaler	8× H100 ~240k EUR CAPEX / OPEX ~10-12k EUR/mês	Chega perto de performance GPT-5.5 e Gemini 3.1 Pro sob licença aberta, otimizado para agent-tool (Claude Code, OpenClaw)	Hardware classe hyperscaler para PME - API ou variante hosted é o caminho realista para empresas menores
DeepSeek R1 (Jan 2025, maduro)	671B total / 37B active (MoE)	MIT	Multi-GPU: mínimo 4-8× H100	~120-240k EUR CAPEX / OPEX ~5-10k EUR/mês	Especialista maduro em matemática/lógica, suporte amplo de framework	Em grande medida superado pela V4-Flash para novos deployments
Llama 4 Scout	17B active (MoE)	Meta Llama Community License	1× GPU	~30k EUR CAPEX / OPEX ~1.500 EUR/mês	Janela de contexto de 10 milhões de tokens	Restrição de licença acima de 700M MAU; revisão jurídica necessária

Três esclarecimentos importam aqui.

Hardware floor do Mistral Small 3.2. A orientação oficial Mistral lista ~55 GB de GPU RAM para inferência bf16/fp16, o que coloca o modelo numa H100 ou A100 80GB em produção. Com quantização 4-bit (GPTQ, AWQ), roda em uma única RTX 4090 24 GB com leve perda de qualidade. Para deployments piloto ou inferência single-tenant, o caminho RTX 4090 é real. Para produção multi-tenant com requisições concorrentes, o caminho H100 é o sizing correto.

Status preview da linha DeepSeek V4. DeepSeek-V4-Pro e V4-Flash foram lançados em preview no dia 24 de abril de 2026 sob licença MIT, ambos com janela de contexto de 1M tokens via a nova arquitetura Hybrid Attention (Compressed Sparse Attention + Heavily Compressed Attention). Na configuração de contexto 1M-token, V4-Pro reportadamente exige apenas 27% dos FLOPs de inferência single-token e 10% do KV cache em relação ao V3.2 - ganhos significativos para cargas de contexto longo. Ambas as variantes foram otimizadas para tooling de agente (integração Claude Code, OpenClaw). Porém: preview significa que claims de benchmark ainda não foram verificados de forma independente em escala. Para decisões de produção em setores regulados, espere pelo release de general-availability ou rode seus próprios benchmarks representativos antes de comprometer.

Esclarecimento V4-Pro: licença aberta, fronteira por tamanho de empresa. DeepSeek V4-Pro é open-source sob licença MIT, com pesos publicados no Hugging Face, igual ao V4-Flash. A questão não é licença - é tamanho de empresa. Para grande empresa B3 (Petrobras, Itaú, Vale, Ambev) e média empresa superior, os ~240.000 EUR de CAPEX (8× H100) ou ~10-12k EUR/mês de hospedagem dedicada são item-orçamento-TI padrão - comparável a um cluster Oracle Exadata ou a uma renovação de licenciamento SAP S/4HANA. Para PME abaixo de 500 funcionários, esse hardware floor é desproporcional, e o caminho realista é V4-Pro via API (DeepSeek API direto) ou via provedor hospedado (Together.ai, Fireworks AI), que oferecem o mesmo modelo MIT em pay-per-token sem CAPEX. A escolha self-hosted vs. API para V4-Pro é, portanto, função do volume de tokens combinado com o tamanho do orçamento TI, não da licença em si.

Revisão de licença para Llama 4 Scout. A Meta Llama Community License permite uso comercial mas tem duas restrições que o Jurídico de Compras precisa revisar: um limite de 700 milhões de MAU acima do qual uma licença Meta separada é exigida, e uma restrição contra usar output do modelo para treinar modelos concorrentes. Para a maioria das empresas brasileiras, ambas são irrelevantes na prática, mas a nota deve estar explícita no parecer jurídico.

TCO: quando self-hosted vence cloud API?

A economia vira em um certo limiar de volume de tokens. Abaixo dele, APIs hosted vencem porque idle time de hardware domina. Acima dele, GPUs dedicadas vencem porque o custo incremental por token se aproxima de eletricidade mais depreciação.

Um cálculo representativo para Mistral Small 3.2 em hosting EU:

Item de custo	Valor (hosting EU)
Instância H100 80GB, provedor EU (classe Scaleway)	~2.500 EUR/mês dedicada, ou ~3,50 EUR/h on-demand
Throughput do Mistral Small 3.2 (H100 única)	~150 tokens/s sustentado, ~390M tokens/mês a 100% utilização
Custo efetivo por 1M tokens a 60% utilização	~10-12 EUR por 1M tokens
Equivalente API Mistral La Plateforme (Mistral Small via API)	~0,40 USD por 1M tokens input; volume-dependente
Equivalente API Claude Sonnet 4.6	~3 USD por 1M tokens input; ~15 USD output
Equivalente API Claude Opus 4.7	~5 USD por 1M tokens input; ~25 USD output

O ponto de virada para Mistral Small fica entre 50 e 100 milhões de tokens por mês sustentado, dependendo de a carga ser input-heavy ou output-heavy. Um pipeline enterprise 24/7 rodando 5 a 10 worker nodes tipicamente cruza esse limiar no primeiro trimestre.

Para gpt-oss-120b a conta é parecida mas começa mais alta: uma H100 única sustenta throughput menor que Mistral Small no mesmo custo de hardware, então o custo por token amortizado fica em torno de 2× o do Mistral Small. O ponto de virada vs. Claude Opus 4.7 fica em torno de 30-50 milhões de tokens por mês - exatamente a faixa onde cargas heavy-reasoning costumam ficar em sistemas enterprise de IA.

A arquitetura 1,6T/49B-active do DeepSeek V4-Pro é hardware classe hyperscaler. Self-hosting realista começa com V4-Flash (284B/13B active), que cabe em 1-2 H100s com quantização ou 4 H100s em precisão total. O TCO de V4-Flash self-hosted se justifica quando raciocínio classe frontier é carga sustentada em classificações de dado críticas para soberania; para raciocínio ocasional, a API V4-Flash ou Mistral La Plateforme sai mais barata. V4-Pro on-prem é realista apenas para empresas classe hyperscaler (serviços financeiros com infraestrutura grau HFT, grandes clientes governo/defesa). Os demais usam V4-Pro via API ou variante hosted.

Esses números se baseiam em preços públicos de hosting EU da Scaleway e da OVHcloud e em dados públicos de throughput dos modelos. São ilustrativos, não contratuais. Para hosting no Brasil, Locaweb e Equinix São Paulo praticam tarifas em R$ que, mesmo descontada paridade cambial, ficam competitivas para cargas onde residência local é requisito (LGPD art. 33 sem necessidade de cláusulas-padrão de transferência internacional).

Ponto de cruzamento TCO: self-hosted vs API cloud - curvas lineares de API cloud (pricing por token) versus curvas planas de self-host (CAPEX amortizado). Mistral La Plateforme API permanece a opção mais barata abaixo de ~10B tokens/mês - a decisão relevante é Mistral OSS self-host vs Claude Opus 4.7 API, que cruza para cargas críticas de soberania em torno de 180 milhões de tokens mensais. Abaixo de 50M tokens/mês domina a economia cloud-API. Acima de 500M tokens/mês domina self-host independentemente.

GPU hosting em 2026: quem realmente tem capacidade H100

O mercado europeu de GPU hosting amadureceu de forma significativa em 2025-2026. Três provedores cobrem a maior parte dos casos enterprise de self-hosting:

Scaleway (França, GDPR-native). O mais agressivo em custo-benefício para cargas IA. H100 SXM a ~3,50 EUR/h, A100 a ~2,50 EUR/h, mais o NVIDIA Blackwell B300-SXM (288 GB VRAM) para cargas de fronteira. Data centers franceses, GDPR completo, zero exposição a CLOUD Act. Contratos de instância reservada disponíveis para cargas previsíveis.

OVHcloud (França, tier sovereign). O maior provedor cloud europeu, com um tier “Sovereign Cloud” construído explicitamente para uso governo e setores regulados. Portfólio inclui H100, RTX 5000, A10, mais um serviço “AI Deploy” para notebook e inferência pay-as-you-go. Bom fit quando Compras exige assinatura sovereign-cloud.

Hetzner (Alemanha). Líder de custo em servidores GPU dedicados, não em instâncias on-demand. Opções atuais incluem RTX 4000 SFF Ada e RTX 6000 Ada acopladas a CPUs modernas. Caminho para Mistral Small 3.2 com quantização ou para ambientes de desenvolvimento. Menos adequado para peak elastic scaling.

Para setores regulados (serviços financeiros, saúde, setor público) com exigências estritas de soberania:

IONOS (Alemanha). Hosting grau sovereign-cloud com instâncias GPU. Fit de compliance para cargas regulamentadas por BaFin alemã.

T-Systems (Alemanha). Subsidiária Deutsche Telekom. Sovereign cloud projetado explicitamente para setor público e infraestrutura crítica. A escolha confortável de Compras quando a soberania nível board é o requisito.

Para fintechs e instituições financeiras sob BACEN, a sequência de avaliação muda: Resolução 4.658/2018 (Política de Cibersegurança) + Resolução 4.893/2021 (Cibernética em Arranjos de Pagamento) + Circular 3.909 sobre infraestrutura crítica em território nacional aplicam-se. CMN Resolução 4.893 art. 11-14 sobre contratação de serviços relevantes de TI obriga: cláusula de auditoria BACEN no contrato, direito de exigir dados, plano de saída em contrato de fornecedor. Open Finance Brasil Fase 4 ativa desde 2024 exige Decision Records para classificação automatizada de transações - exatamente o tipo de artefato que uma camada de roteamento self-hosted produz. Para fintech, a posição defensável combina: provedor sob jurisdição brasileira pura (Locaweb, Equinix SP, colocation próprio) + Decision Layer com Decision Records imutáveis + contratos com cláusulas BACEN explícitas.

Para empresas brasileiras que não querem transferência internacional sob LGPD art. 33:

Locaweb (Brasil). GPU hosting em data center brasileiro com tarifa em R$. Sem exposição a CLOUD Act, sem cláusulas-padrão de transferência internacional. Capacidade limitada comparada a Scaleway, mas resolve o requisito de residência local.

Equinix São Paulo / Ascenty (Brasil). Data centers brasileiros que hospedam servidores GPU dedicados de clientes (modelo colocation). Caminho para empresas que querem ownership total do hardware sob jurisdição brasileira.

AWS Brazil South / Azure Brazil South (atenção - questão central para fintech sob BACEN). A região é Brasil, mas Amazon Web Services Brasil Ltda é controlada pela Amazon.com Inc (US), e Microsoft Brasil é controlada pela Microsoft Corp (US). CLOUD Act aplica-se. BACEN Resolução 4.893 art. 11 fala de “infraestrutura crítica em território nacional” para alguns serviços - AWS Brazil pode ou não atender dependendo de cláusulas contratuais reforçadas. Para fintech, Auditoria BACEN exige clarificação prévia: controlador legal sob LGPD art. 33 quando a contratante é AWS Brasil mas casa-mãe é Inc.? Para dados pessoais sensíveis ou para tratamento sob regime BACEN, a posição defensável de Compras é: hyperscaler em região BR exige cláusulas contratuais reforçadas (residência ponta a ponta, vedação de acesso pela matriz, plano de saída em contrato) ou substituição por provedor nacional puro. Não basta o data center ficar em São Paulo - o controlador legal precisa ser entidade sob jurisdição brasileira.

SERPRO (SerproCloud) e Dataprev (estatais brasileiras, obrigatórias para setor público). Para empresas controladas pela União ou para órgãos federais, SERPRO e Dataprev são opções soberanas obrigatórias antes de hyperscaler para dados classificados sob Lei 12.527/2011 e Decreto 7.845/2012. TCU jurisprudência (Acórdão 1.739/2015, 2.952/2018, 1.388/2022) consolidou a exigência de avaliação prévia de alternativa soberana antes de contratação de cloud público estrangeiro. Decreto 11.856/2023 (EBIA - Estratégia Brasileira de IA) reforça a governança. Para estatais energia sob ANEEL Resolução 956/2021 (PCN + PRI + reporte de incidente em 72h), a sequência prática é: SERPRO/Dataprev primeiro, T-Systems/IONOS sovereign como alternativa multinacional, hyperscaler em região BR só com cláusulas reforçadas e parecer jurídico explícito sob Lei 14.133/2021.

Para uma empresa brasileira decidindo um stack self-hosted, a sequência prática é: piloto em Scaleway, Hetzner ou Locaweb para validação custo-eficiente, mudança para OVHcloud/T-Systems (se multinacional EU) ou Locaweb/Equinix SP (se brasileira pura) para produção quando a assinatura regulatória exigir certificação sovereign-cloud, manter contratos de instância reservada para controlar a previsibilidade de custo.

Padrões de deployment: single worker, cluster, híbrido

Três padrões de deployment cobrem quase todos os cenários enterprise self-hosted.

Padrão single-worker. Um modelo, uma instância GPU, deployed atrás de um load balancer com health checks. Adequado para: Mistral Small 3.2 em RTX 4090 ou H100 para a carga de 70% de volume. Llama 4 Scout em GPU única para análise documental de contexto longo. Complexidade operacional: baixa. Failure mode: single point of failure se não replicado.

Padrão cluster multi-modelo. Múltiplos modelos em múltiplas GPUs atrás de uma camada de roteamento. Adequado para: Mistral Small para volume + gpt-oss-120b ou DeepSeek V4-Flash para raciocínio pesado + (opcional) DeepSeek V4-Pro em cluster dedicado para cargas grau matemática, tudo atrás de uma única camada de roteamento. A camada de roteamento decide por requisição qual modelo cuida dela. Complexidade operacional: média. Exige um model server (vLLM, TGI, llama.cpp-server) e um engine de regras de roteamento. Esse é o padrão típico de produção para cargas agênticas com complexidade de decisão mista.

Padrão híbrido edge-cloud. Cargas sensíveis (admissão CLT, revisão de contrato, extração de dados de cliente) em modelos self-hosted; cargas não sensíveis (geração de copy de marketing, FAQ sobre informação pública) em APIs cloud EU como Mistral La Plateforme. A camada de roteamento aplica a classificação de dado antes da seleção de modelo. Complexidade operacional: alta (dois stacks para manter) mas menor exposição de soberania e melhor relação custo-por-decisão.

A escolha de padrão depende da taxonomia de classificação de dado, não da seleção de modelo. Se tudo é classificado como “interno” ou superior, o padrão cluster multi-modelo domina. Se uma fatia relevante do trabalho está em dado público ou não sensível, o padrão híbrido sai mais barato.

Matriz de decisão: qual modelo para qual carga

Categoria de carga	Modelo recomendado	Por quê
Classificação documental, extração estruturada, parsing de campo corrigido por OCR	Mistral Small 3.2 (self-hosted)	Com vision, rápido em GPU consumer, cobertura multilíngue (PT-BR sólida)
Geração de texto padrão (e-mails, notificações, lembretes de NDA)	Mistral Small 3.2 (self-hosted)	Throughput alto, amigável a template
Classificação de cláusula contratual, flags de risco de fornecedor, detecção de anomalia	Mistral Small 3.2 ou Mistral Medium 3.1 (La Plateforme)	Raciocínio médio a custo baixo
Análise de equidade salarial sob Lei 14.611/2023, raciocínio cross-statute complexo	gpt-oss-120b on-prem (ou Claude Opus 4.7 cloud)	Raciocínio nível o4-mini com licença Apache 2.0
Modelagem de risco financeiro, stress testing, problemas de otimização	DeepSeek V4-Flash (atual) ou V4-Pro via API/hosted (se hardware permitir); R1 ainda viável para deployments maduros	Liderança em benchmarks matemática/lógica, linha V4 adiciona contexto 1M para análise cross-portfólio
Análise documental de grandes corpos (portfólios contratuais inteiros, relatórios anuais completos)	Llama 4 Scout	Janela de contexto de 10M tokens
Multimodal (correlação imagem + texto, revisão de desenho técnico)	Gemini 3.1 Pro (cloud apenas - nenhum equivalente self-hosted alcança)	Treinamento multimodal nativo
Geração de código, code review (cloud flagships)	Claude Opus 4.7 ou GPT-5.5	Ambos líderes em benchmarks de código; Claude Opus 4.7 mais forte em loops agênticos longos (Claude Code), GPT-5.5 mais forte em integração IDE (Cursor, Copilot)
Geração de código, code review (self-hosted)	Qwen 3 Coder 110B (Apache 2.0, Alibaba), DeepSeek Coder V4 (MIT), ou Codestral Mamba 32B (Mistral, EU-built)	Top-tier coding benchmarks on-prem; Qwen 3 Coder líder HumanEval/SWE-Bench entre OSS, DeepSeek Coder V4 mais forte em agentic Multi-File-Tasks, Codestral Mamba latência mais baixa em GPU consumer
Stack Microsoft 365 / Azure-nativo	GPT-5.5 via Azure OpenAI	Stack nativo, menor esforço de integração para organizações no Microsoft data plane
Workflows agênticos (orquestração de tools, outputs estruturados)	GPT-5.5 ou Claude Opus 4.7	Ambos top-tier em outputs estruturados e orquestração de tools; GPT-5.5 com ecossistema mais amplo de pre-built tools
SaaS feature gating (free vs. premium tiers)	Padrão híbrido: Mistral Small + Claude Opus 4.7 / GPT-5.5	Dados sensíveis de cliente self-hosted, premium features em cloud flagship
IA conversacional / chatbots voltados ao cliente	Mistral Small 3.2 (self-hosted) para volume; GPT-5.5 (Azure) quando stack MS-nativo	Qualidade grade produção no menor custo de hardware; Azure quando integração nativa pesa mais que soberania

A matriz não é prescrição. É ponto de partida que se refina por organização. Uma empresa brasileira heavy em financeiro pondera DeepSeek V4 para cima. Uma operação heavy em multimídia pode precisar de hop para Gemini cloud. Um pipeline de RH com alto volume documental coloca Mistral Small em 80% das decisões, não 70%.

A camada de roteamento torna a matriz operacional. Sem ela, toda carga roda contra o modelo configurado como default, e a matriz vira artefato de slideware.

Construindo a camada de roteamento: onde a Decision Layer encaixa

Arquiteturas self-hosted multi-modelo desmoronam sem camada de roteamento por uma razão simples: nenhum operador humano quer lembrar de 14 mappings decisão-para-modelo enquanto também escreve a lógica de negócio do agente. O roteamento tem que ser configuração, não código.

Uma Decision Layer guarda:

A taxonomia de classificação de dado (quais tipos exigem self-hosted? Quais podem ir para API cloud EU? Quais podem ir para API cloud BR? Quais para API cloud US?)
As regras de roteamento decisão-para-modelo por etapa de workflow
A cadeia de fallback (se Mistral Small falhar ou saturar, roteia para qual alternativa?)
O log de auditoria: cada decisão registrada com snapshot de input, versão da regra, modelo usado, score de confiança, cadeia de raciocínio, resultado e aprovador humano onde aplicável
O botão de contestação: qualquer titular afetado pode contestar uma decisão automatizada, disparando re-decisão sob revisão (que pode ser humana ou por outro sistema automatizado, conforme Lei 13.853/2019 que alterou o art. 20 §3º da LGPD) - com transparência sobre os critérios

Esse é o artefato que um auditor EU AI Act Article 13 inspeciona. É o artefato que a ANPD analisa numa fiscalização sob LGPD art. 20. É a base do RIPD (Relatório de Impacto à Proteção de Dados sob Resolução CD/ANPD 18/2024) que o Encarregado de Dados precisa manter para tratamento de risco aumentado. É o artefato que o representante do Sindicato avalia quando precisa classificar quais agentes entram em escopo de negociação coletiva (e a referência contratual é o ACT da empresa se houver, prevalecendo sobre a CCT da categoria por CLT art. 620). E é o artefato que satisfaz a pergunta de Compras “o que acontece quando seu vendor de IA muda de modelo?” - porque a regra de roteamento muda, não a lógica de negócio.

Construir essa camada in-house é factível mas raramente mais rápido que 6-9 meses para um time enterprise começando do zero. Comprar como framework de configuração tipicamente encurta o caminho para 4-6 semanas até o primeiro agent em produção.

Conclusão

IA open-source self-hosted é uma escolha de produção séria para a empresa brasileira em 2026 - mas só como arquitetura multi-modelo com camada de roteamento, não como aposta em modelo único. Mistral Small 3.2 cobre a faixa de volume. gpt-oss-120b ou DeepSeek V4-Flash cobrem raciocínio pesado on-prem. DeepSeek V4-Pro (atualmente em preview) chega no território Claude Opus se você tem hardware classe hyperscaler - ou você espera o release GA e usa via API enquanto isso. Llama 4 Scout cobre contexto ultra-longo. O tier cloud-API (Claude Opus 4.7, GPT-5.5, Gemini 3.1 Pro) fica disponível para cargas em que o marco regulatório permite.

A decisão de roteamento é a arquitetura. O ponto de virada de TCO (em torno de 50-100 milhões de tokens por mês sustentado) define o limiar econômico do self-hosting. A taxonomia de compliance (qual classificação de dado não pode deixar a rede sob LGPD art. 33) define o limiar de soberania. Os dois limiares moldam as regras de roteamento.

Outros publicam leaderboards. A gente constrói a camada de roteamento que operacionaliza esses leaderboards. O mercado de modelos muda mês a mês; a arquitetura de roteamento sobrevive a cinco gerações de modelo. O código-fonte fica com o cliente. Os modelos permanecem intercambiáveis. Conformidade com LGPD art. 20 e EU AI Act Art. 13 é propriedade da arquitetura, não projeto no fim.

Se você quer saber como deveria ser seu stack self-hosted com base no mix de carga real e na sua classificação de dado, agende uma conversa.

Bert Gogolin

Diretor Executivo, Gosign

AI Governance Briefing

IA empresarial, regulamentação e infraestrutura - uma vez por mês, diretamente de mim.