Quais modelos de linguagem podem ser hospedados internamente?

Modelos open-source como Llama (Meta), Mistral, DeepSeek e seus derivados podem ser operados em infraestrutura própria. Modelos proprietários como Claude (Anthropic) e ChatGPT (OpenAI) estão disponíveis apenas via API.

Onde é possível operar LLMs self-hosted?

Em Azure (via Azure ML ou VMs dedicadas), em GCP (via Vertex AI ou VMs dedicadas), em servidores próprios (on-premise em data centers certificados) ou em configuração híbrida. No Brasil, provedores como Equinix e Ascenty oferecem data centers certificados.

Quanto custa LLM self-hosting?

Os custos dependem do modelo, do hardware e do volume de uso. Servidores GPU (NVIDIA A100/H100) são o maior fator de custo. Com alto volume de uso, self-hosting frequentemente é mais barato que uso baseado em API. No Brasil, o custo de GPU hosting fica em torno de R$ 6.000 mensais por unidade.

Self-hosting atende requisitos da LGPD?

Sim. Self-hosting é a opção que oferece máxima conformidade com a LGPD, pois nenhum dado sai da infraestrutura da empresa. Para organizações em setores regulados - financeiro, saúde, setor público - pode ser requisito eliminatório.

LLM Self-Hosting para Enterprise - Azure, GCP, On-Premise

Por que self-hosting?

Para muitos clientes enterprise, a questão não é se IA será adotada, mas onde os dados serão processados. Na utilização de Cloud APIs (OpenAI, Anthropic, Google), dados saem da infraestrutura própria. Para setores regulados - financeiro, saúde, setor público - isso pode ser critério eliminatório.

Resumo - LLM Self-Hosting para Enterprise

O self-hosting mantém todos os dados na rede corporativa - sem processamento por terceiros, controle total sobre modelo, dados e inferência.
Modelos open source (Llama, Mistral, DeepSeek, gpt-oss) podem ser implantados no Azure ML, GCP Vertex AI, servidores GPU próprios ou configurações híbridas.
O dimensionamento de GPU é o principal fator de custo: um modelo 7B roda em uma GPU, um modelo 70B requer múltiplas GPUs ou quantização.
O roteamento modelo-agnóstico permite que agentes usem modelos self-hosted para dados sensíveis e Cloud APIs para tarefas não críticas.
Gartner (2024) prevê que 45% das implantações de IA em setores regulados operarão em infraestrutura privada até 2027 - ante 20% em 2023.

Self-hosting significa: o modelo de linguagem roda na infraestrutura do cliente. Nenhum dado sai da rede corporativa, garantindo total Data Residency. Nenhum terceiro processa as solicitações. Controle total sobre modelo, dados e processamento.

No Brasil, a LGPD (PT: RGPD) impõe requisitos rigorosos para transferência internacional de dados pessoais. Self-hosting elimina esse risco por completo, mantendo todos os dados sob jurisdição nacional.

Quais modelos podem ser operados self-hosted?

Modelos open-source podem ser operados em infraestrutura própria:

Cavalo de batalha por volume - Mistral Small 3.2 (24B, Apache 2.0, construído na UE): Modelo europeu, roda em uma única RTX 4090 com quantização de 4 bits. Ideal para inferência em lote sobre cargas não críticas. Mixtral 8x22B e Codestral Mamba 32B (especializado em código) completam o portfólio Mistral.

Reasoning OSS - gpt-oss-120b (OpenAI, Apache 2.0): 117B parâmetros, arquitetura MoE, roda em uma única H100 (80 GB). Primeiro modelo open source da OpenAI; gpt-oss-20b para cenários edge.

Frontier OSS - DeepSeek V4-Flash e V4-Pro (MIT): DeepSeek V4-Flash (abril 2026, 284B/13B MoE ativos) roda em uma única H100 com quantização. V4-Pro (1.6T/49B) exige um cluster de 8x H100 e entrega raciocínio de nível frontier. DeepSeek R1 (janeiro 2025) segue pronto para produção em deployments maduros - V4 não aposenta o R1 de um dia para o outro.

Contexto longo - Llama 4 Scout (Meta License): Janela de contexto de 10M tokens para análise documental sobre dossiês inteiros. Llama 4 Maverick atende contextos mais curtos com maior throughput de tokens.

Coding OSS - Qwen 3 Coder 110B (Apache 2.0, Alibaba) e DeepSeek Coder V4 (MIT): Especializados em geração de código e compreensão de repositórios. Codestral Mamba 32B (Mistral, construído na UE) como alternativa europeia.

Modelos proprietários (Claude Opus 4.7, GPT-5.5, Gemini 3.1 Pro) não estão disponíveis para self-hosting, mas podem ser utilizados via API com processamento na UE.

Na arquitetura modelo-agnóstica, um agente pode utilizar múltiplos modelos: self-hosted para dados sensíveis, Cloud API para tarefas não-críticas. O roteamento é baseado em regras e configurado no Decision Layer.

Opções de deployment

Azure: LLMs podem ser deployados no Azure ML ou operados em VMs GPU dedicadas (séries NC, ND). Integração com Azure Entra ID para autenticação e controle de acesso. Processamento em data centers na região do Brasil (Brazil South) ou na UE (West Europe, North Europe).

GCP: Deployment via Vertex AI ou em VMs GPU dedicadas (A2, G2). Integração com Google Cloud IAM. Processamento em data centers na América do Sul (southamerica-east1 em São Paulo) ou na UE.

On-premise: Servidores próprios com GPUs NVIDIA (A100, H100, RTX 4000 Ada). Operação em data centers certificados no Brasil (Equinix SP, Ascenty) ou em Portugal (PT: data centers certificados como Equinix em Lisboa). Controle máximo, sem dependência de nuvem.

Híbrido: Combinação de self-hosted e nuvem. Workloads sensíveis localmente, não-críticos na nuvem. Governance unificada sobre ambos os ambientes.

Critério	Self-Hosted	Cloud API
Data Residency	Controle total, dados permanecem on-premise	Depende do provedor, regiões UE disponíveis
Escolha de modelo	Apenas open source (Llama, Mistral, DeepSeek)	Proprietários + open source via API
Custo em escala	Menor (custo GPU fixo, sem taxas por token)	Maior (preço por token escala linearmente)
Esforço operacional	Alto (gestão GPU, atualizações, HA)	Baixo (gerenciado pelo provedor)
Latência	Baixa (rede local)	Variável (depende da rede)

eBook gratuito: Infraestrutura de IA

Build, Buy, Hybrid - infraestrutura em conformidade regulatória com B/B/H-Framework e 7-Layer Reference Architecture.

Baixar grátis

Considerações de arquitetura

Dimensionamento de GPU: O tamanho do modelo determina a necessidade de GPU. Um modelo 7B roda em uma única GPU. Um modelo 70B requer múltiplas GPUs ou quantização. O dimensionamento correto depende do caso de uso.

Otimização de inferência: Técnicas como quantização (4-bit, 8-bit), batching e otimização de KV-cache reduzem a necessidade de recursos com perda de qualidade aceitável.

Alta disponibilidade: Para sistemas produtivos: servidores GPU redundantes, load balancing, failover automático. Sem ponto único de falha.

Atualizações de modelo: Novas versões de modelos devem ser testadas antes de entrar em produção. Um ambiente de staging para testes de modelo faz parte da infraestrutura.

Ponto de equilíbrio TCO - self-host vs Cloud API: O limiar fica em torno de 50-100M tokens/mês sustentados. Abaixo desse patamar, Cloud APIs saem mais baratas; acima dele, uma H100 dedicada se amortiza em 12-18 meses. Veja IA Open Source Auto-hospedada 2026 para a matriz completa de modelos e o cálculo de custos.

Mais informações: Estratégias de hosting de IA | Modelos de IA - Comparativo 2026

Agendar reunião - Mostramos a estratégia de hosting ideal para seus requisitos.

Bert Gogolin

Diretor Executivo, Gosign

AI Governance Briefing

IA empresarial, regulamentação e infraestrutura - uma vez por mês, diretamente de mim.