LLM Self-Hosting para Enterprise - Azure, GCP, On-Premise
Como hospedar modelos de linguagem em infraestrutura própria? DeepSeek, Llama, Mistral self-hosted. Azure, GCP, on-premise, híbrido.
Por que self-hosting?
Para muitos clientes enterprise, a questão não é se IA será adotada, mas onde os dados serão processados. Na utilização de Cloud APIs (OpenAI, Anthropic, Google), dados saem da infraestrutura própria. Para setores regulados - financeiro, saúde, setor público - isso pode ser critério eliminatório.
Resumo - LLM Self-Hosting para Enterprise
- O self-hosting mantém todos os dados na rede corporativa - sem processamento por terceiros, controle total sobre modelo, dados e inferência.
- Modelos open source (Llama, Mistral, DeepSeek, gpt-oss) podem ser implantados no Azure ML, GCP Vertex AI, servidores GPU próprios ou configurações híbridas.
- O dimensionamento de GPU é o principal fator de custo: um modelo 7B roda em uma GPU, um modelo 70B requer múltiplas GPUs ou quantização.
- O roteamento modelo-agnóstico permite que agentes usem modelos self-hosted para dados sensíveis e Cloud APIs para tarefas não críticas.
- Gartner (2024) prevê que 45% das implantações de IA em setores regulados operarão em infraestrutura privada até 2027 - ante 20% em 2023.
Self-hosting significa: o modelo de linguagem roda na infraestrutura do cliente. Nenhum dado sai da rede corporativa, garantindo total Data Residency. Nenhum terceiro processa as solicitações. Controle total sobre modelo, dados e processamento.
No Brasil, a LGPD (PT: RGPD) impõe requisitos rigorosos para transferência internacional de dados pessoais. Self-hosting elimina esse risco por completo, mantendo todos os dados sob jurisdição nacional.
Quais modelos podem ser operados self-hosted?
Modelos open-source podem ser operados em infraestrutura própria:
Cavalo de batalha por volume - Mistral Small 3.2 (24B, Apache 2.0, construído na UE): Modelo europeu, roda em uma única RTX 4090 com quantização de 4 bits. Ideal para inferência em lote sobre cargas não críticas. Mixtral 8x22B e Codestral Mamba 32B (especializado em código) completam o portfólio Mistral.
Reasoning OSS - gpt-oss-120b (OpenAI, Apache 2.0): 117B parâmetros, arquitetura MoE, roda em uma única H100 (80 GB). Primeiro modelo open source da OpenAI; gpt-oss-20b para cenários edge.
Frontier OSS - DeepSeek V4-Flash e V4-Pro (MIT): DeepSeek V4-Flash (abril 2026, 284B/13B MoE ativos) roda em uma única H100 com quantização. V4-Pro (1.6T/49B) exige um cluster de 8x H100 e entrega raciocínio de nível frontier. DeepSeek R1 (janeiro 2025) segue pronto para produção em deployments maduros - V4 não aposenta o R1 de um dia para o outro.
Contexto longo - Llama 4 Scout (Meta License): Janela de contexto de 10M tokens para análise documental sobre dossiês inteiros. Llama 4 Maverick atende contextos mais curtos com maior throughput de tokens.
Coding OSS - Qwen 3 Coder 110B (Apache 2.0, Alibaba) e DeepSeek Coder V4 (MIT): Especializados em geração de código e compreensão de repositórios. Codestral Mamba 32B (Mistral, construído na UE) como alternativa europeia.
Modelos proprietários (Claude Opus 4.7, GPT-5.5, Gemini 3.1 Pro) não estão disponíveis para self-hosting, mas podem ser utilizados via API com processamento na UE.
Na arquitetura modelo-agnóstica, um agente pode utilizar múltiplos modelos: self-hosted para dados sensíveis, Cloud API para tarefas não-críticas. O roteamento é baseado em regras e configurado no Decision Layer.
Opções de deployment
Azure: LLMs podem ser deployados no Azure ML ou operados em VMs GPU dedicadas (séries NC, ND). Integração com Azure Entra ID para autenticação e controle de acesso. Processamento em data centers na região do Brasil (Brazil South) ou na UE (West Europe, North Europe).
GCP: Deployment via Vertex AI ou em VMs GPU dedicadas (A2, G2). Integração com Google Cloud IAM. Processamento em data centers na América do Sul (southamerica-east1 em São Paulo) ou na UE.
On-premise: Servidores próprios com GPUs NVIDIA (A100, H100, RTX 4000 Ada). Operação em data centers certificados no Brasil (Equinix SP, Ascenty) ou em Portugal (PT: data centers certificados como Equinix em Lisboa). Controle máximo, sem dependência de nuvem.
Híbrido: Combinação de self-hosted e nuvem. Workloads sensíveis localmente, não-críticos na nuvem. Governance unificada sobre ambos os ambientes.
| Critério | Self-Hosted | Cloud API |
|---|---|---|
| Data Residency | Controle total, dados permanecem on-premise | Depende do provedor, regiões UE disponíveis |
| Escolha de modelo | Apenas open source (Llama, Mistral, DeepSeek) | Proprietários + open source via API |
| Custo em escala | Menor (custo GPU fixo, sem taxas por token) | Maior (preço por token escala linearmente) |
| Esforço operacional | Alto (gestão GPU, atualizações, HA) | Baixo (gerenciado pelo provedor) |
| Latência | Baixa (rede local) | Variável (depende da rede) |
eBook gratuito: Infraestrutura de IA
Build, Buy, Hybrid - infraestrutura em conformidade regulatória com B/B/H-Framework e 7-Layer Reference Architecture.
Baixar grátisConsiderações de arquitetura
Dimensionamento de GPU: O tamanho do modelo determina a necessidade de GPU. Um modelo 7B roda em uma única GPU. Um modelo 70B requer múltiplas GPUs ou quantização. O dimensionamento correto depende do caso de uso.
Otimização de inferência: Técnicas como quantização (4-bit, 8-bit), batching e otimização de KV-cache reduzem a necessidade de recursos com perda de qualidade aceitável.
Alta disponibilidade: Para sistemas produtivos: servidores GPU redundantes, load balancing, failover automático. Sem ponto único de falha.
Atualizações de modelo: Novas versões de modelos devem ser testadas antes de entrar em produção. Um ambiente de staging para testes de modelo faz parte da infraestrutura.
Ponto de equilíbrio TCO - self-host vs Cloud API: O limiar fica em torno de 50-100M tokens/mês sustentados. Abaixo desse patamar, Cloud APIs saem mais baratas; acima dele, uma H100 dedicada se amortiza em 12-18 meses. Veja IA Open Source Auto-hospedada 2026 para a matriz completa de modelos e o cálculo de custos.
Mais informações: Estratégias de hosting de IA | Modelos de IA - Comparativo 2026
Agendar reunião - Mostramos a estratégia de hosting ideal para seus requisitos.

Bert Gogolin
Diretor Executivo, Gosign
AI Governance Briefing
IA empresarial, regulamentação e infraestrutura - uma vez por mês, diretamente de mim.