LLM Self-Hosting empresarial: Azure, GCP, On-Premise
Cómo alojar modelos de lenguaje en la propia infraestructura. DeepSeek, Llama, Mistral Self-Hosted. Azure, GCP, On-Premise, híbrido.
Por qué self-hosting?
Para muchos clientes empresariales, la cuestión no es si se utiliza IA, sino dónde se procesan los datos. Al utilizar APIs en la nube (OpenAI, Anthropic, Google), los datos abandonan la infraestructura propia. Para sectores regulados (finanzas, sanidad, sector público) esto puede ser un criterio de exclusión.
De un vistazo - LLM Self-Hosting empresarial
- El self-hosting mantiene todos los datos dentro de la red corporativa - sin procesamiento por terceros, control total sobre modelo, datos e inferencia.
- Los modelos open source (Llama, Mistral, DeepSeek, gpt-oss) pueden desplegarse en Azure ML, GCP Vertex AI, servidores GPU propios o configuraciones híbridas.
- El dimensionamiento de GPU es el principal factor de coste: un modelo 7B funciona en una GPU, un modelo 70B requiere múltiples GPUs o cuantización.
- El enrutamiento modelo-agnóstico permite que los agentes usen modelos self-hosted para datos sensibles y Cloud APIs para tareas no críticas.
- Gartner (2024) prevé que el 45% de los despliegues de IA en sectores regulados operarán en infraestructura privada en 2027, frente al 20% en 2023.
Self-hosting significa: el modelo de lenguaje se ejecuta en la infraestructura del cliente. Ningún dato abandona la red corporativa. Ningún tercero procesa las solicitudes. Control total sobre modelo, datos y procesamiento.
En España, esto es especialmente relevante para empresas que operan bajo el RGPD y la LOPDGDD (Ley Orgánica 3/2018 de Protección de Datos Personales y garantía de los derechos digitales), así como para organizaciones sujetas al Esquema Nacional de Seguridad (ENS) que trabajan con la Administración Pública.
Que modelos se pueden alojar internamente?
Los modelos open-source pueden operarse en la propia infraestructura:
Caballo de batalla por volumen - Mistral Small 3.2 (24B, Apache 2.0, construido en la UE): Modelo europeo, funciona en una sola RTX 4090 con cuantización de 4 bits. Ideal para inferencia por lotes en cargas no críticas. Mixtral 8x22B y Codestral Mamba 32B (especializado en código) completan el portfolio de Mistral.
Reasoning OSS - gpt-oss-120b (OpenAI, Apache 2.0): 117B parámetros, arquitectura MoE, ejecutable en una sola H100 (80 GB). Primer modelo open source de OpenAI; gpt-oss-20b para escenarios edge.
Frontier OSS - DeepSeek V4-Flash y V4-Pro (MIT): DeepSeek V4-Flash (abril 2026, 284B/13B MoE activos) funciona en una sola H100 con cuantización. V4-Pro (1.6T/49B) requiere un clúster de 8x H100 y ofrece razonamiento de nivel frontier. DeepSeek R1 (enero 2025) sigue siendo apto para producción en despliegues maduros - V4 no jubila a R1 de la noche a la mañana.
Contexto largo - Llama 4 Scout (Meta License): Ventana de contexto de 10M tokens para análisis documental sobre expedientes completos. Llama 4 Maverick gestiona contextos más cortos con mayor throughput de tokens.
Coding OSS - Qwen 3 Coder 110B (Apache 2.0, Alibaba) y DeepSeek Coder V4 (MIT): Especializados en generación de código y comprensión de repositorios. Codestral Mamba 32B (Mistral, construido en la UE) como alternativa europea.
Los modelos propietarios (Claude Opus 4.7, GPT-5.5, Gemini 3.1 Pro) no están disponibles para self-hosting, pero pueden utilizarse vía API con procesamiento en la UE.
En la arquitectura modelo-agnostica, un agente puede utilizar multiples modelos: self-hosted para datos sensibles, API en la nube para tareas no criticas. El enrutamiento es basado en reglas y esta configurado en el Decision Layer.
Opciones de despliegue
Azure: Los LLMs pueden desplegarse en Azure ML o ejecutarse en VMs GPU dedicadas (NC-Series, ND-Series). Integracion con Azure Entra ID para autenticacion y control de acceso. Procesamiento en centros de datos de la UE (West Europe, North Europe).
GCP: Despliegue via Vertex AI o en VMs GPU dedicadas (A2, G2). Integracion con Google Cloud IAM. Procesamiento en centros de datos de la UE (europe-west1, europe-west4). La region europe-southwest1 (Madrid) es relevante para empresas espanolas con requisitos de residencia de datos nacional.
On-Premise: Servidores propios con GPUs NVIDIA (A100, H100, RTX 4000 Ada). Operacion en centros de datos certificados. Maximo control, sin dependencia de la nube. En Espana existen centros de datos certificados en Madrid, Barcelona y otras ciudades principales que cumplen con el ENS y la normativa de proteccion de datos.
Hibrido: Combinacion de self-hosted y nube. Cargas de trabajo sensibles en local, cargas no criticas en la nube. Gobernanza unificada en ambos entornos.
| Criterio | Self-Hosted | Cloud API |
|---|---|---|
| Data Residency | Control total, datos permanecen on-premise | Depende del proveedor, regiones UE disponibles |
| Elección de modelo | Solo open source (Llama, Mistral, DeepSeek) | Propietarios + open source via API |
| Coste a escala | Menor (coste GPU fijo, sin tarifas por token) | Mayor (precio por token escala linealmente) |
| Esfuerzo operativo | Alto (gestión GPU, actualizaciones, HA) | Bajo (gestionado por proveedor) |
| Latencia | Baja (red local) | Variable (depende de la red) |
eBook gratuito: Infraestructura de IA
Build, Buy, Hybrid - infraestructura conforme al EU AI Act con B/B/H-Framework y 7-Layer Reference Architecture.
Descargar gratisConsideraciones arquitectonicas
Dimensionamiento de GPU: El tamano del modelo determina los requisitos de GPU. Un modelo de 7B se ejecuta en una sola GPU. Un modelo de 70B necesita multiples GPUs o cuantizacion. El dimensionamiento correcto depende del caso de uso.
Optimizacion de inferencia: Tecnicas como la cuantizacion (4-bit, 8-bit), batching y optimizacion de cache KV reducen los requisitos de recursos con una perdida de calidad aceptable.
Alta disponibilidad: Para sistemas productivos: servidores GPU redundantes, balanceo de carga, failover automatico. Sin punto unico de fallo.
Actualizaciones de modelos: Las nuevas versiones de modelos deben probarse antes de pasar a produccion. Un entorno de staging para pruebas de modelos es parte de la infraestructura.
Punto de cruce de TCO - self-host vs Cloud API: El umbral se sitúa en torno a 50-100M tokens/mes sostenidos. Por debajo de ese umbral, las Cloud APIs son más económicas; por encima, una H100 dedicada se amortiza en 12-18 meses. Consulte IA Open Source Autohospedada 2026 para la matriz completa de modelos y el cálculo de costes.
Mas sobre este tema: Infraestructura de IA
Mas sobre estrategias de hosting: Hosting IA estrategias enterprise
Agendar reunion. Le mostramos la estrategia de hosting optima para sus requisitos.

Bert Gogolin
Director General, Gosign
AI Governance Briefing
IA empresarial, regulación e infraestructura - una vez al mes, directamente de mi parte.