IA Open Source Autohospedada 2026: Mistral, gpt-oss, DeepSeek V4, Llama 4 en el stack enterprise
Autohospedaje de LLM open source en 2026: Mistral Small 3.2, gpt-oss-120b, DeepSeek V4-Pro/Flash, Llama 4. Suelo de hardware, TCO, hosting GPU UE, matriz de decisión.
El mercado de modelos dio a las compras Enterprise UE una opción que nunca antes tuvo. Los modelos de pesos abiertos igualan a los propietarios en la mayoría de cargas enterprise. Tres modelos open source frontier-class se publicaron bajo Apache 2.0 solo en 2025. Los proveedores europeos de hosting GPU ofrecen capacidad H100 a tarifas horarias predecibles desde centros de datos en París y Frankfurt. La sentencia Schrems II combinada con el US CLOUD Act convirtió el autohospedaje en la única arquitectura con exposición cero a proveedores extranjeros.
Y aún así la conversación en compras sigue tratando “IA open source autohospedada” como un único producto. No lo es. Es una decisión de stack con cuatro modelos creíbles, tres patrones de despliegue y un problema real de matemáticas TCO. Este artículo es el complemento detallado de Cuándo Mistral, cuándo Claude Opus? Decision Routing para Enterprise UE 2026 - si ya has decidido autohospedar, así se resuelve realmente la selección de modelo.
De un vistazo - IA Open Source Autohospedada para Enterprise UE 2026
- Cinco modelos autohospedables creíbles en 2026: Mistral Small 3.2 (Apache 2.0, 24B, una sola GPU de consumo), gpt-oss-120b (Apache 2.0, MoE, una sola H100), DeepSeek V4-Flash (MIT, 284B/13B activo MoE, preview abril 2026), DeepSeek V4-Pro (MIT, 1.6T/49B activo, preview, clase clúster), Llama 4 Scout (Meta License, contexto 10M).
- Mistral Small 3.2 gana el puesto de workhorse porque funciona en hardware de consumo (RTX 4090), trae entrenamiento multilingüe e incluye capacidad visual nativa para cargas documentales.
- DeepSeek V4-Pro (preview, 24 de abril de 2026) se acerca al rendimiento frontier closed-source bajo licencia MIT pero necesita clúster multi-GPU; el autohospedaje realista para la mayoría de empresas empieza con V4-Flash.
- El hosting GPU UE ya no es el cuello de botella: Scaleway ofrece H100 SXM a ~3,50 EUR/h, OVHcloud tiene tier soberano, Hetzner provee servidores RTX dedicados, Telefónica Tech atiende el mercado español, T-Systems sirve a sectores regulados.
- Cruce TCO de cloud API a autohospedaje: típicamente entre 50 y 100 millones de tokens al mes sostenidos. Por debajo, EU-Cloud-API gana al autohospedaje. Por encima, el hardware dedicado amortiza en 12-18 meses.
- La arquitectura es multi-modelo, no mono-modelo: Mistral Small para volumen, gpt-oss-120b o DeepSeek V4-Flash para razonamiento pesado on-prem, V4-Pro o R1 como especialistas mate/lógica, Llama 4 Scout para contexto ultralargo. El enrutado decide qué modelo atiende cada decisión.
Decidiste autohospedar - aquí empieza la cuestión del modelo
La decisión de autohospedar un stack LLM raramente es una decisión de modelo. Es una decisión de cumplimiento: datos clasificados por encima de cierto umbral no pueden salir de la red corporativa, bajo RGPD, LOPDGDD o requisitos ENS para administración. Es una decisión de arquitectura: la capa de inferencia debe ser una dependencia controlada, no una API externa. Es una decisión de compras: CAPEX sobre hardware frente a OPEX sobre instancias GPU alojadas.
Una vez tomada esa decisión, se abre la cuestión del modelo. Qué modelo open source sobre qué suelo de hardware para qué mezcla de cargas? Cinco modelos tienen disponibilidad creíble en producción Q2 2026: Mistral Small 3.2, gpt-oss-120b, DeepSeek V4-Flash, DeepSeek V4-Pro (preview) y Llama 4 Scout. DeepSeek R1 de enero de 2025 sigue siendo apto para producción pero ha sido en gran parte superado por la línea V4 para despliegues nuevos. Cada modelo tiene una curva coste-calidad distinta y un perfil operativo distinto.
Este artículo evita el debate de rankings. Las puntuaciones de benchmark convergen lo suficiente como para que el encaje con la carga importe más que los puntos nominales en MMLU o HumanEval. La pregunta es qué modelo sobrevive 18 meses en tu stack, cuál se gana su hardware y qué combinación produce el Audit Trail que exige el EU AI Act.
Los modelos autohospedables creíbles, uno frente al otro
| Modelo | Parámetros / Arquitectura | Licencia | Suelo hardware CAPEX (bf16/fp16) | OPEX hosted (UE) | Fortaleza clave | Debilidad clave |
|---|---|---|---|---|---|---|
| Mistral Small 3.2 | 24B densa, GQA (32Q/8KV) | Apache 2.0 | 1× RTX 4090 ~1.500 EUR o 1× H100 80GB ~30.000 EUR | ~1.500-2.500 EUR/mes (1× H100 hosted) | Multilingüe, visión, rápido (~150 tok/s en GPU consumo), apto para volumen | Razonamiento no de máximo nivel |
| gpt-oss-120b | 117B total / 5.1B activos (MoE) | Apache 2.0 | 1× H100/A100 80GB ~30.000 EUR | ~1.200-2.500 EUR/mes (1× H100 hosted) | Razonamiento a nivel o4-mini, inferencia eficiente con MoE | Sin visión, solo hardware datacenter |
| DeepSeek V4-Flash (preview, abr 2026) | 284B total / 13B activos (MoE), contexto 1M | MIT | 1-4× H100/A100 80GB ~30.000-120.000 EUR con quant; multi-GPU para precisión completa | ~1.500-5.000 EUR/mes (1-4× H100 hosted) | Razonamiento frontier-class con coste hardware moderado, multimodal nativo, optimizado para agentes | Estado preview - benchmarks deben reverificarse antes de producción |
| DeepSeek V4-Pro (preview, abr 2026) | 1.6T total / 49B activos (MoE), contexto 1M | MIT | Clúster 8× H100 ~240.000 EUR CAPEX | ~10.000-12.000 EUR/mes (8× H100 hosted) | Se acerca al rendimiento de GPT-5.5 y Gemini 3.1 Pro bajo licencia abierta, optimizado para agent-tooling (Claude Code, OpenClaw) | Hardware clase datacenter; on-prem para gran empresa, API/hosted para PYME |
| DeepSeek R1 (ene 2025, maduro) | 671B total / 37B activos (MoE) | MIT | Multi-GPU: 4-8× H100 ~120.000-240.000 EUR | ~5.000-10.000 EUR/mes (4-8× H100 hosted) | Especialista mate/lógica maduro, amplio soporte de frameworks | Mayormente superado por V4-Flash en despliegues nuevos |
| Llama 4 Scout | 17B activos (MoE) | Meta Llama Community License | 1× GPU ~30.000 EUR | ~1.500 EUR/mes (1× H100 hosted) | Ventana de contexto de 10 millones de tokens | Restricción de licencia con >700M MAU; revisión de licencia necesaria |
DeepSeek V4-Pro está disponible bajo licencia MIT en Hugging Face - es genuinamente open source, no propietario. La cuestión no es de licencia, sino de tamaño de empresa. Para una gran empresa del IBEX-35 o mediana empresa superior, 240.000 EUR de CAPEX hardware son una partida estándar del presupuesto TI - igual que cualquier otro clúster datacenter de razonamiento crítico. Para una PYME por debajo de 500 empleados, el camino realista es V4-Pro vía API (Together.ai, Fireworks, DeepSeek API) o como variante hospedada en proveedores UE - misma licencia MIT abierta, mismos pesos, sin CAPEX hardware. Es la misma decisión que con cualquier otro workload datacenter: ¿es la escala adecuada para hardware propio, o se consume vía proveedor?
Tres clarificaciones importan aquí.
Suelo hardware de Mistral Small 3.2. La guía oficial de Mistral lista ~55 GB de RAM GPU para inferencia bf16/fp16, lo que lo sitúa sobre H100 o A100 80GB en producción. Con cuantización 4-bit (GPTQ, AWQ), funciona sobre una sola RTX 4090 de 24 GB con leve pérdida de calidad. Para despliegues piloto o inferencia single-tenant, la vía RTX 4090 es real. Para producción multi-tenant con peticiones concurrentes, la vía H100 es el dimensionado correcto.
Estado preview de DeepSeek V4. DeepSeek-V4-Pro y V4-Flash se lanzaron como preview el 24 de abril de 2026 bajo licencia MIT, ambos con ventana de contexto de 1M tokens vía la nueva arquitectura Hybrid Attention (Compressed Sparse Attention + Heavily Compressed Attention). En el escenario de 1M de tokens, V4-Pro requiere supuestamente solo el 27% de los FLOPs de inferencia por token y el 10% de la KV cache frente a V3.2 - ganancias de eficiencia significativas para cargas de contexto largo. Ambas variantes están optimizadas para agent-tooling (integración con Claude Code, OpenClaw). Sin embargo: preview significa que los benchmarks no se han verificado independientemente a escala. Para decisiones de producción en sectores regulados (banca CNMV, sanidad, AAPP bajo ENS), espera el release GA o ejecuta tus propios benchmarks representativos antes de comprometerte.
Revisión de licencia para Llama 4 Scout. La Meta Llama Community License permite uso comercial pero contiene dos restricciones que compras enterprise debe revisar: un umbral de 700 millones de MAU por encima del cual se requiere licencia separada de Meta, y una restricción sobre el uso de salidas del modelo para entrenar modelos competidores. Para la mayoría de empresas españolas ambas son irrelevantes en la práctica, pero la nota de compras debe quedar explícita.
TCO: cuándo gana el autohospedaje al cloud API?
La economía cambia en un umbral de volumen de tokens. Por debajo, las APIs alojadas ganan porque el tiempo de hardware ocioso domina. Por encima, las GPUs dedicadas ganan porque el coste incremental por token se acerca al coste de electricidad más amortización.
Un cálculo representativo para Mistral Small 3.2 en hosting UE:
| Elemento de coste | Valor (hosting UE) |
|---|---|
| Instancia H100 80GB, proveedor UE (clase Scaleway) | ~2.500 EUR/mes dedicada, o ~3,50 EUR/h bajo demanda |
| Throughput Mistral Small 3.2 (H100 única) | ~150 tokens/s sostenidos, ~390M tokens/mes al 100% de utilización |
| Coste efectivo por 1M tokens al 60% de utilización | ~10-12 EUR por 1M tokens |
| Equivalente API Mistral La Plateforme (Mistral Small) | ~0,40 USD por 1M tokens de entrada; depende del volumen |
| Equivalente API Claude Sonnet 4.6 | ~3 USD por 1M tokens entrada; ~15 USD salida |
| Equivalente API Claude Opus 4.7 | ~5 USD por 1M tokens entrada; ~25 USD salida |
El cruce para Mistral Small cae entre 50 y 100 millones de tokens al mes sostenidos, dependiendo de si la carga es pesada en entrada o pesada en salida. Una pipeline enterprise 24/7 corriendo 5 a 10 nodos worker cruza ese umbral típicamente en el primer trimestre.
Para gpt-oss-120b la matemática es similar pero empieza más arriba: una H100 soporta menor throughput que Mistral Small al mismo coste hardware, así que la amortización por token es aproximadamente 2× la de Mistral Small. El cruce frente a Claude Opus 4.7 cae alrededor de 30-50 millones de tokens al mes - exactamente el rango donde aterrizan las cargas de razonamiento pesado en sistemas IA enterprise.
La arquitectura 1.6T/49B activos de DeepSeek V4-Pro es hardware clase hyperscaler. El autohospedaje realista empieza con V4-Flash (284B/13B activos), que cabe en 1-2 H100 con cuantización o 4 H100 en precisión completa. El TCO autohospedado para V4-Flash se justifica cuando el razonamiento frontier-class es una carga sostenida en clasificaciones de datos críticas para soberanía; para razonamiento ocasional, la API de V4-Flash o Mistral La Plateforme es más barata. V4-Pro on-prem es realista solo para empresas clase hyperscaler (servicios financieros con infraestructura grado HFT, grandes clientes de defensa o AAPP a gran escala). El resto usa V4-Pro vía API o variante hospedada.
Estos números se basan en precios públicos de hosting UE de Scaleway y OVHcloud y en datos públicos de throughput de modelos. Son ilustrativos, no contractuales.
Hosting GPU UE en 2026: quién tiene realmente capacidad H100?
El mercado de hosting GPU UE maduró significativamente en 2025-2026. Tres proveedores cubren la mayoría de casos de uso enterprise de autohospedaje:
Scaleway (Francia, RGPD nativo). El más agresivo en precio-rendimiento para cargas IA. H100 SXM a ~3,50 EUR/h, A100 a ~2,50 EUR/h, más la nueva NVIDIA Blackwell B300-SXM (288 GB VRAM) para cargas frontier. Centros de datos franceses, cumplimiento total RGPD, sin exposición al CLOUD Act. Contratos de instancia reservada disponibles para cargas predecibles.
OVHcloud (Francia, tier soberano). El mayor proveedor cloud europeo, con un tier “Sovereign Cloud” construido explícitamente para uso gubernamental y de sectores regulados. Cartera incluye H100, RTX 5000, A10, más servicio “AI Deploy” para notebook e inferencia pay-as-you-go. Buen encaje cuando compras exige firma de cloud soberano.
Hetzner (Alemania). El líder en coste para servidores GPU dedicados, no instancias bajo demanda. Opciones GPU actuales incluyen RTX 4000 SFF Ada y RTX 6000 Ada emparejadas con CPUs modernas. El camino para Mistral Small 3.2 con cuantización o para entornos de desarrollo. Menos apto para escalado elástico pico.
Para sectores regulados (servicios financieros bajo CNMV, sanidad, AAPP bajo ENS) con requisitos estrictos de soberanía:
Telefónica Tech (España). Aragón data center Calatorao (~3 B EUR investment 2025), CCN-STIC 884 certificado para ENS Categoría Alta, partner AWS Sovereign Cloud España (joint announcement 2025). Para empresas IBEX-35 con requisitos AAPP-ready. Encaje natural para empresas españolas que prefieren un proveedor doméstico con presencia local y contratos en español.
IONOS (Alemania). Hosting clase cloud soberano con instancias GPU. El encaje de cumplimiento para cargas bajo supervisión financiera.
T-Systems (Alemania). Filial de Deutsche Telekom. Cloud soberano explícitamente diseñado para clientes de sector público e infraestructura crítica. La opción cómoda para compras cuando la soberanía a nivel consejo es el requisito.
Para clientes AAPP bajo ENS Categoría Alta (Real Decreto 311/2022 que reemplaza RD 3/2010): CCN-STIC 884 establece controles cloud específicos. Telefónica Tech tiene Aragón data center Calatorao certificado para ENS Alta. OVHcloud Sovereign tier es SecNumCloud (equivalente francés ANSSI). T-Systems Sovereign Cloud tiene C5 Type 2 (BSI alemán). Scaleway tiene HDS para Sanidad. Para uso por SEPE, Hacienda, MUFACE en categoría Alta, estos certificaciones son obligatorias.
Para una empresa que decide un stack autohospedado, la secuencia práctica es: piloto sobre Scaleway o Hetzner para validación eficiente en coste, paso a OVHcloud, Telefónica Tech o T-Systems para producción si la firma regulatoria exige certificación cloud soberano, retener contratos de instancia reservada para controlar predictibilidad de coste.
Patrones de despliegue: worker único, clúster, híbrido
Tres patrones de despliegue cubren casi todos los escenarios enterprise de autohospedaje.
Patrón worker único. Un modelo, una instancia GPU, desplegado tras un balanceador de carga con health checks. Apto para: Mistral Small 3.2 sobre RTX 4090 o H100 para la carga de volumen del 70%. Llama 4 Scout sobre GPU única para análisis de documentos de contexto largo. Complejidad operacional: baja. Modo de fallo: punto único de fallo si no se replica.
Patrón clúster multi-modelo. Múltiples modelos sobre múltiples GPUs tras una capa de enrutado. Apto para: Mistral Small para volumen + gpt-oss-120b o DeepSeek V4-Flash para razonamiento pesado + (opcional) DeepSeek V4-Pro sobre clúster dedicado para cargas grado matemático, todo tras una única capa de enrutado. La capa de enrutado decide por petición qué modelo la atiende. Complejidad operacional: media. Requiere un model server (vLLM, TGI, llama.cpp-server) y un motor de reglas de enrutado. Este es el patrón de producción típico para cargas agénticas con complejidad de decisión mixta.
Patrón híbrido edge-cloud. Cargas sensibles (onboarding de RRHH, revisión de contratos, extracción de datos de cliente) sobre modelos autohospedados; cargas no sensibles (generación de copy de marketing, Q&A sobre base de conocimiento de información pública) sobre APIs cloud UE como Mistral La Plateforme. La capa de enrutado fuerza la clasificación de datos antes de la selección de modelo. Complejidad operacional: alta (dos stacks que mantener) pero la menor exposición de soberanía y el mejor ratio coste-por-decisión.
La elección de patrón depende de la taxonomía de clasificación de datos, no de la selección de modelo. Si todo está clasificado como “interno” o superior, el patrón clúster multi-modelo domina. Si un porcentaje significativo del trabajo es sobre datos públicos o no sensibles, el patrón híbrido es más barato.
Matriz de decisión: qué modelo para qué carga
| Categoría de carga | Modelo recomendado | Por qué |
|---|---|---|
| Clasificación de documentos, extracción estructurada, parseo de campos OCR-corregidos | Mistral Small 3.2 (self-hosted) | Capacidad visual, rápido en GPU consumo, cobertura multilingüe |
| Generación de texto estándar (correos, notificaciones, recordatorios de NDA) | Mistral Small 3.2 (self-hosted) | Alto throughput, amigable con plantillas |
| Clasificación de cláusulas contractuales, banderas de riesgo de proveedor, detección de anomalías | Mistral Small 3.2 (self-hosted) o Mistral Medium 3.1 (La Plateforme) | Razonamiento medio a bajo coste |
| Análisis de no discriminación bajo Ley 15/2022, razonamiento complejo transestatutario | gpt-oss-120b on-prem (o Claude Opus 4.7 cloud) | Razonamiento nivel o4-mini bajo licencia Apache 2.0 |
| Modelado de riesgo financiero, stress testing, problemas de optimización | DeepSeek V4-Flash (actual) o V4-Pro vía API/hosted (si el hardware lo permite); R1 sigue viable para despliegues maduros | Liderazgo en benchmarks mate/lógica, la línea V4 añade contexto 1M para análisis cross-portfolio |
| Análisis documental de corpus grandes (carteras de contratos completas, informes anuales completos) | Llama 4 Scout (self-hosted) | Ventana de contexto de 10M tokens |
| Multimodal (correlación imagen-texto, revisión de planos técnicos) | Gemini 3.1 Pro (solo cloud - ningún equivalente autohospedado iguala) | Entrenamiento multimodal nativo |
| Generación de código, revisión de código (cloud flagships) | Claude Opus 4.7 o GPT-5.5 | Ambos líderes en benchmarks de código; Claude Opus 4.7 más fuerte en loops agénticos largos (Claude Code), GPT-5.5 más fuerte en integración IDE (Cursor, Copilot) |
| Generación de código, revisión de código (self-hosted) | Qwen 3 Coder 110B (Apache 2.0, Alibaba), DeepSeek Coder V4 (MIT) o Codestral Mamba 32B (Mistral, EU-built) | Benchmarks de coding top-tier on-prem; Qwen 3 Coder líder HumanEval/SWE-Bench entre OSS, DeepSeek Coder V4 más fuerte en agentic Multi-File-Tasks, Codestral Mamba latencia más baja en GPU de consumo |
| Stack nativo Microsoft 365 | GPT-5.5 vía Azure OpenAI | Stack nativo, menor esfuerzo de integración para organizaciones en el data plane de Microsoft |
| Workflows agénticos, orquestación de herramientas | GPT-5.5 o Claude Opus 4.7 | Ambos top-tier en outputs estructurados y orquestación de herramientas; GPT-5.5 con ecosistema más amplio de pre-built tools |
| SaaS Feature Gating (producto multi-tier) | Patrón híbrido: Mistral Small (self-hosted) + Claude Opus 4.7 / GPT-5.5 (cloud) | Datos sensibles de cliente self-hosted, premium features en cloud flagship |
| IA conversacional / chatbots cara al cliente | Mistral Small 3.2 (self-hosted) para volumen; GPT-5.5 (Azure) cuando stack MS-nativo | Calidad grado producción al menor coste hardware; Azure-Path cuando la integración con Microsoft 365 es prioritaria |
La matriz no es una prescripción. Es un punto de partida que se refina por organización. Una empresa con peso en finanzas pondera DeepSeek V4 más alto. Una operación con peso multimedia puede necesitar un salto a Gemini cloud. Una pipeline RRHH con alto volumen documental sitúa Mistral Small en el 80% de las decisiones, no en el 70%.
La capa de enrutado hace operacional la matriz. Sin ella, cada carga corre contra el modelo configurado por defecto, y la matriz se convierte en un artefacto de slideware.
Construyendo la capa de enrutado: dónde encaja el Decision Layer
Las arquitecturas autohospedadas multi-modelo se rompen sin capa de enrutado por una razón simple: ningún operador humano quiere recordar 14 mapeos decisión-a-modelo mientras además escribe la lógica de negocio del agente. El enrutado tiene que ser configuración, no código.
Un Decision Layer contiene:
- La taxonomía de clasificación de datos (qué tipos de dato requieren autohospedaje? Cuáles pueden enrutarse a EU-cloud-API? Cuáles a US-cloud-API?)
- Las reglas de enrutado decisión-a-modelo por paso de workflow
- La cadena de fallback (si Mistral Small falla o se satura, enrutar a qué alternativa?)
- El log de auditoría: cada decisión registrada con snapshot de entrada, versión de regla, modelo usado, nivel de confianza, cadena de razonamiento, resultado y aprobador humano cuando aplica
- El botón de impugnación: cualquier persona afectada puede impugnar una decisión automatizada, lo que dispara una redecisión bajo revisión humana - el mecanismo exigido por el art. 22 RGPD
Este es el artefacto que un auditor del artículo 13 del EU AI Act inspecciona. Es el artefacto que un Comité de Empresa revisa al clasificar qué agentes caen bajo el derecho de información del art. 64 del Estatuto de los Trabajadores. Es el artefacto que satisface la pregunta de compras “qué pasa cuando tu vendor IA cambia de modelo?” - porque cambia la regla de enrutado, no la lógica de negocio.
Construir esta capa internamente es factible pero raramente más rápido que 6-9 meses para un equipo enterprise empezando desde cero. Comprarla como framework de configuración típicamente acorta el camino a 4-6 semanas para el primer agente en producción.
En resumen
La IA open source autohospedada es una opción de producción creíble para Enterprise UE en 2026 - pero solo como arquitectura multi-modelo con una capa de enrutado, no como apuesta de un único modelo. Mistral Small 3.2 cubre la banda de volumen. gpt-oss-120b o DeepSeek V4-Flash cubren razonamiento pesado on-prem. DeepSeek V4-Pro (actualmente en preview) se acerca al territorio de Claude Opus si dispones de hardware clase hyperscaler - o esperas al release GA y lo usas vía API mientras tanto. Llama 4 Scout cubre contexto ultralargo. El tier cloud-API (Claude Opus 4.7, GPT-5.5, Gemini 3.1 Pro) queda disponible para las cargas donde el marco regulatorio lo permite.
La decisión de enrutado es la arquitectura. El cruce TCO (alrededor de 50-100 millones de tokens al mes sostenidos) marca el umbral económico del autohospedaje. La taxonomía de cumplimiento (qué clasificación de datos no puede salir de la red) marca el umbral de soberanía. Ambos umbrales dan forma a las reglas de enrutado.
Otros publican rankings. Nosotros construimos la capa de enrutado que los operacionaliza. El mercado de modelos cambia cada mes; la arquitectura de enrutado sobrevive a cinco generaciones de modelos. El código fuente queda con el cliente. Los modelos siguen intercambiables. El cumplimiento del artículo 13 del EU AI Act es una propiedad de la arquitectura, no un proyecto al final.
Si quieres saber cómo debería verse tu stack autohospedado basado en tu mezcla real de cargas y clasificación de datos, reserva una consulta.

Bert Gogolin
Director General, Gosign
AI Governance Briefing
IA empresarial, regulación e infraestructura - una vez al mes, directamente de mi parte.