Który model open-source AI jest najlepszy do self-hostingu w polskim enterprise?

Mistral Small 3.2 to domyślny koń roboczy: 24 mld parametrów, Apache 2.0, działa na pojedynczym RTX 4090 (~1 500 EUR), trening wielojęzyczny, natywna zdolność wizualna. Dodaj gpt-oss-120b na H100 do ciężkiego rozumowania on-prem. DeepSeek V4-Flash (MIT, 284B/13B aktywnych, preview kwiecień 2026) to nowa opcja na rozumowanie klasy frontowej przy umiarkowanym koszcie sprzętowym; V4-Pro (1.6T/49B aktywnych) zbliża się do Claude Opus, ale wymaga klastra. Llama 4 Scout do ultra-długiego kontekstu. Żaden pojedynczy model nie wygrywa - właściwa odpowiedź to wielomodelowy stack z routingiem.

Ile naprawdę kosztuje self-hosted Mistral Small?

Sprzęt: pojedynczy RTX 4090 24GB to ok. 1 500 EUR jednorazowo. Dla Mistral Small 3.2 w bf16/fp16 potrzeba ok. 55 GB GPU RAM, więc realnie H100 80GB lub A100 80GB - ok. 30 000 EUR zakup albo 1 500-2 500 EUR miesięcznie u unijnych dostawców jak Scaleway czy OVHcloud. Koszt inferencji per milion tokenów schodzi poniżej 1 EUR amortyzowanego.

Gdzie mogę hostować w UE bez ekspozycji CLOUD Act?

Atman (PL, Warszawa) oferuje colocation i GPU-cloud z polską jurysdykcją. Polcom (PL, Kraków) - sektor regulowany z naciskiem na KNF. Scaleway (Francja) ma H100 SXM za ok. 3,50 EUR/h i A100 za ok. 2,50 EUR/h, pełne RODO. OVHcloud (Francja) ma H100, RTX 5000, A10 z opcjami sovereign cloud. Hetzner (Niemcy) - dedykowane serwery GPU z RTX 4000/6000 Ada w niższych cenach. T-Systems (Niemcy) - sovereign cloud GPU dla branż regulowanych.

Kiedy self-hosting wygrywa ekonomicznie z API w chmurze?

Punkt przecięcia ląduje przy 50-100 mln tokenów miesięcznie sustained, w zależności od modelu i providera. Poniżej tego Mistral La Plateforme albo Claude API są tańsze. Powyżej tego dedykowany H100 amortyzuje się w 12-18 miesięcy nawet przy unijnych stawkach hostingowych. Drugie przecięcie jest pozaekonomiczne: wymogi regulacyjne (Schrems II + SCC TIA, klasyfikacja wysokiego ryzyka zgodnie z EU AI Act, KNF Rekomendacja D, NIS2/KSC) mogą odwrócić decyzję niezależnie od wolumenu tokenów.

Open Source AI na własnym hostingu 2026

Rynek modeli dał polskim zakupom enterprise wybór, którego wcześniej nie miały. Modele open-weight dorównują własnościowym w większości obciążeń enterprise. Trzy frontowe modele open-source wyszły pod Apache 2.0 tylko w samym 2025. Polscy i unijni dostawcy hostingu GPU oferują pojemność H100 w przewidywalnych stawkach godzinowych z centrów danych w Warszawie, Poznaniu, Paryżu i Frankfurcie. Schrems II + CLOUD Act sprawiają, że self-hosting jest najczystszą architekturą pod kątem ekspozycji na obcego providera. Alternatywnie SCC (Klauzule Standardowe Komisji 2021/914) + Tabela Suplementarna (Transfer Impact Assessment zgodnie z Zaleceniami EDPB 01/2020) pozostają prawnie ważną ścieżką, wymagają jednak rygorystycznej oceny równoważności ochrony i dodatkowych środków technicznych.

A mimo to rozmowa w zakupach nadal traktuje “AI open-source na własnym hostingu” jako jeden produkt. To nim nie jest. To decyzja stackowa z czterema wiarygodnymi modelami, trzema wzorcami wdrożenia i realnym problemem matematycznym total cost of ownership. Ten artykuł jest szczegółowym uzupełnieniem Kiedy Mistral, kiedy Claude Opus? Routing decyzji dla agentów AI w polskim enterprise 2026 - jeśli zdecydowałeś się na self-hosting, oto jak selekcja modeli rozgrywa się w praktyce.

W skrócie - AI open-source na własnym hostingu dla polskiego enterprise 2026

Pięć wiarygodnych modeli self-hostable w 2026: Mistral Small 3.2 (Apache 2.0, 24B, pojedynczy GPU konsumencki), gpt-oss-120b (Apache 2.0, MoE, pojedynczy H100), DeepSeek V4-Flash (MIT, 284B/13B aktywnych, preview kwiecień 2026), DeepSeek V4-Pro (MIT, 1.6T/49B aktywnych, preview, klaster), Llama 4 Scout (Meta License, kontekst 10M).
Mistral Small 3.2 wygrywa rolę konia roboczego, bo działa na sprzęcie konsumenckim (pojedynczy RTX 4090), przychodzi z treningiem wielojęzycznym i ma natywną zdolność wizualną dla obciążeń dokumentowych.
DeepSeek V4-Pro (preview, 24 kwietnia 2026) zbliża się do wydajności zamkniętych modeli frontowych pod licencją MIT, ale wymaga klastra wielo-GPU - realny self-hosting dla większości firm zaczyna się od V4-Flash.
Hosting GPU w UE nie jest już wąskim gardłem: Atman i Polcom w Polsce, Scaleway oferuje H100 SXM za ~3,50 EUR/h, OVHcloud ma poziom sovereign, Hetzner dedykowane serwery RTX, IONOS i T-Systems obsługują branże regulowane.
Przecięcie TCO z API chmurowego do self-hosted: zwykle ok. 50-100 mln tokenów miesięcznie sustained. Poniżej tego API w chmurze UE wygrywa. Powyżej dedykowany sprzęt amortyzuje się w 12-18 miesięcy.
Architektura jest wielomodelowa, nie jednomodelowa: Mistral Small do wolumenu, gpt-oss-120b albo DeepSeek V4-Flash do ciężkiego rozumowania on-prem, V4-Pro albo R1 jako specjalista matematyki i logiki, Llama 4 Scout do ultra-długiego kontekstu. Routing decyduje, który model obsługuje którą decyzję.

Zdecydowałeś się na self-hosting - pytanie modelowe zaczyna się tutaj

Wybór self-hostingu stacku LLM rzadko jest decyzją modelową. To decyzja compliance: dane sklasyfikowane powyżej pewnego progu nie mogą opuścić sieci firmy. To decyzja architektoniczna: warstwa inferencji musi być kontrolowaną zależnością, nie zewnętrznym API. To decyzja zakupowa: capex na sprzęt vs opex na hostowane instancje GPU.

Gdy ta decyzja jest podjęta, otwiera się pytanie modelowe. Który model open-source na którym progu sprzętowym dla którego miksu obciążeń? Pięć modeli ma wiarygodną gotowość produkcyjną w II kwartale 2026: Mistral Small 3.2, gpt-oss-120b, DeepSeek V4-Flash, DeepSeek V4-Pro (preview) i Llama 4 Scout. DeepSeek R1 ze stycznia 2025 wciąż jest gotowy produkcyjnie, ale w dużej mierze zastąpiony linią V4 dla nowych wdrożeń. Każdy ma inną krzywą koszt-jakość i inny profil operacyjny.

Ten artykuł pomija dyskusję rankingową. Wyniki benchmarków zbliżają się na tyle, że dopasowanie do obciążenia waży więcej niż nominalne punkty na MMLU czy HumanEval. Pytanie brzmi: który model przetrwa 18 miesięcy w twoim stacku, który zarobi na swój sprzęt i która kombinacja produkuje audit trail, którego wymaga EU AI Act.

Wiarygodne modele self-hosted obok siebie

Model	Parametry / Architektura	Licencja	Sprzęt CAPEX / OPEX hostowany	Kluczowa mocna strona	Kluczowa słabość
Mistral Small 3.2	24B dense, GQA (32Q/8KV)	Apache 2.0	1x RTX 4090 ~1 500 EUR (kwantyzacja) lub 1x H100 80GB ~30k EUR / OPEX ~1 500-2 500 EUR/miesiąc	Wielojęzyczny, wizja, szybki (~150 tok/s na konsumenckim GPU), volumenowy	Nie najwyższa półka rozumowania
gpt-oss-120b	117B total / 5,1B aktywnych (MoE)	Apache 2.0	1x H100/A100 80GB ~30k EUR / OPEX ~1 200-2 500 EUR/miesiąc	Rozumowanie na poziomie o4-mini, MoE-efektywny	Brak wizji, sprzęt klasy data center
DeepSeek V4-Flash (preview, kw. 2026)	284B total / 13B aktywnych (MoE), kontekst 1M	MIT	1-4x H100 ~30-120k EUR CAPEX / OPEX ~1 500-5 000 EUR/miesiąc	Rozumowanie klasy frontowej przy umiarkowanym koszcie sprzętu, natywny multimodal, zoptymalizowany pod agentów	Status preview - benchmarki potwierdzić przed produkcją
DeepSeek V4-Pro (preview, kw. 2026)	1,6T total / 49B aktywnych (MoE), kontekst 1M	MIT	8x H100 ~240 000 EUR CAPEX / OPEX ~10-12k EUR/miesiąc hostowany	Zbliża się do GPT-5.5 i Gemini 3.1 Pro pod otwartą licencją, agent-tool optimized (Claude Code, OpenClaw)	CAPEX realny dla dużych korporacji; MSP via API/hosted
DeepSeek R1 (sty 2025, mature)	671B total / 37B aktywnych (MoE)	MIT	4-8x H100 ~120-240k EUR CAPEX / OPEX ~5-10k EUR/miesiąc	Dojrzały specjalista matematyki/logiki, szerokie wsparcie frameworków	W dużej mierze zastąpiony przez V4-Flash w nowych wdrożeniach
Llama 4 Scout	17B aktywnych (MoE)	Meta Llama Community License	1x H100 ~30k EUR / OPEX ~1 500 EUR/miesiąc	Kontekst 10 mln tokenów	Ograniczenie licencyjne przy >700M MAU; wymaga przeglądu licencji

Trzy doprecyzowania mają znaczenie.

Próg sprzętowy Mistral Small 3.2. Oficjalna dokumentacja Mistral wymienia ~55 GB GPU RAM dla inferencji bf16/fp16, co plasuje go na H100 albo A100 80GB w produkcji. Z kwantyzacją 4-bit (GPTQ, AWQ) działa na pojedynczym 24 GB RTX 4090 przy niewielkim koszcie jakości. Dla wdrożeń pilotażowych albo single-tenant inferencji ścieżka RTX 4090 jest realna. Dla produkcji multi-tenant ze współbieżnymi requestami ścieżka H100 jest poprawnym sizingiem.

Status preview DeepSeek V4. DeepSeek-V4-Pro i V4-Flash wystartowały jako preview 24 kwietnia 2026 pod licencją MIT, oba z kontekstem 1 mln tokenów dzięki nowej architekturze Hybrid Attention (Compressed Sparse Attention + Heavily Compressed Attention). W ustawieniu kontekstu 1M tokenów V4-Pro wymaga raportowo tylko 27 procent FLOPs inferencji pojedynczego tokenu i 10 procent KV cache w porównaniu z V3.2 - znaczące zyski efektywności dla obciążeń długokontekstowych. Oba warianty są zoptymalizowane pod tooling agentów (integracja Claude Code, OpenClaw). Jednak: preview oznacza, że deklaracje benchmarków nie są jeszcze niezależnie zweryfikowane na skalę. Dla decyzji produkcyjnych w branżach regulowanych czekaj na general-availability albo uruchom własne reprezentatywne benchmarki przed commitmentem.

V4-Pro: licencja MIT nie jest barierą - rozmiar przedsiębiorstwa jest. Pełna waga modelu V4-Pro jest swobodnie dostępna na Hugging Face pod licencją MIT - każde przedsiębiorstwo może legalnie pobrać i uruchomić model. Pytanie “czy V4-Pro jest dla mojej firmy” nie dotyczy licencji, tylko ekonomii infrastruktury. Klaster 8x H100 to ok. 240 000 EUR CAPEX (zakup) albo ok. 10-12 000 EUR OPEX miesięcznie (hostowany u Scaleway, OVHcloud, T-Systems). Dla korporacji WIG20, większego gospodarstwa regulowanego (banki, ubezpieczyciele, energetyka) i większych firm Mittelstand (>2000 prac.) ten próg mieści się w standardowych liniach budżetowych infrastruktury IT - V4-Pro on-prem jest realny i atrakcyjny pod kątem suwerenności i kontroli kosztów per token przy sustained workload. Dla MSP poniżej 500 pracowników racjonalna ścieżka prowadzi przez API albo hostowane warianty: DeepSeek API bezpośrednio od dostawcy, Together.ai, Fireworks i inni hosting-providerzy serwują tę samą wagę modelu w modelu pay-per-token. Identyczna jakość rozumowania, bez CAPEX, bez utrzymania klastra. Pułapka komunikacyjna, której należy unikać: “V4-Pro to model dla korporacji” jest myląca - poprawne sformułowanie brzmi “V4-Pro on-prem to wybór dla korporacji, V4-Pro przez API to wybór dla każdej firmy”.

Przegląd licencji dla Llama 4 Scout. Meta Llama Community License pozwala na użycie komercyjne, ale zawiera dwa ograniczenia, które zakupy enterprise powinny przejrzeć: próg 700-milionów-MAU, powyżej którego wymagana jest osobna licencja Meta, oraz ograniczenie używania wyjść modelu do trenowania konkurencyjnych modeli. Dla większości firm oba są w praktyce nieistotne, ale notatka zakupowa powinna być wyraźna.

TCO: kiedy self-hosted pokonuje API w chmurze?

Ekonomia odwraca się przy progu wolumenu tokenów. Poniżej niego hostowane API wygrywają, bo dominuje czas bezczynności sprzętu. Powyżej dedykowane GPU wygrywają, bo inkrementalny koszt tokenu zbliża się do kosztu prądu plus amortyzacji.

Reprezentatywna kalkulacja dla Mistral Small 3.2 w hostingu UE:

Element kosztu	Wartość (hosting UE)
Instancja H100 80GB, provider UE (klasy Scaleway)	~2 500 EUR/miesiąc dedykowane, albo ~3,50 EUR/h on-demand
Przepustowość Mistral Small 3.2 (pojedynczy H100)	~150 tokenów/s sustained, ~390M tokenów/miesiąc przy 100% utilization
Efektywny koszt na 1M tokenów przy 60% utilization	~10-12 EUR na 1M tokenów
Mistral La Plateforme API odpowiednik (Mistral Small przez API)	~0,40 USD za 1M tokenów wejściowych; volume-dependent
Claude Sonnet 4.6 API odpowiednik	~3 USD za 1M tokenów wejściowych; ~15 USD wyjściowych
Claude Opus 4.7 API odpowiednik	~5 USD za 1M tokenów wejściowych; ~25 USD wyjściowych

Przecięcie dla Mistral Small ląduje między 50 a 100 milionów tokenów miesięcznie sustained, w zależności czy obciążenie jest input-heavy czy output-heavy. Pipeline enterprise 24/7 z 5-10 worker node’ami zwykle przekracza ten próg w pierwszym kwartale.

Dla gpt-oss-120b matematyka jest podobna, ale startuje wyżej: pojedynczy H100 wspiera niższą przepustowość niż Mistral Small przy tym samym koszcie sprzętu, więc amortyzacja per token wynosi grubsza 2x Mistral Small. Przecięcie vs Claude Opus 4.7 plasuje się przy 30-50 mln tokenów miesięcznie - dokładnie w zakresie, w którym lądują obciążenia ciężkiego rozumowania w systemach AI enterprise.

Architektura DeepSeek V4-Pro 1,6T/49B aktywnych to sprzęt klasy hyperscaler. Realny self-hosting startuje od V4-Flash (284B/13B aktywnych), który mieści się na 1-2 H100 z kwantyzacją albo 4 H100 w pełnej precyzji. TCO self-hosted dla V4-Flash jest uzasadnione, gdy rozumowanie klasy frontowej jest sustained workload przy klasyfikacjach danych krytycznych dla suwerenności; dla okazjonalnego rozumowania API V4-Flash albo Mistral La Plateforme są tańsze. V4-Pro on-prem jest realny tylko dla firm klasy hyperscaler (usługi finansowe z infrastrukturą HFT, duże administracje rządowe i obronne). Reszta używa V4-Pro przez API albo hostowany wariant.

Te liczby opierają się na publicznym cenniku hostingowym z Scaleway i OVHcloud oraz publicznych danych przepustowości modeli. Są ilustracyjne, nie kontraktowe.

Punkt przecięcia TCO: self-hosted vs API chmurowe - liniowe krzywe chmurowych API (pricing per token) wobec płaskich krzywych self-hostowych (CAPEX amortyzowany). Mistral La Plateforme API pozostaje najtańsze poniżej ~10B tokenów/miesiąc - istotna decyzja to Mistral OSS self-host vs Claude Opus 4.7 API, przecinające się dla obciążeń krytycznych pod kątem suwerenności przy ~180 mln tokenów miesięcznie. Poniżej 50M tokenów/miesiąc dominuje ekonomia chmurowa. Powyżej 500M tokenów/miesiąc dominuje self-host niezależnie od modelu.

Hosting GPU w Polsce i UE w 2026: kto faktycznie ma pojemność H100?

Polski i unijny rynek hostingu GPU znacząco dojrzał w 2025-2026. Sześciu providerów pokrywa większość przypadków self-hostingu enterprise.

Atman (Polska, Warszawa). Największy polski operator data center, oferuje colocation i GPU-cloud z RTX i A100. Polska jurysdykcja, jasny kontekst RODO. Wybór, gdy zakupy wymagają polskiego operatora albo gdy umowy z polskimi organami publicznymi wymagają fizycznej obecności w PL.

Polcom (Polska, Kraków). Polski operator chmury z naciskiem na sektor regulowany. Dobre dopasowanie pod sektor bankowy i ubezpieczeniowy z wymogami KNF Rekomendacja D oraz DORA art. 28-30 (rejestr dostawców ICT od 17 stycznia 2025). UKNF (Urząd Komisji Nadzoru Finansowego) bezpośrednio nadzoruje wdrożenia AI w bankach, ubezpieczycielach i SKOK-ach.

Beyond.pl (Polska, Poznań). Jedyny Tier IV data center w Polsce. Preferowany dla NIS2 Critical Entity wymogów i KSC Tier-1 Operator istotnej usługi (Krajowy System Cyberbezpieczeństwa). Wybór dla podmiotów krytycznych w sektorze energii, telekomunikacji i administracji publicznej.

Chmura Krajowa / OChK (Polska, joint venture PKO + PFR + Google Cloud Polska). Sovereign cloud dla podmiotów publicznych i krytycznej infrastruktury. Dopasowanie zakupowe dla URE (Urząd Regulacji Energetyki), administracji centralnej i podmiotów objętych NIS2.

Scaleway (Francja, RODO-native). Najbardziej agresywny w price-performance dla obciążeń AI. H100 SXM za ~3,50 EUR/h, A100 za ~2,50 EUR/h, plus nowsza NVIDIA Blackwell B300-SXM (288 GB VRAM) dla obciążeń frontowych. Francuskie centra danych, pełne RODO, brak ekspozycji CLOUD Act. Dostępne reserved-instance dla przewidywalnych obciążeń.

OVHcloud (Francja, poziom sovereign). Największy europejski provider chmury, ze “Sovereign Cloud” jawnie zbudowanym dla sektora publicznego i regulowanego. Portfolio obejmuje H100, RTX 5000, A10 plus usługę “AI Deploy” do notebooków pay-as-you-go i inferencji. Dobre dopasowanie, gdy zakupy wymagają sign-off sovereign-cloud.

Hetzner (Niemcy). Lider cenowy dla dedykowanych serwerów GPU, nie instancji on-demand. Aktualne opcje GPU: RTX 4000 SFF Ada i RTX 6000 Ada w parze z nowoczesnymi CPU. Ścieżka dla Mistral Small 3.2 z kwantyzacją albo dla środowisk deweloperskich. Mniej nadaje się do elastycznego skalowania szczytów.

Dla branż regulowanych (usługi finansowe, ochrona zdrowia, sektor publiczny) z surowymi wymogami suwerenności:

IONOS (Niemcy). Hosting klasy sovereign-cloud z instancjami GPU. Dopasowanie compliance dla obciążeń regulowanych przez UKNF (Urząd Komisji Nadzoru Finansowego) w polskich oddziałach niemieckich grup bankowych oraz dla niemieckich oddziałów polskich korporacji.

T-Systems (Niemcy). Subsidiary Deutsche Telekom. Sovereign cloud zaprojektowany jawnie dla sektora publicznego i krytycznej infrastruktury. Wybór wygodny zakupowo, gdy zarząd wymaga certyfikacji suwerennej.

Dla enterprise decydującego o stacku self-hosted praktyczna sekwencja: pilotaż na Atman, Scaleway albo Hetzner dla taniej walidacji, przejście do OVHcloud albo T-Systems w produkcji, jeśli regulacyjny sign-off wymaga certyfikacji sovereign-cloud, utrzymanie kontraktów reserved-instance dla kontroli przewidywalności kosztu.

Wzorce wdrożenia: pojedynczy worker, klaster, hybryda

Trzy wzorce wdrożenia pokrywają niemal wszystkie scenariusze self-hosted enterprise.

Wzorzec pojedynczego workera. Jeden model, jedna instancja GPU, wdrożona za load balancerem z health checkami. Pasuje do: Mistral Small 3.2 na RTX 4090 albo H100 dla 70 procent obciążenia volumenowego. Llama 4 Scout na pojedynczym GPU dla analizy dokumentów długokontekstowych. Złożoność operacyjna: niska. Tryb awarii: pojedynczy punkt awarii, chyba że replikowany.

Wzorzec klastra wielomodelowego. Wiele modeli na wielu GPU za warstwą routingu. Pasuje do: Mistral Small dla volumenu + gpt-oss-120b albo DeepSeek V4-Flash dla ciężkiego rozumowania + (opcjonalnie) DeepSeek V4-Pro na dedykowanym klastrze dla obciążeń klasy matematycznej, wszystko za jedną warstwą routingu. Warstwa routingu decyduje per request, który model go obsługuje. Złożoność operacyjna: średnia. Wymaga model servera (vLLM, TGI, llama.cpp-server) i silnika reguł routingu. To typowy wzorzec produkcyjny dla obciążeń agentów z mieszaną złożonością decyzji.

Wzorzec hybrydowy edge-cloud. Wrażliwe obciążenia (onboarding HR, przegląd kontraktów, ekstrakcja danych klienta) na modelach self-hosted; niewrażliwe obciążenia (generacja copy marketingowego, Q&A na bazie wiedzy o informacjach publicznych) na API w chmurze UE jak Mistral La Plateforme. Warstwa routingu wymusza klasyfikację danych przed selekcją modelu. Złożoność operacyjna: wysoka (dwa stacki do utrzymania), ale najniższa ekspozycja suwerenności i najlepszy stosunek kosztu do decyzji.

Wybór wzorca zależy od taksonomii klasyfikacji danych, nie od selekcji modelu. Jeśli wszystko jest sklasyfikowane jako “wewnętrzne” albo wyżej, dominuje wzorzec klastra wielomodelowego. Jeśli znacząca część pracy jest na danych publicznych albo niewrażliwych, wzorzec hybrydowy jest tańszy.

Macierz decyzji: który model do którego obciążenia

Kategoria obciążenia	Rekomendowany model	Dlaczego
Klasyfikacja dokumentów, ekstrakcja strukturalna, parsowanie pól z OCR	Mistral Small 3.2 (self-hosted)	Zdolność wizualna, szybki na konsumenckim GPU, pokrycie wielojęzyczne
Standardowa generacja tekstu (maile, powiadomienia, przypomnienia NDA)	Mistral Small 3.2 (self-hosted)	Wysoka przepustowość, przyjazny szablonom
Klasyfikacja klauzul kontraktowych, flagowanie ryzyka dostawcy, wykrywanie anomalii	Mistral Small 3.2 albo Mistral Medium 3.1 (La Plateforme)	Średnie rozumowanie przy niskim koszcie
Analiza antydyskryminacyjna zgodnie z Kodeksem Pracy art. 18(3a), złożone rozumowanie wielostatutowe	gpt-oss-120b on-prem (albo Claude Opus 4.7 cloud)	Rozumowanie poziomu o4-mini na licencji Apache 2.0
Modelowanie ryzyka finansowego, stress testing, problemy optymalizacyjne	DeepSeek V4-Flash (bieżący) albo V4-Pro przez API/hostowany (jeśli sprzęt pozwala); R1 wciąż żywy w mature wdrożeniach	Topowe benchmarki matematyka/logika, linia V4 dodaje kontekst 1M do analizy cross-portfelowej
Analiza dokumentów dużych korpusów (całe portfele kontraktów, pełne raporty roczne)	Llama 4 Scout (self-hosted)	Okno kontekstu 10 mln tokenów
Multimodal (korelacja obraz plus tekst, przegląd rysunku technicznego)	Gemini 3.1 Pro (tylko chmura - brak odpowiednika self-hosted)	Natywny trening multimodalny
Generacja kodu, code review, workflow agentów (cloud flagships)	Claude Opus 4.7 albo GPT-5.5	Oba liderzy benchmarków kodu; Claude Opus 4.7 mocniejszy w długich loopach agentowych (Claude Code), GPT-5.5 mocniejszy w integracji z IDE (Cursor, Copilot)
Generacja kodu, code review, workflow agentów (self-hosted)	Qwen 3 Coder 110B (Apache 2.0, Alibaba), DeepSeek Coder V4 (MIT), albo Codestral Mamba 32B (Mistral, EU-built)	Top-tier coding benchmarks on-prem; Qwen 3 Coder lider HumanEval/SWE-Bench wśród OSS, DeepSeek Coder V4 najmocniejszy przy agentowych Multi-File-Tasks, Codestral Mamba najniższa latencja na konsumenckim GPU
Microsoft 365 integration, Copilot extensibility, Azure-native workloads	GPT-5.5 via Azure OpenAI	Natywny stack, najniższy wysiłek integracyjny dla organizacji na Microsoft data plane
Agentic workflows, orkiestracja narzędzi, structured outputs	GPT-5.5 albo Claude Opus 4.7	Oba top-tier w strukturyzowanych wyjściach i orkiestracji narzędzi; GPT-5.5 z szerszym ekosystemem pre-built tools
SaaS feature gating (tier-based AI access dla customer-facing produktów)	Hybrid pattern: Mistral Small + Claude Opus 4.7 / GPT-5.5	Wrażliwe dane klienta self-hosted, premium features na cloud flagship
Conversational AI / chatboty obsługi klienta	Mistral Small 3.2 (self-hosted) dla wolumenu; GPT-5.5 (Azure) gdy stack MS-natywny	Jakość produkcyjna przy najniższym koszcie sprzętu; cloud-fallback dla MS-shops

Macierz nie jest receptą. To punkt wyjścia doprecyzowany per organizacja. Enterprise zorientowane na finanse waży DeepSeek V4 wyżej. Operacja multimedialna może potrzebować chmurowego skoku do Gemini. Pipeline HR z dużym wolumenem dokumentów ustawia Mistral Small na 80 procent decyzji, nie 70.

Warstwa routingu czyni macierz operacyjną. Bez niej każde obciążenie biegnie przeciwko temu, co jest skonfigurowane jako domyślne, a macierz staje się artefaktem prezentacji.

Budowa warstwy routingu: gdzie pasuje Decision Layer

Architektury wielomodelowe self-hosted rozpadają się bez warstwy routingu z prostego powodu: żaden operator nie chce pamiętać 14 mapowań decyzja-model jednocześnie z pisaniem logiki biznesowej agenta. Routing musi być konfiguracją, nie kodem.

Decision Layer trzyma:

Taksonomię klasyfikacji danych (które typy danych wymagają self-hosted? Które mogą iść do API w chmurze UE? Które do API w chmurze USA?)
Reguły routingu decyzja-model per krok workflow
Łańcuch fallback (jeśli Mistral Small awarii albo saturuje, do której alternatywy routować?)
Audit log: każda decyzja zapisana ze snapshotem wejścia, wersją reguły, użytym modelem, oceną pewności, łańcuchem rozumowania, wynikiem i osobą zatwierdzającą tam, gdzie dotyczy
Przycisk zaskarżenia: osoba, której decyzja dotyczy, może zakwestionować zautomatyzowaną decyzję, uruchamiając ponowną decyzję pod nadzorem człowieka - mechanizm wymagany przez RODO art. 22

To jest artefakt, który audytor EU AI Act art. 13 kontroluje. To jest artefakt, który Rada Pracowników przegląda, klasyfikując, którzy agenci wpadają w zakres konsultacji zgodnie z Ustawą o radach pracowników, art. 13-15. To jest artefakt, który satysfakcjonuje pytanie zakupów: “co się stanie, gdy twój dostawca AI zmieni model” - bo zmienia się reguła routingu, nie logika biznesowa.

Budowa tej warstwy in-house jest wykonalna, ale rzadko szybsza niż 6-9 miesięcy dla zespołu enterprise startującego od zera. Kupno jako framework konfiguracyjny zwykle skraca ścieżkę do 4-6 tygodni dla pierwszego agenta produkcyjnego.

Wniosek

AI open-source na własnym hostingu jest wiarygodnym wyborem produkcyjnym dla polskiego enterprise w 2026 - ale wyłącznie jako architektura wielomodelowa z warstwą routingu, nie jako zakład na pojedynczy model. Mistral Small 3.2 pokrywa pas wolumenu. gpt-oss-120b albo DeepSeek V4-Flash pokrywa ciężkie rozumowanie on-prem. DeepSeek V4-Pro (obecnie w preview) zbliża się do terytorium Claude Opus, jeśli masz sprzęt klasy hyperscaler - albo czekasz na release GA i używasz go przez API w międzyczasie. Llama 4 Scout pokrywa ultra-długi kontekst. Poziom API w chmurze (Claude Opus 4.7, GPT-5.5, Gemini 3.1 Pro) pozostaje dostępny dla obciążeń, gdzie ramy regulacyjne to dopuszczają.

Decyzja routingu jest architekturą. Przecięcie TCO (ok. 50-100 mln tokenów miesięcznie sustained) wyznacza ekonomiczny próg dla self-hostingu. Taksonomia compliance (która klasyfikacja danych nie może opuścić sieci) wyznacza próg suwerenności. Oba progi kształtują reguły routingu.

Inni publikują rankingi. My budujemy warstwę routingu, która je operacjonalizuje. Rynek modeli zmienia się miesięcznie; architektura routingu przetrwa pięć generacji modeli. Kod źródłowy zostaje u klienta. Modele pozostają wymienne. Zgodność z EU AI Act art. 13 jest właściwością architektury, nie projektem na końcu.

Jeśli chcesz wiedzieć, jak powinien wyglądać twój stack self-hosted na podstawie twojego rzeczywistego miksu obciążeń i klasyfikacji danych, umów konsultację.

Bert Gogolin

Dyrektor Generalny, Gosign

AI Governance Briefing

Enterprise AI, regulacje i infrastruktura - raz w miesiącu, bezpośrednio ode mnie.