Granite 4.1 LLMs: How They’re Built

Now I have enough detail to write an informed, practical article. Let me compose it.

IBM vypustilo 8B model, který válcuje čtyřikrát větší konkurenci. A vy si ho spustíte na grafice za pět tisíc.

Osm miliard parametrů. Pět gigabajtů VRAM. Skóre 87,2 na HumanEval. To jsou čísla Granite 4.1-8B od IBM — modelu, který v benchmarcích pravidelně poráží LLM čtyřikrát své velikosti. IBM ho 29. dubna 2026 uvolnilo pod Apache 2.0, takže si ho můžete stáhnout, rozběhnout lokálně a komerčně nasadit. Bez poplatků, bez API klíčů, bez omezení.

Co je Granite 4.1 a proč vás to má zajímat

Granite 4.1 je rodina dense decoder-only transformerů ve třech velikostech: 3B, 8B a 30B parametrů. Žádné Mixture-of-Experts triky. Čistá hustá architektura, která běží předvídatelně a snadno se kvantizuje.

Kontext? 512 000 tokenů. To je dvakrát až čtyřikrát více než u většiny open-source modelů v této třídě. Prakticky: nacpete tam celou kódovou základnu středně velkého projektu najednou.

IBM trénoval na NVIDIA GB200 NVL72 clusteru hostovaném na CoreWeave — tisíce Blackwell GPU propojených 400 Gb/s InfiniBand fat-tree sítí. Intra-rack komunikace přes 72-GPU NVLink doménu. Tohle není garážový projekt.

Pětifázový trénink: kde se rodí kvalita

Granite 4.1 prošel pěti fázemi pre-trainingu na přibližně 15 bilionech tokenů. Fáze 1–2 pokládají základ. Fáze 3–4 postupně zvyšují kvalitu dat — IBM tomu říká "data annealing", postupné žíhání směrem k lepším a lepším vzorkům. Fáze 5 natáhne kontext na 512K tokenů.

Klíčový je přístup k datům. IBM neházelo víc textu na problém. Filtrovali. Agresivně. Ještě před fine-tuningem každou odpověď ohodnotil LLM-as-Judge systém ve šesti dimenzích: sledování instrukcí, korektnost, úplnost, stručnost, přirozenost a kalibrace. Halucinace, falešné premisy nebo špatné výpočty znamenají okamžitý hard-reject bez ohledu na skóre v ostatních kategoriích.

Supervised fine-tuning běžel na 4,1 milionech kurátorovaných vzorků. Za ním následoval reinforcement learning přes on-policy GRPO s DAPO loss — stabilnější trénovací signál než klasické GRPO. RL pipeline zahrnuje osm domén, multilinguální reward model, kalibraci identity a znalostí, plus recovery pass na matematiku.

Čísla, která mluví

Granite 4.1-8B Instruct dosahuje:

HumanEval: 87,2 (generování kódu)
GSM8K: 92,49 (matematické úlohy)
EvalPlus: 80,2
ArenaHard: 69,0
BFCL V3: 68,3 (volání nástrojů / function calling)

Pro srovnání: 30B varianta na BFCL V3 dosáhla 73,68 — víc než Google Gemma-4-31B (72,7). IBM 8B model konzistentně matchuje nebo překonává jejich vlastní předchozí Granite 4.0-H-Small, což byl 32B MoE model s 9B aktivními parametry.

Jak si ho rozjet doma za pět minut

Potřebujete grafiku s 5+ GB VRAM. RTX 3060 stačí. Apple Silicon Mac taky. Žádný A100 nutný.

```bash ollama pull granite4.1:8b ollama run granite4.1:8b ```

Hotovo. Defaultní kvantizace je Q4_K_M, což je rozumný kompromis mezi kvalitou a paměťovou náročností. Na 30B variantu budete potřebovat 16–20 GB VRAM (RTX 4090 nebo Mac s 32 GB unified memory).

Pro fine-tuning existuje podpora přes Unsloth — LoRA adaptéry na Granite 4.1 zvládnete i na jedné RTX 3090. Trénink na vlastních datech (třeba energetická data, IoT logy, zákaznická komunikace) zabere hodiny, ne dny.

DeepInfra: serverless inference bez GPU

Nemáte vlastní hardware? DeepInfra je nově Inference Provider na Hugging Face. Pay-per-token model — platíte jen za to, co skutečně pošlete. Žádné hodiny GPU, které tikají i když nic neděláte. Katalog přes 100 modelů, integrace s většinou agent frameworků (OpenCode, Hermes Agents a další).

Tenhle model si ale můžete stáhnout přímo z Hugging Face a provozovat ho sami. Apache 2.0 licence znamená: dělejte si s ním co chcete, komerčně, bez attribution, bez omezení.

Kde to dává smysl v praxi

512K kontext + silný function calling + Apache 2.0 = ideální kandidát pro:

Energetický sektor a IoT: Model, který pojme měsíce logů z inverteru nebo bateriového úložiště najednou a dokáže nad nimi rozhodovat. Projekty jako SmartEnergyShare pracují s prediktivním řízením spotřeby, kde lokální AI model reaguje na spot ceny elektřiny v reálném čase — bez odesílání dat do cloudu, bez latence, bez měsíčních poplatků za API.

Kódování a automatizace: 87,2 na HumanEval není akademické číslo. V praxi to znamená model, který generuje funkční kód na první pokus ve většině běžných scénářů.

Tool calling a agenti: Skóre 68–74 na BFCL V3 říká, že model spolehlivě volá funkce, parsuje JSON argumenty a řetězí nástroje. Pro autonomní agenty na edge zařízeních je tohle zlato.

Co IBM dělá jinak

Většina open-source modelů je v podstatě „natrénuj na CommonCrawl a doufej". IBM šlo jinou cestou: pětifázový trénink s progresivním zpřísňováním kvality dat, šestidimenzionální automatická evaluace, multi-doménový reinforcement learning. To jsou techniky, které typicky vidíte u uzavřených modelů za stovky milionů dolarů.

Výsledek? Dense 8B model, který se chová jako o řád větší model. Bez MoE overhead, bez routing problémů, předvídatelný inference na levném hardware.

Stinná stránka

Nečekejte zázraky na kreativním psaní nebo nuancované konverzaci — tam stále vedou větší modely. Granite je optimalizovaný na reasoning, kód a tool use. Pro chatbota na zákaznické podpoře v češtině bych zatím sáhl po jiném modelu. Ale pro backend automatizaci, analýzu dat a řízení infrastruktury? Těžko najdete lepší poměr výkon/VRAM.

Verdikt

IBM tiše vydalo pravděpodobně nejefektivnější open-source model roku 2026. Ne největší. Ne nejchytřejší. Ale ten s nejlepším poměrem schopností k nárokům na hardware. Osm miliard parametrů, pět giga VRAM, Apache 2.0. Na vaší grafice. Dnes.

Sources: - Granite 4.1 LLMs: How They're Built — HuggingFace Blog - Introducing the IBM Granite 4.1 family — IBM Research - Granite 4.1-8B on Hugging Face - DeepInfra on Hugging Face Inference Providers - CoreWeave Partners with IBM — NVIDIA GB200 - Granite 4.1 on Ollama