GPT-4 zvládne méně než polovinu vašich firemních úkolů. A vy za to zaplatíte plnou cenu.

GPT-4 zvládne méně než polovinu vašich firemních úkolů. A vy za to zaplatíte plnou cenu.
Podívejte se na jedno číslo: frontier modely — tedy ty nejlepší, nejdražší, největší AI systémy na trhu — dosahují v testech agentic enterprise IT úkolů průměrného skóre pod 50 %. To není výsledek z roku 2022. To je výsledek benchmarku ITBench-AA, který v roce 2025 publikovaly IBM Research a Artificial Analysis. Jinými slovy: modely, na které firmy sází milionové rozpočty, selhávají ve více než polovině reálných podnikových scénářů.
Přitom se stále dokola opakuje stejný příběh. IT manažer přijde s požadavkem na "AI řešení", procurement vybere největší dostupný model podle leaderboardů, a za rok se zjistí, že to nefunguje tak, jak se čekalo. Blue Origin to zažil jinak, ale analogicky: vybudoval New Glenn — obří raketu s ambicí konkurovat Falconu 9 — a první komerční mise skončila neúspěchem. Větší neznamená lepší. V AI i ve vesmíru.
Proč největší model není nutně ten správný
ITBench-AA testoval přesně ten typ úkolů, kvůli kterým firmy AI kupují: incident response, patch management, log analysis, konfigurace síťových zařízení, automatizace ticketů. Výsledky byly překvapivé i pro výzkumníky — GPT-4o, Claude 3.5 Sonnet, Gemini 1.5 Pro. Všechny pod 50 %. Nejlépe si vedl Claude Sonnet s 47,3 %. Celkový průměr? Přibližně 38 %.
Proč? Protože tyto modely jsou trénované na obecných datech — Stack Overflow, GitHub, Wikipedia, web crawl. Rozumí světu obecně. Ale podnikové IT má svá specifika: konkrétní toolchain, proprietární formáty logů, interní naming conventions, specifické verze softwaru. Žádný frontier model to "neví", pokud ho na to výslovně nepřipravíte.
A tady vstupuje do hry specialization. Menší model, fine-tunovaný na datech konkrétního prostředí, bude systematicky překonávat velký obecný model. Není to teorie — je to výsledek desítek studií i praktických nasazení. Microsoft Research ukázal, že 7B model trénovaný na doménových datech poráží GPT-4 v cílových úlohách. Starcoder2-7B překonává Codex na code completion v Pythonu, přestože má desetkrát méně parametrů.
NVIDIA Cosmos 3 a fyzická realita AI
Zatímco IT benchmarky ukazují limity obecných modelů v administrativních úlohách, NVIDIA šla v červnu 2025 ještě dál. Cosmos 3 je první open omni-model navržený přímo pro physical AI — tedy pro roboty, autonomní vozidla a průmyslové systémy, které musí rozumět fyzickému světu a jednat v něm.
Klíčové slovo je "omni": model zpracovává video, 3D data, senzorické vstupy, jazyk — a z toho vyvozuje fyzikálně konzistentní akce. Ne popis akce. Ne plán. Přímo pohyb v prostoru. NVIDIA ho zveřejnila jako open-weight model na HuggingFace (huggingface.co/nvidia/Cosmos-3) — což je přesně ta strategie, o které mluvíme: místo dalšího skalování obecného chatbota, specializace na konkrétní fyzický problém.
Cosmos 3 běží nativně na NVIDIA H100/H200 GPU — tedy hardware za 30 000–40 000 USD za kus. Ale pro průmyslové nasazení, kde alternativou jsou stovky hodin lidské práce při manuální kalibraci robotů, to dává smysl. A klíčové: nemusíte koupit API přístup k proprietárnímu modelu. Stáhnete váhy, dotrénujete je na svých datech, nasadíte on-premise.
Jak specialization vypadá v praxi — a co to stojí
Řekněme, že provozujete IT helpdesk pro 500 zaměstnanců. Denně přijde 150 ticketů. Chcete AI agenta, který automaticky kategorizuje, prioritizuje a řeší nejjednodušší případy. Klasická cesta: koupit API přístup k GPT-4o za zhruba 5–15 USD za milion tokenů a doufat, že to bude fungovat.
Alternativa: vzít Mistral 7B nebo Llama 3.1 8B, stáhnout z HuggingFace, fine-tunovat přes LoRA na vašich historických ticketech (typicky stačí 5 000–20 000 příkladů), nasadit přes Ollama na lokálním serveru. Hardware: jeden Nvidia A10G nebo A100 (cca 100–200 USD/měsíc na cloudu) pro inference. Fine-tuning přes LoRA na 8B modelu zvládnete na A100 za 2–4 hodiny, náklady pod 50 USD.
Výsledek: model, který zná vaše interní systémy, vaše produkty, vaše zákazníky. Přesnost v kategorizaci ticketů typicky 85–92 %, oproti 65–75 % u obecného frontier modelu bez fine-tuningu. A provozní náklady klesnou o 70–80 % oproti cloudovému API.
Ollama zvládne celý stack na jednom příkazu:
```bash ollama run llama3.1:8b ```
Pro fine-tuning doporučuji `unsloth` — zrychluje LoRA training 2–5× oproti vanilla HuggingFace Trainer, snižuje spotřebu VRAM o 60 %. Konkrétně na A100 80GB zvládnete fine-tuning Llama 3.1 70B modelu přes QLoRA za přijatelných 6–8 hodin.
Více o praktických aspektech nasazení vlastní AI infrastruktury najdete na ShareElectric.cz, kde pravidelně publikujeme návody na autonomní systémy pro firmy a komunity.
Proč procurement toto přehlíží — a jak to změnit
Procurement rozhodnutí o AI jsou strukturálně nastavená špatně. Hodnotí se benchmarky jako MMLU, HumanEval, GPQA — tedy obecné testy akademického charakteru. Jenže firma nepotřebuje AI, která zvládne fyziku na úrovni PhD. Potřebuje AI, která spolehlivě zpracuje fakturu, nastaví VPN profil nebo přeloží smlouvu do formátu, který akceptuje jejich právní tým.
ITBench-AA byl navržen přesně proto, aby tuto mezeru odhalil. Benchmark obsahuje 285 úloh rozdělených do 14 kategorií reálných IT operací. Modely jsou testovány jako agenti — tedy v iterativních scénářích, kde musí provést sérii kroků, ne jen odpovědět na otázku. A výsledky jsou jednoznačné: general intelligence neznamená operational reliability.
Co tedy dělat jinak? Za prvé: před výběrem modelu definujte konkrétní use cases s měřitelnými KPI. Ne "chceme AI pro zákaznický servis", ale "AI agent musí zpracovat 80 % L1 ticketů bez eskalace s přesností přes 90 %". Za druhé: otestujte baseline na vašich vlastních datech, ne na obecných benchmarcích. Za třetí: zvažte fine-tuning nebo RAG (Retrieval-Augmented Generation) jako první volbu, ne jako drahé nadstavby.
RAG je zvlášť podceňovaný. Místo aby model "věděl" vše z tréninku, dotáhne si relevantní dokumenty z vaší interní knowledge base v reálném čase. Implementace s LangChain nebo LlamaIndex trvá 2–3 dny, funguje s libovolným modelem a výrazně zvyšuje přesnost na doménových úlohách bez potřeby fine-tuningu.
Energetický sektor jako case study: kde specialization šetří peníze
V oblasti energetiky je tento princip zvlášť viditelný. Operátoři obchodních platforem a agregátoři flexibility pracují s daty, která žádný obecný model nezná: cenové signály z OTE, kapacitní rezervy ČEPS, regulační elektřina, odchylkový systém, intraday trading. Frontier model nevyčte ze svého tréninku, jak vypadá optimální bid strategie pro BESS úložiště 100 kW v pásmech tertiary regulation.
Specializovaný model trénovaný na historických datech z trhu, interních dispečinkových logu a forecast modelech ale ano. A rozdíl v profitabilitě může být 15–25 % ročního výnosu z obchodování odchylek.
Platforma SmartEnergyShare pracuje přesně v tomto prostoru — sdílení energie, obchodování s bateriemi (BESS 50–250 kW), flexibilita a day trading elektřiny. AI rozhodování v těchto scénářích musí být rychlé, spolehlivé a doménově přesné. Obecný chatbot to jednoduše nezvládne — ani GPT-4.
Pro ty, kdo hledají technické detaily o nasazení BESS a jejich integraci s autonomními systémy, doporučuji BESS Global Blog, kde najdete konkrétní analýzy a srovnání úložišť.
Předpověď: rok 2026 bude rokem specializovaných modelů
Trh to už reflektuje. Anthropic, Google i OpenAI začínají nabízet "domain-tuned" varianty svých modelů — pro medicínu, právo, finance. Ale to je stále polovina řešení. Skutečná konkurenční výhoda leží v modelech trénovaných na propriétárních interních datech, která konkurence nikdy mít nebude.
Paradox je, že open-source modely tuto cestu otevírají daleko víc než proprietární API. Llama 3.1, Mistral, Qwen 2.5, Gemma 2 — to jsou modely, které si můžete stáhnout, modifikovat a nasadit bez jakékoliv závislosti na poskytovateli. NVIDIA Cosmos 3 je dalším krokem tímto směrem — tentokrát pro fyzický svět.
Blue Origin postavil New Glenn s filosofií "větší je lepší". SpaceX vyhrál trh s Falconem 9, který byl menší, levnější, ale specializovaný na reusability. Lesson learned: v konkurenčním prostředí vítězí ten, kdo optimalizuje pro konkrétní problém, ne ten, kdo vybuduje největší stroj.
Firmy, které to pochopí v letošním procurement cyklu, budou mít za dva roky systémy, které jejich konkurenti nemůžou jednoduše zkopírovat tím, že si koupí přístup ke stejnému API.
Zdroje
- ITBench-AA: Agentic IT Benchmark — Artificial Analysis + IBM Research (2025)
- NVIDIA Cosmos 3 — model card na HuggingFace
- LoRA: Low-Rank Adaptation of Large Language Models — Hu et al., arXiv
- Ollama — lokální inference pro open-source modely
- OTE — operátor trhu s elektřinou ČR, cenové statistiky
Obchodujete s batteriovými úložišti nebo hledáte partnera pro flexibilitu a day trading elektřiny? SmartEnergyShare nabízí kompletní řešení pro BESS projekty od 50 do 250 kW - obchodování odchylek, regulační elektřiny a intraday trading. Zjistěte víc na SmartEnergyShare.
Další články na toto téma najdete na: SdileniEnergie.info - komunitní energetika Electric-Share.cz - legislativa a dotace