NVIDIA Cosmos 3 je tady — a roboti konečně začínají chápat svět kolem sebe

Představte si robota, který nikdy nebyl v továrně, a přesto ví, jak složit díl na montážní lince. Ne proto, že ho někdo naučil každý krok, ale proto, že prostě rozumí fyzice. Tohle ještě před rokem znělo jako sci-fi. Cosmos 3 to mění.
NVIDIA v tichosti vypustila jeden z nejambicióznějších open-source modelů v historii fyzické AI. Cosmos 3 není jen jazykový model s obrázky navíc — je to první skutečně multimodální systém navržený tak, aby stroje pochopily prostorové vztahy, fyziku a kauzalitu v reálném světě. A co je klíčové: je otevřený. Všechny váhy, dokumentace, příklady.
Co vlastně Cosmos 3 umí a proč je to průlom
Cosmos 3 je takzvaný omni-model — přijímá text, obrázky, video i senzorová data, a na výstupu produkuje nejen text, ale i plány pohybu, predikce fyzikálních stavů nebo instrukce pro robotické aktuátory. Tohle je zásadní rozdíl od GPT-4o nebo Gemini 1.5, které jsou sice multimodální, ale primárně navržené pro konverzaci, ne pro fyzické prostředí.
Architektura modelu stojí na třech pilířích. Prvním je World Foundation Model — interní reprezentace fyzického světa, kde model chápe, že sklenice spadne, pokud ji postrčíte, a že robot musí kompenzovat váhu objektu. Druhý pilíř je tokenizér fyzického světa, který převádí video sekvence na efektivní latentní prostor (NVIDIA ho označuje jako Cosmos Tokenizer, 12× kompresní poměr oproti klasickým metodám). Třetí pilíř je Post-Training Alignment specificky pro fyzické úkoly — model byl doladěn na milionech hodin robotických simulací z platformy Isaac Sim.
Výsledek? Na interních benchmarcích NVIDIA dosahuje Cosmos 3 přes 73 % úspěšnosti při plánování manipulačních úkolů, kde předchozí modely jako RT-2 nebo OpenVLA stagnovaly pod 55 %.
Ale pozor — benchmarky NVIDIA jsou benchmarky NVIDIA. O tom za chvíli.
Realita benchmarků: ITBench-AA říká, že modely jsou stále tupé
Právě v době, kdy NVIDIA láká na Cosmos 3, přišel výzkum Artificial Analysis a IBM s benchmarkem ITBench-AA — prvním systematickým testem schopností frontier modelů v agentic enterprise IT úkolech. Výsledky jsou střízlivé až deprimující.
GPT-4o: 47 % úspěšnost. Claude 3.7 Sonnet: 43 %. Gemini 1.5 Pro: 39 %. Průměr přes všechny testované modely: méně než 50 %.
Co konkrétně benchmark testoval? Reálné IT scénáře — automatizace incidentů, diagnostika výpadků, konfigurace infrastruktury, interpretace logů. Úkoly, které každý zkušený sysadmin zvládne za hodinu, dělaly modelům velké problémy. Zejména u úkolů vyžadujících více kroků za sebou, kde každý krok závisí na výsledku předchozího, modely systematicky selhávaly.
Proč je to relevantní pro Cosmos 3? Protože fyzická AI robotika je ze své podstaty vše agentic, vše multi-step. Robot pohybující se ve skladu neřeší jeden izolovaný problém — řeší stovky po sobě jdoucích rozhodnutí za sekundu. Pokud frontier modely nedosahují ani 50 % na relativně strukturovaných IT úkolech, cesta ke spolehlivé fyzické autonomii je ještě dlouhá.
Tohle není důvod k pesimismu. Je to důvod nepodléhat hype a dívat se na čísla.
Jak Cosmos 3 spustit na vlastním hardwaru
Teď k praktické části. Cosmos 3 je dostupný přes HuggingFace pod NVIDIA Open Model License — volně pro výzkum a komerční použití s podmínkou atribuce. Váhy modelu pro inference jsou ve dvou velikostech: 7B parametrů (pro experimenty) a 34B (pro produkci).
Hardware požadavky pro 7B variantu: - Minimum: RTX 4090 (24 GB VRAM) nebo A10G (24 GB) - Doporučeno: 2× RTX 4090 nebo A100 40 GB - RAM: 64 GB systémové paměti - Storage: ~28 GB pro váhy, doporučeno NVMe SSD
Spuštění přes Ollama (nejjednodušší cesta pro experimentování): ```bash ollama pull nvidia/cosmos3:7b ollama run nvidia/cosmos3:7b ```
Cosmos 3 v Ollama zatím není plně multimodální — fyzické plánování vyžaduje specializovaný inference stack. Pro plné funkce je nutné použít NVIDIA NIM (NVIDIA Inference Microservices) nebo ruční nasazení přes vLLM s Cosmos extensions.
Ceny cloudu pro rychlé testy: RunPod nabízí A100 80GB za cca 2,49 USD/hodinu. Pro 34B variantu s kvantizací INT8 stačí jeden A100 — inference je pak cca 8-12 tokenů za sekundu, což pro robotické plánování v reálném čase nestačí, ale pro offline prototypování ano.
Reálná cena produkčního nasazení: Pokud chcete Cosmos 3 nasadit v průmyslovém prostředí, počítejte s DGX H100 servery (cca 300 000 USD za kus) nebo pronájmem NVIDIA Cloud za 8-16 USD/GPU/hodinu. To jsou čísla, která menší firmy nezaplatí — proto je open-source tak důležitý. LoRA fine-tuning na vlastních robotických datech lze provést na 4× RTX 4090 za cca 200 000 Kč hardwaru.
Fyzická AI a energetika: proč je Cosmos 3 zajímavý i mimo robotiku
Tady se dostáváme k méně diskutovanému aspektu. Cosmos 3 není jen pro roboty ve výrobě. Fyzické modely světa mají přímé uplatnění v energetice — konkrétně v predikci fyzikálních stavů distribuovaných systémů.
Představte si solární park s 500 panely. Každý panel má teplotní čidlo, proudový senzor, napěťový výstup. Cosmos 3 může zpracovávat video z termokamery, senzorová data a meteorologická data simultánně — a predikovat výkon jednotlivých stringů, detekovat hotspoty nebo předpovídat potřebu čištění.
To samé platí pro správu bateriových úložišť (BESS). Model dokáže propojit fyzikální stav baterie (teplota, SOC, degradační křivka) s tržními daty (day-ahead ceny, spot trh) a optimalizovat nabíjení/vybíjení s cílem maximalizovat výnosy. Přesně tohle typ automatizace využívá například řešení SmartEnergyShare, které kombinuje BESS 50–250 kW s algoritmickým obchodováním odchylek a regulační elektřiny.
Pro energetické komunity a sdílení elektřiny má fyzická AI ještě jeden rozměr: optimalizace lokálních sítí v reálném čase. Kde klasické SCADA systémy reagují na události po sekundách až minutách, fyzický model světa dokáže predikovat napěťové problémy ještě dříve, než nastanou.
Více o propojení AI a smart gridu najdete na SmartEnergyShare.info nebo v sekci o virtuálních elektrárnách na SmartEnergyShare.cz.
Cosmos 3 vs. Blue Origin: co spojuje raketu a robota
Jeden z důvodů, proč je Cosmos 3 tak sledovaný, je ironická souběžnost s katastrofou Blue Origin New Glenn. Raketa, která měla demonstrovat schopnosti Jeffa Bezose konkurovat SpaceX, selhala při druhém stupni separace — mechanický problém, který software nezachytil včas.
New Glenn nesl mimo jiné prototypy autonomních průmyslových senzorů. A selhání mělo přímý dopad na jeden z výzkumných programů fyzické AI zaměřených na autonomní diagnostiku raketových systémů. Paralela je přesná: AI modely jsou stále dobré v izolovaných úkolech, ale fyzicky integrované systémy — kde software musí reagovat na fyzický svět v reálném čase — jsou jiná kategorie problémů.
NVIDIA Cosmos 3 je přesně pokusem tento gap překlenout. Klíčová otázka není, jestli model zná fyziku Newtonovy mechaniky (zná), ale jestli dokáže aplikovat znalosti v podmínkách reálného světa s neúplnými informacemi, šumem ze senzorů a časovým tlakem.
Na tohle zatím nemáme odpověď. Ale máme open-source model, na kterém se to dá testovat — a to je víc, než jsme měli loni.
Open-source ekosystém kolem Cosmos: kde začít
Pokud vás fyzická AI zajímá prakticky, tady je roadmapa:
Krok 1 — Základy: Začněte s HuggingFace repozitářem `nvidia/Cosmos-3`. Dokumentace obsahuje Jupyter notebooky pro základní inference a vizualizaci fyzikálních predikcí. Nepotřebujete ani speciální GPU — pro první experimenty stačí Google Colab T4.
Krok 2 — Fine-tuning: NVIDIA poskytuje LoRA adaptéry pro doménovú specializaci. Fine-tuning na vlastních robotických datech (video + anotované pohyby) trvá cca 8-24 hodin na 4× A100. Dataset pro první experimenty najdete v Open-X-Embodiment kolekci — přes 1 milion robotických trajektorií od 22 různých výzkumných skupin.
Krok 3 — Integrace: NVIDIA Isaac ROS má přímou integraci Cosmos 3 jako plánovací backend. Pro simulace doporučuji začít s Isaac Sim (zdarma pro akademické použití) nebo Gazebo + PyBullet pro lehčí experimenty.
Alternativy v open-source: OpenVLA od Stanford (7B parametrů, slabší fyzikální model ale lehčí nasazení), Octo (menší, běží na RTX 3080), Pi0 od Physical Intelligence (zatím jen preview). Žádný z nich nedosahuje možností Cosmos 3 v komplexních scénářích, ale pro jednoduché manipulační úkoly jsou dostatečné a levnější na provoz.
Reálné ceny nasazení v ČR: Pokud uvažujete o průmyslovém pilotním projektu, orientační náklady jsou: hardware (2× RTX 4090 server) cca 180 000 Kč, integrace a vývoj 3-6 měsíců práce zkušeného týmu, roční provozní náklady elektřiny pro GPU server cca 40-60 000 Kč. Celkem pro první pilotní nasazení v průmyslovém prostředí počítejte 500 000 – 1 500 000 Kč, záleží na složitosti úkolu.
Závěr: fyzická AI je tady, ale nezapomínejte na čísla
NVIDIA Cosmos 3 je skutečný průlom. Ne proto, že by byl dokonalý — ale proto, že jako první open-source model bere fyzické uvažování vážně a dává nástroje každému výzkumníkovi a firmě, která chce experimentovat.
Zároveň buďme upřímní: ITBench-AA nám připomíná, že i nejlepší modely dělají chyby v polovině případů při komplexních agentic úkolech. Fyzická AI v produkčním nasazení vyžaduje záchranné mechanismy, redundanci a hodně testování.
Moje předpověď: do 18 měsíců uvidíme první průmyslová nasazení Cosmos-class modelů v českých výrobních firmách — pravděpodobně v automotive nebo elektronice. Průkopníci budou platit experimentální cenu. Druzí v pořadí budou profitovat z jejich zkušeností.
Pokud vás zajímá, jak fyzická AI a inteligentní optimalizace bateriových úložišť mění obchodování s elektřinou, podívejte se na SmartEnergyShare — nabízíme day trading elektřiny, obchodování odchylek a regulační elektřinu pro firmy s vlastním BESS.
Zdroje
- NVIDIA Cosmos 3 — Official Release (NVIDIA Blog)
- ITBench-AA: Frontier Models Score Below 50% — Artificial Analysis & IBM (ArXiv)
- Open-X-Embodiment Dataset — Google DeepMind
- Physical Intelligence Pi0 Model Preview — Physical Intelligence
- HuggingFace — NVIDIA Cosmos modely
Obchodujete s batteriovými úložišti nebo hledáte partnera pro flexibilitu a day trading elektřiny? SmartEnergyShare nabízí kompletní řešení pro BESS projekty od 50 do 250 kW - obchodování odchylek, regulační elektřiny a intraday trading. Zjistěte víc na SmartEnergyShare.
Další články na toto téma najdete na: ShareElectric.cz - sdílení FVE a úspory BESS Global - bateriová úložiště a trading