Instalace

NVIDIA Cosmos 2.5: Natrénujte si vlastního robota na domácím GPU za cenu herní sestavy

Firma Figure AI minulý týden zveřejnila video, kde jejich humanoidní robot bez problémů třídí balíčky na dopravním pásu. Internet se nemohl odtrhnout. Přitom to, co vidíte na záběrech, není magie — je to world model trénovaný na tisících hodinách robotického videa. A teď to samé můžete zkusit i vy, doma, na jedné kartě RTX 4090.

NVIDIA Cosmos Predict 2.5 je generativní video model navržený přímo pro robotiku. Umí predikovat, jak bude vypadat budoucnost z pohledu robota — co se stane, když zatočí doleva, co uvidí, když sáhne po krabici. To je přesně ten typ modelu, který Figure, Boston Dynamics nebo Agility Robotics používají při trénování svých systémů. A teď je open-source.

Co přesně je Cosmos Predict 2.5 a proč na tom záleží

NVIDIA Cosmos rodina modelů vyšla začátkem roku 2025 s jasným cílem: dát robotickým vývojářům foundation model, který rozumí fyzikálním zákonům světa. Cosmos Predict 2.5 je nejnovější verze — 7 miliardový difúzní transformer, který bere vstupní video nebo sadu snímků a predikuje, jak se scéna vyvine.

Oproti obecným video modelům jako Sora nebo Kling je Cosmos zaměřený na přesnost fyziky. Nezajímá ho, jak vypadá explodující auto v hollywoodském stylu. Zajímá ho, jak se pohne robotické rameno po aplikaci torku 2,4 Nm.

Verze 2.5 přinesla klíčové vylepšení: multi-view generaci. Robot může predikovat pohled z více kamer najednou — což je pro reálné nasazení naprosto kritické, protože průmyslové roboty mají typicky 4-8 kamer.

Model je dostupný přes HuggingFace pod licencí NVIDIA Open Model License — komerční použití je povoleno, ale redistribuce base modelu nikoliv. Repozitář: `nvidia/Cosmos-Predict2-5B`.

LoRA vs DoRA: Čím fine-tunovat a jaký je rozdíl

Máte-li vlastní robotická data — záběry z vašeho skladu, továrny, nebo třeba záhonu rajčat s autonomní zahradní frézou — chcete model adaptovat na váš specifický vizuální kontext. Přetrénovat celých 5 miliard parametrů? To je zhruba 40 hodin na osmi A100, cena okolo 800 dolarů za cloud compute. To nikdo nechce.

LoRA (Low-Rank Adaptation) řeší problém elegantně: místo úpravy všech vah přidá malé "adaptérové" matice nízké hodnosti do klíčových vrstev transformer modelu. Rank 8 až 64 pokryje 99 % use casů. Výsledek: trénujete 0,3–2 % původního počtu parametrů.

DoRA (Weight-Decomposed Low-Rank Adaptation) je novější varianta z Taiwanské národní univerzity, 2024. Rozkládá váhy na magnitudo a směr, přičemž LoRA adaptuje pouze směrovou složku. V praxi to dává konzistentnější výsledky při nízkých hodnostech a funguje lépe pro multimodální modely — jako je právě Cosmos, který zpracovává jak video, tak jazykové instrukce.

Pro Cosmos Predict 2.5 je DoRA o 15–20 % efektivnější než klasická LoRA při stejném compute budgetu. NVIDIA to potvrdila ve vlastním technickém reportu při benchmarku na RoboVerse datasetu.

Praktický návod: Fine-tuning na RTX 4090

Tohle je sekce, kvůli které jste sem přišli. Co přesně potřebujete a jak na to.

Hardware minimum: RTX 4090 (24 GB VRAM). Méně nestačí — 4-bit kvantizace base modelu zabere přibližně 12 GB, DoRA adaptér a aktivace dalších 8 GB. Na RTX 3090 (také 24 GB) to technicky půjde, ale pomaleji o cca 35 %.

Lepší varianta: Dva GPUs přes NVLink nebo 2× RTX 4090 v data-parallel módu. Tréninková rychlost roste téměř lineárně.

Cloud alternativa: Lambda Labs H100 instance za 2,49 USD/hodina, nebo RunPod s RTX 6000 Ada za 0,79 USD/hodina. Celý fine-tuning na rozumném datasetu (2000 videí po 10 sekundách) vyjde na 40–80 dolarů.

```bash pip install cosmos-tokenizer diffusers accelerate peft bitsandbytes

# Clone NVIDIA training scripts git clone https://github.com/NVIDIA/Cosmos

# DoRA config pro Cosmos Predict 2.5 python train_cosmos.py \ --model_path nvidia/Cosmos-Predict2-5B \ --dataset_path ./your_robot_videos \ --use_dora True \ --lora_rank 32 \ --lora_alpha 64 \ --batch_size 2 \ --gradient_accumulation 8 \ --learning_rate 1e-4 \ --num_epochs 10 \ --save_path ./cosmos_finetuned ```

Váš dataset by měl mít strukturu: video soubory (MP4, 480p minimálně) + JSON soubory s popisky co robot dělá. Popisky nemusí být bůhvíjak sofistikované — "robot arm reaches for red box, conveyor belt visible" stačí.

Jeden tréninkový krok trvá na RTX 4090 přibližně 3,2 sekundy. 10 epoch na 2000 videí = zhruba 18 hodin. Výsledný DoRA adaptér má velikost 800 MB až 2 GB dle ranku.

Důležité varování: Cosmos Predict nemá vestavěnou kontrolu konzistence přes více snímků u nízkých ranků. Při rank 8 dostanete občas "temporal flickering" — objekty se mírně mění mezi snímky. Zvyšte na rank 32+ nebo použijte temporal consistency loss, který NVIDIA přidala do tréninkových skriptů ve verzi 0.4.2.

Figure AI, Spider-Noir a proč světu přišly robotické videa najednou

Není náhoda, že v jednom týdnu internet zavalila videa Figure AI robotů třídících balíčky a zároveň vyšel finální trailer Spider-Noir s klasickým CGI zlodouchem. Oba fenomény sdílejí společného jmenovatele: generativní video modely se staly natolik dobrými, že hranice mezi "skutečné video" a "syntetické video" se stírá.

Figure AI používá právě tento typ world modelů pro synthetic data generation. Robot v simulaci trénuje na miliardách syntetických snímků, přenese dovednosti do fyzického světa. Cosmos Predict je přesně ten typ nástroje, který to umožňuje. Figure, který má backing od Microsoftu, Nvidie a Bezose, tenhle přístup zvládl dotáhnout do produktu — vy ho teď máte k dispozici jako open-source.

Mimochodem, zatímco debatujeme o robotech, Írán oznámil požadavek, aby Big Tech platil poplatky za podmořské internetové kabely procházející Hormuzským průlivem. Přibližně 20 % světového internetového provozu prochází touto oblastí. Pokud by se Írán skutečně odhodlal kabely přerušit nebo zdanit, latence cloudových tréninkových úloh z Evropy by skokově vzrostla. Diverzifikace výpočetních zdrojů — a schopnost trénovat lokálně — najednou vypadá jako strategicky rozumný krok.

Open-source ekosystém kolem Cosmos: Co existuje zdarma

Cosmos není jediná hra ve městě, ale je to aktuálně nejsilnější open model pro robotické video.

Alternativy na HuggingFace: - `Wan-AI/Wan2.1-T2V-14B` — obecný video model, horší fyzika, ale levnější na provoz - `genmo/mochi-1-preview` — open-source, 10B parametrů, dobré pro kratší sekvence - `LanguageBind/Video-LLaMA-2` — pokud chcete video+jazyk multimodal

Pro fine-tuning workflow: - Diffusers (HuggingFace) — nejjednodušší integrace Cosmos, aktivně maintainovaný - Unsloth — 2× rychlejší LoRA trénink díky custom CUDA kernelům, zatím jen pro LLM ale Cosmos podpora se připravuje - LLaMA-Factory — má experimentální video support

Dataset příprava: - `video2dataset` — stáhne a zpracuje YouTube videa do správného formátu - `GroundingDINO` + `SAM2` — automatická anotace objektů ve videích - `CogVideoX-Fun` — augmentace datasetu syntetickými variantami

Pokud vás tato technologická souvztažnost energetiky a AI zajímá z pohledu automatizace průmyslové spotřeby, zajímavé přesahy najdete na ShareElectric.cz — kde mapují, jak autonomní systémy mění průmyslové loadové profily.

Kde se to všechno potkává s energetikou

Otázka, která zní zpočátku absurdně: co mají robotická videa společného s obchodováním s elektřinou?

Trénování těchto modelů je energeticky velmi náročné. Jeden fine-tuning běh na RTX 4090 po dobu 18 hodin spotřebuje přibližně 5,4 kWh. Pro srovnání — na to postačí jedna hodina odběru z 50kW BESS jednotky. Firmy, které provozují GPU clustery pro AI trénink, čím dál víc hledají způsoby, jak optimalizovat kdy a kde trénují — podle aktuálních spotových cen elektřiny.

Přesně to řeší SmartEnergyShare.com — platforma pro sdílení energie, day trading elektřiny a řízení baterií BESS 50–250 kW. Pokud provozujete GPU farmu nebo výpočetní infrastrukturu, posun těžkých tréninkových úloh do hodin s negativními spotovými cenami (které v ČR nastávají čím dál častěji při přebytku solární výroby) může ušetřit statisíce korun ročně. Kombinace: baterie jako buffer + AI scheduler pro tréninkové úlohy + spotový day trading. Tohle není science fiction — to je reálné nasazení pro rok 2026.

Podrobnější legislativní rámec sdílení energie a komunitní energetiky najdete na Electric-Share.cz.

Závěr: Kdo to zvládne první, vyhraje

Za dva roky budou mít malé a střední firmy přístup k robotům, které se naučily jejich specifické prostředí z pár tisíc hodin záběrů. Ne z milionů, ne z let trénování — z pár týdnů práce jednoho vývojáře s RTX 4090 a správnými nástroji.

Figure AI to ukázalo světu, NVIDIA dala nástroje, HuggingFace udělal z toho ekosystém. Zbývá jedna věc: někdo to musí opravdu nasadit. Pokud plánujete automatizaci skladu, montážní linky nebo zemědělského provozu — moment, kdy začít experimentovat s Cosmos Predict 2.5 a DoRA fine-tuningem, je teď. Za rok to bude "takhle to dělají všichni".