Spuštění vLLM serveru na p4d instanci

Trénink vlastního AI modelu na AWS za cenu použitého auta — a proč to většina firem dělá špatně

Trénink GPT-4 stál OpenAI odhadem 100 milionů dolarů. Llama 3 70B od Mety spolkla přes 6 milionů GPU hodin na Nvidia A100. A přesto dnes malá firma nebo výzkumný tým může pustit do světa vlastní foundation model za méně, než co zaplatí za roční pronájem kancelářských prostor. AWS na to postavil kompletní infrastrukturu — a to zajímavé je, jak přesně funguje pod kapotou.

Tento článek není o klikání v konzoli. Je o tom, co se děje uvnitř, proč architektonická rozhodnutí z roku 2024 mění pravidla hry v roce 2026, a kde si průměrně vybavený tým dokáže ušetřit stovky tisíc korun ročně.

AWS SageMaker vs. vlastní stack: Kde končí pohodlí a začínají kompromisy

SageMaker HyperPod je dnes de facto standardem pro distribuovaný trénink na AWS. Dokáže spustit tisíce GPU instancí (p4d.24xlarge s 8× A100, nebo novější p5.48xlarge s 8× H100) jako jeden logický cluster. Ale je tu háček: HyperPod vám řeší hardware scheduling a failure recovery, nezřídí vám celou tréninkovou pipeline.

V praxi to vypadá takto: vezmete si `ml.p5.48xlarge` instanci za přibližně 98 USD za hodinu a na ni nasadíte distribuovaný trénink přes PyTorch FSDP nebo Megatron-LM. Záloha uzlů při výpadku je automatická — HyperPod restartuje job z posledního checkpointu bez zásahu operátora. To zní báječně, dokud nepřijde faktura.

Pro menší workloady (dotrénování modelu do 7B parametrů) je schůdnější varianta Spot instance. `p3.2xlarge` s jednou V100 vás vyjde na 3 USD za hodinu v on-demand ceníku, Spot instance to srazí na 0,9–1,2 USD. Pokud chcete fine-tuning Llama 3 8B přes LoRA na vlastních datech, vejdete se do 20–40 dolarů za celý run. To není sci-fi — to je realita, kterou lze nastavit za odpoledne.

Kompletní open-source alternativa? PyTorch + HuggingFace Transformers + PEFT knihovna pro LoRA. Nasadíte to na jakýkoli cloud nebo i vlastní server. AWS vám v tomto případě slouží jen jako compute provider, nikoliv jako platforma.

EMO: Směs expertů s emergentní modularitou — proč to není jen marketing

EMO (Emergent Modularity from Pretraining of Mixture of Experts) je přístup, který přeskočil většinu lidí mimo akademické kruhy, přestože mění fundamenty toho, jak se dnes trénují velké modely.

Klasický dense transformer (GPT-2, BERT) aktivuje všechny neurony pro každý token. Mixture of Experts (MoE) to dělá jinak: místo jedné velké feed-forward vrstvy máte desítky nebo stovky menších "expertů" a routovací vrstvu, která pro každý token vybere jen 2–8 z nich. Výsledek: Mixtral 8×7B má technicky 47 miliard parametrů, ale při inferenci aktivuje jen zhruba 13 miliard. Cena inferenci odpovídá 13B modelu, kvalita je blíže 47B.

EMO posouvá tuto myšlenku dál. Místo aby experti byli jen náhodně přiřazeni, EMO dovoluje modelu, aby si sám během předtrénování "rozhodl", jakou specialitou každý expert bude. Vzniká emergentní specializace — jeden expert se stará o syntaxi kódu, jiný o matematické úvazky, třetí o faktické znalosti. Bez explicitního label-ování, jen z gradientů.

Na AWS to má praktický dopad. MoE modely sice šetří compute při inferenci, ale trénink je složitější — musíte řešit load balancing mezi experty (aby se nevyužívalo vždy stejných pět), expert capacity faktory a komunikaci mezi GPU uzly při all-to-all operacích. AWS Trainium 2 čipy (Trn2 instance) mají na toto optimalizované NeuronCores a high-bandwidth interconnect. Cena Trn2 instancí je přibližně o 30–40 % nižší než srovnatelné GPU alternativy pro MoE workloady.

vLLM V1: Proč "correctness before corrections" není jen filozofie

Přechod z vLLM verze 0 na verzi 1 (2025) byl bouřlivý. Komunita si zvykla, že vLLM je nejrychlejší open-source inference engine — PagedAttention, continuous batching, tensor parallelism. Jenže V0 mělo skrytý problém: v hromadném zpracování (batch inference) se v určitých konfiguracích generovaly statisticky nesprávné výstupy. Ne dramaticky, ale konzistentně chybné, zejména při kombinaci speculative decoding a sampling s nízkou teplotou.

V1 přineslo přepsání sampling engine. Heslo "correctness before corrections" znamenalo: nejdřív opravíme matematiku pravděpodobnostního vzorkování, pak přidáme rychlostní optimalizace. V praxi to znamenalo dočasné zpomalení throughpútu na určitých konfiguracích o 10–15 % při přechodu. Firmy, které provozují vLLM v produkci, čelily volbě: zůstat na V0 (rychlé, ale potenciálně nesprávné) nebo přejít na V1 (správné, dočasně pomalejší).

Na AWS to elegantně řeší SageMaker endpoints s vLLM jako inference backendem. Deployment vypadá zhruba takto:

```bash docker run --gpus all \ -p 8000:8000 \ vllm/vllm-openai:v0.5.0 \ --model meta-llama/Meta-Llama-3-70B-Instruct \ --tensor-parallel-size 8 \ --max-model-len 8192 ```

V1 přidává `--enable-chunked-prefill` a opravenou implementaci top-p sampling. Pro reinforcement learning z lidské zpětné vazby (RLHF) — kde se V1 primárně orientuje — je správnost generování kritická. Pokud model v training loopu generuje špatně distribuované tokeny, vaše reward modely se trénují na šumu.

Konkrétní architektura: Co postavit pro fine-tuning v reálné firmě

Řekněme, že jste středně velká firma a chcete dotrénovat Llama 3 8B na vlastních datech — zákaznické chaty, technická dokumentace, firemní procesy. Co přesně potřebujete a kolik to stojí?

Compute: 2× `ml.g5.12xlarge` (4× A10G GPU, 96 GB GPU RAM celkem) stačí pro QLoRA fine-tuning 8B modelu. Cena: ~5,7 USD/h on-demand, Spot ~2,1 USD/h. Celý run na 10 000 kroků (závisí na velikosti datasetu) trvá přibližně 4–8 hodin. Celková cena: 8–17 USD.

Storage: S3 pro dataset a checkpointy, FSx for Lustre pro vysokorychlostní přístup během tréninku. FSx Lustre vás vyjde na ~0,14 USD/GB/měsíc — pro 500 GB dataset je to 70 USD měsíčně.

Orchestrace: AWS Step Functions + SageMaker Pipelines pro automatizaci. Alternativně čistý Python s boto3 SDK, pokud nechcete GUI závislost.

Monitoring: CloudWatch pro GPU utilization a loss křivky. Nebo integrace s Weights & Biases — ten má free tier pro malé projekty.

Inference: Po natrénování nasadit přes SageMaker Real-time Endpoint s vLLM backendem. `ml.g5.2xlarge` (1× A10G) zvládne Llama 3 8B kvantizovanou na 4-bit (AWQ) s throughpútem přes 80 tokenů za sekundu. Cena: ~1,2 USD/h.

Zajímavé je, jak podobné problémy řeší energetický sektor. Prediktivní modely pro obchodování s elektřinou nebo optimalizaci baterií (BESS) potřebují stejnou infrastrukturu — trénink na historických datech, inference v real-time. Platformy jako energetická platforma SES kombinují ML inference s real-time energetickým obchodováním; architektura není vzdálená tomu, co popisujeme výše. Více o praktické implementaci AI v energetice najdete na [SmartEnergyShare.info](https://smartenergyshare.info).

Ollama a HuggingFace: Lokální alternativa ke cloudovému lockin

AWS je skvělý, pokud máte peníze a potřebujete škálovat. Co ale výzkumníci, startupy nebo jednotlivci?

Ollama (ollama.ai) umožňuje spustit kvantizované modely lokálně s jedním příkazem:

```bash ollama pull llama3.2:8b ollama run llama3.2:8b ```

Na MacBooku M3 Pro s 36 GB RAM dosáhnete 30–40 tokenů za sekundu. Na RTX 4090 je to 80–100 t/s. Pro vývoj a testování prompting strategií to plně stačí. Produkční inferenci pak přesuňte do cloudu.

HuggingFace Hub dnes hostuje přes 900 000 modelů a 200 000 datasetů. Transformers knihovna umožňuje načíst libovolný model třemi řádky kódu. AutoTrain Advanced (placená služba HuggingFace) dělá fine-tuning bez jediného řádku kódu — ceny začínají na desítkách dolarů za run.

Kombinace lokální vývoj (Ollama) + HuggingFace pro sdílení + AWS pro produkci je dnes nejběžnější workflow pro tým do deseti lidí.

Podrobnější srovnání tréninkových frameworků najdete na ShareElectric.cz, kde analyzují i nákladové modely pro průmyslové AI nasazení.

Kde to celé směřuje: Předpověď na rok 2026 a dál

AWS oznámil druhé generace Trainium (Trn2) a Inferentia čipů. Vlastní silicon je strategický tah: AWS nemusí platit Nvidii marži a může optimalizovat hardware přímo pro transformer architektury (flash attention, rotary embeddings, MoE routing).

Ceny inference padají rychleji, než kdokoli čekal. Ještě v roce 2023 stál 1 milion tokenů přes GPT-4 API 30 USD. Dnes ekvivalentní open-source modely přes AWS Bedrock (Claude Haiku, Mistral Small) nebo vlastní vLLM deployment vyjdou na 0,25–1 USD za milion tokenů. To je 30–120× levněji za tři roky.

MoE modely se stávají standardem, ne výjimkou. Gemini 1.5, Mixtral, a podle spekulací i GPT-4 jsou MoE architektury. EMO přístupy, které nechávají emergovat specializaci organicky, jsou příštím logickým krokem — redukují nutnost expertního designu routovacích schémat.

Pro firmy to znamená jedno: barrier to entry pro vlastní AI modely se blíží nule. Otázka není jestli si pořídit vlastní LLM. Otázka je, jestli váš tým ví, jak s ním pracovat. Kdo to podcení, bude za tři roky platit svým konkurentům za to, co mohl mít sám — přesně jako firmy, které propásly cloud computing kolem roku 2012.

Zdroje

AWS SageMaker HyperPod dokumentace — oficiální technická dokumentace
vLLM projekt na GitHubu — zdrojový kód a release notes V0→V1
EMO: Emergent Modularity paper (arXiv 2024) — původní výzkumný paper
HuggingFace PEFT knihovna — LoRA a QLoRA fine-tuning
oEnergetice.cz — AI v energetice — český kontext nasazení ML modelů v energetickém sektoru