AWS nabízí trénink jazykových modelů „na klik". Reálné náklady vás ale nepříjemně překvapí

Elon Musk prohrál spor s OpenAI — porota jednomyslně rozhodla, že žaloval příliš pozdě a jeho nároky jsou promlčeny. Irán požaduje od Big Tech poplatky za podmořské kabely v Hormuzském průlivu, což analytici označují za potenciální zdražení cloudových služeb o 3–8 %. A OlmoEarth v1.1 právě ukázal, že efektivní jazykový model nemusí mít 70 miliard parametrů. Tohle vše se děje v týdnu, kdy Amazon Web Services tiše rozšiřuje svůj ekosystém pro trénink a inference foundation modelů na průmyslovou škálu. Pokud přemýšlíte, jak na AWS postavit vlastní AI infrastrukturu — od dat po produkční nasazení — tady je realistický průvodce bez marketingového mlžení.
Proč AWS a ne jiný cloud
Upřímná odpověď: záleží na kontextu. Google má TPU a Vertex AI, Microsoft má exkluzivní přístup k OpenAI modelům přes Azure. AWS ale vyhrává v jedné věci — šíři ekosystému. Pokud vaše data leží v S3, vaše databáze běží na RDS a vaši vývojáři znají IAM, přechod k SageMaker nebo Bedrock je mnohem hladší než migrace ke konkurenci.
Klíčové stavební bloky AWS pro AI dnes tvoří čtyři vrstvy: SageMaker (trénink, ladění, hosting modelů), Amazon Bedrock (managed inference pro foundation modely jako Claude, Llama nebo Titan), EC2 P4d/P5 instance (surový hardware pro vlastní trénink) a Trainium/Inferentia čipy (vlastní silicon AWS pro cenově efektivní škálování). K tomu se přidává ekosystém nástrojů: S3 pro datasety, FSx for Lustre pro rychlé I/O při tréninku, CloudWatch pro monitoring.
Ceny za P4d.24xlarge — 8× NVIDIA A100 40GB — se pohybují kolem 32,77 USD/hodinu na on-demand. Rezervace na 1 rok srazí cenu na zhruba 20 USD/hodinu. Pro srovnání: GCP A100 instance vychází podobně, Azure o něco dráže. Spot instance na AWS mohou trénink zlevnit až o 70 %, ale musíte počítat s přerušeními — SageMaker to řeší automatickými checkpointy.
SageMaker: abstrakce, která šetří čas i nervy
SageMaker je vrstvou nad holým EC2, která za vás řeší orchestraci tréninku. Základní workflow vypadá takto:
```python from sagemaker.huggingface import HuggingFace
huggingface_estimator = HuggingFace( entry_point='train.py', instance_type='ml.p4d.24xlarge', instance_count=4, transformers_version='4.36', pytorch_version='2.1', py_version='py310', hyperparameters={ 'model_name_or_path': 'meta-llama/Llama-3-8B', 'per_device_train_batch_size': 4, 'gradient_accumulation_steps': 8, } )
huggingface_estimator.fit({'train': 's3://my-bucket/train-data/'}) ```
Čtyři instance P4d.24xlarge v tomto příkladu = 32× A100 GPU = zhruba 130 USD/hodinu. Trénink Llama-3 8B na vlastním datasetu velikosti 10 GB trvá přibližně 6–12 hodin v závislosti na konfiguraci. Celkové náklady: 780–1 560 USD za jeden tréninkový run. To není levné, ale je to řádově levnější než vlastní hardware, pokud trénujete méně než jednou týdně.
SageMaker HyperPod přidává managed cluster management — automatické zotavení z hardware selhání, distribuované tréninkové úlohy přes EFA (Elastic Fabric Adapter) a integrace s Slurm nebo Kubernetes. Pro týmy, které nechtějí spravovat vlastní clustery, je to klíčová funkce.
Trainium a Inferentia: AWS si staví vlastní silicon
AWS Trainium2 (Trn2) je vlastní akcelerátor navržený speciálně pro trénink velkých modelů. Instance trn2.48xlarge nabízí 16× Trainium2 čipů s celkovou výpočetní kapacitou 3,2 PFLOPS a NeuronLink propojením s 10 TB/s šířkou pásma. On-demand cena: 21,50 USD/hodinu — výrazně méně než P5 s H100 za ~98 USD/hodinu.
Catch? Musíte kompilovat modely přes AWS Neuron SDK. Hugging Face modely většinou fungují, ale proprietární architektury vyžadují úpravy. Vývojový overhead je reálný — počítejte s 1–3 dny na portaci existujícího tréninkovacího kódu.
Inferentia2 (Inf2) je pak určen pro inference za provozních podmínek. Instance inf2.48xlarge zvládne inference Llama-3 70B za přibližně 0,04 USD/1 000 tokenů — což je zhruba třetina ceny oproti on-demand GPU instancím. Pro produkční nasazení s vysokým provozem to dává smysl.
Bedrock: managed inference bez bolestí hlavy
Pokud nechcete spravovat infrastrukturu vůbec, Amazon Bedrock nabídne přístup k desítkám foundation modelů přes API. Claude 3.5 Sonnet: 3 USD/1M vstupních tokenů, 15 USD/1M výstupních. Meta Llama 3.3 70B přes Bedrock: 0,72 USD/1M vstupních, 0,72 USD/1M výstupních.
Bedrock Knowledge Bases umožňují RAG (Retrieval-Augmented Generation) nad vlastními daty bez jediného řádku infrastrukturního kódu. Data nahrajete do S3, propojíte s OpenSearch Serverless, a Bedrock se postará o chunking, embeddings i retrieval. Cena za zpracování dokumentů: 0,001 USD/1 000 tokenů při ingestování plus náklady na OpenSearch (~0,24 USD/OCU/hodinu).
Bedrock Fine-tuning pak dovoluje doladit vybrané modely (momentálně Titan, část Llama modelů) na vlastních datech bez přístupu k raw weights. Vhodné pro specifické use-casy: zákaznický servis v specifickém tónu, klasifikace interních dokumentů, extrakce strukturovaných dat.
Open-source alternativy a kdy AWS přestává dávat smysl
Tady přichází na scénu OlmoEarth v1.1 od Allen Institute for AI. Rodina modelů optimalizovaná pro environmentální a vědecká data — a zároveň ukázka, že efektivní trénink není výhradně záležitostí Big Tech. OlmoEarth 1B model dosahuje srovnatelných výsledků v geovědních benchmarcích jako modely 3× větší. Dostupný na Hugging Face pod Apache 2.0 licencí.
Pro self-hosted inference je Ollama stále nejvýraznější volbou pro jednotlivce a menší týmy. Na MacBooku M3 Pro zvládnete inference Llama-3 8B rychlostí ~40 tokenů/sekundu. Na serveru s RTX 4090 (24 GB VRAM) pak Llama-3 70B v 4-bit kvantizaci (~35 GB) klidně na jediné kartě — náklady na hardware kolem 2 500 EUR jednou, pak nulové provozní náklady za tokeny.
LoRA (Low-Rank Adaptation) fine-tuning změní rovnici nákladů dramaticky. Doladit Llama-3 8B na vlastním datasetu přes LoRA na RTX 4090 trvá hodiny, ne dny, a paměťové nároky jsou zlomkové oproti full fine-tuningu. Knihovna PEFT od Hugging Face to zpřístupňuje v desítkách řádků kódu. AWS tento přístup podporuje v SageMaker přes HuggingFace containers, ale pro malé projekty je lokální běh jednoduše levnější.
Kdy tedy AWS přestává dávat smysl? Přibližně tehdy, když: - Váš dataset je menší než 1 GB a model menší než 13B parametrů - Trénujete méně než jednou za dva týdny - Máte dostupný vlastní GPU server s alespoň 2× A100
Infrastrukturní rizika: Írán, podmořské kabely a ceny cloudu
Vrátím se k úvodu. Írán požaduje poplatky za internetové kabely procházející Hormuzským průlivem — klíčovou trasou pro konektivitu mezi Asií, Blízkým východem a Evropou. Tato geopolitická hrozba není jen abstraktní záležitost: zhruba 30 % globálního internetového provozu prochází přes kabely v této oblasti.
Pro AWS zákazníky v regionech ap-south-1 (Mumbai) nebo me-south-1 (Bahrajn) to může znamenat zvýšené latence, vyšší datové poplatky nebo v krajním případě narušení dostupnosti. AWS to řeší redundancí přes více tras a vlastní podmořské kabelové projekty (Oman Cable, Blue-Raman), ale garance SLA nepokrývají politické risk faktory.
Praktický dopad pro AI workloady: trénink velkých modelů generuje gigabajty checkpoint dat přenášených mezi regiony. Pokud trénujete v jednom regionu a hostujete v jiném, sledujte data transfer pricing — může být překvapivě velká položka v účtu.
Energetická stránka AI infrastruktury je tématem, kde se technologie potkává s udržitelností. AWS datacentry spotřebovávají gigawatty elektrické energie a přechod na obnovitelné zdroje — větrné a solární — mění i ekonomiku provozu. Pokud vás zajímá propojení AI infrastruktury s energetickými trhy, Smart Energy Share ukazuje, jak funguje sdílení energie a obchodování s bateriovými úložišti v praxi — včetně day tradingu elektřiny a regulační energie pro komerční provozovatele BESS systémů.
Kde začít: praktický postup pro rok 2026
Pokud stavíte AI infrastrukturu od nuly, doporučuji tento postup:
Fáze 1 — Proof of Concept (náklady: stovky USD): Začněte s Amazon Bedrock a managed inference. Žádné infrastrukturní starosti, platíte per token. Ověřte, zda váš use-case vůbec funguje s dostupnými foundation modely.
Fáze 2 — Fine-tuning (náklady: tisíce USD): Když víte, co chcete, dolaďte model přes SageMaker HuggingFace estimator nebo Bedrock Fine-tuning. Použijte LoRA kde je to možné — ušetříte 60–80 % nákladů oproti full fine-tuningu.
Fáze 3 — Produkce (náklady: měsíčně dle provozu): Zvažte Inferentia2 pro inference-heavy workloady. Nastavte auto-scaling. Sledujte náklady přes AWS Cost Explorer a nastavte alerty. Model serving přes SageMaker Real-Time Inference nebo async inference (pro dávkové zpracování).
Důležité: SageMaker Model Registry a MLflow integrace jsou klíčové pro správu verzí modelů v produkci. Bez systematického verzování se rychle ocitnete v situaci, kdy nevíte, který model běží kde a proč.
Závěr: cloud není zázračné řešení, ale je to dobrý nástroj
AWS nabízí nejkomplexnější sadu nástrojů pro AI trénink a inference v cloudu. Není nejlevnější. Není nejjednodušší. Ale kombinace SageMakeru, Bedrocku, vlastního siliconu a zázemí ekosystému dává smysl pro organizace, které berou AI vážně a mají odpovídající budget.
Muskův prohraný spor s OpenAI symbolicky uzavírá éru, kdy closed-source vs. open-source debata probíhala u soudů. Teď probíhá na GitHubu, na Hugging Face a v datových centrech po celém světě. OlmoEarth v1.1 ukazuje, že akademické týmy dokážou trénovat efektivní modely bez miliardových rozpočtů. To by mělo být inspirací pro každého, kdo přemýšlí o vlastní AI infrastruktuře — ať už na AWS nebo mimo něj.
Více o efektivním využití AI v energetickém sektoru a automatizaci najdete na smartenergyshare.cz a přehled baterových úložišť pro průmyslové nasazení na bess-global-blog.vercel.app.