ElectricShare.cz
Technologie

AWS nabízí trénink jazykových modelů „na klik". Reálné náklady vás ale nepříjemně překvapí

AWS nabízí trénink jazykových modelů „na klik". Reálné náklady vás ale nepříjemně překvapí

Elon Musk prohrál spor s OpenAI — porota jednomyslně rozhodla, že žaloval příliš pozdě a jeho nároky jsou promlčeny. Irán požaduje od Big Tech poplatky za podmořské kabely v Hormuzském průlivu, což analytici označují za potenciální zdražení cloudových služeb o 3–8 %. A OlmoEarth v1.1 právě ukázal, že efektivní jazykový model nemusí mít 70 miliard parametrů. Tohle vše se děje v týdnu, kdy Amazon Web Services tiše rozšiřuje svůj ekosystém pro trénink a inference foundation modelů na průmyslovou škálu. Pokud přemýšlíte, jak na AWS postavit vlastní AI infrastrukturu — od dat po produkční nasazení — tady je realistický průvodce bez marketingového mlžení.

Proč AWS a ne jiný cloud

Upřímná odpověď: záleží na kontextu. Google má TPU a Vertex AI, Microsoft má exkluzivní přístup k OpenAI modelům přes Azure. AWS ale vyhrává v jedné věci — šíři ekosystému. Pokud vaše data leží v S3, vaše databáze běží na RDS a vaši vývojáři znají IAM, přechod k SageMaker nebo Bedrock je mnohem hladší než migrace ke konkurenci.

Klíčové stavební bloky AWS pro AI dnes tvoří čtyři vrstvy: SageMaker (trénink, ladění, hosting modelů), Amazon Bedrock (managed inference pro foundation modely jako Claude, Llama nebo Titan), EC2 P4d/P5 instance (surový hardware pro vlastní trénink) a Trainium/Inferentia čipy (vlastní silicon AWS pro cenově efektivní škálování). K tomu se přidává ekosystém nástrojů: S3 pro datasety, FSx for Lustre pro rychlé I/O při tréninku, CloudWatch pro monitoring.

Ceny za P4d.24xlarge — 8× NVIDIA A100 40GB — se pohybují kolem 32,77 USD/hodinu na on-demand. Rezervace na 1 rok srazí cenu na zhruba 20 USD/hodinu. Pro srovnání: GCP A100 instance vychází podobně, Azure o něco dráže. Spot instance na AWS mohou trénink zlevnit až o 70 %, ale musíte počítat s přerušeními — SageMaker to řeší automatickými checkpointy.

SageMaker: abstrakce, která šetří čas i nervy

SageMaker je vrstvou nad holým EC2, která za vás řeší orchestraci tréninku. Základní workflow vypadá takto:

```python from sagemaker.huggingface import HuggingFace

huggingface_estimator = HuggingFace( entry_point='train.py', instance_type='ml.p4d.24xlarge', instance_count=4, transformers_version='4.36', pytorch_version='2.1', py_version='py310', hyperparameters={ 'model_name_or_path': 'meta-llama/Llama-3-8B', 'per_device_train_batch_size': 4, 'gradient_accumulation_steps': 8, } )

huggingface_estimator.fit({'train': 's3://my-bucket/train-data/'}) ```

Čtyři instance P4d.24xlarge v tomto příkladu = 32× A100 GPU = zhruba 130 USD/hodinu. Trénink Llama-3 8B na vlastním datasetu velikosti 10 GB trvá přibližně 6–12 hodin v závislosti na konfiguraci. Celkové náklady: 780–1 560 USD za jeden tréninkový run. To není levné, ale je to řádově levnější než vlastní hardware, pokud trénujete méně než jednou týdně.

SageMaker HyperPod přidává managed cluster management — automatické zotavení z hardware selhání, distribuované tréninkové úlohy přes EFA (Elastic Fabric Adapter) a integrace s Slurm nebo Kubernetes. Pro týmy, které nechtějí spravovat vlastní clustery, je to klíčová funkce.

Trainium a Inferentia: AWS si staví vlastní silicon

AWS Trainium2 (Trn2) je vlastní akcelerátor navržený speciálně pro trénink velkých modelů. Instance trn2.48xlarge nabízí 16× Trainium2 čipů s celkovou výpočetní kapacitou 3,2 PFLOPS a NeuronLink propojením s 10 TB/s šířkou pásma. On-demand cena: 21,50 USD/hodinu — výrazně méně než P5 s H100 za ~98 USD/hodinu.

Catch? Musíte kompilovat modely přes AWS Neuron SDK. Hugging Face modely většinou fungují, ale proprietární architektury vyžadují úpravy. Vývojový overhead je reálný — počítejte s 1–3 dny na portaci existujícího tréninkovacího kódu.

Inferentia2 (Inf2) je pak určen pro inference za provozních podmínek. Instance inf2.48xlarge zvládne inference Llama-3 70B za přibližně 0,04 USD/1 000 tokenů — což je zhruba třetina ceny oproti on-demand GPU instancím. Pro produkční nasazení s vysokým provozem to dává smysl.

Bedrock: managed inference bez bolestí hlavy

Pokud nechcete spravovat infrastrukturu vůbec, Amazon Bedrock nabídne přístup k desítkám foundation modelů přes API. Claude 3.5 Sonnet: 3 USD/1M vstupních tokenů, 15 USD/1M výstupních. Meta Llama 3.3 70B přes Bedrock: 0,72 USD/1M vstupních, 0,72 USD/1M výstupních.

Bedrock Knowledge Bases umožňují RAG (Retrieval-Augmented Generation) nad vlastními daty bez jediného řádku infrastrukturního kódu. Data nahrajete do S3, propojíte s OpenSearch Serverless, a Bedrock se postará o chunking, embeddings i retrieval. Cena za zpracování dokumentů: 0,001 USD/1 000 tokenů při ingestování plus náklady na OpenSearch (~0,24 USD/OCU/hodinu).

Bedrock Fine-tuning pak dovoluje doladit vybrané modely (momentálně Titan, část Llama modelů) na vlastních datech bez přístupu k raw weights. Vhodné pro specifické use-casy: zákaznický servis v specifickém tónu, klasifikace interních dokumentů, extrakce strukturovaných dat.

Open-source alternativy a kdy AWS přestává dávat smysl

Tady přichází na scénu OlmoEarth v1.1 od Allen Institute for AI. Rodina modelů optimalizovaná pro environmentální a vědecká data — a zároveň ukázka, že efektivní trénink není výhradně záležitostí Big Tech. OlmoEarth 1B model dosahuje srovnatelných výsledků v geovědních benchmarcích jako modely 3× větší. Dostupný na Hugging Face pod Apache 2.0 licencí.

Pro self-hosted inference je Ollama stále nejvýraznější volbou pro jednotlivce a menší týmy. Na MacBooku M3 Pro zvládnete inference Llama-3 8B rychlostí ~40 tokenů/sekundu. Na serveru s RTX 4090 (24 GB VRAM) pak Llama-3 70B v 4-bit kvantizaci (~35 GB) klidně na jediné kartě — náklady na hardware kolem 2 500 EUR jednou, pak nulové provozní náklady za tokeny.

LoRA (Low-Rank Adaptation) fine-tuning změní rovnici nákladů dramaticky. Doladit Llama-3 8B na vlastním datasetu přes LoRA na RTX 4090 trvá hodiny, ne dny, a paměťové nároky jsou zlomkové oproti full fine-tuningu. Knihovna PEFT od Hugging Face to zpřístupňuje v desítkách řádků kódu. AWS tento přístup podporuje v SageMaker přes HuggingFace containers, ale pro malé projekty je lokální běh jednoduše levnější.

Kdy tedy AWS přestává dávat smysl? Přibližně tehdy, když: - Váš dataset je menší než 1 GB a model menší než 13B parametrů - Trénujete méně než jednou za dva týdny - Máte dostupný vlastní GPU server s alespoň 2× A100

Infrastrukturní rizika: Írán, podmořské kabely a ceny cloudu

Vrátím se k úvodu. Írán požaduje poplatky za internetové kabely procházející Hormuzským průlivem — klíčovou trasou pro konektivitu mezi Asií, Blízkým východem a Evropou. Tato geopolitická hrozba není jen abstraktní záležitost: zhruba 30 % globálního internetového provozu prochází přes kabely v této oblasti.

Pro AWS zákazníky v regionech ap-south-1 (Mumbai) nebo me-south-1 (Bahrajn) to může znamenat zvýšené latence, vyšší datové poplatky nebo v krajním případě narušení dostupnosti. AWS to řeší redundancí přes více tras a vlastní podmořské kabelové projekty (Oman Cable, Blue-Raman), ale garance SLA nepokrývají politické risk faktory.

Praktický dopad pro AI workloady: trénink velkých modelů generuje gigabajty checkpoint dat přenášených mezi regiony. Pokud trénujete v jednom regionu a hostujete v jiném, sledujte data transfer pricing — může být překvapivě velká položka v účtu.

Energetická stránka AI infrastruktury je tématem, kde se technologie potkává s udržitelností. AWS datacentry spotřebovávají gigawatty elektrické energie a přechod na obnovitelné zdroje — větrné a solární — mění i ekonomiku provozu. Pokud vás zajímá propojení AI infrastruktury s energetickými trhy, Smart Energy Share ukazuje, jak funguje sdílení energie a obchodování s bateriovými úložišti v praxi — včetně day tradingu elektřiny a regulační energie pro komerční provozovatele BESS systémů.

Kde začít: praktický postup pro rok 2026

Pokud stavíte AI infrastrukturu od nuly, doporučuji tento postup:

Fáze 1 — Proof of Concept (náklady: stovky USD): Začněte s Amazon Bedrock a managed inference. Žádné infrastrukturní starosti, platíte per token. Ověřte, zda váš use-case vůbec funguje s dostupnými foundation modely.

Fáze 2 — Fine-tuning (náklady: tisíce USD): Když víte, co chcete, dolaďte model přes SageMaker HuggingFace estimator nebo Bedrock Fine-tuning. Použijte LoRA kde je to možné — ušetříte 60–80 % nákladů oproti full fine-tuningu.

Fáze 3 — Produkce (náklady: měsíčně dle provozu): Zvažte Inferentia2 pro inference-heavy workloady. Nastavte auto-scaling. Sledujte náklady přes AWS Cost Explorer a nastavte alerty. Model serving přes SageMaker Real-Time Inference nebo async inference (pro dávkové zpracování).

Důležité: SageMaker Model Registry a MLflow integrace jsou klíčové pro správu verzí modelů v produkci. Bez systematického verzování se rychle ocitnete v situaci, kdy nevíte, který model běží kde a proč.

Závěr: cloud není zázračné řešení, ale je to dobrý nástroj

AWS nabízí nejkomplexnější sadu nástrojů pro AI trénink a inference v cloudu. Není nejlevnější. Není nejjednodušší. Ale kombinace SageMakeru, Bedrocku, vlastního siliconu a zázemí ekosystému dává smysl pro organizace, které berou AI vážně a mají odpovídající budget.

Muskův prohraný spor s OpenAI symbolicky uzavírá éru, kdy closed-source vs. open-source debata probíhala u soudů. Teď probíhá na GitHubu, na Hugging Face a v datových centrech po celém světě. OlmoEarth v1.1 ukazuje, že akademické týmy dokážou trénovat efektivní modely bez miliardových rozpočtů. To by mělo být inspirací pro každého, kdo přemýšlí o vlastní AI infrastruktuře — ať už na AWS nebo mimo něj.

Více o efektivním využití AI v energetickém sektoru a automatizaci najdete na smartenergyshare.cz a přehled baterových úložišť pro průmyslové nasazení na bess-global-blog.vercel.app.

Zdroje