DeepInfra on Hugging Face Inference Providers 🔥

Mám dost materiálu. Teď napíšu článek.
Váš cloud může zítra shořet. DeepInfra a Hugging Face právě ukázali, proč nikdy nesázet na jednoho poskytovatele
Íránské drony v březnu 2026 zasáhly tři datová centra Amazonu v Perském zálivu. Dva objekty v SAE dostaly přímý zásah, třetí v Bahrajnu poškodila tlaková vlna. Hasicí systémy způsobily záplavy, chladicí jednotky selhaly, citlivá elektronika se proměnila v šrot. AWS odhaduje opravu na půl roku. Půl roku výpadku cloudové infrastruktury, na které běží tisíce firem.
A teď si představte, že vaše AI inference — rozpoznávání obrazu z kamer, predikce spotřeby energie, automatizace výroby — závisí na jednom jediném endpointu. Jednom regionu. Jednom poskytovateli.
Právě proto stojí za pozornost to, co se stalo 29. dubna 2026: DeepInfra se stal oficiálním Inference Providerem na Hugging Face Hub.
Co to prakticky znamená
Hugging Face už dávno není jen repozitář modelů. Inference Providers je systém, který vám umožní spouštět modely přes jednotné API, ale na hardware úplně jiných firem. Aktuálně je v síti přes 20 poskytovatelů — Cerebras, Groq, Fireworks AI, Together AI, NVIDIA, Replicate, Nebius a teď i DeepInfra.
V praxi to funguje takhle: zavoláte Hugging Face API, řeknete jaký model chcete (třeba Llama 4 Maverick nebo DeepSeek V4 Pro), a systém automaticky vybere nejrychlejšího dostupného poskytovatele. Nebo nejlevnějšího. Nebo toho, kterého preferujete vy.
Tři režimy výběru: - `:fastest` — nejvyšší propustnost v tokenech za sekundu (default) - `:cheapest` — nejnižší cena za výstupní token - `:preferred` — vaše vlastní pořadí poskytovatelů
Jeden řádek v Pythonu:
```python from huggingface_hub import InferenceClient client = InferenceClient(provider="deepinfra") response = client.chat.completions.create( model="meta-llama/Llama-4-Maverick-17B-128E-Instruct", messages=[{"role": "user", "content": "Analyzuj spotřebu za březen"}] ) ```
Hotovo. Žádné vlastní GPU, žádný Docker, žádná údržba.
Proč zrovna DeepInfra
Protože je brutálně levný. Llama 4 Maverick stojí na DeepInfra $0,12 za milion vstupních tokenů a $0,30 za milion výstupních. Together AI si za totéž účtuje zhruba 3× víc. U malých modelů typu Llama 3.1 8B se bavíme o $0,06 za milion tokenů — to je tak málo, že to ani nepočítáte.
Katalog obsahuje přes 100 modelů. LLM, embedding, text-to-image, text-to-video. Všechno běží na NVIDIA H100, postupně se přechází na Blackwell, který sráží cenu za token až 10×.
Srovnání velkých tří pro kontext:
| Poskytovatel | Rychlost (TPS) | Latence | Cena | Silná stránka | |---|---|---|---|---| | DeepInfra | 79–258 | 0,23–1,27 s | Nejnižší | Cena, šíře katalogu | | Fireworks AI | ~747 | 0,17 s | Střední | Produkční latence, p99 | | Together AI | ~917 | 0,78 s | Vyšší | Fine-tuning na platformě |
DeepInfra dává $5 kredit při registraci, bez kreditky. Chcete si to vyzkoušet za víkend? Můžete.
Bezpečnostní rozměr: proč je multi-provider architektura nutnost
Vraťme se k těm dronům. Incident s AWS v Perském zálivu odhalil něco, o čem se v branži mluví potichu: fyzická infrastruktura cloudu je zranitelná. Ne jen kyberneticky — fyzicky. Tlaková vlna, požár, záplavy z hasicího systému. A oprava trvá měsíce, protože do aktivní válečné zóny se těžko posílají technici s náhradními servery.
Multi-provider inference není luxus. Je to základní bezpečnostní opatření.
Hugging Face Inference Providers řeší přesně tohle. Váš kód volá jedno API. Pod kapotou ale můžete mít failover přes tři, pět, deset různých poskytovatelů v různých geografických zónách. DeepInfra má infrastrukturu v USA a Evropě. Fireworks provozuje vlastní clustery. Groq má specializovaný hardware. Když jeden vypadne — ať už kvůli dronům, výpadku proudu nebo prostě překročení kapacity — přepnete politiku a jedete dál.
Pro kritickou infrastrukturu typu energetika je tohle zásadní. Platformy jako Smart Energy Share pracují s real-time daty z fotovoltaik, baterií a spotřebičů. AI modely predikují spotřebu, optimalizují nabíjení, reagují na spot ceny elektřiny. Výpadek inference v takovou chvíli znamená ztrátu peněz — nebo horší rozhodnutí, než by udělal člověk.
Co když nechcete cloud vůbec
Férová otázka. Ne každý chce posílat svá data přes API třetí strany. Alternativy existují.
Ollama vám rozjede Llama 3.1 8B na laptopu s 16 GB RAM. Kvalita je překvapivě dobrá pro jednoduché úlohy. Na cokoliv většího potřebujete GPU — a tady začíná počítání.
Vlastní inference server s vLLM nebo TGI (Text Generation Inference od Hugging Face) na pronajatém GPU stojí reálně $1–3 za hodinu za H100. Pokud běžíte 24/7, je to $720–2160 měsíčně. DeepInfra vám za stejné peníze obslouží miliony requestů. Matematika je jasná, pokud nemáte specifický důvod pro on-premise.
LoRA adaptery jsou zlatá střední cesta. Vezmete base model hostovaný na DeepInfra, dotrénujete si LoRA vrstvu na vlastních datech (energetické profily, vzorce spotřeby, lokální specifika), a výsledek deployujete. Platíte jen za inference, trénink LoRA zvládne i RTX 4090 za pár hodin.
Na co si dát pozor
DeepInfra nemá SLA pro serverless tier. Platíte per-token, dostanete best-effort. Pro produkční nasazení s garantovanou dostupností potřebujete dedicated instance — a tam cena skáče nahoru.
Billing přes Hugging Face je transparentní — žádná přirážka, prostý pass-through cen poskytovatele. Ale pozor: když použijete HF token místo přímého DeepInfra klíče, billing jde přes HF a nemáte přístup k detailním metrikám na straně poskytovatele.
Vendor lock-in je minimální díky standardizovanému OpenAI-kompatibilnímu API. Přepnutí z DeepInfra na Fireworks znamená změnu jednoho parametru. To je přesně ten druh architektury, kterou chcete.
Co z toho plyne
Cloud AI inference se komoditizuje. Ceny padají, počet poskytovatelů roste, switching costs se blíží nule. To je dobrá zpráva pro každého, kdo buduje AI-driven systémy — od energetické optimalizace po průmyslovou automatizaci.
Špatná zpráva? Svět se nedá predikovat. Drony na datová centra si před rokem nikdo nepředstavoval jako reálnou hrozbu. Dnes je to faktor v architektonických rozhodnutích.
Jedno API, více poskytovatelů, geografická diverzifikace. Není to přehnaná opatrnost. Je to inženýrský standard pro rok 2026.
Zdroje: - DeepInfra on Hugging Face Inference Providers - DeepInfra — oficiální blog - Hugging Face Inference Providers — dokumentace - DeepInfra pricing - Amazon drone strikes — Tom's Hardware - AI Inference Providers Compared — Infrabase.ai - NVIDIA Blackwell inference cost reduction