Mrtví piloti znovu mluví. Stačí 30 sekund nahrávky a open-source model za nula korun

Kapitán Raymond „Ray" Toliver zemřel v roce 1984. Americký stíhací pilot, veterán druhé světové války, držitel Distinguished Flying Cross. Jeho hlas zněl naposledy v rozhovoru pro vojenský archiv někdy v sedmdesátých letech. Dnes ten samý hlas čte bezpečnostní briefing pro kadety americké Air Force Academy. Přesněji řečeno — čte ho AI, která se naučila mluvit jako on.

Jak se klonuje hlas mrtvého člověka

Americká armáda není jediná, kdo experimentuje s hlasovou restitucí. Britské Imperial War Museum spustilo loni pilotní program, kde z archivních nahrávek RAF pilotů z bitvy o Británii generuje interaktivní audio průvodce. Návštěvník položí otázku, AI odpoví hlasem muže, který zemřel před osmdesáti lety.

Technicky jde o voice cloning — natrénování neuronové sítě na vzorku řeči konkrétního člověka. Ještě před třemi lety potřeboval ElevenLabs minimálně hodinu čistého audia. Dnes stačí 30 sekund. Open-source alternativy jako Coqui TTS nebo RVC (Retrieval-based Voice Conversion) zvládnou slušný výsledek i z patnácti sekund.

Postup je překvapivě přímočarý. Stáhnete si RVC WebUI, nahrajete archivní nahrávku, model natrénujete na GPU — GTX 1060 stačí, RTX 4090 to zvládne za minuty místo hodin. Výstup je voice model, který pak převede libovolný text na řeč v daném hlase. Celé to běží lokálně, bez cloudu, bez předplatného.

Co to stojí a co k tomu potřebujete

Komerční cesta: ElevenLabs Professional Voice Clone stojí od 22 dolarů měsíčně. Resemble.AI účtuje 0,006 dolaru za sekundu generovaného audia. Pro vojenský archiv s tisíci nahrávkami to dává smysl — ale pro nadšence nebo malé muzeum je to zbytečně drahé.

Open-source cesta: nula korun za software, ale potřebujete hardware. Minimální setup pro trénink:

CPU-only (pomalé, ale funkční): libovolný počítač, Bark model přes Ollama nebo HuggingFace Transformers
GPU trénink: NVIDIA s 8 GB VRAM (RTX 3060 za cca 7 000 Kč z bazaru), CUDA toolkit, Python 3.10+
Produkční kvalita: RTX 4070+ (16 GB VRAM), trénink RVC modelu na 10 minutách audia zabere asi 20 minut

Na HuggingFace najdete předtrénované modely pro češtinu i angličtinu. Model `facebook/mms-tts` pokrývá přes tisíc jazyků. Pro klonování konkrétního hlasu ale potřebujete fine-tuning — a tam přichází ke slovu LoRA adaptéry, které sníží nároky na VRAM z desítek na jednotky gigabajtů.

Nemotron a rychlost světla v generování textu

Zajímavý kontext dává nedávná práce NVIDIA na Nemotron-Labs Diffusion Language Models. Klasické jazykové modely generují text token po tokenu — sekvenčně, pomalu. Difuzní přístup generuje celé bloky najednou, podobně jako Stable Diffusion generuje celý obrázek, ne pixel po pixelu.

Pro hlasovou syntézu to má přímý dopad. Systémy jako XTTS-v2 (nástupce Coqui TTS) kombinují jazykový model s vokodérem. Pokud jazykový model dokáže vyplivnout celou větu najednou místo slovo po slovu, latence klesne z sekund na milisekundy. Real-time konverzace s hlasem mrtvého pilota přestává být sci-fi a stává se inženýrským problémem.

Specializace poráží velikost

Tohle je asi nejpodceňovanější insight celého oboru. Velké modely (GPT-4o, Claude) umí voice cloning obstojně, ale malý specializovaný model natrénovaný na konkrétní hlas je vždycky lepší. Meta studie z letošního roku potvrzuje to, co praktici vědí dávno: specializace poráží škálu.

Pro vojenské archivy to znamená, že nepotřebují platit za API call k obřímu modelu. Stačí RVC model o velikosti 40 MB, natrénovaný na jednom konkrétním hlase, běžící na edge zařízení. Raspberry Pi 5 s NPU akcelerátorem zvládne inferenci voice modelu v reálném čase. Jeden pilot, jeden model, jeden čip.

Stejný princip funguje v energetice. Proč platit za cloudový AI model, který predikuje spotřebu celé země, když malý lokální model natrénovaný na datech vaší domácnosti bude přesnější? Platformy jako SmartEnergyShare pracují přesně s touto filozofií — specializované modely pro řízení spotřeby, lokální inference, žádná závislost na cloudu.

Chromecast syndrom aneb co se stane, když vám cloud zemře

Mimochodem — víte, co mají mrtví piloti společného s Chromecastem první generace? Google právě těmto zařízením vypnul serverovou podporu. Miliony lidí zjistily, že jejich hardware je mrtvý, protože závisel na cloudu, který někdo vypnul.

Hlasové modely mrtvých pilotů běžící čistě v cloudu čeká stejný osud. Archiv natrénuje model, zaplatí API, pět let to funguje, pak poskytovatel změní ceník nebo zavře a hlas kapitána Tolivera zase zamkne. Proto je lokální inference tak důležitá. Model uložený jako soubor na disku přežije bankrot jakékoliv firmy.

Etika: kdo smí mluvit za mrtvé

Tady to přestává být čistě technické. Britská vláda řeší zákon o „digital likeness rights" — právo na digitální podobu, včetně hlasu, i po smrti. V Česku nic takového neexistuje. Teoreticky si dnes můžete naklonovat hlas kohokoliv z veřejně dostupné nahrávky a použít ho k čemukoliv.

Americká armáda tento problém obchází tím, že získává souhlas od pozůstalých. Imperial War Museum pracuje pouze s nahrávkami, kde pilot za života podepsal široký souhlas s archivním využitím. Ale open-source nástroje nekontrolují, čí hlas klonujete. RVC se neptá na souhlas. Bark se neptá na souhlas. A deepfake audio je dnes prakticky nerozeznatelné od originálu — detekční nástroje mají úspěšnost kolem 70 %, což je zoufale málo.

Co z toho plyne

Za pět let bude normální, že muzea, školy a vojenské akademie budou používat hlasy mrtvých lidí pro vzdělávání. Technologie je hotová, náklady klesají, kvalita roste. Zbývá vyřešit právní rámec — a to tradičně trvá déle než vývoj samotné technologie.

Pokud vás zajímá praktická stránka, začněte s RVC WebUI a libovolnou archivní nahrávkou z YouTube. Za odpoledne budete mít funkční voice clone. Co s ním uděláte, je pak otázka pro vás, ne pro model.

Článek vychází z aktuálních projektů US Air Force Academy, Imperial War Museum a open-source komunity kolem voice cloning nástrojů. Zmíněné technologie jsou legálně dostupné pro výzkumné a vzdělávací účely.