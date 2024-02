Jedním z mediálně „nejpropíranějších“ startupů produkujících umělé generování a klonování hlasu pomocí systému umělé inteligence je americký startup ElevenLabs. Jednak proto, že se díky obřím investicím mnoha společností stal „jednorožcem“, tedy firmou, jejíž hodnota se raketově dostala přes metu jedné miliardy dolarů, a jednak proto, že podle expertů právě jeho nástroje a algoritmy stojí za falešnými telefonáty amerického prezidenta Joea Bidena.

Ačkoli si někdo může autory těchto podvržených hlasů představovat jako „ajťáky“ v mikinách s kapucí, kteří se hrbí před monitory s ubíhajícími řádky programového kódu v zelené barvě, reálná práce s potřebnými nástroji je mnohem méně romantická.

Vyzkoušeli jsme to právě s nástroji od ElevenLabs. Stačilo si vytvořit účet, vybrat vhodný balíček předplatného, zaplatit… a pak už se otevře elegantní webového rozhraní, jehož prostřednictví máte ke všem nástrojům přístup.

Dnes si ukážeme jen jednu z funkcí – naklonujeme cizí hlas a necháme ho přečíst text, který nikdy neřekl.

Stačí krátká nahrávka

První, co je potřeba udělat, je vytvořit hlasový profil. K tomu slouží jednoduchý formulář, kde vyplníte jméno a nahrajete nejméně jeden, nejvíc dvacet pět zvukových vzorků, z nichž každý může mít až 10 MB. Audio by mělo mít aspoň minutu. Samozřejmě, pokud nahrajete dělší vzorek, výsledek bude přesnější.

Systém musí dostat nahrávku pouze s jedním hlasem, který chcete naklonovat, proto pokud chcete systém učit třeba z rozhovoru, je potřeba ho napřed sestříhat – my k tomu úspěšně používáme bezplatné Audacity. Kvůli příkrému limitu ve velikosti souboru, který systém od ElevenLabs akceptuje, jsme vzorky komprimovali do formátu MP3.

ElevenLabs Společnost založili v roce 2022 Piotr Dąbkowski, bývalý inženýr strojového učení společnosti Google, a Mateusz Staniszewski, plánovač nasazování software ve společnosti Palantir. Oba vyrostli v Polsku a inspirací pro založení ElevenLabs jim údajně bylo sledování nepovedeně dabovaných amerických filmů. zdroj: Wikipedia

Součástí dialogového okna, ve kterém tvoříte hlasový profil, je možnost vložit identifikační štítky a popis hlasu. Dialog je v angličtině a tak jsme to dodržovali. Nakonec musíte čestně prohlásit, že máte práva k užití hlasu a že výsledek nepoužijete k nějakým nekalostem. Tím je profil připraven a můžete ho kdykoli použít ke generování „podvrženého“ hlasového projevu.

My jsme takto vytvořili hlasový profil kolegy Vladimíra Vokála, jehož hlas znáte například z pořadu Rozstřel, načtených historických knih vycházejících v rámci Podcastů iDNES.cz nebo zpráv Rádia Impuls. Model jsme natrénovali na sedmiminutovém vzorku načtené knihy a asi třech minutách živého rozhlasového rozhovoru.

Hlas umělého Vladimíra

U zvoleného hlasového profilu – s naším středním předplatným „Creator“ za dvacet dva dolarů měsíčně si jich můžeme uložit až třicet – stačí kliknout na Use (použít) a do připraveného okna zkopírovat připravený text (text to speech). Můžete také nahrát zvukový soubor s mluveným slovem, který systém namluví znovu zvoleným hlasem (speech to speech).

Formulář pro vytvoření podvrženého hlasového záznamu

V sekci nastavení si můžete pohrát s parametry vytváření hlasu, ideální je na kratším vzorku textu vyzkoušet víc nastavení a celý text (limit je pět tisíc znaků na jeden výsledný zvukový soubor) načíst až s vhodným nastavením. Každý balíček předplatného má totiž měsíční limit na počet znaků (u balíčku Creator je uvedeno sto tisíc, reálně jsme jich dostali minimálně o třicet tisíc víc), tak je dobré neplýtvat.

Nastavení hlasové syntézy

Je možné si vybrat z několika AI modelů, nicméně čeština je pouze v Multilingual V2, takže v tomto případě je volba nejspíš jednoduchá.

Výběr jazykových modelů

A pak už stačí kliknout na „Generate“. Po několika desítkách sekund se spustí přehrávání již namluvené části, která postupně přibývá – někdy se reprodukce na chvilku zastaví, jindy to systém stihne odbavit rovnou pro poslech. Každopádně je vygenerování zvukové verze textu otázkou desítek sekund až jednotek minut – odbavuje se na serverech společnosti, evidentně mají zatím dostatek volné kapacity.

Vladimír dopadl (skoro) výborně, ale…

Jak dopadlo namluvení textu hlasem Vladimíra Vokála generovaným nástroji od ElevenLabs, se můžete přesvědčit sami v úvodním článkovém videu. Je v něm pro srovnání i kus skutečně načteného textu – výňatek z jednoho ze vzorků, který jsme použili pro trénování.

Zaměnit vygenerovaný hlas za skutečný Vladimírův projev by bylo docela snadné. Varováním by mohly být snad jen ne vždy dobře trefené pauzy na nádechy, případně kladení důrazu tam, kam nepatří. Ale kolik lidí takové detaily „praští do ucha“ ve chvíli, kdy o kvalitě projevu nepřemýšlejí?

Ne vždy se ale dílo podařilo. Ukázalo se, že trénovaný hlas profesionálního moderátora je pro klonování pomocí AI ideální. Není v něm totiž mnoho chyb a fonetických nedokonalostí a navíc je nahrán ve vysoké zvukové kvalitě. Zejména z druhého důvodu jsme poněkud narazili s nápadem nechat hlasem prvního československého prezidenta Tomáše Garrigua Masaryka přečíst novoroční projev současného prezidenta Petra Pavla. V „jakés takés“ kvalitě jsme našli jen úplné minimum dobových nahrávek – a na výsledku to bylo znát. Ostatně, poslechněte si sami.

Nepřesvědčivě dopadl pokus o stejnou realizaci, tentokrát ale s hlasem prvního prezidenta České republiky Václava Havla. Jeho charakteristické ráčkování se AI model nenaučil a pro Havla specifická dynamika a kladení důrazů se do výsledku taky nedostaly. Výsledek měl sice podrobnou barvu, ale že nejde o záznam skutečného projevu, bylo docela zřejmé.

Nástroje od ElevenLabs umí i další triky, například vytvoření vlastního hlasového avatara pomocí mnohem preciznějšího učícího procesu. Ale to si vyzkoušíme příště.