Projekt Sora od společnosti OpenAI ukázal, že generativní umělá inteligence dokáže na základě jednoduchého textového zadání vygenerovat poměrně realistickou filmovou scénu. Jedním z prvních výtvorů tohoto systému byla i asijská dívka procházející se po městě, která se tak stala symbolem této generativní AI.
16. února 2024 |
Nyní tento produkt umělé inteligence vzali odborníci z Institutu pro inteligentní IT, který provozuje Alibaba Group, a naučili ji „povídat a zpívat“. Sora, jak dívku přezdíváme, ale nebyla jediná, na které si vyzkoušeli schopnosti svého difúzního modelu, který nazvali EMO. Zkratka vychází z názvu Emote Portrait Alive, což je jejich systém pro generování portrétních videí pomocí difúzního modelu.
Difúzní modely Trénink difúzních modelů se provádí tak, že se do obrázků přidává šum, který se následně učí model odstraňovat. Při generování obrázků model využívá tento proces obnovy, a vytváří tak realistické obrazy z původního šumu. |
Vědci z institutu uvádí, že stačí poskytnout fotografii a zvukový soubor a EMO následně dokáže generovat AI videa, kde mohou lidé mluvit a zpívat.
„Naše metoda dokáže generovat hlasová videa s expresivními výrazy obličeje a různými polohami hlavy a zároveň dokáže generovat videa s libovolnou délkou trvání v závislosti na délce vstupního videa,“ vysvětlují autoři.
Jak je na přiloženém videu vidět, výrazy jsou velmi důvěryhodně.
Celý proces je podle jeho tvůrců nastaven tak, aby se v první fázi extrahovaly rysy z předloženého snímku, a výsledek je pak použit k vytvoření série rozpohybovaných snímků. Druhou je fáze difúzního procesu, kdy předem natrénovaný zvukový kodér zpracovává zvukové vložky.
Jak to celé probíhá, popisují tvůrci v tomto obrázku: