Videogenerátor Sora od svého představení vyvolává nadšení i obavy. Dokáže udělat v podstatě z každého videotvůrce. Stačí, aby uživatel napsal nějaké textové zadání a systém mu vygeneruje odpovídající video. Dá se očekávat, že to bude podobné, jako u promptů pro ChatGPT od stejné společnosti, čím lepší prompt (zadání), tím lépe odpovídající video. Vedle toho může Sora jako část zadání využít obrázky nebo videa, která jí uživatel nahraje, ty pak systém rozšíří nebo různě namíchá.
Je třeba počítat s tím, že generované video nebude dokonalé, zvláště u složitých akcí, které mají trvat delší dobu. Firma také varuje před tím, že Sora může generovat nerealistickou fyziku. Už při uvedení v únoru ale byla zveřejněná videa opravdu zajímavá.
16. února 2024 |
Firma OpenAI pro službu zaregistrovala internetovou adresu sora.com. Přes ní mohou uživatelé získat přístup k verzi Sora Turbo, což má být výrazně rychlejší model v poměru k tomu uvedenému v únoru.
Firma OpenAI ukázala generátor dechberoucích videí, nyní zkoumá bezpečnost |
Kdo bude chtít tento nový generátor vyzkoušet, musí splnit dvě podmínky. Jednak musí být předplatitel služby ChatGPT Plus (20 USD za měsíc) nebo Pro (200 USD za měsíc) a také nesmí být ze Spojené království, Švýcarska a Evropského hospodářského prostoru. Druhá podmínka patrně souvisí s ochranou osobních údajů a dalšími regulacemi, které mají chránit citlivé údaje uživatelů a firma si tak nejdříve bude muset vyjednat podmínky využívání.
Zájemci o tuto službu si nyní při generování videí s délkou až 30 sekund budou moci vybrat poměr stran mezi čtvercovým, širokoúhlým nebo obrazem na výšku. K dispozici je rozlišení až do 1080p.
„Vyvinuli jsme nová rozhraní, která usnadňují zadávání promptů aplikaci Sora pomocí textu, obrázků a videí. Náš nástroj storyboard umožňuje uživatelům přesně specifikovat vstupy pro každý snímek. Máme také kanály Featured a Recent, které jsou neustále aktualizovány výtvory od komunity,“ popisuje OpenAI funkce generátoru Sora.
Společnost do systému zakomponovala některé bezpečnostní funkce, abychom nemuseli zcela přestat věřit tomu, co vidíme ve videích na internetu. Jednak využívá C2PA metadata, která identifikují videa jako vygenerovaná Sorou a pak také nemá být generátor schopen vytvořit některá videa.
„V současné době blokujeme obzvláště škodlivé formy zneužívání, jako jsou materiály o sexuálním zneužívání dětí a sexuální deepfakes. Nahrávání osob bude při spuštění omezeno, ale máme v úmyslu tuto funkci rozšířit na více uživatelů, jak budeme zdokonalovat naší kontrolu deepfake,“ vysvětlují tvůrci generátoru.
Omezené veřejné testování Sory, které probíhalo od února, se projevilo i v některých reklamách, které byly za pomoci tohoto nástroje vytvořeny. Nejznámější je asi ta vánoční od Coca-Coly, ale využita byla u hračkářství Toys R Us, které si nechalo vytvořit snímek The Origin of Toys R Us: Brand Film.
27. listopadu 2024 |
Nástroj ale vyvolal i kontroverzi. Ke konci minulého měsíce musela dokonce firma kvůli jednomu protestu na chvíli provoz systému pozastavit. Ten vyvolala skupina několika umělců ze zhruba tří stovek, kteří získali předběžný přístup k tomuto nástroji. Skupina těchto testerů totiž zveřejnila přístup k nástroji spolu s manifestem, v němž program OpenAI odsoudila jako vykořisťovatelský.
OpenAI zastavila kvůli speciálnímu protestu umělců videogenerátor Sora |
Konkurence zkouší i zvuk
OpenAI není jediná společnost, která vytváří takovýto generátor videí. V březnu tohoto roku na sebe upozornili výzkumníci z čínské Alibaby. Ti ukázali systém, který za pomoci AI z jedné fotografie člověka vytvoří poměrně realisticky vypadající obličej, který mluví nebo zazpívá, co mu zadáte. Jejich model, který nazvali EMO, pracuje se dvěma fázemi.
V první fázi se extrahují rysy z předloženého snímku, aby byl výsledek pak použit k vytvoření série rozpohybovaných snímků. Druhou je fáze, kdy předem natrénovaný zvukový kodér zpracovává zvukové vložky.
Na začátku prosince zase ukázala svůj AI videogenerátor společnost Google. Jmenuje se Veo a využívá zkušeností skupiny kolem projektu Google DeepMind. Veo generuje videa z existujících nebo umělou inteligencí vytvořených snímků, stejně jako z textového zadaní. Firma slibuje rychlé generování.
„Díky pokročilému porozumění přirozenému jazyku a vizuální sémantice se generují videa, která přesně odpovídají zadání. Veo na Vertex AI vytváří záběry, které jsou konzistentní a souvislé, takže se lidé, zvířata a objekty v záběrech pohybují realisticky,“ popisují zástupci Googlu.
Také tyto video mají označení. V tomto případě se používá vodoznak Google DeepMind’s SynthID. Zároveň mají fungovat filtry, které dodržují bezpečností AI principy Googlu.
Známý je také generátor animací od Adobe s názvem Firefly. AI videogenerátory nabízí i startupy jako Runway, Hailuo, Luma a další.