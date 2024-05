Pondělní představení novinek společnosti OpenAI, která provozuje asi nejznámější chatbot (ChatGPT) poháněný AI ukázal zajímavou kombinaci využití umělé inteligence, která reaguje na hlas a s pomocí kamery dokáže pracovat i s obrazem.

I Google, který nazývá svou generativní AI Gemini, nyní ukázal tzv. multimodální AI, tedy takovou, která není omezená jen na textová zadání, ale dokáže využít i obraz a zvuk a také je generovat.

Firma schopnosti tohoto systému ukázala v rámci ukázky z projektu Astra. V něm uživatelka procházela se zapnutou kamerou po pracovišti a například se zeptala, zda může Gemini najít nějaké zvukové zařízení.

Když systém upozornil na reproduktor, zaměřila na něj kameru a nakreslila na displeji šipku na výškový reproduktor, načež o něm chtěla vědět podrobnosti. Následně se přesunula k displeji, kde byl nějaký kód a ten chtěla popsat, což pro ni systém udělal. Další úkol dostala umělá inteligence poté, co kameru uživatelka zaměřila na okno a zeptala se, kde se nacházejí, na což jí AI odpověděla informací o místě.

Umělá inteligence od Googlu odhaduje, kam se uživatel dívá

Vedle řady dalších úkolů byl zajímavý i ten, kdy byly na tabuli nakresleny dvě kočky, přičemž jedna měla otevřené a druhá zavřené oči, demonstrátorka u obrázku přidržela krabičku a zeptala se AI, co jí to připomíná, ta odpověděla že Schrödingerovu kočku.

Projekt Astra ukazuje schopnosti multimodální generativní AI

I když je projekt Astra zatím ve vývojové fázi, firma některé jeho funkce brzy využije v jiných produktech. Především v připravovaném projektu AI agentů, což mají být jacísi univerzální asistenci, které si uživatel nakonfiguruje podle sebe.

Rozpoznávání věcí na obrázcích a rozpoznání jejich smyslu chce Google využít nové službě Ask Photos (Zeptej se Fotek). Gemini díky tomu umožní vyhledávat ve vašich fotografiích a videích. Na prezentaci si tak šéf firmy Sundar Pichai nechal vyhledat a ukázat fotografie, které měly ukazovat pokrok jeho malé dcery v plavání. Zeptal se ovšem třeba i na to, jakou má registrační značku auta, a vyhledala se mu nejen fotografie, ale Gemini její číslo vypsala i do odpovědi.

Ve své laboratoři Labs.Google firma také ukuchtila experimentální službu pro generování videa. VideoFX je nástroj využívající systém Veo, který je postavený na generativním modelu videa DeepMind. Experimentální nástroj je také vybaven režimem Storyboard, který umožňuje pracovat scénu po scéně a přidávat do výsledného videa hudbu.

VideoFX navazuje na již dříve uvedené generátory obrázků a hudby ImageFX a MusicFX, které nyní dostaly aktualizaci. Zároveň budou tyto nástroje v Google Labs nově dostupné ve 110 zemích a 37 jazycích.

Změna ve vyhledávání

To jsou všechno funkce, které ještě nejsou připraveny pro všeobecné použití a ne každý je využije. Na rozdíl od vyhledávání na Googlu, se kterým denně pracují miliardy lidí.

Už nyní jsme si mohli všimnout, že některé vyhledávače dávají do výsledků nejen odkaz na stránky, ale pokouší se zobrazit i relevantní odpovědi. Google tuto funkci nazývá AI overview a je podle ní určena k odpovědím na dotazy, když uživatel nemá čas dávat dohromady všechny potřebné informace. Google nabídne několik variant takového shrnutí s většími či menšími detaily, či zjednodušeným výstupem.

Nyní služba přechází z testovacího režimu do ostrého provozu. Nejdříve bude dostupná v USA a později přibudou další země.

Systém však v dohledné době zvládne i komplexnější dotazy, aby nebylo třeba dotaz rozdělit do několika vyhledávání. Uživatel tak bude moci položit najednou celý dotaz se všemi upřesněními a podrobnostmi.

Jako příklad uvedla Liz Reidová, která v Googlu šéfuje sekci vyhledávání hledání nového studio pro tréning jógy nebo pilates. V zadání bylo, že chce takové, které je oblíbené u místních obyvatel, má výhodnou polohu pro dojíždění a zároveň nabízí slevu pro nové členy. „Brzy budete moci pomocí jediného vyhledávání zadat něco jako „najdi nejlepší studia jógy nebo pilates v Bostonu a ukaž mi podrobnosti o jejich úvodních nabídkách a době chůze z Beacon Hill,“ uvedla Reidová. Systém pak vytvořil posunovací seznam tělocvičen s několika údaji a mapou, kde se nacházejí.

Ukázka vyhledávání pomocí AI Overview od Googlu

V další ukázce byl prezentující na pódiu při Google I/O předveden například i dotaz na naplánování jídelníčku na tři dny pro malou skupinu s pokrmy, které je jednoduché připravit. AI overview bude také možné použít jako studnici nápadů pro brainstorming, třeba při komplexním plánování nějaké události. Zpočátku bude nabízet tipy a rady pro to, kam jít na jídlo s ohledem na událost, která se bude slavit. Má být ale nápomocná třeba i při hledání receptů, filmů, hudby, knih, hotelů a při nakupování.

V neposlední řadě bude možné využít i video. Třeba pří hledání řešení proč nějaká věc nefunguje, což bylo na výroční konferenci Googlu prezentováno jako gramofonem,. který nefunguje protože se přenoska pro uživatelku nečekaně odsouvala. Vyhledávání pomocí videa umožnilo najít slova k popisu problému a přehled s kroky k nápravě a odkazem na zdroje, odkud byly informace čerpány.

AI Overview od Goolgu nabízí řešení problémů na základě zadání pomocí videa a hlasového požadavku

Rychlý model

Google zároveň oznámil rozšíření schopností svého nejvyššího jazykového modelu Gemini 1.5 Pro, který nově dostává paměť na až 2 miliony tokenů (token u Gemini odpovídá přibližně 4 znakům, 100 tokenů je přibližně 60–80 anglických slov). To by mělo být nejvíce ze současných velkých jazykových modelů.

„U Gemini 1.5 Pro se vylepšilo generování kódu, logické uvažování a plánování, konverzaci s více účastníky a porozumění zvuku a obrazu díky pokroku v oblasti dat a algoritmů. U každé z těchto úloh vidíme výrazné zlepšení ve veřejných i interních srovnávacích testech,“ chlubí se Google.

Vedle toho se objevil i odlehčenější model Gemini 1.5 Flash (také multimodální) s rychlejší odezvou a levnějším provozem a pamětí milion tokenů. Oba systémy budou pro přístup k větší tokenové paměti dostupné přes Google AI Studio a Vertex AI.

Gemini 1.5 Flash i Pro mohou pracovat s milionem tokenů naráz

„Flash vyniká v sumarizaci, chatovacích aplikacích, titulkování obrázků a videí, extrakci dat z dlouhých dokumentů a tabulek a dalších funkcích. Je tomu tak proto, že byl vyškolen Gemini 1.5 Pro prostřednictvím procesu zvaného „destilace“, kdy jsou nejpodstatnější znalosti a dovednosti z většího modelu přeneseny do menšího a efektivnějšího modelu,“ popisuje schopnosti nového modelu Google.

Vedle toho mohou zájemci využít i původní modely Gemini 1.0 Pro, Ultra a Nano. Poslední zmíněný určený pro mobilní zařízení s Androidem dostal podporu práce s obrázky. Google uvedl i novou generaci opensource modelu Gemma2.

Další podrobnosti s některé další novinky představené na Google I/O najdete v naší galerii.