Rozstřel
Sledovat další díly na iDNES.tvEvropa usiluje o vlastní alternativu k současným jazykovým modelům AI, avšak rozhodně ne proto, aby vytvořila dalšího chatbota, ale zejména kvůli tomu, aby získala kontrolu nad technologií, která bude v budoucnu stejně strategická jako energie nebo obrana.
V projektu OpenEuroLLM, který koordinuje Univerzita Karlova a spojuje přední evropské firmy, výzkumné instituce i superpočítačová centra, hrají výraznou roli právě čeští odborníci, v čele s hlavním koordinátorem Janem Hajičem.
Umělá inteligence je strategická jako energie
„Digitální technologie jsou něco podobného jako ropa nebo plyn. Možná jednou budou ještě důležitější. Je potřeba, aby Evropa nebyla závislá jen na tom, co se dováží zvenku,“ říká Jan Hajič z Ústavu formální a aplikované lingvistiky MFF UK.
Evropský model podle něj nemá být kopií Gemini nebo Chatu GPT. Zatím vzniká takzvaný základní model – technologická kostra, na které teprve další firmy postaví finální produkty. „Nebude to ChatGPT. Naším úkolem je udělat základní model, který se pak musí dotrénovat, aby byl interaktivní,“ vysvětluje Hajič.
První větší verze by měla dorazit ještě letos. „Koncem roku bude větší model v řádu deseti miliard parametrů. Ještě nebude na špičkové úrovni, ale něco už letos zveřejníme,“ slíbil v Rozstřelu koordinátor projektu.
Jednou z hlavních ambicí projektu je, aby evropská AI fungovala lépe v menších jazycích. Zatímco dnešní globální modely dominují v angličtině, v lotyštině, estonštině nebo albánštině jejich kvalita často zaostává.
„Od začátku klademe důraz na to, aby model byl pokud možno stejně kvalitní ve všech evropských jazycích,“ říká Hajič. Projekt cílí na 42 jazyků včetně češtiny. Ta si podle něj vede překvapivě dobře. „Čeština je objemem dat asi na desátém až dvanáctém místě mezi jazyky, které řešíme. Není to tak špatné.“
Čeština i estonština
Právě důraz na malé jazyky má být hlavní konkurenční výhodou oproti americkým modelům. „Když s tímto modelem budete mluvit česky, slovensky, albánsky nebo litevsky, měl by se chovat lépe než současné modely,“ tvrdí.
OpenEuroLLM v číslech:
|
Vedle jazykové kvality má být evropský model i výrazně otevřenější. Na rozdíl od komerčních konkurentů má být dohledatelné, z jakých dat se učil. „Mělo by být možné vše vystopovat zpětně až k datům, na kterých se model trénoval,“ popisuje Hajič, s tím, že transparentnost je jedna z klíčových podmínek budoucí evropské AI.
To však v sobě skrývá také problém a možná i největší hrozbu pro celý projekt. Evropská AI totiž stojí na datech z internetu – stejně jako všechny ostatní velké jazykové modely. Jenže právě používání takových dat může v budoucnu narazit na přísnější copyrightová pravidla. A podle Hajiče se o tom v Bruselu mentálně reálně diskutuje.
„Nechci, abychom utratili 35 milionů eur, vyrobili skvělý model a pak nám někdo řekl: vlastně ho nesmíte používat, protože jsme změnili pravidla,“ varuje s tím, že v tuto chvíli probíhají klíčová jednání o tom, jak s daty na internetu nakládat. Zpřísnění pravidel hájí významná část poslanců Evropského parlamentu a zásadní v dalších měsících bude to, jak se k tomu postaví Evropská komise.
Politická korektnost? Povaha AI?
Podle něj by zpřísnění pravidel poškodil Evropu ve chvíli, kdy už nyní za USA a také za Čínou významně zaostává. Hajič souhlasí s tím, že by se takovýmto postupem EU střelila do vlastní nohy.
Projekt navíc komplikuje i nedostatek výpočetní infrastruktury. Evropa sice mluví o AI gigafactories, jedna z nich by mohla vyrůst také v ČR, ale realita je podle Hajiče mnohem méně ambiciózní.
„Největší modely dnes v Evropě zvládne jen německé centrum – a to teď navíc půl roku nefungovalo,“ říká s tím, že OpenEuroLLM má kvůli tomu několikaměsíční zpoždění. Formálně má projekt skončit v lednu 2028, tým už ale počítá s tím, že si zřejmě vyžádá prodloužení.
Vedle technických a právních otázek Hajič odmítá představu, že by základní model měl nějakou „ideologii“ nebo vlastní „povahu“. „Umělá inteligence nemyslí. Jsou to hromady čísel, která se násobí a sčítají,“ říká.
Debata o tom, co AI smí a nesmí říkat, tedy diskuse o politické korektnosti jazykových modelů, se podle něj odehrává hlavně až na úrovni finálních aplikací. „Vy přece nechcete, aby model neznal slovo zbraně. Chcete, aby o nich něco řekl, ale ne aby dával návody na výrobu,“ vysvětluje.
Evropa podle něj nebuduje jen další technologický experiment. Staví vlastní digitální infrastrukturu – a zároveň testuje, zda je schopná vytvořit strategickou technologii, aniž by ji sama zadusila pravidly. „Multijazyčnost, otevřenost a digitální suverenita. To jsou hlavní důvody, proč projekt děláme,“ uzavírá Hajič.






























