Jedna z nejnavštěvovanějších stránek na internetu, otevřená encyklopedie Wikipedia, kterou může kdokoli editovat, nezobrazuje svým čtenářům žádné reklamy. Jde o princip. Její zakladatelé od začátku věřili, že reklamy by znamenaly možný střet zájmů. Místo toho žije nadace Wikimedia z příspěvků.

Jedním z výrazných přispěvatelů je společnost Google, která přispěla třemi miliony dolarů na provoz organizace. Celkem tak Google za posledních deset let věnoval na provoz Wikipedie přes sedm a půl milionů dolarů. Část příspěvku směřuje přímo na dlouhodobý projekt Wikimedia Endowment, zbytek na běžný provoz.

Wikimedia hospodaří s majetkem 145 milionů dolarů a ročním rozpočtem 104 milionů dolarů. Největší položkou v nákladech jsou mzdy a granty, které organizace poskytuje. Zdaleka největším zdrojem příjmů (přes 95 %) jsou každoročně příspěvky dárců.

Google využívá Wikipedii jako databázi vědomostí

Připomeňme, že v roce 2008 zkusil Google spustit svou vlastní konkurenci Wikipedie. Jmenovala se Knol a slibovala spolehlivé informace psané odborníky i laiky z celého světa. Projekt se ale neujal a po čtyřech letech jej Google bez náhrady zařízl.

Motivace společnosti Google tak v tomto případě není nutně nezištná. Google totiž obsah Wikipedie využívá v řadě svých produktů. Především ve vyhledávání, kde se informace z Wikipedie často zobrazují nejen mezi prvními „organickými výsledky vyhledávání“, ale i jako odpověď na otázku ve formě rámečku se stručnými informacemi.

Výstřižek (Snippet) z Wikipedie zobrazuje vyhledávač Google všude tam, kde podle algoritmu nabízí užitečný kontext nebo dokonce rychlou odpověď na položenou otázku

Wikipedie je také častým zdrojem informací pro rychlé odpovědi Asistenta Google na faktické otázky. Právě tyto překvapivě přesné odpovědi dávají asistentovi od společnosti Google určitou výhodu před konkurencí.

Jaké dotazy nejčastěji klademe asistentovi Google Home (roční test):

VIDEO: K čemu je digitální asistent Google? Pro zobrazení videa musíte mít zapnutou podporu JavaScriptu

Výstřižky a odpovědi asistenta nezobrazují samozřejmě jen informace z Wikipedie, ale i z dalších zdrojů. Vzhledem k aktuální nejistotě ohledně budoucích úprav autorského zákona v EU by ovšem mohla nastat situace, kdy by Google nemohl zobrazovat náhledy některých stránek, aniž by za tyto náhledy platil. To se mu u Wikipedie, která obsah publikuje pod licencí Creative Commons, stát nemůže. Pro vyhledávač je tak existence Wikipedie velmi výhodná. A protože Google je nejpoužívanějším vyhledávačem prakticky ve všech zemích světa (s výjimkou Číny, kde je zakázaný, a Ruska, kde jej o několik procent poráží místní Yandex), je pro vyhledávač důležité, aby Wikipedia skvěle fungovala po celém světě.

Expanze do celého světa i díky strojovému učení

Wikipedia je svým rozsahem i šíří témat nejrozsáhlejším zdrojem vědomostí na světě. Týká se to ale především anglické Wikipedie, která obsahuje přes pět milionů článků, které jsou výsledkem více než 875 milionů editací.

Aktivně udržované jsou kromě anglicky psané Wikipedie také německá, francouzská, španělská, ruská a japonská, všechny tyto verze mají alespoň deset tisíc aktivních editorů. Česká Wikipedie patří svou velikostí do třetí desítky.

Řada „menších Wikipedií“, tedy jazykových variant méně rozšířených jazyků, se ale potýká s nedostatkem přispěvatelů, editorů, a tedy i obsahu. Google v tomto ohledu chce Wikipedii pomoci, a nabízí tak přispěvatelům možnost využívat integrovaný strojový překlad pomocí nástroje Google Translate. Ten nově využívá hluboké strojové učení pro lepší překlad v kontextu věty.

Jak funguje strojový překlad Google Translate (video: Technet.cz):

VIDEO: Google skokově vylepšil překlad Pro zobrazení videa musíte mít zapnutou podporu JavaScriptu

Tyto automatizované nástroje by tak měly pomoci rozšířit Wikipedii v jazycích, které jsou relativně rozšířené co do počtu aktivních uživatelů, ovšem jejich zastoupení na Wikipedii je maličké. Třeba jazykem zuluštinou se jako mateřským jazykem dorozumívá více než 10 milionů lidí (a dalších 16 mlionů jej používá jako druhý jazyk), ovšem příslušná verze Wikipedie obsahuje zatím jen tisícovku článků. To by mohl strojový překlad pomoci změnit. Počítačový překlad s sebou samozřejmě nese i nevýhody, především přehnaný důraz na cizojazyčný kontext na úkor lokálních témat.

V minulosti takto Google podpořil například projekt tvorby wikipedických článků ve 23 indických jazycích (Project Tiger).

Zdroj dat pro neuronové sítě a umělou inteligenci

Wikipedia dávno neslouží jen lidským uživatelům. Data z ní čerpají i vývojáři, kteří experimentují s různými formami „umělé inteligence“, tedy přesněji řečeno neuronových sítí. Protože data na Wikipedii jsou poskytovaná pod licencí Creative Commons, která (v některých verzích) umožňuje bezplatné využití dat k dalším účelům, stala se vítaným zdrojem podkladů, na kterých se neuronová síť trénuje nebo s nimi jinak pracuje. Přispívá k tomu i poměrně spolehlivá struktura kategorií, štítků a tabulek, která dělá z Wikipedie atraktivní soubor strojově čitelných, lidmi generovaných údajů o všem možném, od hlav států přes seznam hromadných vražd střelnou zbraní v USA až třeba po seznam všech lidí, kteří vycestovali do vesmíru.

Těchto vědomostí využívají třeba konverzační roboti jako Siri a Alexa, ostatně giganti Apple i Amazon rovněž patří mezi podporovatele nadace Wikimedia. S tím, jak bude stoupat význam těchto asistentů a zároveň bude na internetu přibývat lidí z rozvíjejících se oblastí světa, bude stoupat i význam Wikipedie v méně rozšířených jazykových verzích. Google ví, že pro úspěch na těchto zatím malých (ale za deset let možná významných lokálních trzích) potřebuje, aby noví uživatelé na webu našli stránky ve svém jazyce. Investice do Wikipedie je tedy pro firmu Google investicí do své vlastní budoucnosti.