iDNES.cz

Premium

Získejte všechny články
jen za 49 Kč / 1. měsíc

„Málem jsem zabil bratra!“ Nový překladač je lepší, chyby jsou vtipnější

10. května 2017, aktualizováno 6:51

Jak si neuronové sítě Překladače Google poradí s češtinou? Otestovali jsme překladač na 135 větách a srovnali novou verzi se starou. Na první pohled je patrné nejen výrazné zlepšení, ale i zásadní změna způsobu, jak systém využívá neuronové sítě k překladu celých vět. Ve specifických situacích se ovšem ještě má co učit.

Překlad pomocí neuronových sítí (ilustrační snímek) | foto: montáž: Pavel Kasík - Technet.cz, Profimedia.cz

35 fotografií

„Nová verze aplikace Google Translate využívá hluboké neuronové sítě k překladu celé věty, nejen krátkých frází. Neuronové sítě mohou dokonce využít to, co se naučily v jiných jazycích, aby zlepšily překlad z jazyka nebo do jazyka, kde není dostatek údajů o školení.“ Tak Překladač Google přeložil z angličtiny do češtiny popis svých nových funkcí (více v našem článku). Až na drobné chybky je to překvapivě čitelný český text bez gramatických chyb.

„Díky zapojení strojového učení neuronových sítí naše překlady přes noc udělaly takový pokrok, jako předtím za deset let od spuštění služby,“ řekl nám Barak Turovsky, produktový manažer Google Translate, u příležitosti spuštění této novinky pro český jazyk v polovině dubna.

Na první pohled bylo výrazné zlepšení patrné především u delších vět a souvětí. Zároveň jsme ale našli řadu příkladů, kde se překlad citelně zhoršil, třeba u ustálených slovních spojení a idiomů. K pořádnému otestování jsme proto (ještě před spuštěním neuronových překladů) nasbírali 135 vět nejrůznějších žánrů a stylů a porovnali staré překlady s novými.

Porovnejte staré překlady s novými v naší galerii

Zobrazit galerii vybraných ukázek staré a nové verze překladu před a po zavedení systému pro překlad celých vět pomocí strojového učení.

Sběr dat probíhal v březnu až dubnu 2017, přičemž nové překlady jsme sbírali nejpozději tři dny po aktivování funkce neuronových sítí. Všechny použité texty si můžete stáhnout v PDF. Následně jsme každou větu zanesli do databáze a porovnali oba překlady ve slepém testu (hodnotitel nevěděl, který překlad pochází z které verze překladače). Takže jak zní verdikt?

První dojem Překladač se skutečně znatelně zlepšil

Přehled hodnocení překladů

Každou větu jsme ohodnotili na škále od jedničky do pěti, kde skóre 5 byl dokonalý bezchybný překlad, zatímco nejnižší skóre signalizuje mizerný překlad se zásadními chybami nebo dokonce zásadní změnou významu.

Jako první jsme srovnali malý vzorek textů, ke kterým jsme měli k dispozici historické srovnání díky našemu článku z roku 2008. Devět textů jsme tedy mohli porovnat ve třech verzích a posoudit tedy alespoň zhruba, zda je zlepšení překladače skutečně tak skokové, jak Google sliboval.

Srovnání překladů 2008, starých 2017 a nových 2017
Originál	2008	2017 před	2017 po
The studio was filled with the rich odour of roses, and when the light summer wind stirred amidst the trees of the garden, there came through the open door the heavy scent of the lilac, or the more delicate perfume of the pink-flowering thorn.	Studio byla naplněna bohatou vůni růží, a když se světla letní vítr vzbudil uprostřed stromů na zahradě, tam přišlo přes otevřené dveře těžkých vůni z lila, nebo více delikátní parfém z růžového-květinové trn.	Studio bylo naplněno bohatou vůní růží, a když světlo léto vítr míchá uprostřed stromů v zahradě, přišel otevřenými dveřmi těžká vůně šeříku nebo více delikátní vůně růžového-kvetoucí trn.	Ateliér se naplnil bohatým zápachem růží a když se v zahradě stromy rozvířil lehký letní vítr, prošly otevřenými dveřmi těžká vůně lila nebo jemnější vůně růžového kvetoucího trnu.

Na textu z románu Oscara Wildea je vidět, že pokrok za deset let je značný. A stejně tak je znatelný pokrok nové verze s neuronovými sítěmi oproti verzi bez ní. V kvantitativním hodnocení je vidět, že skok mezi 2008 a 2017 je o něco významnější než pokrok po zavedení neuronových sítí, ovšem mějme na paměti, že jde o celkem malý vzorek devíti krátkých ukázek.

Lze tedy říci, že skok v kvalitě překladů je skutečně znatelný, i když možná ne tak výrazný, jako bylo zlepšení za posledních devět až deset let. Pojďme se podívat podrobněji na větší vzorek přeložených textů; nadále už ovšem budeme porovnávat pouze překlady z dubna 2017, těsně před a těsně po zavedení nového způsobu překládání.

Podívejte se, v čem spočívá vylepšení Překladače Google:

Žánry textu Zprávy a encyklopedie se překládají nejlépe

Nejzajímavější pro nás bylo sledovat, u jakých typů textu zaznamenal překladač největší zlepšení. Srovnávali jsme několik žánrů textů, od neformálních poznámek v diskuzi nebo komentářů na Facebooku až po formální texty encyklopedické či právnické.

Jednoznačně největší pokrok udělal Google Translate u překladu encyklopedických textů. To není překvapivé vzhledem k tomu, že encyklopedické texty jsou obvykle psané jasně, jednoznačně a nepracují s metaforami nebo idiomy. Navíc je zde (například díky Wikipedii) obrovské množství snadno dostupných textů, na kterých se neuronové sítě (a předtím statistické modely) mohou ustavičně trénovat.

Ukázka překladu z češtiny do angličtiny (vlevo) a naopak (vpravo) u textů z Wikipedie

Také zpravodajské texty (kde lze opět očekávat jednoznačné formulace) se v nové verzi výrazně zlepšily. Potíže má ale překladač (starý i nový) s dvojsmysly a zavedenými frázemi v novinových titulcích. Celkově lze ale říci, že Angličan či Američan si s Google Translate může přečíst české zpravodajství a porozumět přinejmenším podstatě článku.

Porovnání překladu Google Translate před a po implementaci neuronových sítí (zdroj: oznámení PID)

V jiných žánrech bylo zlepšení méně patrné. V próze se nový překladač snaží zohlednit celou větu, což dává lepší výsledky u delších vět, ale zároveň občas vede k novým - a celkem nečekaným - chybám. Strojový překlad poezie je nadále prakticky spíše nepoužitelný. A u českých přísloví či anglických idiomů jsme naopak zaznamenali překvapivé zhoršení.

Nejvtipnější chyby Otrocky přeložená přísloví a bratrovražda

Jedinou kategorií, ve které se neuronové sítě oproti původnímu stavu jednoznačně zhoršily, jsou „špeky“. Tak jsme si pracovně nazvali různá přísloví, ustálené fráze a idiomy. Zatímco původní verze Překladače Google si s většinou z nich dobře poradila, nová neuronová síť je bohužel překládá otrocky a doslovně.

Ukázka překladů přísloví a idiomů

Předpokládáme ale, že postupem času se nová verze také naučí překládat tyto fráze přeneseně, nikoli doslova. Mohou tomu napomoci i dobrovolníci, kteří pomáhají opravovat a vylepšovat překlady. Ostatně i vy, kdykoli překlad v Překladači Google opravíte, vysíláte zároveň neuronové síti jasný signál: tudy ne, nauč se to jinak! Původní překlady jsou navíc zatím stále ještě dostupné po rozkliknutí alternativ, takže je vidět, že Google své původní těžce nabyté vědomosti zahodit nehodlá.

Mnohem zajímavější bylo sledovat chyby, u kterých není na první pohled jasné, jak vznikly. O tom ostatně mluví i Turovsky, podle kterého neuronové sítě připomínají děti učící se cizí jazyk: „Učí se naprosto fantasticky, ale občas udělají nějakou záhadnou nebo vtipnou chybu. Někdy si dokážete odvodit, proč tu chybu udělaly, ale jindy prostě nemáte ani ponětí, jak na to přišly.“ Podobné je to s neuronovými sítěmi, které si při trénování na miliónech textů tak trochu žijí vlastním životem.

V rámci našeho testu jsme narazili hned na několik takových chyb. Třeba slovo „Staronový“ se v anglickém překladu objevilo jako vlastní jméno přivlastňovací: „Staron’s“. U biblického překladu zase neuronové sítě vytvořily z anglického slova „cymbal“ česky znějící novotvar „cinkál“. Překlad listu Korintským také ukazuje, že původní překlad byl mnohem lepší.

Zajímavé chyby vzniklé strojovým překladem

Jinde došlo při překladu k výraznému posunutí významu. Třeba když ústava „zaručuje určitým právům lidi“, namísto správného „zaručuje lidem určitá práva“. Nebo když v textu článku našeho kolegy Karla Pacnera nový překladač drasticky převrátil význam věty „Když odcházeli, málem mně, bratra a babičku zabili, protože domky v naší vesnici zapálili.“ (Poznámka redakce: Všimněte si překlepu ve slově mně v původní větě, správně má být mě nebo mne. Překlep jsme v originále zachovali z důvodu integrity testu, ve zdrojovém článku jsme ale již chybu opravili. Na překlad neměl překlep vliv - tedy překlad dopadl stejně s překlepem i bez něj.)

Porovnání překladu Google Translate před a po implementaci neuronových sítí (zdroj: článek na Technet.cz)

Takových příkladů se dá najít celá řada. Složitost takových chyb indikuje, jak komplexní je překládání pomocí neuronových sítí, které se učí napříč jazyky. Bude proto zajímavé sledovat, jak rychle Google Translate dokáže tyto chyby opravit. Mimochodem, chybu s „bratrovraždou“ již systém opravil...

Vtipná chyba již v překladu není

Další zajímavosti Méně nepřeložených slov, lepší práce s větami

Neuronové sítě přinesly jednoznačné vylepšení co do počtu nepřeložených slov. Zatímco předchozí verze nedokázala přeložit v našich textech (přes sedm tisíc slov) celkem 19 slov (tedy nechala je v textu nepřeložené), nová verze přeložila všechny kromě čtyř slov. Takto markantní rozdíl lze vysvětlit právě odlišným fungováním neuronových sítí, které se učí „napříč jazyky“. Překladač si tedy význam slova může odvodit z kontextu i za pomocí dat, která má „nastudovaná“ v úplně jiném jazyce.

Překlad českého textu bez diakritiky (zdroj: Facebook)

Zlepšilo se třeba překládání hovorových výrazů, slov, ve kterých je překlep nebo slov psaných bez diakritiky. Neuronové sítě jsou evidentně tolerantnější k drobným odlišnostem a berou v úvahu kontext věty.

To se projeví zejména u delších vět, kde překladač celkem spolehlivě zachovává rod nebo čas, a poradí si dokonce se souvětími. Krátké obraty celkem spolehlivě překládá z češtiny do angličtiny i naopak formou, která zní přirozeně, nikoli křečovitě. Dokonce i čárky ve větách vedlejších zvládá mnohem lépe, než před tím, a to i přes značně rozdílné používání čárek v češtině a angličtině.

Ukázka překladů delších vět a souvětí

Jindy naopak nový překladač díky své flexibilitě vyrobí neexistující slovo, respektive slovo s překlepem.

V překladu se objevilo slovo „stratili“.

Tato podivná chyba sice v jen trochu pozměněném kontextu zmizí, zato se objeví jiná, „čokoládový bar“ místo „čokoládové tyčinky“.

„Ztratili“ je nyní napsáno správně, ale zase se zde objevil „čokoládový bar“ místo „čokoládové tyčinky“.

Je tedy vidět, že překládání „po celých větách“ s sebou kromě výhod nese i občasné nevýhody. Pokud překládáte z jazyka, kterému nerozumíte, může být nový překladač obtížně použitelný při objasňování možných nedorozumění. Už totiž není možné podívat se na alternativní překlady jednotlivých slovních spojení v kontextu vět, pouze na celé věty. To považujeme za vůbec největší změnu k horšímu, kterou nová verze přinesla.

Verdikt Výrazná změna k lepšímu. Nejen v angličtině

Co jsme v našem testu zjistili? Nová verze Překladače Google je skutečně novou verzí, nikoli jen nějak drobně či kosmeticky vylepšenou. Na kvalitě překladů je to znát. Ne vždy je změna k lepšímu, ale když jsme u všech čtyřiceti textů (celkem 2 293 slov) porovnali předchozí a současné překlady, je jasné, že mnohem častěji byla změna krokem k lepšímu.

Skoro ve třech pětinách došlo ke zlepšení překladu, pouze v jedné pětině se překlad zhoršil. Nejčastěji došlo ke zhoršení u oněch již zmíněných „špeků“, tedy ustálených frází a idiomů. Skoro ve všech ostatních případech došlo k mírnému či výraznému zlepšení.

Vývoj a historie strojového překladu

Podíváme-li se na překlady vět z češtiny do angličtiny a naopak, vidíme, že Překladač Google si i nadále lépe poradí s překlady do angličtiny. To by nemělo nikoho udivit, angličtina je nejpoužívanější jazyk na světě, takže systém může čerpat z většího množství příkladů do a z různých jazyků. Navíc jde o jazyk s minimální flexí (skloňování, časování). Překlady do češtiny jsou o trochu méně srozumitelné, ale právě zde mají neuronové sítě velkou šanci zazářit. Už od prvního dne zde bylo patrné velké zlepšení. (Kategorii „špeků“ v zájmu férovějšího hodnocení v následujících dvou srovnáních vynecháváme.)

Nezapomínejme samozřejmě, že průměrné hodnocení 2,71 z pěti má stále k dokonalosti daleko. V některých situacích se vyrovná lidským překladatelům, většinou ale musí uživatelé vzít zavděk „jen“ překladem srozumitelným.

Srovnání překladů

Podívejte se na další příklady překladů

Na čtení krásné literatury v jazyce, kterým nevládneme, to zatím nestačí. Už dávno ale Překladač Google překonal funkčnost jednoduchého automatizovaného slovníku. S nástupem neuronových sítí se z Překladači otevírají úplně nové možnosti zlepšování. Ona „černá skříňka“ nyní nalézá mezi jazyky z celého světa souvislosti, o kterých lingvisté neměli ani ponětí.

Už se docela těšíme, až za rok tento test zopakujeme. Pak se teprve ukáže skutečný potenciál strojového učení. Malé děti se za jeden rok dokáží naučit velmi dobře ovládnout nový jazyk. Mladá umělá inteligence, která se učí z milionů textů z celého světa, se o to nyní pokouší se stejnou vervou.

Co je to neuronová síť?

Umělá neuronová síť do jisté míry napodobuje způsob, jakým informace zpracovává lidský mozek

Počítačem simulovaná struktura pro zpracování dat - tzv. neuronová síť nebo umělá neuronová síť - se inspirovana u anatomie lidského mozku. Skládá se obvykle z vrstev velkého množství „neuronů“, což je samostatná jednotka, která má vstupy a výstupy. Více takových neuronů a vrstev znamená síť náročnější na simulaci (je třeba velký výpočetní výkon).

Ukázka jednoduché neuronové sítě se čtyřmi vrstvami po šesti neuronech. Spojnice mezi neurony ukazují „dráhy“, kudy nejčastěji proudí komunikace. Tyto dráhy se posilují nebo oslabují na základě zpětné vazby. Tedy neuron, který dává neužitečný výstup, se buď poučí, nebo zůstane nevyužit.

Google ke svým překladům podle studie z roku 2016 (PDF) využívá tzv. LSTM (Long short-term memory) sítě, což je speciální typ rekurentní neuronové sítě, nastíněný německým informatikem Jürgenem Schmidhuberem v roce 1997. „LSTM je skvělé v tom, že informace se lépe šíří i na dlouhé vzdálenosti,“ vysvětluje programátor Martin Schmid z Matematicko-fyzikální fakulty UK v Praze. „To v případě překladu znamená hodně slov dopředu, což je důležité.“

Neuronová síť se učí (trénuje) na základě vstupních (testovacích, trénovacích) dat a zpětné vazby. Neuronová síť může také „učit sama sebe“, což zjednodušeně znamená, že sama sobě dává otázku, na kterou zná správnou odpověď, a trénuje sama sebe tak dlouho, dokud tuto odpověď není schopna poskytnout s určitou spolehlivostí.

O umělých neuronových sítích se v teoretické rovině diskutovalo už v roce 1943 (PDF), brzy se ale zjistilo, že počítače ještě dlouho nebudou dostatečně výkonné na to, aby šlo tento koncept rozumně využít. Teprve ve 21. století - do značné míry díky paralelním výpočtům v grafických kartách - se výzkum rozhoupal. V posledních deseti letech pak neuronové sítě, a strojové učení obecně, zažívá nebývalý rozmach. Neuronové sítě se dnes využívají například k analýze obrazu, rozpoznávání řeči, regresní analýze, rychlým „přibližným“ výpočtům (např. zde při hře Poker Texas Hold’em), zpracování velkého množství dat nebo zpracování signálů.

Aktualizace: Doplnili jsme informace o typu použité neuronové sítě.

Co říkáte na nové překlady pomocí neuronových sítí?

celkem hlasů: 1135

Hlasování skončilo

Čtenáři hlasovali do 0:00 středa 17. května 2017. Anketa je uzavřena.

Je to lepší, než jsem čekal(a) (It's better than I expected) 716

Budeme tam cobydup (We'll be cobydup there) 235

Zatím nic moc (Not so much yet) 145

Že já se vůbec učil(a) cizí jazyky! (That I have ever taught foreign languages!) 39

Autoři: Pavel Kasík, s přispěním Matouše Lázňovského

Témata: překlad, překladač, Google, věta, Neuronové sítě, idiom, vůně, Wikipedie, Facebook, Portable Document Format (PDF), zpráva, Oscar Wilde, AI (Umělá inteligence), angličtina, Wikipedia

Komerční sdělení

Za celosvětový kolaps IT systémů může nečekaně absurdní chyba

Nepovedená aktualizace bezpečnostního softwaru společnosti Crowdstrike způsobila pád počítačů a serverů s operačním systémem Windows do „modré obrazovky smrti“. Ani po restartu se nespustí. Některé...

19. července 2024 11:01, aktualizováno 18:52

Uvězněni na vesmírné stanici. Boeing neví, kdy vrátí posádku zpět na Zemi

První testovací let nové vesmírné lodi Boeing Starliner CST-100 s posádkou neprobíhá tak, jak měl její výrobce spolu s NASA naplánováno. Cesta dvou astronautů na ISS a zpět měla původně trvat...

26. července 2024 12:59

{NADPIS reklamního článku dlouhý přes dva řádky}

{POPISEK reklamního článku, také dlouhý přes dva a možná dokonce až tři řádky, končící na tři tečky...}

OBRAZEM: Jugoslávské karavany byly zcela jiný level než ty z NDR, PLR a ČSSR

V roce 1965 se ve slovinském městě Novo Mesto začala psát historie továrně vyráběných jugoslávských a následně slovinských karavanů. Tak vznikla značka Adria, jejíž život se potom přenesl přes rozpad...

23. července 2024

Mistr vedlejších rolí Krška hrál geniálně alkoholiky a muže zlomených osudů

Herec Vladimír Krška, který se narodil před 100 lety, byl téměř čtyři desítky let členem souboru pražského Divadla na Vinohradech. Na jeho scéně vytvořil na osmdesát rolí.

22. července 2024

{NADPIS reklamního článku dlouhý přes dva řádky}

{POPISEK reklamního článku, také dlouhý přes dva a možná dokonce až tři řádky, končící na tři tečky...}

KVÍZ: Výlet do století páry. Poznáte, v jaké dnešní zemi jste?

V následujícím kvízu se podíváme na zajímavá místa zachycená na fotografiích v devatenáctém století. Úkolem je poznat, v jaké dnešní zemi se dané místo či objekt nachází.

26. července 2024

Možná jsme na Marsu našli dávný život, hlásí NASA. Nález potvrdí až na Zemi

Robotické vozítko Perseverance amerického Národního úřadu pro letectví a vesmír (NASA) našlo na Marsu kus horniny, který by mohl obsahovat zkamenělé mikroby. Jde o další významný krok v hledání...

27. července 2024 10:34

Konečná československá bilance z Paříže před 100 lety: 10 medailí a první zlato

Hry VIII. letní olympiády v Paříži, které skončily před 100 lety, 27. července 1924, potvrdily velký rozmach olympijského hnutí.

27. července 2024

První tryskový dopravní letoun de Havilland DH106 Comet vzlétl před 75 lety

První proudový dopravní letoun de Havilland DH106 Comet se poprvé dostal do vzduchu 27. července 1949. O necelé tři roky později už začal pracovat v běžném provozu, avšak konstrukční chyba znamenala...

27. července 2024

Uvězněni na vesmírné stanici. Boeing neví, kdy vrátí posádku zpět na Zemi

26. července 2024 12:59

Tajný trik na intimní hygienu v létě

Na trhu s intimní kosmetikou již existuje tolik produktů, ze kterých si můžeme vybrat: gely, emulze, pěny... My vám však pomůžeme s výběrem. Naše 3...

Můj syn Xavier zemřel, říká Musk o transgender dceři. A chce zničit „virus woke“

Miliardář Elon Musk tvrdí, že byl podveden, když dovolil svému synovi stát se transgender ženou. V rozhovoru s...

Ruská kráska Sofja Lebeděva šla donaha v seriálu Vikingové: Valhalla

Bývalá gymnastka Sofja Lebeděva (30) potěšila fanoušky seriálu Vikingové: Valhalla, když se v jedné ze scén nového dílu...

Sto tun obilí za hodinu. Na Hané mají výjimečný kombajn, jeden z patnácti na světě

Až sto tun obilí dokáže za hodinu sklidit nový kombajn CR11 firmy New Holland, který vyjel do obilných lánů v okolí...

Rozvádím se, oznámila dubajská princezna na Instagramu manželovi a jeho milenkám

Dubajská princezna Mahra (30) a její manžel šejk Mana Bin Mohammed Al Maktúm (25) se po loňské svatbě rozvádí. Dcera...

Olympiáda je festival sexu pro sportovce, potvrzují bývalí účastníci

Olympijská vesnice mi dala za dva týdny víc sexu než zbytek mého života, tvrdí bývalý olympionik Matthew Syed....

Herní technika

Finance

Osobnosti

Elektromobilita

Termíny

Válka na Ukrajině

Nepřehlédněte

iDNES.cz

© 1998–2024 MAFRA, a. s. a dodavatelé Profimedia, Reuters, ČTK, AP. Rozmnožování obsahu pro účely automatizované analýzy textů nebo dat dle ustanovení § 39c autorského zákona je bez souhlasu MAFRA, a. s. zakázáno. Jakékoliv užití obsahu včetně převzetí, šíření či dalšího zpřístupňování článků a fotografií je bez souhlasu MAFRA, a. s. zakázáno. Provozovatelem serveru iDNES.cz je MAFRA, a. s. IČ: 45313351.

mobilní verze

Přihlášení