Sobota 23. října 2021, svátek má Teodor, Theodor
  • schránka
  • Přihlásit Můj účet
  • Sobota 23. října 2021 Teodor, Theodor

„Málem jsem zabil bratra!“ Nový překladač je lepší, chyby jsou vtipnější

aktualizováno  6:51
Jak si neuronové sítě Překladače Google poradí s češtinou? Otestovali jsme překladač na 135 větách a srovnali novou verzi se starou. Na první pohled je patrné nejen výrazné zlepšení, ale i zásadní změna způsobu, jak systém využívá neuronové sítě k překladu celých vět. Ve specifických situacích se ovšem ještě má co učit.

Překlad pomocí neuronových sítí (ilustrační snímek) | foto: montáž: Pavel Kasík - Technet.czProfimedia.cz

„Nová verze aplikace Google Translate využívá hluboké neuronové sítě k překladu celé věty, nejen krátkých frází. Neuronové sítě mohou dokonce využít to, co se naučily v jiných jazycích, aby zlepšily překlad z jazyka nebo do jazyka, kde není dostatek údajů o školení.“ Tak Překladač Google přeložil z angličtiny do češtiny popis svých nových funkcí (více v našem článku). Až na drobné chybky je to překvapivě čitelný český text bez gramatických chyb.

„Díky zapojení strojového učení neuronových sítí naše překlady přes noc udělaly takový pokrok, jako předtím za deset let od spuštění služby,“ řekl nám Barak Turovsky, produktový manažer Google Translate, u příležitosti spuštění této novinky pro český jazyk v polovině dubna.

Na první pohled bylo výrazné zlepšení patrné především u delších vět a souvětí. Zároveň jsme ale našli řadu příkladů, kde se překlad citelně zhoršil, třeba u ustálených slovních spojení a idiomů. K pořádnému otestování jsme proto (ještě před spuštěním neuronových překladů) nasbírali 135 vět nejrůznějších žánrů a stylů a porovnali staré překlady s novými.

Porovnejte staré překlady s novými v naší galerii

Porovnání překladu Google Translate před a po implementaci neuronových sítí...
Porovnání překladu Google Translate před a po implementaci neuronových sítí...
Porovnání překladu Google Translate před a po implementaci neuronových sítí...

Zobrazit galerii vybraných ukázek staré a nové verze překladu před a po zavedení systému pro překlad celých vět pomocí strojového učení.

Sběr dat probíhal v březnu až dubnu 2017, přičemž nové překlady jsme sbírali nejpozději tři dny po aktivování funkce neuronových sítí. Všechny použité texty si můžete stáhnout v PDF. Následně jsme každou větu zanesli do databáze a porovnali oba překlady ve slepém testu (hodnotitel nevěděl, který překlad pochází z které verze překladače). Takže jak zní verdikt?

První dojemPřekladač se skutečně znatelně zlepšil

Přehled hodnocení překladů

Přehled hodnocení překladů

Každou větu jsme ohodnotili na škále od jedničky do pěti, kde skóre 5 byl dokonalý bezchybný překlad, zatímco nejnižší skóre signalizuje mizerný překlad se zásadními chybami nebo dokonce zásadní změnou významu.

Jako první jsme srovnali malý vzorek textů, ke kterým jsme měli k dispozici historické srovnání díky našemu článku z roku 2008. Devět textů jsme tedy mohli porovnat ve třech verzích a posoudit tedy alespoň zhruba, zda je zlepšení překladače skutečně tak skokové, jak Google sliboval.

Srovnání překladů 2008, starých 2017 a nových 2017
Originál 2008 2017 před2017 po
The studio was filled with the rich odour of roses, and when the light summer wind stirred amidst the trees of the garden, there came through the open door the heavy scent of the lilac, or the more delicate perfume of the pink-flowering thorn. Studio byla naplněna bohatou vůni růží, a když se světla letní vítr vzbudil uprostřed stromů na zahradě, tam přišlo přes otevřené dveře těžkých vůni z lila, nebo více delikátní parfém z růžového-květinové trn.Studio bylo naplněno bohatou vůní růží, a když světlo léto vítr míchá uprostřed stromů v zahradě, přišel otevřenými dveřmi těžká vůně šeříku nebo více delikátní vůně růžového-kvetoucí trn. Ateliér se naplnil bohatým zápachem růží a když se v zahradě stromy rozvířil lehký letní vítr, prošly otevřenými dveřmi těžká vůně lila nebo jemnější vůně růžového kvetoucího trnu.

Na textu z románu Oscara Wildea je vidět, že pokrok za deset let je značný. A stejně tak je znatelný pokrok nové verze s neuronovými sítěmi oproti verzi bez ní. V kvantitativním hodnocení je vidět, že skok mezi 2008 a 2017 je o něco významnější než pokrok po zavedení neuronových sítí, ovšem mějme na paměti, že jde o celkem malý vzorek devíti krátkých ukázek.

Lze tedy říci, že skok v kvalitě překladů je skutečně znatelný, i když možná ne tak výrazný, jako bylo zlepšení za posledních devět až deset let. Pojďme se podívat podrobněji na větší vzorek přeložených textů; nadále už ovšem budeme porovnávat pouze překlady z dubna 2017, těsně před a těsně po zavedení nového způsobu překládání.

Podívejte se, v čem spočívá vylepšení Překladače Google:

Žánry textuZprávy a encyklopedie se překládají nejlépe

Nejzajímavější pro nás bylo sledovat, u jakých typů textu zaznamenal překladač největší zlepšení. Srovnávali jsme několik žánrů textů, od neformálních poznámek v diskuzi nebo komentářů na Facebooku až po formální texty encyklopedické či právnické.

Jednoznačně největší pokrok udělal Google Translate u překladu encyklopedických textů. To není překvapivé vzhledem k tomu, že encyklopedické texty jsou obvykle psané jasně, jednoznačně a nepracují s metaforami nebo idiomy. Navíc je zde (například díky Wikipedii) obrovské množství snadno dostupných textů, na kterých se neuronové sítě (a předtím statistické modely) mohou ustavičně trénovat.

Porovnání překladu Google Translate před a po implementaci neuronových sítí...
Porovnání překladu Google Translate před a po implementaci neuronových sítí...

Ukázka překladu z češtiny do angličtiny (vlevo) a naopak (vpravo) u textů z Wikipedie

Také zpravodajské texty (kde lze opět očekávat jednoznačné formulace) se v nové verzi výrazně zlepšily. Potíže má ale překladač (starý i nový) s dvojsmysly a zavedenými frázemi v novinových titulcích. Celkově lze ale říci, že Angličan či Američan si s Google Translate může přečíst české zpravodajství a porozumět přinejmenším podstatě článku.

Porovnání překladu Google Translate před a po implementaci neuronových sítí...

Porovnání překladu Google Translate před a po implementaci neuronových sítí (zdroj: oznámení PID)

V jiných žánrech bylo zlepšení méně patrné. V próze se nový překladač snaží zohlednit celou větu, což dává lepší výsledky u delších vět, ale zároveň občas vede k novým - a celkem nečekaným - chybám. Strojový překlad poezie je nadále prakticky spíše nepoužitelný. A u českých přísloví či anglických idiomů jsme naopak zaznamenali překvapivé zhoršení.

Nejvtipnější chybyOtrocky přeložená přísloví a bratrovražda

Jedinou kategorií, ve které se neuronové sítě oproti původnímu stavu jednoznačně zhoršily, jsou „špeky“. Tak jsme si pracovně nazvali různá přísloví, ustálené fráze a idiomy. Zatímco původní verze Překladače Google si s většinou z nich dobře poradila, nová neuronová síť je bohužel překládá otrocky a doslovně.

Porovnání překladu Google Translate před a po implementaci neuronových sítí...
Porovnání překladu Google Translate před a po implementaci neuronových sítí...
Porovnání překladu Google Translate před a po implementaci neuronových sítí...
Porovnání překladu Google Translate před a po implementaci neuronových sítí...

Ukázka překladů přísloví a idiomů

Předpokládáme ale, že postupem času se nová verze také naučí překládat tyto fráze přeneseně, nikoli doslova. Mohou tomu napomoci i dobrovolníci, kteří pomáhají opravovat a vylepšovat překlady. Ostatně i vy, kdykoli překlad v Překladači Google opravíte, vysíláte zároveň neuronové síti jasný signál: tudy ne, nauč se to jinak! Původní překlady jsou navíc zatím stále ještě dostupné po rozkliknutí alternativ, takže je vidět, že Google své původní těžce nabyté vědomosti zahodit nehodlá.

Mnohem zajímavější bylo sledovat chyby, u kterých není na první pohled jasné, jak vznikly. O tom ostatně mluví i Turovsky, podle kterého neuronové sítě připomínají děti učící se cizí jazyk: „Učí se naprosto fantasticky, ale občas udělají nějakou záhadnou nebo vtipnou chybu. Někdy si dokážete odvodit, proč tu chybu udělaly, ale jindy prostě nemáte ani ponětí, jak na to přišly.“ Podobné je to s neuronovými sítěmi, které si při trénování na miliónech textů tak trochu žijí vlastním životem.

V rámci našeho testu jsme narazili hned na několik takových chyb. Třeba slovo „Staronový“ se v anglickém překladu objevilo jako vlastní jméno přivlastňovací: „Staron’s“. U biblického překladu zase neuronové sítě vytvořily z anglického slova „cymbal“ česky znějící novotvar „cinkál“. Překlad listu Korintským také ukazuje, že původní překlad byl mnohem lepší.

Porovnání překladu Google Translate před a po implementaci neuronových sítí...
Porovnání překladu Google Translate před a po implementaci neuronových sítí...

Zajímavé chyby vzniklé strojovým překladem

Jinde došlo při překladu k výraznému posunutí významu. Třeba když ústava „zaručuje určitým právům lidi“, namísto správného „zaručuje lidem určitá práva“. Nebo když v textu článku našeho kolegy Karla Pacnera nový překladač drasticky převrátil význam věty „Když odcházeli, málem mně, bratra a babičku zabili, protože domky v naší vesnici zapálili.“ (Poznámka redakce: Všimněte si překlepu ve slově mně v původní větě, správně má být nebo mne. Překlep jsme v originále zachovali z důvodu integrity testu, ve zdrojovém článku jsme ale již chybu opravili. Na překlad neměl překlep vliv - tedy překlad dopadl stejně s překlepem i bez něj.)

Porovnání překladu Google Translate před a po implementaci neuronových sítí...

Porovnání překladu Google Translate před a po implementaci neuronových sítí (zdroj: článek na Technet.cz)

Takových příkladů se dá najít celá řada. Složitost takových chyb indikuje, jak komplexní je překládání pomocí neuronových sítí, které se učí napříč jazyky. Bude proto zajímavé sledovat, jak rychle Google Translate dokáže tyto chyby opravit. Mimochodem, chybu s „bratrovraždou“ již systém opravil...

Vtipná chyba již v překladu není

Vtipná chyba již v překladu není

Další zajímavostiMéně nepřeložených slov, lepší práce s větami

Neuronové sítě přinesly jednoznačné vylepšení co do počtu nepřeložených slov. Zatímco předchozí verze nedokázala přeložit v našich textech (přes sedm tisíc slov) celkem 19 slov (tedy nechala je v textu nepřeložené), nová verze přeložila všechny kromě čtyř slov. Takto markantní rozdíl lze vysvětlit právě odlišným fungováním neuronových sítí, které se učí „napříč jazyky“. Překladač si tedy význam slova může odvodit z kontextu i za pomocí dat, která má „nastudovaná“ v úplně jiném jazyce.

Porovnání překladu Google Translate před a po implementaci neuronových sítí...

Překlad českého textu bez diakritiky (zdroj: Facebook)

Zlepšilo se třeba překládání hovorových výrazů, slov, ve kterých je překlep nebo slov psaných bez diakritiky. Neuronové sítě jsou evidentně tolerantnější k drobným odlišnostem a berou v úvahu kontext věty.

To se projeví zejména u delších vět, kde překladač celkem spolehlivě zachovává rod nebo čas, a poradí si dokonce se souvětími. Krátké obraty celkem spolehlivě překládá z češtiny do angličtiny i naopak formou, která zní přirozeně, nikoli křečovitě. Dokonce i čárky ve větách vedlejších zvládá mnohem lépe, než před tím, a to i přes značně rozdílné používání čárek v češtině a angličtině.

Porovnání překladu Google Translate před a po implementaci neuronových sítí...
Porovnání překladu Google Translate před a po implementaci neuronových sítí...
Porovnání překladu Google Translate před a po implementaci neuronových sítí...

Ukázka překladů delších vět a souvětí

Jindy naopak nový překladač díky své flexibilitě vyrobí neexistující slovo, respektive slovo s překlepem.

V překladu se objevilo slovo „stratili“.

V překladu se objevilo slovo „stratili“.

Tato podivná chyba sice v jen trochu pozměněném kontextu zmizí, zato se objeví jiná, „čokoládový bar“ místo „čokoládové tyčinky“.

„Ztratili“ je nyní napsáno správně, ale zase se zde objevil „čokoládový bar“...

„Ztratili“ je nyní napsáno správně, ale zase se zde objevil „čokoládový bar“ místo „čokoládové tyčinky“.

Je tedy vidět, že překládání „po celých větách“ s sebou kromě výhod nese i občasné nevýhody. Pokud překládáte z jazyka, kterému nerozumíte, může být nový překladač obtížně použitelný při objasňování možných nedorozumění. Už totiž není možné podívat se na alternativní překlady jednotlivých slovních spojení v kontextu vět, pouze na celé věty. To považujeme za vůbec největší změnu k horšímu, kterou nová verze přinesla.

VerdiktVýrazná změna k lepšímu. Nejen v angličtině

Co jsme v našem testu zjistili? Nová verze Překladače Google je skutečně novou verzí, nikoli jen nějak drobně či kosmeticky vylepšenou. Na kvalitě překladů je to znát. Ne vždy je změna k lepšímu, ale když jsme u všech čtyřiceti textů (celkem 2 293 slov) porovnali předchozí a současné překlady, je jasné, že mnohem častěji byla změna krokem k lepšímu.

Skoro ve třech pětinách došlo ke zlepšení překladu, pouze v jedné pětině se překlad zhoršil. Nejčastěji došlo ke zhoršení u oněch již zmíněných „špeků“, tedy ustálených frází a idiomů. Skoro ve všech ostatních případech došlo k mírnému či výraznému zlepšení.

Vývoj a historie strojového překladu

Podíváme-li se na překlady vět z češtiny do angličtiny a naopak, vidíme, že Překladač Google si i nadále lépe poradí s překlady do angličtiny. To by nemělo nikoho udivit, angličtina je nejpoužívanější jazyk na světě, takže systém může čerpat z většího množství příkladů do a z různých jazyků. Navíc jde o jazyk s minimální flexí (skloňování, časování). Překlady do češtiny jsou o trochu méně srozumitelné, ale právě zde mají neuronové sítě velkou šanci zazářit. Už od prvního dne zde bylo patrné velké zlepšení. (Kategorii „špeků“ v zájmu férovějšího hodnocení v následujících dvou srovnáních vynecháváme.)

Nezapomínejme samozřejmě, že průměrné hodnocení 2,71 z pěti má stále k dokonalosti daleko. V některých situacích se vyrovná lidským překladatelům, většinou ale musí uživatelé vzít zavděk „jen“ překladem srozumitelným.

Srovnání překladů

Podívejte se na další příklady překladů

Na čtení krásné literatury v jazyce, kterým nevládneme, to zatím nestačí. Už dávno ale Překladač Google překonal funkčnost jednoduchého automatizovaného slovníku. S nástupem neuronových sítí se z Překladači otevírají úplně nové možnosti zlepšování. Ona „černá skříňka“ nyní nalézá mezi jazyky z celého světa souvislosti, o kterých lingvisté neměli ani ponětí.

Už se docela těšíme, až za rok tento test zopakujeme. Pak se teprve ukáže skutečný potenciál strojového učení. Malé děti se za jeden rok dokáží naučit velmi dobře ovládnout nový jazyk. Mladá umělá inteligence, která se učí z milionů textů z celého světa, se o to nyní pokouší se stejnou vervou.

Co je to neuronová síť?

Umělá neuronová síť do jisté míry napodobuje způsob, jakým informace zpracovává lidský mozek

Počítačem simulovaná struktura pro zpracování dat - tzv. neuronová síť nebo umělá neuronová síť - se inspirovana u anatomie lidského mozku. Skládá se obvykle z vrstev velkého množství „neuronů“, což je samostatná jednotka, která má vstupy a výstupy. Více takových neuronů a vrstev znamená síť náročnější na simulaci (je třeba velký výpočetní výkon).

Ukázka jednoduché neuronové sítě se čtyřmi vrstvami po šesti neuronech....

Ukázka jednoduché neuronové sítě se čtyřmi vrstvami po šesti neuronech. Spojnice mezi neurony ukazují „dráhy“, kudy nejčastěji proudí komunikace. Tyto dráhy se posilují nebo oslabují na základě zpětné vazby. Tedy neuron, který dává neužitečný výstup, se buď poučí, nebo zůstane nevyužit.

Google ke svým překladům podle studie z roku 2016 (PDF) využívá tzv. LSTM (Long short-term memory) sítě, což je speciální typ rekurentní neuronové sítě, nastíněný německým informatikem Jürgenem Schmidhuberem v roce 1997. „LSTM je skvělé v tom, že informace se lépe šíří i na dlouhé vzdálenosti,“ vysvětluje programátor Martin Schmid z Matematicko-fyzikální fakulty UK v Praze. „To v případě překladu znamená hodně slov dopředu, což je důležité.“

Neuronová síť se učí (trénuje) na základě vstupních (testovacích, trénovacích) dat a zpětné vazby. Neuronová síť může také „učit sama sebe“, což zjednodušeně znamená, že sama sobě dává otázku, na kterou zná správnou odpověď, a trénuje sama sebe tak dlouho, dokud tuto odpověď není schopna poskytnout s určitou spolehlivostí.

O umělých neuronových sítích se v teoretické rovině diskutovalo už v roce 1943 (PDF), brzy se ale zjistilo, že počítače ještě dlouho nebudou dostatečně výkonné na to, aby šlo tento koncept rozumně využít. Teprve ve 21. století - do značné míry díky paralelním výpočtům v grafických kartách - se výzkum rozhoupal. V posledních deseti letech pak neuronové sítě, a strojové učení obecně, zažívá nebývalý rozmach. Neuronové sítě se dnes využívají například k analýze obrazu, rozpoznávání řeči, regresní analýze, rychlým „přibližným“ výpočtům (např. zde při hře Poker Texas Hold’em), zpracování velkého množství dat nebo zpracování signálů.

Aktualizace: Doplnili jsme informace o typu použité neuronové sítě.


Co říkáte na nové překlady pomocí neuronových sítí?

celkem hlasů: 1135

Hlasování skončilo

Čtenáři hlasovali do 0:00 středa 17. května 2017. Anketa je uzavřena.

Je to lepší, než jsem čekal(a) (It's better than I expected) 716
Budeme tam cobydup (We'll be cobydup there) 235
Zatím nic moc (Not so much yet) 145
Že já se vůbec učil(a) cizí jazyky! (That I have ever taught foreign languages!) 39
Autoři:
  • Nejčtenější

Test sluchátek: Z šesti novinek nás nejvíce nadchly ty nejlevnější

Premium Test zcela bezdrátových sluchátek přinesl docela neobvyklé překvapení: úplně nejlevnější model v celkovém hodnocení...

Hledá se náhrada za gripeny. Zkusili jsme udělat tendr „nanečisto“

Páteří českého vojenského letectva je v současné době čtrnáct kusů bojového letounu Saab JAS-39 Gripen, pronajatých od...

Weby vás tajně sledují prostřednictvím otisku zařízení

Na světě je téměř 1,9 miliardy internetových stránek. Mnohdy slouží k pokoutným účelům a dost často z nich obchodníci...

Apple vylepšil svá oblíbená sluchátka a absurdně zlevnil hudební službu

Pondělní záplava novinek se v nemalé míře soustředila na zvukové a hudební produkty. Podrobně vás jimi provedeme.

{NADPIS reklamního článku dlouhý přes dva řádky}

{POPISEK reklamního článku, také dlouhý přes dva a možná dokonce až tři řádky, končící na tři tečky...}

Legendy ČSD obrazem. Nejvýkonnější evropská tendrovka se vyráběla v ČKD

Lokomotiva řady 477.0, zvaná Papoušek, patří k vrcholným dílům československých konstruktérů parních lokomotiv....

Syndrom Petra Pana. Proč někteří muži nikdy nedospějí a žijí jako paraziti

Premium V každém chlapovi zůstává kousek kluka, ale musí to být právě jen ten kousek. Pokud muž nechce vyrůst a převzít...

Čína má Evropu v hrsti, za pár týdnů dojde hořčík. Auto bez něj nevyrobíte

Premium Vše nasvědčuje, že současná čipová krize v automobilovém průmyslu je jen zahřívacím kolem před tím, co se na Evropu...

Váš syn bude žít jen pár týdnů. Zpověď matky zesnulého hokejisty Buchtely

Premium Přežít své dítě. Pro každého rodiče ta nejhorší představa. Teprve dvacetiletý hokejista Ondřej Buchtela zemřel loni v...

  • Další z rubriky

Osmička funkcí Google disku, které byste si možná přáli znát dříve

Google disk patří mezi celosvětově nejoblíbenější služby cloudového úložiště. Uživatel může zdarma využít 15GB prostor,...

Zjistěte, zda umíte správně používat správce hesel

Dříve se řada uživatelů kromě paměti spoléhala při „ukládání“ hesla na to, že je vede třeba v nějakém notýsku. Dnes...

Ovládněte vyhledávače a najděte na internetu to, co opravdu potřebujete

Internetové vyhledávače nabízejí celou řadu funkcí, které můžete využít k přesnějšímu vyhledání. Některé jsou všeobecně...

Aplikace YouTube už není králem videí. V USA a Británii ji překonal TikTok

Na sociální síti s kořeny v Číně se uživatelé ve Spojených státech a Spojeném království v průměru dívali na video déle...

Najděte svou vnitřní krásu: Otestujte nutrikosmetiku od Manufaktury
Najděte svou vnitřní krásu: Otestujte nutrikosmetiku od Manufaktury

Podpořte krásný vzhled své pleti a pokožky nejen zvenku, ale také zevnitř. Objevte nutrikosmetiku značky Manufaktura. Hledáme 30 uživatelů, kteří s...

Čína má Evropu v hrsti, za pár týdnů dojde hořčík. Auto bez něj nevyrobíte

Premium Vše nasvědčuje, že současná čipová krize v automobilovém průmyslu je jen zahřívacím kolem před tím, co se na Evropu...

ČEZ od ledna zdraží: elektřinu asi o třetinu, plyn o víc než polovinu

ČEZ od nového roku zdraží elektřinu i plyn. Podle šéfa energetické společnosti Daniela Beneše to může být asi třetina u...

Jestli bude inflace stoupat dál, lidé ztratí polovinu úspor, varuje ekonom

Současná míra inflace bude trvat ještě několik let, důvodem jsou zejména vysoké objemy pumpování peněz do ekonomiky,...

Rodině postavil dům za Prahou. Z obří obývací kuchyně se stal problém

Pan Jarda je původem z Uherského Brodu, ale již léta pracuje a žije v Praze. Pro svou lásku Alenu a jejich dvě děti...

Střelba proti kameře je běžná, ale herec za nehodu nemůže, tvrdí Dvořák

Zpráva, že americký herec Alec Baldwin při natáčení westernu zastřelil kameramanku a postřelil režiséra, vyvolala...