Premium

Získejte všechny články
jen za 49 Kč/měsíc

Počítač překládá a nemaří policejní vyšetřování, říká analytik Ondřej Bojar

  16:37
Policie zachytává denně spousty textových zpráv podezřelých obchodníků s drogami, jsou ovšem ve vietnamštině. Překladatelé jsou nákladní, nemají dostatek času a mohou i některé informace „vynést ven“. V tu chvíli nastává práce pro Ondřeje Bojara a jeho tým, který se věnuje strojovému překladu vietnamských esemesek.
Fotogalerie3

Ondřej Bojar, MATFYZ, strojový překlad z vietnamštiny do češtiny, rozhovor pro iDNES.cz | foto:  Petr Topič, MAFRA

Jak vypadají překlady pro policii? Jak to funguje?
Když vyrábíme překladový systém, využíváme databázi milionů tréninkových překladů. Naprogramujeme strukturu neuronové sítě, zhruba padesát milionů „volných parametrů“, které si počítač sám nastaví během „trénování“ tak, aby trénovací věty překládal co nejpodobněji tomu, jak je přeložili lidé. 

Fotogalerie

Fakt, že slova mají různé významy, že spolu ve větě nějak souvisí atd., je jenom „rozpuštěn v trénovacích datech“. Významy slov nijak neprogramujeme. Počítač se naučí „opičit se“. Jak přesně to dělá, to se ještě pořádně neví, na to máme grant základního výzkumu. Při tom opičení ale samozřejmě může udělat (a dělá) chyby.

Jak se dají chyby eliminovat?
Chyby vznikají především v místech, kde nebyla dostatečná trénovací data. Děje se to třeba u jmen. Clintons přeloží jako kliniku, ale taky jako kly a tuny. To je samozřejmě u překladu pro policii opravdu velmi nechtěná věc. Lidé ale také dělají chyby, a to i na oficiálních transparentech. 

Třeba motto neslavného programu ROP Severozápad, které anglicky říká: Vision ends up being a dream, což je Vize dopadne jako sen, nikoli Vize přestane být snem, jak je na stránkách. Nebo příklad z velštiny, kde na velšskou verzi dopravní značky místo upozornění pro řidiče vytiskli omluvu překladatele „momentálně nejsme v kanceláři“, že překlad dodá později.

Analytik Ondřej Bojar

Narodil se v Praze a prakticky od malička ho bavily počítače a studium lidského myšlení. Humanitní studia a společenské vědy podle něj ale neměly pro zkoumání mentálních procesů dostatečně ostré nástroje, a tak skončil na Matfyzu Univerzity Karlovy, kde se již od svých magisterských studií věnuje počítačové lingvistice. 

„Texty jsou jednoduše dostupná hmatatelná data, která ale odrážejí velmi komplexní skryté procesy. Zpracovat je strojem podobně, jako to dělají lidé, nás může hodně o myšlení naučit,“ říká o své práci. 

Je ženatý a má tři děti.

Ondřej Bojar, MATFYZ, strojový překlad z vietnamštiny do češtiny, rozhovor pro iDNES.cz

Zaměřujete se na překlady z vietnamštiny. V čem je jiný česko-vietnamský překlad?
Specifickým problémem u překladu vietnamštiny je malý okruh překladatelů, kteří jazyk ovládají. Policii se tedy může stát, že dají zprávu člověku, který je s gangem propojený, a ten gang varuje, „hele, změň si telefon, sledují tě, nic takového neříkej“. 

To se ale u počítače nestane, ten nikomu data nepředá, nikoho nevaruje, žádné informace nevynese ven. I když strojový překlad není úplně stoprocentně kvalitní, může být spolehlivější než překladatel. Proto jsme se rozhodli program nasadit pro tento účel.

A proč čeština a vietnamština?
Je to poměrně málo studovaná dvojice jazyků. A navíc jsem měl studenta, který byl z Vietnamu a již dříve vyrobil česko-vietnamsko-anglický korpus, kde největší část tvoří filmové titulky a také TED Talks, což jsou pravidelné popularizační přednášky z oblasti vědy, techniky, umění, politiky, vzdělání, kultury, byznysu a spousty dalšího. 

V těch záznamech přednášek jsou také titulky, ale s delšími větami než v těch filmových, a tak je to pro nás lepší. Díky tomu jsme mohli vytvořit více než milion větných párů, na kterých se dá stavět.

To stačilo?
Jo, to je docela dobré, není to zlé a pro začátek to stačilo, i když to bylo trochu mimo naši doménu, kde jsme ten překlad chtěli použít. Nejsou tam překlady esemesek. Jednak jde o slovní zásobu, například názvy toho, co se dá kde výnosně ukrást, nebo komu doručit jakou drogu, i když v některých filmech možná ano. Brali jsme všechno, co bylo k dispozici. Jde ale i o stavbu vět, tedy v případě SMS spíš klasických útržků a kusých sdělení.

Jaká data jste měli od policie?
Data od policie byla to nejcennější! Nejen proto, že je nikdo neoprávněný nesmí vidět, ale proto, že jde přesně o ten typ textů, které má systém nakonec překládat. Je to reprezentativní vzorek, ale pro naši trénovací potřebu je sám o sobě moc malý. Bylo to jen asi 55 tisíc anonymizovaných SMS, které policie překládala vlastními silami už dřív. Ta data jsme si ale nemohli nikam vzít, všechno muselo probíhat na centrále, protože s obsahem zpráv nebylo možno se seznámit z důvodu ochrany trestního řízení.

Jaké další problémy jste měli?
Neuměli jsme vietnamsky. Když jsme tam byli, pročítali jsme si výstupy našeho systému na neškodných zprávách, které nám kolega vybral, a srovnávali je s tím, co pro policii dříve přeložili lidé. Museli jsme přitom věřit tomu překladateli, že to taky správně pochopil. A podle toho jsme tak zběžně kontrolovali, jestli náš systém není úplně mimo.

A umíte už vietnamsky?
Neumím. Tam jste chvilku, nesmíte si pořádně nic opsat, na učení lidí je takový „distanční kurz“ na houby.

Jak tedy pokračovalo překládaní pomocí programu a počítače?
Ze začátku to vypadalo, že lépe funguje starý frázový model. Což je na malém množství dat i pravda, je rychlejší a spolehlivější. Po pár překladech a zkouškách jsme ale zjistili, že pro naše potřeby je výrazně lepší ten nový, neuronový. Proto jsme přešli na něj. Láme se to kolem milionu větných párů, kde pak vede právě ten neuronový.

Z těch zpráv, které jste měli od policie k dispozici už přeložené, byly použitelné všechny?
To nebyly. Překladatel občas něco vynechal, protože věděl, že dělá pro policii. Nepřekládal tak věty nebo situace typu „Nakup deset rohlíků“, nebo když tam byla nějaká hádka s milenkou. V tom případě tam napsal „nezájmové“ nebo „hádá se s milenkou“.

Jak věděli, že rohlíky jsou rohlíky, a ne nějaký kód?
Nevěděli, jen to tak vyhodnotili a šetřili si práci s překládáním. Strojový překlad by přeložil všechno. I to je jeho výhoda. Jenže takovéhle „překlady“ nám kazila ta trénovací data, protože celá vietnamská věta pro počítač byla „přeložena“ jako „nezájmové“, i když to tak ve vietnamštině nebylo, protože tam byla věta „Nakup deset rohlíků“. Když se takové věty ocitly v trénovacích datech, síť najednou sama naučila dělat i analýzu obsahu: sama usoudila, že věty o rohlících jsou „nezájmové“ a urážky a podobně jsou „hádka s milenkou“.

Jsou neuronové sítě velmi chytré, protože dokážou rozpoznat miliony věcí, ale velmi otrocké, protože produkují jen to, co je naučíte i v rámci analýzy?
Přesně tak.

Nevím, jak vy, ale moje textové zprávy po telefonu nejsou vždycky úplně podle pravidel českého pravopisu. Jak se program vyrovnává s chybějící diakritikou, překlepy, chybami nebo slangovými výrazy?
No to je zrovna fakt, co jsme mohli propracovat ještě lépe. Třeba s překlepy jsme mohli udělat víc, na ty jsme se tolik nezaměřili. Ale zaměřili jsme se na diakritiku. To se dělá tak, že si naschvál pokazíte trénovací data. Dali jsme je tam víckrát a také bez vietnamské diakritiky. Tím pádem se ta neuronka naučí, že úplně nezáleží na tom, jestli tam diakritika je, nebo ne. A odhadne, co by to tak mohlo být. 

Ve vietnamštině se diakritika používá opravdu hodně, jsou tam i obrácené čárky nad písmenky i pod nimi, dvojtečky a podobně. Třeba bo má tři různé varianty, a to jít, hovězí nebo máslo. To je pak v překladu bez diakritiky opravdu problém rozeznat, navíc jsou esemesky velmi krátké, bez kontextu konverzace.

Jak to tedy potom stroj řeší?
Tipuje. Sází na nejpravděpodobnější variantu. A ještě větší problém je chudá morfologie vietnamštiny a odlišnost mluvnických kategorií.

Proč?
Jsou tam třeba i takové věci, jestli jste v konverzaci osoba podřízená, nebo nadřízená ve společenské hierarchii. S tím vlastně mají možná problém i Vietnamci, kteří se v Česku narodili nebo tady velice dlouho žijí a jejich vietnamština není úplně skvělá. Záleží na tom, jestli mluvíte s osobou starší, nebo mladší, pokud je starší zhruba o patnáct let, tak je ještě další rozdíl, který Vietnamci řeší, a to, jestli je starší, nebo mladší než jeho rodiče. Jak se u nás mění koncovka podle tykání a vykání, ve vietnamštině je to něco jako tykání a vykání + ještě věk podle rodičů.

Vietnamci tykají a vykají v několika různých variantách?
Přesně tak. A to všechno se pak v konverzaci projevuje, avšak na úkor kategorií, které jsou důležité pro nás, jako je třeba slovesná osoba. Česko-vietnamský překlad je skutečně výjimečný. Narazili jsme třeba na větu: „A dang o nha a.“ Tu jeden policejní překladatel přeložil jako: „Jsem u sebe doma.“ A přesně stejnou větu jiný překladatel přeložil: „Jsi doma?“ Já jsem si to pak ještě „ověřoval“ u nějakých Vietnamců ve večerce, a co jsem se dokázal dorozumět, říkali, že je to skutečně nekonkrétní. Tady je vidět, jak je potřebná nejen velikost a správnost testovacích dat, ale i opatrnost v interpretaci.

Jak je potom pro policii relevantní to, co jim odevzdáte?
My ty překlady odevzdáváme investigativcům a ti až pak vyhodnocují, koho nebo kde chytit. To nejsou podklady pro žádné soudce nebo podobně, ani to není naším cílem a úkolem. Měli by si dát pozor, aby se jim nestalo to, co v Izraeli, kde na den zavřeli člověka, protože Facebook jeho „Dobré ráno“ vedle fotografie s bagrem přeložil jako „Zaútočte na ně“ a žádný arabský mluvčí to před zatčením nezkontroloval.

Je to spíš vodítko?
V podstatě ano. Pokud by to pak bylo součástí nějakého dokazování, pro soud to přeloží někdo ještě jednou a přesněji. My to děláme proto, aby se ten proud textových zpráv nemusel za peníze dávat překladatelům, kteří by navíc neměli kapacitu to zvládnout. Policie to pak má rychle, zadarmo a vybere si případně to, co je potřeba dopřeložit lépe. Cílů je několik – rychlost, úplnost, levnost a omezení překladatelů, kteří by mohli teoreticky něco vynést, do budoucna v jakémkoli jazyce.

Vstoupit do diskuse (91 příspěvků)

Kauzy Mrázové? Ministryně se v Rozstřelu emotivně obnažuje „do spodního prádla“

Nejčtenější

Macronová udeřila manžela kvůli pletkám s íránskou herečkou, tvrdí novinář

Francouzsko-íránská herečka Golshifteh Farahaniová (12. května 2018)

Když první dáma Francie Brigitte Macronová loni v květnu uštědřila v letadle neslavný políček svému choti, bylo to údajně kvůli žárlivosti. Rozčílila se kvůli zprávám, které si její manžel, prezident...

Daniel Landa ukázal rozbité okno svého domu. Uberte trochu, vzkázal

Daniel Landa během představení nového nastudování muzikálu Tajemství v Divadle...

Zpěvák Daniel Landa (57) zveřejnil fotografii rozbitého okna svého domu a připojil k ní stručný, ale výrazný komentář. Jeho slova rozpoutala na Facebooku debatu o agresi ve společnosti, rostoucím...

Botasky z Lidlu se rychle vyprodaly. Překupníci je nabízejí za vyšší cenu

Lidl limitovaná edice bot vznikla ve spolupráci s Botasem. (12. května 2026)

Limitovaná edice tenisek Lidl, které vznikly ve spolupráci se značkou Botas, vzbudila mezi zákazníky zájem. Podle řetězce pomohl s distribucí rezervační systém v aplikaci Lidl Plus, který měl...

S nemocí jsem ztratil zábrany, prozrazuje Topolánek. A chystá svůj poslední výstřel

Rozstřel
Hostem pořadu Rozstřel je Mirek Topolánek, bývalý premiér ČR.

Mirek Topolánek v Rozstřelu na iDNES.cz promluvil o svém boji s rakovinou slinivky i nadačním fondu Štěstí nestačí. Bývalý premiér zároveň ostře varoval, že Evropa ztrácí konkurenceschopnost....

Trumpův „bazén“ v D.C. neúprosně modrá, nervozitu budí deadline i skvrny

Renovace jezírka u Lincolnova památníku ve Washingtonu pomalu postupuje. (14....

Renovace nádrže u Lincolnova památníku ve Washingtonu pomalu postupuje. Objevují se však obavy, zda se práce stihnou do stanoveného termínu 22. května a jak bude výsledný „bazén“ vypadat. Nátěr na...

K soudu se vrací Dozimetr, svědčí kandidát ODS na primátora Portlík

Kromě celostátního vedení ODS bude Tomáš Portlík (ODS) usilovat i o pozici...

Obvodní soud pro Prahu 9 v úterý opět projednává korupční kauzu při zadávání veřejných zakázek v Dopravním podniku hlavního města Prahy (DPP). Jako svědka předvolal starostu Prahy 9 a kandidáta ODS...

19. května 2026,  aktualizováno  9:36

Putin zahájí návštěvu Číny. Načasování po Trumpovi je náhoda, tvrdí Kreml

Ruský prezident Vladimir Putin (vlevo) a čínský prezident Si Ťin-pching si...

Ruský prezident Vladimir Putin v úterý večer přijede do Pekingu na dvoudenní návštěvu Číny, kde bude jednat se svým čínským protějškem Si Ťin-pchingem o nejdůležitějších a nejcitlivějších oblastech...

19. května 2026  9:13,  aktualizováno  9:24

Složení Sněmovny je definitivně potvrzené, ÚS odmítl stížnost libereckého lídra SPOLU

Poslanec Petr Beitl je lídrem SPOLU v Libereckém kraji (1. září 2025)

Složení Poslanecké sněmovny, které vzešlo z loňských voleb, je definitivně potvrzené. Ústavní soud (ÚS) odmítl stížnost loňského lídra koalice SPOLU v Libereckém kraji Petra Beitla.

19. května 2026  9:02

Tragédie u Chebu. Kamionu se při střetu s dodávkou odtrhla kabina, jeden mrtvý

U Cetnova nedaleko Chebu se v pondělí ráno stala tragická nehoda. Zemřel řidič...

U Cetnova nedaleko Chebu se v pondělí ráno stala tragická dopravní nehoda. Střetl se tam kamion s vozidlem údržby. Kabina kamionu se při nehodě odtrhla, uvedli hasiči. Jeden člověk zemřel. Silnice z...

18. května 2026  9:11,  aktualizováno  19. 5. 8:06

Na D4 spadlo v noci osobní auto z dálničního mostu, řidič zemřel

Na dálnici D4 u Staré Huti na Příbramsku v noci havarovalo auto, řidič...

Při havárii osobního auta na dálnici D4 u Staré Huti na Příbramsku zemřel v noci na dnešek jeho řidič. Auto spadlo z dálničního mostu, o nehodě informoval policejní mluvčí Pavel Truxa.

19. května 2026  7:59

Stíhaný polský exministr Ziobro odjel do USA díky pomoci amerického diplomata

Polský ministr spravedlnosti Zbigniew Ziobro (2. května 2023)

Trestně stíhaný bývalý polský ministr spravedlnosti Zbigniew Ziobro mohl vycestovat z Maďarska do Spojených států díky vízu, které získal s pomocí náměstka šéfa americké diplomacie Christophera...

19. května 2026  7:02

Trump chce v Marylandu prověřit kauzu hlasovacích lístků, označil je za falešné

Prezident Donald Trump hovoří s novináři na palubě letadla Air Force One. (29....

Prezident Spojených států Donald Trump oznámil, že pověří úřadujícího ministra spravedlnosti Todda Blanche, aby v americkém státě Maryland prošetřil situaci ohledně poštovních hlasovacích lístků pro...

19. května 2026  6:42

Dva teenageři zahájili palbu v mešitě v San Diegu, je nejméně pět mrtvých

Policisté prohlížejí místo střelby u mešity v San Diegu. (19. května 2026)

Pět lidí včetně dvou náctiletých útočníků zemřelo při střelbě v mešitě v San Diegu v Kalifornii. Z Islámského centra v San Diegu, které se nachází asi 14 kilometrů severně od centra bylo hlášeno...

19. května 2026  6:14

Dva lovy v jednom lese: Jeden na krocana, druhý na mladíka. Rys měl jasno

Rys pokousal lovce, přitáhla ho vábnička na krocany

Z tohoto videa by byl nadšen i stoletý slavný britský přírodovědec David Attenborough. Na záběru je totiž vidět dokonalá příprava šelmy na lov. Drobnou vadou na kráse záběru z amerického Wisconsinu...

19. května 2026  5:30

Spotoví zákazníci těží ze záporných cen elektřiny. Vydělá, kdo spotřebu načasuje

ilustrační snímek

Majitelé fotovoltaik a elektromobilů začali s návratem slunečních dní opět sledovat údaje o vývoji cen a těšit se z nadprůměrné produkce elektřiny. Zatímco fixní ceny se u běžných tarifů nyní...

19. května 2026

Je vám přes čtyřicet? Soutěžíme o přírodní doplněk stravy MenoVit Balance
Je vám přes čtyřicet? Soutěžíme o přírodní doplněk stravy MenoVit Balance

Období po čtyřicítce přináší řadu změn, které mohou ovlivnit fyzickou i psychickou pohodu. Dopřejte si proto přírodní podporu v čase, kdy ji vaše...

Firmy odmítají juniory, tituly ztrácejí hodnotu. Jak AI mění český pracovní trh

Premium
ilustrační snímek

Umělá inteligence začíná měnit pohled na vzdělání a způsobuje nečekaný přetlak na tuzemském pracovním trhu. Firmy méně hledají začátečníky, vysokoškolské tituly ztrácejí hodnotu a ajťáci čelí...

19. května 2026

Řídit Británii? Zničující mise. Z šesti premiérů od brexitu neobstál nikdo

Premium
Britský premiér Keir Starmer (12. května 2026)

Začíná to vypadat, že velmi nepopulárnímu Keiru Starmerovi okolí okopává kotníky, takže nemusí v úřadě britského premiéra dlouho přežít. Může se tak brzy zařadit do dlouhé řady nešťastníků, kteří se...

19. května 2026
Nastavte si velikost písma, podle vašich preferencí.