Čtvrtek 21. ledna 2021, svátek má Běla
  • schránka
  • Přihlásit Můj účet
  • Čtvrtek 21. ledna 2021 Běla

Lidé mimoděk naučí počítače číst. Pomůže to digitalizaci knih

  9:33
Studenti americké univerzity vyvíjí systém, který naučí počítače číst a umožní preciznější digitalizaci knih. Využívají k tomu obyčejný filtr proti nevyžádané poště.

Naučte počítač číst! Zabere vám to jen pár sekund denně... | foto: Profimedia.cz

Na Carnegie Mellon University pracují studenti na systému, který bude využívat webového antispamového filtru CAPTCHA k učení OCR (Optical Text Recognition - automatické rozpoznávání psaného textu) systému. Uživatelé diskuzních fór, e-mailových schránek apod. tak úplně mimochodem naučí počítače "číst". Celý systém následně umožní preciznější digitalizaci knih.

Systém CAPTCHA by se mohl v brzké době změnit na reCAPTCHA a kromě odfiltrování spamu a "obtěžování" uživatelů zadáváním nesmyslných údajů, by navíc ohl sloužit užitečné věci.

Řekni mi, co čteš, a já ti povím, jestli jsi stroj

S nástrojem CAPTCHA se pravděpodobně denně setkáváme. Jedná se o celkem účinný způsob, jak rozpoznat, zda u počítače sedí člověk, či zda se jedná o automatizovaný program ("bot"). Zkratka CAPTCHA zastupuje poněkud rozsáhlé spojení "Completely Automated Public Turing test to tell Computers and Humans Apart", tedy zcela automatizovaný test na odlišení lišení lidí a počítačů. Jinak řečeno: je to program, který generuje takový test, jaký by sám vyřešit nedokázal ("Takže vidíte, že je vlastně jako někteří profesoři," vtipkuje Louse Von Ahn z Carnegie Mellon University).

Ukázka: CAPTCHA na seznam.cz

Samozřejmě, jak už to nejen ve světě technologií chodí, CAPTCHA se nestala řešením otázky spamerů, spíše výzvou pro spamery. A její první typy brzy podlehly botům (stačí úspěšnost v řádu procent a počítačový program zavalí web falešnými požadavky, narozdíl od člověka jich totiž zvládne tisíce za minutu). CAPTCHA se tak stávaly složitější a tím pádem i méně snesitelné. A také je to prý obrovské plýtvání.

Počítač: Tohle nemůžu přečíst

Denně je celosvětově vyplněno více než 60 milionů takovýchto testů. To znamená 150 tisíc člověkohodin zcela proplýtvaných. Právě to by se mělo změnit. Výsledky lidského vstupu do CAPTCHA se použijí při digitalizaci knih v rámci projektu Internet Archive. OCR má totiž při scanování starých knih často velké problémy.

reCAPTHCA - ukázka

Internet Archive chce zachovat co nejvíce informací a zpřístupnit je veřejnosti na internetu. Kromě knih a filmů také provozuje WayBack Machine, umožňující jakési cesty časem, více v našem článku "Jak se dostat ke stránkám...".

Člověk: Ukaž, já ti pomůžu

Nový systém reCAPTHCA bude vedle sebe dávat spolu s vygenerovanými slovy (tedy znaky, které systém bude schopen ověřit) také slova, která se nepovedlo přečíst při digitalizaci knih systémem OCR. Pokud budou ověřitelné znaky zadané správně, systém si do databáze uloží příslušné slovo, které se mu nepovedlo přečíst, a poučí se ze své chyby.

Každé slovo se objeví více uživatelům zcela nezávisle, aby se vyloučily omyly. Když si uvědomíme, jak obrovskou základnu (ne)dobrovolných učitelů tenle systém má, dá se předpokládat, že může být úspěšný.

Zatím není jasné, kde všude bude reCAPTCHA implementována. Vyzkoušet si ji můžete na oficiálních stránkách projektu.reCAPTHCA - ukázka

Takže až budete zase někdy vyplňovat CAPTCHA, může vás při luštění písmenek hřát vědomí, že nejenže zrovna děláte něco, co zatím počítač neumí, ale ještě tím pomáháte převádět knihy do digitální podoby.

Odkazy:

Autor:
  • Nejčtenější

Android TV mizí z televizorů. Podívejte se, co jej letos mnohde nahradí

Operačnímu systému Android TV zřejmě začíná poslední sezóna. Jak se ukázalo na veletrhu CES 2021, již letošní novinky...

Válka v jednom čísle. Jak Sověti na papíře vyhráli nad Západem

Sověti vyvinuli na přelomu 60. a 70. let analytickou metodu, která měla umožnit snadné srovnání vojenské techniky...

Rezervace očkování je plná zbytečných chyb. Způsobila i pád celého systému

Státní web na rezervaci očkování proti covidu-19 byl plný úplně základních chyb a zbytečných komplikací. Navíc začal...

Operaci Pouštní bouře zahájily vrtulníky US Army úderem na radary

První letecký úder proti Iráku neprovedly před třiceti lety „neviditelné bombardéry“ USAF, ale vrtulníky Apache US...

{NADPIS reklamního článku dlouhý přes dva řádky}

{POPISEK reklamního článku, také dlouhý přes dva a možná dokonce až tři řádky, končící na tři tečky...}

Čest, talent i služba Hitlerovi. Nejlepší tankista války byl z Jesenicka

Během druhé světové války vznikla po vzoru leteckých es nová kasta es tankových. Patrně nejlepším tankistou 2. světové...

Kdo staví vilu na Babě? Muž s vazbami na sponzory Zemanovy kampaně

Premium Nová prosklená vila na vrchu Baba v Praze budí zájem místních i turistů. Dům patří firmě Luboše Paška, který je...

Ano, Češi byli nejlepší! říká zámořský expert o časech, kdy i Kanada žárlila

Premium Omlouvá se při vzpomínce na nezdar Pavla Patery v Dallasu. Zápasy proti Buffalu s Dominikem Haškem v brance přirovnává...

TEST olejů: nejhorší je kokosový, zdravější je i sádlo

Premium Na smažení a fritování, do salátů, omáček i dresinků... Do velkého srovnání olejů a tuků jsme vybrali dvacet výrobků....

  • Další z rubriky

Zablokovat Trumpa bylo správné, ale je to naše selhání, říká šéf Twitteru

Sociální síť Twitter trvale zablokovala americkému prezidentovi Donaldu Trumpovi účet. Jako důvod uvedla porušování...

Amazon vypnul servery sociální síti, kterou využívali stoupenci Trumpa

Americký poskytovatel cloudových služeb Amazon Web Services (AWS) po předchozím upozornění zastavil poskytování služeb...

Pracovní začátek roku zasáhl komunikátor Slack masivním výpadkem

Komunikační program určený pro týmovou spolupráci Slack měl v pondělí odpoledne a večer výpadek. Především pro pracovní...

Twitter zablokoval Trumpa za šíření lží o „drtivém vítězství“. Na 12 hodin

Komunikační platforma Twitter zablokovala na dvanáct hodin účet Donaldu Trumpovi. Zároveň několik jeho tweetů smazala....

PŘÍBĚH ZE ŽIVOTA: Těhotenství bylo bezproblémové, později měl malý Honzík epileptické záchvaty i 30krát denně
PŘÍBĚH ZE ŽIVOTA: Těhotenství bylo bezproblémové, později měl malý Honzík epileptické záchvaty i 30krát denně

Šestiletý Honzík Hanuš se narodil s vrozenou vývojovou vadou pravé ruky. Když bylo malému půl roku, lékaři mu diagnostikovali opoždění...

Vytetovaná sexuální instrukce zaráží i mého gynekologa, líčila dívka

Nesedí k ní, ale onen vulgární sexuální povel má na podbřišku opravdu vytetovaný. Vznikl jako rozpustilá, hrdá,...

Analytik: Evropa byla od blackoutu setiny. Bez ČR by to Rakousko nezvládlo

8. leden 2021 se mohl stát skutečným „černým dnem”. Evropě totiž hrozil blackout, tedy masivní výpadek dodávek...

Dalibor Janda leží ve vážném stavu v nemocnici na koronární jednotce

Dalibor Janda (67) byl hospitalizován v pražské Fakultní nemocnici Královské Vinohrady. Zpěvák leží ve vážném stavu na...

PŘEHLEDNĚ: Od ledna kartou online postaru nezaplatíte. Jaké podmínky má vaše banka?

Otisk prstu či scan obličeje při placení kartou na internetu již dávno není sci-fi. Možná je po vás vaše banka chce...

Bezplatné jezdění po dálnici? Elektronické známky téměř nikdo nehlídá

Premium Druhý týden platí na českých dálnicích novinka v­ podobě elektronické dálniční známky. Zatímco lidé takzvané viněty...