Premium

Získejte všechny články
jen za 89 Kč/měsíc

Jak se počítač naučil číst milion knížek ročně

aktualizováno  1:19
Rozpoznávání textu (OCR) patří pro počítače stále mezi obtížné problémy. Ze začátku šlo číst jen jeden typ písma, dnes už se počítače vrhají na knihovny. Projekt Google Books přelouská denně asi 3000 knížek.

Pro počítač je čtení zatím neskonale složitejší, než pro nás | foto: Profimedia.cz

Jedna z mála věcí, která spojuje (takřka) všechny čtenáře tohoto článku, je... schopnost číst. Pamatujete si ještě, jak jste se učili rozeznávat písmenka? Pak slabiky, slova, věty, netrvalo víc jak rok, a mohli jste číst prakticky cokoli. Málokdy si uvědomujeme, jaký zázrak to vlastně je, že se malé děti naučí rozumět mluvenému a později i psanému slovu, jako nic, řeklo by se.

Až když se lidé pokusili to samé naučit i stroje, poznali, že to zdaleka není taková samozřejmost. Žijeme ale v době, která je spolehlivému počítačovému čtení již velice blízko. Číst se ale stroje zdaleka nenaučily číst za rok.

Optické rozpoznávání znaků

Pokud pomineme složitější a komplexnější aspekty, rozumíme čtením proces, kdy spatřenému symbolu přiřadíme konkrétní znak, tedy že tento znak ve viděném symbolu rozpoznáme. Systémy OCR (optical character recognition) mají v západní kultuře velkou výhodu, jelikož pracujeme s relativně malým počtem znaků (anglická abeceda má pouhých 26 písmen). Přesto je úkol rozeznat v obrazci znak extrémně složitý.

První systémy pracovaly na opticko-mechanickém principu. V roce 1929 si rakouský vynálezce Gustav Tauschek v Německu nechal patentovat systém pro rozpoznávání znaků. Jak jistě víte, v té době ještě neexistovaly počítače, rozhodně ne v dnešním slova smyslu. Však také Tauschekův přístroj pracoval na převážně mechanické bázi - obsahoval šablony jednotlivých znaků, a pokud se šablona pěkně překrývala s daným znakem (což posoudil fotoreceptor, který tak viděl jenom bílou), prohlásil systém znaky za shodné. Ještě tentýž rok od něj patent koupila společnost IBM (v následujících pěti letech od něj odkoupila ještě další patenty).

Tauschekův patent 1935

Rozlouskněte ten kód!

Pět let po konci druhé světové války pracoval americký kryptoanalytik David Shepard (znýmý svým rozlomením kódu z japonského šifrovacího stroje Purple) na automatizaci přepisování dat do strojové formy. Protože bylo nutné převést do strojů velké množství tištěného textu, rozhodl se Shepard, že s kolegou vyvine metodu pro strojové převádění tištěného textu do upravovatelné elektronické podoby. U sebe v podkroví tak během roku s přítelem Harveyem Cookem stavěli systém, který si o rok později nechali patentovat pod jednoduchým názvem "Aparát na čtení" (Apparatus for reading).

Apparatus for Reading

David Shepard si s Williamem Lawlessem založili v roce 1952 firmu Intelligent Machines Research Corporation, aby tak pomohli komerčnímu úspěchu jejich mašinky nazvané "Gismo". To se jim povedlo, protože se na scéně opět objevila firma IBM, která jejich patenty odkoupila. Později mladou firmu i zaúkolovala: "Zkuste vyrobit stroj, který by byl schopný rozpoznávat ručně psané číslice." Mezitím IBM nadále rozvíjela systém rozpoznávání, a poprvé jej také pojmenovala slovy Optical Character Recognition. Ten se udržel dodnes, přestože v dnešní době už probíhá rozpoznávání znaků vesměs v digitální rovině, nikoli opticko-mechanickou cestou.

První komerční využití - předplatné a kreditky

Jako první si aplikaci tohoto systému zakoupila firma Readers Digest, starší bratříček Gisma od firmy IMR jim pomáhal v oddělení pro předplatné. Významným odběratelem byla také kalifornská společnost Standard Oil Company, která OCR začala využívat pro čtení obtisknutých čísel kreditních karet na účtech.

Systém začal žít svým vlastním životem - jakmile se našlo jeho komerční využití, bylo o jeho budoucnost postaráno. Shepard a Lawless se později rozdělili. Zatímco Shepard si založil svoji firmu, Lawless se dostal do společnosti IBM, kde se prý zasloužil o další vynález - je mu připisováno autorství pojmu "software" ve smyslu programového vybavení počítače.

Poštovní směrovací číslo

Systémy pro rozpoznávání znaků používá americké pošta od roku 1965. Využívala přístroje navržené Jacobem Rabinowem, velice plodným americkým vynálezcem, který je kromě čtecích zařízení zodpovědný třeba také za vylepšení v magnetickém ukládání informací. Evropské pošty začaly systémů OCR využívat v roce 1971.

S čím se musí potýkat OCR

V dnešní době jsou již OCR programy rozšířené i mezi běžné uživatele. Jedná se zpravidla o software, který analyzuje obrázek a snaží se v něm rozpoznat text, který pak v co nejvěrnější podobě uloží do editovatelného formátu (TXT, RTF, DOC apod.). Pokročilejší aplikace umí uložit i tabulky, zachovat řezy písma nebo vložit obrázky.

Právě různá písma a grafické prvky rozpoznávání velice znesnadňují. Další zádrhele mohou vyvstat, pokud je text nakloněn, případně nekvalitně reprodukován či nasnímán. Kromě toho jsou v některých písmech skupiny písmen, která mají tendenci tvořit nerozlučné dvojice, čímž opět znesnadňují rozpoznání. Známou takovou dvojicí je "rn", které velice připomíná písmeno "m".

reCAPTHCA - ukázka

Pak nastupuje srovnání slov se slovníkem daného jazyka - program (např.) v pravděpodobnostech vyjádří různé hodnoty pro různá písmena, a bude hledat, které ze slov by nejlépe odpovídalo. Zde přicházejí ke slovu například neuronové sítě, které jsou schopné se učit a tak se postupně zlepšovat (pokud jim ovšem někdo označí, zda byl jejich výstup kvalitní, případně kde byl chybný). Technologie vylepšující OCR o "inteligentní" schopnosti se někdy schovávají pod souhrnný název ICR.

Další možností je gramatická analýza textu - znalost toho, zda bude následovat příslovce nebo přídavné jméno, se pro správné rozpoznání také hodí. Dvojnásob to platí u rozpoznávání rukou psaného textu, který často vůbec neobsahuje dostatek informací na to, aby mohl být správně přepsán bez určitého "domýšlení si". To člověk dělá prakticky podvědomě, pro počítač je to ale těžká zkouška.

popisek Lidé s tím počítači pomáhají
reCaptcha -  učíme počítače číst

Skenování knih a knihoven

Nelze psát o skenování nebo OCR a nezmínit ambiciózní projekty typu Gutenberg.orgLive Books Search nebo Google Books. Objemy, které tyto iniciativy skenují, se vymykají běžným užitím. Např. Google má v plánu naskenovat něco kolem padesáti milionů knih z univerzitních knihoven po celém světě, aby se tak více přiblížil svému cíli "učinit všechny informace na světě dostupné a prohledávatelné."

K takovému množství samozřejmě nelze použít lidskou práci - naskenovat knihovnu za použití domácího stolního skeneru by trvalo nezměrně dlouho. Navíc by to bylo i velice nešetrné ke knihám. Zvláště pro univerzitní knihovny, které mají často jediný přeživší exemplář dané knihy, je bezpečnost svazků na prvním místě. Zástupcům Google proto trvalo velice dlouho, než získali souhlas k naskenování knih za použití stroje.

 APT BookScan 1200
APT BookScan 1200 zvládne nasnímat až 1200 snímků za hodinu v rozlišení 16.6 Mpix


Naskenované knihy pak projdou OCR programem, který jednotlivým obrázkům přiřadí text a učiní je tak prohledávatelnými. To je obrovská výhoda, která umožňuje prohledávat knihy podobně, jako dosud pouze počítačové dokumenty. "Dokonce ještě před tím, než jsme spustili Google, snili jsme o tom učinit to obrovské množství informací, které je tak nádherně uspořádané v knihovnách, učinit prohledávatelné on-line," vzpomíná Larry Page, spoluzakladatel společnosti Google. Jak je vidět zde, zatím se jim to daří.

Jak hledat v Google Books

Na books.google.com zadáte jméno knihy, autora nebo třeba jen text, který v knize hledáte:

Google Books - vyhledávání

V dané knížce můžete i vyhledávat. Pokud je kniha chráněná autorským právem, zobrazí se vám pouze úryvky z knihy spolu s číslem stránky:

Google Books - úryvky

Pokud si najdete knihu, která je v public domain nebo je z jiného důvodu k dispozici celá, můžete s ní zacházet téměř libovolně. Prohlížet si ji, vyhledávat v ní, stáhnout si ji v PDF formátu:

Google Books - Picture of Dorian Gray


Google tento týden oznámil, že otevírá svůj systém Google Books i pro české vydavatele. České knihy jsou ale v systému už dávno:

Google Books - Slovan


Pevně doufám, že se k problematice skenování knížek (a knihoven) ještě na Technetu vrátíme. Ostatně i samotné skenování takového objemu dat je vždycky běh na dlouho trať (desítky let přinejmenším). Každý den navíc vznikají desítky knih nových. Ty jsou však již psány v elektronické podobě a zapojení OCR nevyžadují.

Pište prosím čitelně

Dnes je OCR používáno v mnoha oblastech a pravděpodobně jste na něj narazili i vy, ať už při skenování dokumentu do počítače, nebo při vyplňování dotazníku "čitelným hůlkovým písmem." Dejte si příště záležet a písmenka dotahujte. Musíme mít s počítači strpení. Číst se učí teprve 80 let...

Odkazy

Autor:
  • Nejčtenější

Zázrak! NASA po pěti měsících obdržela od sondy Voyager smysluplnou zprávu

v diskusi je 173 příspěvků

23. dubna 2024  13:37

Když se v únoru letošního roku stále nedařilo navázat smysluplnou komunikaci s jedním z...

Herečce Slávce Budínové by bylo 100 let. Zemřela opuštěná, bez zájmu veřejnosti

v diskusi je 30 příspěvků

21. dubna 2024

Před 100 lety, 21. dubna 1924, se v Ostravě narodila známá česká herečka Slávka Budínová.

{NADPIS reklamního článku dlouhý přes dva řádky}

{POPISEK reklamního článku, také dlouhý přes dva a možná dokonce až tři řádky, končící na tři tečky...}

Unikátní exkurze. Nahlédněte do francouzské jaderné ponorky před vyplutím

v diskusi je 16 příspěvků

20. dubna 2024

Není obvyklé, aby reportéři mohli nahlédnout do jaderné ponorky v aktivní službě. Agentura AP nyní...

Proč umělá inteligence lže a proč kvůli ní zhloupneme. Počítačový expert vypráví

v diskusi je 17 příspěvků

22. dubna 2024

Premium Zatímco průmyslová revoluce zaváděla masivní využití strojů, které nahradily lidské svaly, nyní...

{NADPIS reklamního článku dlouhý přes dva řádky}

{POPISEK reklamního článku, také dlouhý přes dva a možná dokonce až tři řádky, končící na tři tečky...}

Byla to druhá nejjasnější hvězda. V budoucnu může svítit jako druhý Měsíc

v diskusi je 17 příspěvků

21. dubna 2024

Velmi neobvyklá hvězda éta Carinae v devatenáctém století náhle zjasnila a stala se druhou...

Pomník Jana Žižky na Vítkově vznikal skoro 30 let

v diskusi je 8 příspěvků

27. dubna 2024

27. dubna 1924 zahájil Spolek pro zbudování pomníku Jana Žižky na Žižkově veřejnou sbírku na jeho...

Přistávat s vrtulníkem je jako balancovat na míči a zůstat při tom něžný

v diskusi je 1 příspěvek

27. dubna 2024

Mysli na to, že při záchraně druhých nesmíš sebe ani nikoho jiného ohrozit. Tak zněla jedna z...

Učili jsme se od alpských záchranářů, líčí pilot počátky letecké záchranky

v diskusi jsou 3 příspěvky

26. dubna 2024

Exkluzivně Za kniplem vrtulníku strávil přes 9 250 hodin. Stál u zrodu letecké záchranné služby, létal s...

Sphere jako osmý div světa? Zábavní komplex ve Vegas je technologický zážitek

v diskusi je 17 příspěvků

25. dubna 2024

Uvidíte v ní famózní obraz s nejvyšším rozlišením na světě, do uší zahraje sto šedesát tisíc...

Akční letáky
Akční letáky

Všechny akční letáky na jednom místě!

Bývalý fitness trenér Kavalír zrušil asistovanou sebevraždu, manželka je těhotná

Bývalý fitness trenér Jan Kavalír (33) trpí osmým rokem amyotrofickou laterální sklerózou. 19. dubna tohoto roku měl ve...

Herečka Hunter Schaferová potvrdila románek se španělskou zpěvačkou

Americká herečka Hunter Schaferová potvrdila domněnky mnoha jejích fanoušků. A to sice, že před pěti lety opravdu...

Tenistka Markéta Vondroušová se po necelých dvou letech manželství rozvádí

Sedmá hráčka světa a aktuální vítězka nejprestižnějšího turnaje světa Wimbledonu, tenistka Markéta Vondroušová (24), se...

Horňáci versus dolňáci. Víme, čemu muži dávají přednost, a je to překvapení

Ženské tělo je pro muže celkově velmi atraktivní a nabízí jejich očím mnoho zajímavých partií. Největší pozornosti se...

Za vytlačení z linky do Brna musí Student Agency zaplatit náhradu 21 milionů

Společnost Student Agency provozující autobusy a vlaky pod označením RegioJet musí zaplatit bývalému konkurentovi 21...