iDNES.cz

Premium

Získejte všechny články mimořádně
jen za 49 Kč/3 měsíce

Jak online a zdarma vydolovat text z obrázku či PDF

10. května 2022

Optické rozpoznávání znaků (OCR) slouží nejen pro převod obrázků obsahujících texty do podoby umožňující pozdější úpravy, ale využívá se automaticky i k dalším funkcím. Třeba k překladu ve smartphonech.

Zvětšit fotografii

Ilustrace: OCR | foto: Creative Commons

Existuje několik skvělých nástrojů pro rozpoznání, chcete-li převod textů v obrázcích na textový formát. Mnoho z nich je dostupných v proprietární podobě a pro běžného uživatele tak nesnadno dostupných (třeba jako součást nějakého systému či zařízení), potom existují různé programy, které však většinou nejsou zdarma. Tuto situaci zachraňují OCR online nástroje. Jsou zdarma a nemusí se instalovat. Jediné, na co si případně musíte dávat pozor, je bezpečnost.

Co je OCR

Díky OCR (Optical Character Recognition) se z naskenovaného nebo vyfotografovaného dokumentu, případně fotografie nebo obrázku automatickým rozpoznáním znaků extrahují potřebné informace. Obvykle to zvládne program automaticky, jinak se musí naučit znaky rozpoznat. Podle toho, jak je kvalitní, vypadají i výsledky. V některých případech je míra úspěšnosti opravdu velká, jindy je v závislosti na kvalitě softwaru a předlohy nutno udělat korekturu, tedy zeditovat ho, protože OCR program nemusí rozeznat všechna písmena správně. OCR v sobě tedy kombinuje jak hardware, tak software.

OCR je užitečný nástroj pro širokou škálu účelů a situací a pomáhá nám ušetřit práci, abychom nemuseli otrocky přepisovat texty. Už dlouhá léta se používá nejen k jednoduchému převodu z obrázků na text, ale využívá se v knihovnictví, bankách či zdravotnictví. Technologie je nasazena i při rozpoznávání poznávacích značek, čtení pasů nebo třeba při automatickém překladu.

Vznik OCR

První použití OCR se vyskytlo zcela jinde a pro jiný účel. Konkrétně v telegrafii a při tvorbě čtecích zařízení pro nevidomé. V roce 1914 Emanuel Goldberg vynalezl zařízení, které četlo znaky a převádělo je do standardního telegrafního kódu. Ve stejné době Edmund Fournier d’Albe vynalezl optofon, ruční skener, který při pohybu po tištěné stránce produkoval tóny, které odpovídaly konkrétním písmenům nebo znakům (převáděl text do akordů).

Postup převodu technologií OCR

V dalších letech byla technika pro rozpoznávání významně vylepšována. V 90. letech se tato technologie prosadila při digitalizaci historických novin. K jejímu obrovskému úspěchu v posledních letech přispěly smartphony a elektronické dokumenty, které jsou katalyzátorem současného pokroku této technologie.

Pojďme se podívat na několik důvodů, proč je OCR technologie užitečná.

Učiňte dokumenty prohledatelnými

Profesionální skener textů

Pokud máte mnoho textů v JPG, PNG nebo i PDF apod. formátech, potom v nich nemůžete vyhledávat texty. A ani je upravovat. To ve výsledku znamená, že máte hodně textu (neprohledatelných dokumentů), se kterými dále nelze pracovat. Pokud v nich budete potřebovat vyhledat něco konkrétního, tak neuspějete. OCR to vyřeší. S jeho pomocí proměníte soubory na dokumenty, a tak v případě potřeby najdete specifické informace, které lze zkopírovat a vložit a použít jinde.

Usnadněte si úpravy a zabraňte chybám

Další výhodou je, že pokud takto převedete neměnné a needitovatelné texty, budete je moci dále upravovat. To mimo jiné znamená, že v nich budete moci navíc dělat úpravy nebo je využívat jako zdroj pro další použití – např. vytvářet nové nabídky, školní práce, upravit určitou část, která potřebuje vylepšit, apod. Lidským chybám se nelze vyhnout, ale pokud nastane, jistě byste uvítali možnost ji napravit. Jestliže máte dokument v needitovatelné podobě a nemáte k němu zdroj, potom i toto řeší OCR – převede finální verzi opět do editovatelné.

Ušetřete čas, peníze a místo

OCR technologie umožňuje ušetřit spoustu času a peněz snížením nároků na papírování. Většina firem (ale i domácností) má a dále tvoří mnoho dokumentů v papírové podobě, což není vždy ideální. V digitální podobě totiž výrazně šetří čas a peníze. A to včetně dokumentů, které jsou z papíru převedené prostřednictvím OCR – následně není nutné vynakládat zbytečný čas na manipulaci a případně prohledávání založených dokumentů ve skříni. Pomocí OCR můžete jednoduše naskenovat tištěné nebo elektronické obrázky obsahující text a získat jejich digitalizovanou formu. Navíc ušetříte spoustu místa, kterou zabírají hromady vašich papírových dokumentů (smlouvy, vyúčtování, složenky apod.).

Online nástroje

Nástrojů pro online převod existuje velké množství. Liší se od sebe nabízenými funkcemi a také tím, zda jsou zdarma, nebo placené. Pojďme se na tři z nich podívat blíže. Prvním nástrojem je Onlineocr.net. Ve třech krocích v něm docílíte toho, čeho chcete. Nejprve vyberete soubor pro převod (můžete použít jak obrazové formáty typu JPG, PNG apod., tak i PDF, ale rovněž DOCX, XLSX TXT atd.), následně určíte ve kterém jazyce je text a potom vyberete výstupní formát (např. Microsoft Word). Tlačítkem Convert proces převodu odstartujete.

Převod nástrojem Onlineocr.net

Výsledkem je náhled textu v textové podobě a také odkaz na dokument ve formátu Microsoft Word. Ten můžete následně podle potřeby dále upravovat. Trochu nám ve službě chybí výstupní formát PDF. Pokud však použijete další službu – NewOCR.com – potom nemusíte zoufat. Mezi výstupními formáty jsou TXT, DOC a PDF. Navíc díky zabudované službě Google Translate můžete nechat text automaticky přeložit (což se může hodit, pokud je v cizím jazyce), a dokonce v dokumentu i online zeditovat.

Převod nástrojem NewOCR.com

Třetím a posledním nástrojem, který vám doporučíme, je PDF24.org. Umí nejen vydolovat text a uložit ho do PDF, ale zachová i jeho strukturu. To se může hodit zejména u faktur, které chcete elektronizovat. Kromě vstupních formátů umožňuje importovat i soubory z Dropboxu či Google disku. V dalších volbách najdete možnosti jako odstranit pozadí, vyčistit nebo otočit stránku atd. Výsledek si lze zobrazit jako náhled, stáhnout v PDF souboru, poslat e-mailem, nahrát na Dropbox nebo Google disk a nechybí ani další volby.

Převod nástrojem PDF24.org

Offline nástroj

Pokud dáváte přednost klasickým aplikacím, potom můžeme doporučit jak zdarma dostupný Capture2Text, tak ShareX. Oběma programům jsme se věnovali v tomto článku.

Jak na „OCR“ v browseru

Kromě možnosti převést do editovatelné podoby obrázky prostřednictvím smartphonů a online a offline nástrojů je možné „dolovat“ texty také přímo z webů. Výborně k tomu slouží nástroj Blackbox AI. K dispozici je ve formě rozšíření pro browser Chrome. Jakmile je nainstalováno, stačí ho aktivovat a kurzorem vybrat oblast, kterou chcete převést do textu. Ten potom vložíte prostřednictvím klávesové zkratky Ctrl + V do textového editoru. To se může hodit nejen v případech, kdy některé weby zakazují kopírovat texty ze stránek, ale můžete toho využít rovnou u obrázků na webu, bez nutnosti je stahovat a dále převádět.

Závěrem

Jak jsme ukázali, optické určování znaků se používá k rozpoznávání naskenovaných obrázků a jiných vizuálů na text. Dokáže proměnit papírové dokumenty na upravitelné a prohledávatelné digitální soubory, a tak je zpřístupní automatizovaným systémům – například k prohledávání.

Je však třeba mít na paměti, že především online nástroje nemusí zaručit bezpečnost textu a soukromí. Vyplatí se je tak využívat především u méně citlivých informací.

Autor: Jakub Dvořák

Témata: obrázek, Portable Document Format (PDF), technologie, peníze, Google, Microsoft Word, Dropbox, Drive

Komerční sdělení

NASA ukázala, co byste viděli před možná nejbolestivější smrtí ve vesmíru

v diskusi je 131 příspěvků

10. května 2024 11:54

Superpočítače lze využít ke zpracování zajímavých úloh. Vedle hledání nových molekul pro léky,...

KVÍZ: Zapomenuté funkce domácí techniky, po kterých se už nikomu nestýská

v diskusi je 13 příspěvků

13. května 2024

Byly běžnou součástí životů vás, vašich rodičů nebo prarodičů. Většinu z nich dnes však nikdo...

{NADPIS reklamního článku dlouhý přes dva řádky}

{POPISEK reklamního článku, také dlouhý přes dva a možná dokonce až tři řádky, končící na tři tečky...}

Zastřešený tank z Cesty do pravěku konečně odhaluje své evoluční tajemství

v diskusi jsou 2 příspěvky

11. května 2024

Dramatický boj stegosaura s ceratosaurem byl ve filmu Cesta do pravěku jednou z nejznámějších scén....

Hoover celý život skrýval homosexualitu. Nechal sledovat Lennona či Chaplina

v diskusi je 11 příspěvků

10. května 2024

10. května 1924 se do čela americké FBI dostal John Edgar Hoover. Kontroverzní osobnost vydržela ve...

{NADPIS reklamního článku dlouhý přes dva řádky}

{POPISEK reklamního článku, také dlouhý přes dva a možná dokonce až tři řádky, končící na tři tečky...}

Byl výtečným velitelem, přivedl naše tankisty, ale komunisté mu to nedarovali

v diskusi je 36 příspěvků

8. května 2024

Není Liška jako Liška. Zatímco nacistický generál Erwin Rommel, přezdívaný Pouštní liška, byl...

Autor „Krtečka“ i „Řeckých bájí“ Eduard Petiška se narodil před 100 lety

v diskusi jsou 2 příspěvky

14. května 2024

Před 100 lety, 14. května 1924, se narodil spisovatel Eduard Petiška, autor Starých řeckých bájí a...

Nezneužívá někdo webkameru či mikrofon vašeho PC? Jak to zkontrolovat

v diskusi je 1 příspěvek

14. května 2024

Premium To, že webová kamera a mikrofon v počítači mohou sloužit nejen k účelům, pro které byly vytvořeny,...

Umělá inteligence od OpenAI má nový pohon. A rovnou ho dává zadarmo

v diskusi je 5 příspěvků

13. května 2024 20:34

Společnost OpenAI vůbec poprvé pořádala živé představení svých pokroků. Hlavní novinkou se stala...

Zemřel proslulý chemik Josef Michl, patřil k nejcitovanějším českým vědcům

v diskusi je 5 příspěvků

13. května 2024 18:02, aktualizováno 19:21

Ve věku 85 let v pondělí zemřel český chemik Josef Michl. Informoval o tom Ústav organické chemie a...

Pronájem byty 1+1, 39 m2 - Horní Bříza

Komenského, Horní Bříza, okres Plzeň-sever
13 000 Kč/měsíc

Více z nabídky 82 079 nemovitostí

Eurovizi vyhrál nebinární Švýcar Nemo. Nizozemce vyloučili za „výhružný pohyb“

Ve švédském Malmö rozhodli o vítězi letošní Eurovize. Stal se jím švýcarský nebinární zpěvák Nemo. Soutěž doprovázely...

Moderátorka Petra Křivková-Svoboda přišla při tragické nehodě o manžela

Moderátorka poledních zpráv televize Nova Petra Křivková-Svoboda (41) v neděli ztratila svého manžela Ondřeje Křivku...

Miss Czech Republic 2024 se stala studentka Adéla Štroffeková z Prahy

Vítězkou 15. ročníku Miss Czech Republic se stala studentka Adéla Štroffeková (21). Českou republiku bude reprezentovat...

Silničářští popletové pobavili Mohelnici. Zpackaný nápis zaujal každého

Zpackaná dopravní značka pobavila Mohelničany. Silničáři při stříkání nápisu na asfalt otočili šablonu a vytvořili...

NASA ukázala, co byste viděli před možná nejbolestivější smrtí ve vesmíru

Superpočítače lze využít ke zpracování zajímavých úloh. Vedle hledání nových molekul pro léky, předpovídání složitých...

Herní technika

Finance

Osobnosti

Elektromobilita

Termíny

Válka na Ukrajině

Nepřehlédněte

iDNES.cz

© 1998–2024 MAFRA, a. s. a dodavatelé Profimedia, Reuters, ČTK, AP. Rozmnožování obsahu pro účely automatizované analýzy textů nebo dat dle ustanovení § 39c autorského zákona je bez souhlasu MAFRA, a. s. zakázáno. Jakékoliv užití obsahu včetně převzetí, šíření či dalšího zpřístupňování článků a fotografií je bez souhlasu MAFRA, a. s. zakázáno. Provozovatelem serveru iDNES.cz je MAFRA, a. s. IČ: 45313351.

mobilní verze

Přihlášení