Obrovské množství v dokumentech uvězněných znalostí se otevírá. Díky AI

Extrakce textu z obrázků významně pokročila, nicméně stále je co zlepšovat. Své o tom ví podniky, vlády, či výzkumníci, kteří mají řadu dat stále v papírové podobě. Případně je naskenovali do obrazového formátu PDF a teď neví, jak je z nich vydolovat. Tyto digitální dokumenty totiž mají pevný formát. To znamená, že data v nich jsou „uzamčená“, a pro počítače je těžké je číst a analyzovat.
Část 1/4

Dalším problémem je nestrukturovanost starých skenů. To se přitom týká i PDF formátu. V době, kdy se vyvíjel, se při tvorbě dokumentů kladl velký důraz na jejich vzhled při tisku. Z tohoto důvodu jsou mnohé starší PDF soubory spíše „otisky“ než skutečné digitální dokumenty. Často se jedná pouze o obrázky textu, což znamená, že z nich nelze jednoduše kopírovat text nebo cokoliv dalšího.

PDF, které není pouze obrázek, ale lze z něj informace kopírovat

Proto je v takových případech nutné použít speciální program, známý jako OCR (optické rozpoznávání znaků), který tyto obrázky převede na textová data. To platí zejména pro staré dokumenty nebo rukopisy.

Staré skeny jsou nestrukturované

Pro analýzu dat a strojové učení představují PDF soubory značnou překážku. Podle různých studií je přibližně 80 až 90 procent firemních dat uloženo v dokumentech v nestrukturované podobě. Tento problém ještě zhoršuje jejich případné složité rozvržení – používají sloupce, tabulky, grafy – nebo, když jde o naskenované dokumenty nízké kvality, případně skeny v klasických obrazových formátech.

Bohužel takto byly skenovány téměř všechny dokumenty před více než dvaceti lety, a to se týká i důležitých záznamů. To má dopad na fungování soudů, policie, sociálních služeb, výzkumu a dalších institucí, které potřebují s informacemi v těchto dokumentech, včetně vědeckých studií a státních záznamů, pracovat. Některá odvětví, která potřebují velké množství informací, jako je pojišťovnictví a bankovnictví, proto musí investovat značné finanční prostředky do extrakce dat z PDF souborů.

Nejčtenější

První metro v kontinentální Evropě měla Budapešť, dodnes je nejmělčí

Druhým městem na světě, které bylo obdařeno metrem, se v roce 1896 stala uherská metropole Budapešť. Tato první linka budapešťského metra je postavena těsně pod povrchem. Elektrické napájení je...

Co to bylo za ránu? Manželka šéfa ponorky netušila, že její muž v Titanu právě zemřel

Implozi ponorky Titan odhalila nová nahrávka. A záběry, které ukazují manželku tehdejšího šéfa společnosti OceanGate, který se spolu s dalšími čtyřmi pasažéry vydal před dvěma lety prozkoumat vrak...

Ponorka do hloubky, která na Zemi není, připomíná bednu. Na dno pěti oceánů

Relativně nedávno vzbudila zájem široké veřejnosti tragédie ponorky Titan, která i s posádkou v červnu 2023 implodovala cestou k vraku Titaniku. Jedním z podmořských badatelů, který se k této nehodě...

Hrobníkovi z lopaty. Po pádu letadla musela ještě přežít boj s pralesem

Zatím jsme se v našem seriálu věnovali příběhům mužů z ozbrojených sil. Dnes se podíváme na příběh dívky, která v sedmnácti letech přežila pád z výšky kolem 3 000 metrů a navzdory svým zraněním se...

Na chvíli jsme vyzkoušeli horkou novinku od Googlu. Co dovedou jeho brýle?

Exkluzivně

Mountain View (Od zpravodaje iDNES.cz) Jedním z největších taháků konference Google I/O jsou zbrusu nové brýle ovládané operačním systémem Android XR. My jsme měli možnost je jako jedni z prvních na světě vyzkoušet.

Tanec na nebi. Vojenský pilot předvedl, co dokáže vrtulník Black Hawk

Den otevřených dveří 21. základny taktického letectva Čáslav předvedl minulou sobotu 17. května řadu velmi povedených letových ukázek. Podívejte se, jak obratný dokáže v rukou zkušeného pilota být...

24. května 2025

Co to bylo za ránu? Manželka šéfa ponorky netušila, že její muž v Titanu právě zemřel

Implozi ponorky Titan odhalila nová nahrávka. A záběry, které ukazují manželku tehdejšího šéfa společnosti OceanGate, který se spolu s dalšími čtyřmi pasažéry vydal před dvěma lety prozkoumat vrak...

23. května 2025  12:27

Před 100 lety se narodil významný český divadelní režisér Jan Grossman

Jan Grossman byl vynikající divadelní režisér a zároveň jedna z nejvýznamnějších osobností českého divadla dvacátého století. Narodil se před 100 lety, 23. května 1925 v Praze. Zemřel v roce 1993.

23. května 2025

Upgrade za každou cenu? Proč občas říct ne nejnovějším technologiím

Nové generace elektroniky lákají na vylepšené parametry. Telefon slibuje citelně lepší snímky, notebook svižnější odezvu a sluchátka modernější vzhled. Pro běžného uživatele však vyvstává zásadní...

23. května 2025

Apple připravuje velké představení novinek. Co můžeme čekat?

Na pondělí 9. června si společnost Apple připravila zahájení své největší konference WWDC, kde pravidelně představuje novinky. Vedle pravidelné dávky vylepšení a nových funkcí pro všechny své...

23. května 2025

Voní i tisíce let po smrti. Vědci zkoumají „vůni“ egyptských mumií

Studie provedená University College London (UCL) a Lublaňskou univerzitou představuje první systematickou analýzu pachů mumií, která kombinuje pokročilou chemickou analýzu s osobním senzorickým...

22. května 2025  16:47

Diktátor Pol Pot byl krvavý přízrak Kambodže, který zrušil čas i peníze

Před 100 lety se narodil kambodžský diktátor Pol Pot, jeden z největších masových vrahů lidské historie.

22. května 2025

Nejkrásnější notebook na trhu má unikání kameru. Není vidět a nepřekáží

U chytrých telefonů to není úplně výjimečné, ale v notebooku je kamera schovaná za displejem úplně poprvé. Díky kombinaci hardwarových a softwarových opatření tak displej může vyplňovat 98 procent...

22. května 2025

Ponorka do hloubky, která na Zemi není, připomíná bednu. Na dno pěti oceánů

Relativně nedávno vzbudila zájem široké veřejnosti tragédie ponorky Titan, která i s posádkou v červnu 2023 implodovala cestou k vraku Titaniku. Jedním z podmořských badatelů, který se k této nehodě...

22. května 2025

Na chvíli jsme vyzkoušeli horkou novinku od Googlu. Co dovedou jeho brýle?

Exkluzivně

Mountain View (Od zpravodaje iDNES.cz) Jedním z největších taháků konference Google I/O jsou zbrusu nové brýle ovládané operačním systémem Android XR. My jsme měli možnost je jako jedni z prvních na světě vyzkoušet.

21. května 2025  12:42

Nejen Muskův Neuralink. „Číst myšlenky“ už lze i bez elektrod v mozku

Premium

BMI (brain machine interface) či BCI (brain computer interface) zprostředkovávají komunikaci mezi mozkem a počítačem, který pak může vysílat povely do dalších elektronických zařízení – třeba do...

21. května 2025

JAS-39 Gripen oslavil 20 let v Česku. Základnu čeká přestavba na F-35

Dvacet let s letouny JAS-39 Gripen a čtvrt století letounu L-159 Alca připomněl Den otevřených dveří 21. základny taktického letectva Čáslav. Jak uvedl velitel základny Jaroslav Tomaňa, vzhledem k...

21. května 2025
Nastavte si velikost písma, podle vašich preferencí.