Premium

Získejte všechny články
jen za 89 Kč/měsíc

Clustering dat pomáhá nalézt jehlu v kupce sena

Na počítače jsme si zvykli pohlížet jako na exaktní stroje zpracovávající exaktní data. Počítače po desetiletí provádějí numerické výpočty, zpracovávají databáze nebo luští šifry. Co když bychom však počítače požádali, aby srovnával podobnost mezi různými soubory s nestrukturovanými daty nebo dokonce odvodil jejich vzájemnou hierarchii?
Na počítače jsme si zvykli pohlížet jako na exaktní stroje zpracovávající exaktní data. Počítače po desetiletí provádějí numerické výpočty, zpracovávají databáze nebo luští šifry. Co když bychom však počítače požádali, aby srovnával podobnost mezi různými soubory s nestrukturovanými daty nebo dokonce odvodil jejich vzájemnou hierarchii?

Pracovníci tiskového oddělení sledují v monitoringu tisku všechny zmínky o své společnosti. Rádi by zprávy automaticky třídili dle témat, avšak témata článků se však průběžně mění. Dokázal by počítač setřídit témata, aniž by uživatelé tušili, jaká různá témata se objeví zítra? Produktoví manažeři chtějí důkladně zmapovat trh, výrobky se však liší v mnoha kritériích. Uměl by počítač najít skupiny výrobků a jejich vzájemné vztahy? Složka s doručenými e-maily obsahuje tisíce neroztříděných zpráv. Šlo by je automaticky roztřídit? Plagiáty slohových prací nejsou totožné do posledního bitu, dokázal by je však počítač odhalit?

Hodil by se nám algoritmus, který by posoudil podobnost dvou různých entit a přiřadil jí nějaké skóre. Výsledky srovnávání bychom uložili do matice a z nich bychom usuzovali na vzájemnou příbuznost. První fáze clusteringu skutečně probíhá podobným způsobem. Vezmeme některou z entit, postupně porovnáváme její podobnost se všemi ostatními a do společného clusteru k vybrané entitě zařazujeme všechny ostatní, jejichž míra podobnosti přesahuje určitý práh. Na konci tohoto kroku nám zbyde první cluster a ostatní entity, které se do něj nevešly. v dalším kroku tedy budeme hledat druhý cluster mezi nimi. Později se dostaneme do fáze, kdy další clustery již nemůžeme vytvářet a kromě již hotových clusterů nám zbyde jen nesourodá směs některých nezařazených entit. Některé algoritmy jdou ještě dále a dynamicky mění práh podobnosti globálně i pro jednotlivé clustery, aby dosáhly vyrovnané velikosti různých clusterů.

Shluky dat

Pokud jsme chtěli třídit články v monitoringu tisku, clustery udělaly většinu práce za nás. Clustering článků na internetu nabízí hned několik serverů zcela zdarma. Všeobecné zpravodajtví v češtině z různých zdrojů třídí automaticky server Novyden.cz, technologické zpravodajství server Prehled.net. Na světovém webu fungují podobným způsobem Google News, Topix.net či MSN Newsbot. Zvláště server Topix.net ovšem využívá hybridní přístup, zprávy třídí do velkého množství předem definovaných kategorií, clustering pak probíhá uvnitř kategorií a z každého clusteru je zobrazena pouze jediná zpráva. Při fulltextovém hledání ve zprávách však Topix.net ukazuje všechny zprávy v každém clusteru a žádné neschovává.

Clusterování výsledků dotazů kladených ad hoc je náročné na výpočetní výkon i na paměť serveru. Vypočtené hodnoty míry podobnosti dvojic je však možné ukládat do vyrovnávací paměti.

Pokud se budeme pídit po hierarchii mezi jednotlivými entitami, můžeme je malé clustery spolu sluřovat podle vzájemné podobnosti nwbo velké clustery dělit na menší. Nakonec nám vznikne stromová struktura, která hierarchii vystihne. Můžeme tak získat diagramy vyjadřující podobnost automobilů, podobnost složení mateřského mléka u různých savců nebo příbuznost různých druhů skotské whisky.

Co je pod kapotou

Zajímavý je matematický postup, pomocí kterého změříme podobnost dvou různých textů. Je možné hledat nejdelší posloupnost znaků, která se objevuje v obou textech současně, a jako skóre použít její délku. V praxi se však nejčastěji používá kosínová podobnost (cosine similarity), při jejímž výpočtu si oba texty představýme jako mnhorozměrné vektory. Každá složka obou vektorů odpovídá počtu výskytů jiného klíčového slova, vektory dvou podobných textů tedy jakoby ukazují podobným směrem. Provedeme-li skalární součin vektorů a vydělíme-li jej součinem jejich absolutních hodnot, získáme hodnotu kosínu úhlu sevřeného oběma vektory. Ta je rovná jedné, pokud jsou oba texty totožné, s nižší podobností vektorů klesá i velikost kosínu sevřeného úhlu. Kosínová podobnost je spolehlivou a osvědčenou metodou, její různé modifikace dávají ještě lepší výsledky.

Radikálně jiný postup navrhla trojice italských vědců ve své práci Language Trees and Zipping. Vycházeli z funkce algoritmů pro kompresi dat, jaké využívá například populární formát Zip. Kompresní algoritmy například z rodiny Lempel-Ziv se zpravidla na vstupních datech postupně "učí" a hledají opakující se sekvence bajtů ve vyrovnávací paměti. Pokud tedy dva texty zkopírujeme do jediného textového souboru a ten zkomprimujeme, délka komprimovaného souboru by měla být tím nižší, čím jsou si oba texty podobné. Pokud porovnáme velikost komprimovaného souboru obsahující jeden textový soubor s oběma texty se součtem velikostí dvou souborů obsahujících vždy jediný text, můžeme spočítat skóre vyjadřující podobnost dvou textů. (Pozorovaný efekt je mimochodem využíván kompresními programy řady RAR při vytváření takzvaných solid archives). Autoři porovnávali vzájemnou podobnost evropských jazyků, výsledky velmi dobře odpovídaly vzájemné příbuznosti jazyků a

Jinou implementací tohoto algoritmu je volně šiřitelný program FindFraud pro nalezení plagiátů mezi texty či zdrojovými kódy programů odevzdávanými studenty. Podobně je možné srovnávat i jiná data, jako třeba sekvence DNA.

Díky zvyšujícímu se výkonu a kapacitě počítačů i rostoucímu povědomí odborné veřejnosti o clusterování dokumentů se s touto metodou budeme setkávat stále častěji. Clusterování se již spíše než konkurenní výhodou stává holou nutností. To by si měli uvědomit IT manažeři při poptávání software nebo služeb pro zpracovávání databází i vývojáři při návrhu tohoto software. Samotné fulltextové vyhledávání nemusí uživatelům stačit.

Více informací najdete na www.telnet.cz.

  • Nejčtenější

Pátý Starship odstartoval a pak jeho stupeň zachytila Mechazilla

Excitement guaranteed. Nadšení zaručeno. V rozpisu aktivity před startem a po něm rakety Starship společnosti SpaceX takto označený okamžik dvě sekundy před vzletem, kdy 33 motorů Raptor prvního...

13. října 2024  11:03,  aktualizováno  14:33

Udělá cesta na Mars z astronautů invalidy? Lékaři tápou a výzkumy varují

Přistání lidí na Marsu se zdá otázkou nepříliš vzdálené budoucnosti. Lékaři však zatím vědí zoufale málo o tom, jak by lidský organismus let na rudou planetu zvládal. Nejnovější výzkumy naznačují, že...

15. října 2024

{NADPIS reklamního článku dlouhý přes dva řádky}

{POPISEK reklamního článku, také dlouhý přes dva a možná dokonce až tři řádky, končící na tři tečky...}

V sobotu bude nejblíže Zemi kometa, kterou uvidíte pouhým okem

Jako nejjasnější kometu minimálně od roku 2007 popisuje astrofotograf Petr Horálek přilétající kometu Tsuchinshan–ATLAS, která má katalogové označení C/2023 A3. Jiní o ní hovoří dokonce jako o kometě...

11. října 2024  16:41

Nobelovu cenu za fyziku získali vědci za strojové učení a neuronové sítě

Královská švédská akademie věd letos ocenila za výzkum na poli fyziky vědce Johna J. Hopfielda a Geoffreyho E. Hintona „za zásadní objevy a vynálezy, které umožňují strojové učení za pomocí umělých...

8. října 2024  11:48,  aktualizováno  13:31

{NADPIS reklamního článku dlouhý přes dva řádky}

{POPISEK reklamního článku, také dlouhý přes dva a možná dokonce až tři řádky, končící na tři tečky...}

V šestnácti ohromil NASA. Čech chce laserem opravovat nefunkční družice

Premium

O kosmonautiku a vesmír se začal zajímat díky Star Wars. Dá se říct, že mu filmy ukázaly životní cestu. Nadšení přivedlo Simona Klingu až k mezinárodní soutěži Conrad Challenge, kterou se svým týmem...

10. října 2024

Máte pomalý internet, co stále vypadává? Dost často to můžete vyřešit sami

Nejste spokojeni se svým připojením k internetu? Dost možná vrčíte na jeho poskytovatele zbytečně a za pomalé či vypadávající připojení si můžete sami. Na následujících řádcích poradíme, jak...

16. října 2024

Britové začali stavět novou fregatu třídy Inspiration. Bude stát pár šupů

Ve skotském Rosythu se staví nová loď pro Královské námořnictvo. Bude se jmenovat HMS Formidable. Půjde o třetí plavidlo ve třídě, která je od samého počátku plánovaná podle zásady „za málo peněz...

16. října 2024

Malý iPad od Applu se dočkal po třech letech vylepšení. Moc nečekejte

Společnost Apple v úterý vydala informaci o sedmé generaci tabletu iPad mini, který půjde za týden do prodeje. Poslední model byl představen již v roce 2021, a tak se čekalo, že se vedle jiných...

15. října 2024  19:23

Speciál „Chytrý dům“ se rozjíždí, pomůže vylepšit i vaši domácnost

Můžete s ní hodně ušetřit, může vám zpříjemnit a zjednodušit život. A nebo taky zkoušet vaši trpělivost. Chytrá domácnost je dostupnější a funkčnější než kdy dříve, ale zorientovat se v možnostech...

15. října 2024  14:27

Hravé koupání s Bübchen: Soutěžíme o 5 balíčků dětské kosmetiky
Hravé koupání s Bübchen: Soutěžíme o 5 balíčků dětské kosmetiky

Hraní s lodičkami, potápění nebo vytváření velehor z bohaté pěny? Jak vypadá váš koupelový rituál? Podělte se o něj v komentářích a třeba zrovna vy...

Porno a Česko. Jsme téměř unijním extrémem, ukázala data

Je to vlastně vedlejší, nezamýšlený produkt evropské legislativy. Její nařízení o digitálních službách necílilo na...

Mlčení o mzdách padne. Lidé budou mít právo ptát se, kolik berou kolegové

Premium Zaměstnavatelé budou muset uchazečům o práci prozrazovat, jaký minimální rozpočet na danou pozici mají k dispozici....

Karel Janeček žaluje exmanželku o bitcoiny. Chce je zpět, jde o víc než miliardu

Miliardář Karel Janeček se soudí s exmanželkou Mariem Mhadhbi o kryptoměny, které jí před lety daroval při rozvodovém...

Zemřel český raper Pavel Protiva. Bylo mu sedmadvacet let

V sedmadvaceti letech zemřel raper Pavel Protiva, informovalo hudební vydavatelství Blakkwood, pro které umělec tvořil....

Výrobce luxusní minerálky má problém. Jeden z jeho vrtů je kontaminovaný

Značka luxusní minerální vody Perrier je symbolem privilegované „francouzskosti“. Má miliardový obrat a její zelené...