Pátek 22. září 2023, svátek má Darina
  • schránka
  • Přihlásit Můj účet
  • Pátek 22. září 2023 Darina

Clustering dat pomáhá nalézt jehlu v kupce sena

Na počítače jsme si zvykli pohlížet jako na exaktní stroje zpracovávající exaktní data. Počítače po desetiletí provádějí numerické výpočty, zpracovávají databáze nebo luští šifry. Co když bychom však počítače požádali, aby srovnával podobnost mezi různými soubory s nestrukturovanými daty nebo dokonce odvodil jejich vzájemnou hierarchii?
Na počítače jsme si zvykli pohlížet jako na exaktní stroje zpracovávající exaktní data. Počítače po desetiletí provádějí numerické výpočty, zpracovávají databáze nebo luští šifry. Co když bychom však počítače požádali, aby srovnával podobnost mezi různými soubory s nestrukturovanými daty nebo dokonce odvodil jejich vzájemnou hierarchii?

Pracovníci tiskového oddělení sledují v monitoringu tisku všechny zmínky o své společnosti. Rádi by zprávy automaticky třídili dle témat, avšak témata článků se však průběžně mění. Dokázal by počítač setřídit témata, aniž by uživatelé tušili, jaká různá témata se objeví zítra? Produktoví manažeři chtějí důkladně zmapovat trh, výrobky se však liší v mnoha kritériích. Uměl by počítač najít skupiny výrobků a jejich vzájemné vztahy? Složka s doručenými e-maily obsahuje tisíce neroztříděných zpráv. Šlo by je automaticky roztřídit? Plagiáty slohových prací nejsou totožné do posledního bitu, dokázal by je však počítač odhalit?

Hodil by se nám algoritmus, který by posoudil podobnost dvou různých entit a přiřadil jí nějaké skóre. Výsledky srovnávání bychom uložili do matice a z nich bychom usuzovali na vzájemnou příbuznost. První fáze clusteringu skutečně probíhá podobným způsobem. Vezmeme některou z entit, postupně porovnáváme její podobnost se všemi ostatními a do společného clusteru k vybrané entitě zařazujeme všechny ostatní, jejichž míra podobnosti přesahuje určitý práh. Na konci tohoto kroku nám zbyde první cluster a ostatní entity, které se do něj nevešly. v dalším kroku tedy budeme hledat druhý cluster mezi nimi. Později se dostaneme do fáze, kdy další clustery již nemůžeme vytvářet a kromě již hotových clusterů nám zbyde jen nesourodá směs některých nezařazených entit. Některé algoritmy jdou ještě dále a dynamicky mění práh podobnosti globálně i pro jednotlivé clustery, aby dosáhly vyrovnané velikosti různých clusterů.

Shluky dat

Pokud jsme chtěli třídit články v monitoringu tisku, clustery udělaly většinu práce za nás. Clustering článků na internetu nabízí hned několik serverů zcela zdarma. Všeobecné zpravodajtví v češtině z různých zdrojů třídí automaticky server Novyden.cz, technologické zpravodajství server Prehled.net. Na světovém webu fungují podobným způsobem Google News, Topix.net či MSN Newsbot. Zvláště server Topix.net ovšem využívá hybridní přístup, zprávy třídí do velkého množství předem definovaných kategorií, clustering pak probíhá uvnitř kategorií a z každého clusteru je zobrazena pouze jediná zpráva. Při fulltextovém hledání ve zprávách však Topix.net ukazuje všechny zprávy v každém clusteru a žádné neschovává.

Clusterování výsledků dotazů kladených ad hoc je náročné na výpočetní výkon i na paměť serveru. Vypočtené hodnoty míry podobnosti dvojic je však možné ukládat do vyrovnávací paměti.

Pokud se budeme pídit po hierarchii mezi jednotlivými entitami, můžeme je malé clustery spolu sluřovat podle vzájemné podobnosti nwbo velké clustery dělit na menší. Nakonec nám vznikne stromová struktura, která hierarchii vystihne. Můžeme tak získat diagramy vyjadřující podobnost automobilů, podobnost složení mateřského mléka u různých savců nebo příbuznost různých druhů skotské whisky.

Co je pod kapotou

Zajímavý je matematický postup, pomocí kterého změříme podobnost dvou různých textů. Je možné hledat nejdelší posloupnost znaků, která se objevuje v obou textech současně, a jako skóre použít její délku. V praxi se však nejčastěji používá kosínová podobnost (cosine similarity), při jejímž výpočtu si oba texty představýme jako mnhorozměrné vektory. Každá složka obou vektorů odpovídá počtu výskytů jiného klíčového slova, vektory dvou podobných textů tedy jakoby ukazují podobným směrem. Provedeme-li skalární součin vektorů a vydělíme-li jej součinem jejich absolutních hodnot, získáme hodnotu kosínu úhlu sevřeného oběma vektory. Ta je rovná jedné, pokud jsou oba texty totožné, s nižší podobností vektorů klesá i velikost kosínu sevřeného úhlu. Kosínová podobnost je spolehlivou a osvědčenou metodou, její různé modifikace dávají ještě lepší výsledky.

Radikálně jiný postup navrhla trojice italských vědců ve své práci Language Trees and Zipping. Vycházeli z funkce algoritmů pro kompresi dat, jaké využívá například populární formát Zip. Kompresní algoritmy například z rodiny Lempel-Ziv se zpravidla na vstupních datech postupně "učí" a hledají opakující se sekvence bajtů ve vyrovnávací paměti. Pokud tedy dva texty zkopírujeme do jediného textového souboru a ten zkomprimujeme, délka komprimovaného souboru by měla být tím nižší, čím jsou si oba texty podobné. Pokud porovnáme velikost komprimovaného souboru obsahující jeden textový soubor s oběma texty se součtem velikostí dvou souborů obsahujících vždy jediný text, můžeme spočítat skóre vyjadřující podobnost dvou textů. (Pozorovaný efekt je mimochodem využíván kompresními programy řady RAR při vytváření takzvaných solid archives). Autoři porovnávali vzájemnou podobnost evropských jazyků, výsledky velmi dobře odpovídaly vzájemné příbuznosti jazyků a

Jinou implementací tohoto algoritmu je volně šiřitelný program FindFraud pro nalezení plagiátů mezi texty či zdrojovými kódy programů odevzdávanými studenty. Podobně je možné srovnávat i jiná data, jako třeba sekvence DNA.

Díky zvyšujícímu se výkonu a kapacitě počítačů i rostoucímu povědomí odborné veřejnosti o clusterování dokumentů se s touto metodou budeme setkávat stále častěji. Clusterování se již spíše než konkurenní výhodou stává holou nutností. To by si měli uvědomit IT manažeři při poptávání software nebo služeb pro zpracovávání databází i vývojáři při návrhu tohoto software. Samotné fulltextové vyhledávání nemusí uživatelům stačit.

Více informací najdete na www.telnet.cz.

  • Nejčtenější

Američané upravili tank Abrams na nebezpečné výlety do města

Tank M1 Abrams byl vyvinutý jako náhrada zastarávající řady tanků M48/M60 Patton a protiváha nové generace sovětských...

Ta podoba. Vlaky světových diktátorů jsou luxusní pevnosti

S nedávnou cestou severokorejského diktátora Kim Čong-una do Ruska se do popředí zájmu veřejnosti dostaly pancéřové...

{NADPIS reklamního článku dlouhý přes dva řádky}

{POPISEK reklamního článku, také dlouhý přes dva a možná dokonce až tři řádky, končící na tři tečky...}

KOMENTÁŘ: Fetiš jménem Apple a zbytečný humbuk kolem jeho novinek

Hodinu a půl jsem čekal na nějaké pořádné inovace a pak přišly titulky. Tak nějak bych shrnul svůj dojem z úterního...

Jak by mohl vypadat svět, kdyby dinosauři nevyhynuli

Na konci křídy rozpoutal dopad planetky Chicxulub procesy, které vedly k vyhynutí neptačích dinosaurů. Co by se však...

{NADPIS reklamního článku dlouhý přes dva řádky}

{POPISEK reklamního článku, také dlouhý přes dva a možná dokonce až tři řádky, končící na tři tečky...}

Legrační cena, spousta funkcí, výborný zvuk. Streamery Wiim se povedly

Premium Jen málokdy lze u ultralevných zařízení hovořit o zcela bezproblémovém provozu, skvělé funkční výbavě a ještě o...

Kdo vládne Hradu. Co jsou zač lidé kolem prezidenta a o co spolu válčí

Premium Z Hradu se půl roku po inauguraci Petra Pavla stává mocenské sídlo, v němž hlava státu nemá vždy hlavní slovo....

Prapor Azov vrací úder. S Rusy si srovnává účty za jatka v Mariupolu

Premium Za zprávou o osvobození dvou malých vesnic na východě Ukrajiny se skrývá zajímavý příběh. Osudy obránců Mariupolu,...

Agáta a Soukup: Nečekaný zvrat u soudu. Co se stalo při předání dcery Rozárky?

Premium Rozchod slavné herečky Agáty Hanychové (38) a mediálního magnáta Jaromíra Soukupa (54) má mnohem složitější pozadí, než...

Wordpad ve Windows končí. Poznámkový blok a Malování čeká významný upgrade

Skoro po 30 letech od svého debutu se operační systém Windows loučí se zastaralou aplikací Wordpad. Používali jste ji...

Blíží se vystřízlivění? Možná. Generativní umělá inteligence ztrácí na síle

Premium Už více než půl roku si může každý vyzkoušet schopnosti velkých jazykových modelů a na ně navázaných systémů na...

Těchto pět utilit ve Windows 11 byste si měli vyzkoušet

Windows 11 i přes léta neustálého probíhajícího vývoje a vylepšování trpí některými pozoruhodnými nedostatky. Proto je...

V Google fotkách vám s úpravou snímků pomůže i umělá inteligence

Google fotky je služba nabitá různými nástroji pro organizaci fotografií i videí, jejich úpravu, zálohování a sdílení....

Cítím se jako vítěz, říká Brzobohatý. Manželé ukázali fotky ze svatby v Itálii

Ondřej Gregor Brzobohatý (40) a Daniela Brzobohatá (44) se pochlubili fotkami i zážitky z víkendové svatby. Muzikant a...

Až oči přecházejí. Jak vypadá jídlo z fast foodů na fotkách a v realitě

Nadýchané housky, šťavnaté hovězí, zelený salát a lahodně rozteklý sýr. Obrázky hamburgerů na reklamních fotografiích...

Velmi mi to pomohlo, říká o plastice prsou herečka Aneta Krejčíková

Aneta Krejčíková (32), která nedávno zazářila v roli sekretářky Květy v seriálu Volha, promluvila o modelaci prsou i...

Nástupní plat 91 tisíc, zájemců přesto ubývá. Řízení letového provozu shání lidi

V posledních letech ubývá počet zájemců o pozici řídícího letového provozu. Do posledního výběrového řízení se jich...

Herec Hugh Jackman se rozvádí. S manželkou byli spolu 27 let

Patřili k nejstabilnějším hollywoodským párům a na řeči o věkovém rozdílu nebrali ohled. Nyní ovšem Hugh Jackman (54) a...