Na počátku byl software analyzující DNA založený na algoritmu označovaném jako Teiresias. Tento systém dokázal řešit úlohu spadající do tzv. rozpoznávání vzorů. Zjednodušeně řečeno byl určen k tomu, aby dokázal říci, jaké části DNA kódují jaké proteiny, jaké části DNA nesou v rámci informačního kódu speciální význam apod.
Thomasem J. Watson z bioinformatické výzkumné skupiny IBM (který samozřejmě není totožný s nositelem Nobelovy ceny a spoluobjevitelem struktury DNA Jamesem D. Watsonem) si vzal Teiresias jako základ, z něhož vyvinul algoritmus Chung-Kwei (jméno má údajně odpovídat jakémusi ochrannému amuletu z Feng-šuej). Tomuto programu pak byla předložena databáze 65 000 spamů; za pomoci své schopnosti rozpoznávání zde pak identifikoval vzory typické pro spam. Souběžně byly totiž analyzovány normální e-maily a vzory nalezené paralelně v obou skupinách vyřazovány.
Algoritmus Chung-Kwei nyní třídí e-maily podle toho, jaké procento "závadných" vzorů obsahují. To má hned několik výhod. Regulérní dopisy mohou klidně obsahovat třeba slovo "Viagra" a nejsou kvůli tomu automaticky vyřazeny. Podíl povolených "závadných" vzorů vzhledem k celkové délce dopisu lze snadno měnit a tím určovat, nakolik bude náš filtr "paranoidní". Pokud je systém nastaven tak, aby odchytil 97 % spamů, označí za závadnou pouze jednu regulérní zprávu z 6 000. Dalším vývojem algoritmu by se tato úspěšnost přitom měla samozřejmě ještě zvyšovat.
Napsali jsme o spamu
Deset milionů za otravný e-mail
Nový zákon zasílání spamu českým uživatelům neomezí, tvrdí firmy
Důležité je, že systém nerozpoznává přímo konkrétní závadné řetězce, ale právě obecnější "vzory". Nedá se tedy obalamutit např. slovy Vi*gra nebo $ex. Tuto vlastnost už musel mít původní algoritmus Teiresias, protože také rozpoznával (např.) funkčně ekvivalentní, ale formálně odlišné struktury DNA. Při přepisu DNA to struktury proteinů existuje totiž značná redundance - různé trojice (triplety) "písmenek" DNA kódují stejný protein, a algoritmus se je proto musí naučit vnímat jako stejné. Nyní tato vlastnost najde uplatnění i v boji se spamem.
Společnost IBM se údajně chystá zahrnout algoritmus Chung-Kwei do svého komerčně dodávaného programu SpamGuru. Za slibnou označil celou koncepci i Justin Mason, který vyvinul známý open source antispamový program SpamAssassin. Podle Masona bude zřejmě na algoritmu udělat celou řadu práce; fascinující však není ani tak konkrétní algoritmus, ale spíše mezioborový průnik, kdy se původně bioinformatický software ukázal jako vhodný pro úplně jiný typ úlohy.
Autor: (pah), redaktor Computerworldu
Zveřejněno se souhlasem týdeníku Computerworld.