Premium

Získejte všechny články mimořádně
jen za 49 Kč/3 měsíce

Centrum.cz likviduje spam pomocí statistiky

V prosinci konečně spustilo Centrum použitelný antispamový filtr, při stahování pošty do klientu na vašem počítači vám však Centrum doručí i odfiltrovaný spam. Naštěstí lze poštovní schránku nastavit tak, aby váš počítač byl detekovaného spamu ušetřen.
Freemail druhého nejnavštěvovanějšího českého portálu Centrum.cz nabízí svým uživatelům poměrně kvalitní antispamový filtr, jeho existenci však poměrně úspěšně tají. Místo toho inzeruje možnost přidávat jednotlivé e-mailové adresy a domény na černou listinu. Ve skutečnosti loví Centrum spam pomocí statistické analýzy textu. Identifikovaný spam je odfiltrován do zvláštní poštovní složky. Pokud stahujeme poštu z Centra do poštovního klientu na PC, můžeme si vybrat, zda máme zájem i o spam.

Portál Centrum.cz již před delší dobou halasně vypustil do světa zprávy o svém antivirovém řešení. Pokročilí uživatelé internetu však byli zklamáni, podle popisu na stránkách portálu měli pouze možnost ručně přidávat e-mailové adresy nebo celé domény (část e-mailové adresy za znakem @) spammerů na blacklist (černou listinu), přičemž kapacita blacklistu byla omezena na 100 adres nebo domén. Toto řešení bylo možno považovat za tragikomické, spammeři zpravidla e-mailové adresy falšují a jako odesilatele uvedou pokaždé někoho jiného.

Bayesovský filtr se učí, co je spam

Jedním ze slibných prostředků pro filtrování spamů se ukázala statistická analýza slov v textu. Pokud porovnáme texty legitimních e-mailových zpráv (někdy se jim říká ham, šunka) s texty otravné nevyžádané pošty (spam, podle obchodní značky levného pokrmu z mletého masa), zjistíme, že ve spamu se některá slova vyskytují častěji (Viagra, FREE a podobně). Můžeme tedy použít statistický filtr a učit jej na vzorcích obdržených e-mailů, do jaké míry je výskyt kterého klíčové slova v korelaci s legitimní pošty a spamu.

Podobné filtry většinou vycházejí z Bayesova teorému a zřejmě poprvé je navrhl Paul Graham ve svém textu A Plan for Spam. V češtině použití Bayesova teorému popsal Martin Mačok, Bayesův teorém si pak našel cestu do poštovních klientů (Mozilla Mail a Thunderbird, placená verze Eudory, Max OS X Mail) i do speciálních doplňků ostatních poštovních programů. Většina antispamových implementací Bayesova teorému dokonce umí průběžně učit sebe sama z obdržených vzorků pošty, zpřesňovat tak váhy přiřazené jednotlivým slovům a přidávat nová slova. Pokud tedy spammeři začnou nahrazovat slovo Viagra řetězcem znaků V1agra či dokocne V1@gr@, bayesovský antispamový filtr si na ně postupně přivykne

Bayesovské filtry trpí určitými nevýhodami (co když je obdržená zpráva tvořena pouze jedním velkým obrázkem), se kterými se však jejich tvůrci učí bojovat, mohou například analyzovat nejen text, ale i hlavičky e-mailu a obsah kódu HTML. Na druhou stranu mohou bayesovské filtry pracovat efektivněji než řešení na databáze poštovních serverů zneužívaných spammery či sdílení digitálních otisků spamů: Nemusejí komunikovat s centrálním serverem a vyhnou se ta prostojům způsobeným čekáním na odezvu serveru (při testech v redakci jsme u různých veřejných serverů naměřili zpoždění 0,2 až 1,7 sekund).

Velmi oblíbeným konkurentem bayesovských filtrů je expertní systém SpamAssassin, který je však vytvořen v jazyce Perl a analyzuje zprávy na základě regulárních výrazů a v důsledku toho je poměrně náročný na systémové zdroje. I SpamAssassin však nyní může volitelně jako jedno z kritérií používat bayesovský filtr.

Centrum má antispam už od prosince

V prosinci byl na freemailu portálu Centrum.cz konečně spuštěn opravdový antispamový filtr. Autoři si jako jeho základ vybrali právě Bayesův teorém, koeficienty pro jednotlivá slova jsou však stanovovány poloautomaticky a ručně korigovány. Při redakčním testu odchytil filtr na freemailu Centra zhruba 75 % spamů, naštěstí však jako spam neoznačil žádnou legitimní zprávu. Centrum.cz se nyní pokusilo ještě o antivirové řešení, kdy poštovní server zná názvy nejčastějších příloh s viry a rovnou je maže. Skutečnému antiviru se toto řešení nevyrovná, velmi však pomohlo při virových epidemiích posledních dní. Podle vyjádření Centra představovalo 30 % příchozí pošty viry, 40 % spam a pouhých 30 % legitimní zprávy.

Úspěchy antispamového filru na portálu Centrum.cz nám zůstávaly zpočátku utajeny, poštu jsme z testovací schránky stahovali pro další analýzu protokolem POP3 a server nás nechal stáhnout zprávy ze složky Doručená pošta i ze složky Spam. V menu nastavení schránky jsme sice navštívili položku nazvanou Spam filtr, filtrování nevyžádané pošty, ta nám však nabídla jen možnost přidat e-mailovou adresu na černou listinu. Námi hledaná funkce je ve skutečnosti pohřbena v menu Hlavní nastavení, kde si v položce POP3 - stahovat spamový koš můžeme vybrat, zda máme o stahování spamu zájem.

Komunikační strategie portálu Centrum.cz v posledních dnech doznala zásadních změn, marketingový ředitel Tomáš Kostrhoun rozeslal novinářům zajímavé informace o úspěších freemailu při filtrování spamů i e-mailových červů a umožnil nám kontakt s tvůrci antispamu Centra. Centrum.cz však zatím na svých stránkách existenci účinného bayesovského filtru tají.

  • Nejčtenější

KVÍZ: Zapomenuté funkce domácí techniky, po kterých se už nikomu nestýská

v diskusi je 19 příspěvků

13. května 2024

Byly běžnou součástí životů vás, vašich rodičů nebo prarodičů. Většinu z nich dnes však nikdo...

Sověti neuměli zkonstruovat těžký tank. Pomohl jim až německý inženýr

v diskusi je 49 příspěvků

19. května 2024

Když je řeč o sovětských těžkých tancích, výčet zpravidla začíná pětivěžovým typem T-35. Jenže...

{NADPIS reklamního článku dlouhý přes dva řádky}

{POPISEK reklamního článku, také dlouhý přes dva a možná dokonce až tři řádky, končící na tři tečky...}

Pět věcí, které byste s Windows měli dělat, ale možná neděláte, a naopak

v diskusi je 10 příspěvků

15. května 2024

Možná prakticky ihned po instalaci, při prvním spuštění nového PC nebo později deaktivujete některé...

Umělá inteligence od OpenAI má nový pohon. A rovnou ho dává zadarmo

v diskusi je 9 příspěvků

13. května 2024  20:34

Společnost OpenAI vůbec poprvé pořádala živé představení svých pokroků. Hlavní novinkou se stala...

{NADPIS reklamního článku dlouhý přes dva řádky}

{POPISEK reklamního článku, také dlouhý přes dva a možná dokonce až tři řádky, končící na tři tečky...}

Panasonic překvapil, jeden opuštěný operační systém nahradily dva nové

v diskusi je 15 příspěvků

17. května 2024

Düsseldorf (Od zpravodaje Technet.cz) Když odhlédneme od kvality zobrazovacího panelu a obvodů zpracovávajících obraz, je operační systém...

Věci, které by ve Windows 11 měli ihned opravit

v diskusi je 20 příspěvků

20. května 2024

Windows 11 z uživatelského pohledu nastavuje zrcadlo budoucnosti. Nacházejí se v něm věci uživateli...

Beneš se Mussoliniho neštítil. Před 100 lety s ním vyjednal mezistátní smlouvu

v diskusi je 34 příspěvků

19. května 2024  10:30

V polovině května 1924 jednal československý ministr zahraničí Edvard Beneš v Římě s italským...

Sověti neuměli zkonstruovat těžký tank. Pomohl jim až německý inženýr

v diskusi je 49 příspěvků

19. května 2024

Když je řeč o sovětských těžkých tancích, výčet zpravidla začíná pětivěžovým typem T-35. Jenže...

Jak Muskova firma vyřešila problém prvního čipu v mozku člověka

v diskusi je 5 příspěvků

18. května 2024

Neuralink je jedna z firem Elona Muska, o které se mnoho mluví. V lednu totiž zavedli její...

Rozdáváme tělové mléko Kind od Mádara ZDARMA
Rozdáváme tělové mléko Kind od Mádara ZDARMA

Kosmetiku Mádara určitě od nás už znáte – potkat jste je mohli veletrhu FOR KIDS v Praze nebo také v nedávném v uživatelském testování, kde jsme...

Bohužel nám to nevyšlo, oznámili manželé Pagáčovi rozchod po šesti letech

Herečka Patricie Pagáčová (35) a dramaturg Tibor Pagáč (32) se rozešli po pěti letech manželství. Žádost o rozvod zatím...

Zemřel Vlastimil Harapes. Baletní mistr Národního divadla i českých filmů

Ve věku 77 let zemřel tanečník a herec Vlastimil Harapes. Dlouhá léta byl sólistou baletu Národního divadla. Zahrál si...

Anální sex je výzva. Nejvíc tabu je však v Česku jiná praktika, říká průzkum

Erotické hračky nepředstavují podezřelou exotiku, v ložnicích jsou jako doma. Ostatně jako masturbace. I orální sex....

Svěrák se na mě nedíval jen jako na hezkou buchtu, říká Radka Pavlovčinová

Jan Svěrák ji vidí jako robotku. Radka Pavlovčinová v nové hře filmového a teď už i divadelního režiséra hraje umělou...

Plné divadlo i bazilika. Nad rakví Postlerové mluvila dcera, Töpfer i Šťastný

S herečkou Simonou Postlerovou se v prostorách Divadla na Vinohradech rozloučili kolegové i veřejnost. Nad rakví...