Centrum.cz likviduje spam pomocí statistiky

V prosinci konečně spustilo Centrum použitelný antispamový filtr, při stahování pošty do klientu na vašem počítači vám však Centrum doručí i odfiltrovaný spam. Naštěstí lze poštovní schránku nastavit tak, aby váš počítač byl detekovaného spamu ušetřen.
Freemail druhého nejnavštěvovanějšího českého portálu Centrum.cz nabízí svým uživatelům poměrně kvalitní antispamový filtr, jeho existenci však poměrně úspěšně tají. Místo toho inzeruje možnost přidávat jednotlivé e-mailové adresy a domény na černou listinu. Ve skutečnosti loví Centrum spam pomocí statistické analýzy textu. Identifikovaný spam je odfiltrován do zvláštní poštovní složky. Pokud stahujeme poštu z Centra do poštovního klientu na PC, můžeme si vybrat, zda máme zájem i o spam.

Portál Centrum.cz již před delší dobou halasně vypustil do světa zprávy o svém antivirovém řešení. Pokročilí uživatelé internetu však byli zklamáni, podle popisu na stránkách portálu měli pouze možnost ručně přidávat e-mailové adresy nebo celé domény (část e-mailové adresy za znakem @) spammerů na blacklist (černou listinu), přičemž kapacita blacklistu byla omezena na 100 adres nebo domén. Toto řešení bylo možno považovat za tragikomické, spammeři zpravidla e-mailové adresy falšují a jako odesilatele uvedou pokaždé někoho jiného.

Bayesovský filtr se učí, co je spam

Jedním ze slibných prostředků pro filtrování spamů se ukázala statistická analýza slov v textu. Pokud porovnáme texty legitimních e-mailových zpráv (někdy se jim říká ham, šunka) s texty otravné nevyžádané pošty (spam, podle obchodní značky levného pokrmu z mletého masa), zjistíme, že ve spamu se některá slova vyskytují častěji (Viagra, FREE a podobně). Můžeme tedy použít statistický filtr a učit jej na vzorcích obdržených e-mailů, do jaké míry je výskyt kterého klíčové slova v korelaci s legitimní pošty a spamu.

Podobné filtry většinou vycházejí z Bayesova teorému a zřejmě poprvé je navrhl Paul Graham ve svém textu A Plan for Spam. V češtině použití Bayesova teorému popsal Martin Mačok, Bayesův teorém si pak našel cestu do poštovních klientů (Mozilla Mail a Thunderbird, placená verze Eudory, Max OS X Mail) i do speciálních doplňků ostatních poštovních programů. Většina antispamových implementací Bayesova teorému dokonce umí průběžně učit sebe sama z obdržených vzorků pošty, zpřesňovat tak váhy přiřazené jednotlivým slovům a přidávat nová slova. Pokud tedy spammeři začnou nahrazovat slovo Viagra řetězcem znaků V1agra či dokocne V1@gr@, bayesovský antispamový filtr si na ně postupně přivykne

Bayesovské filtry trpí určitými nevýhodami (co když je obdržená zpráva tvořena pouze jedním velkým obrázkem), se kterými se však jejich tvůrci učí bojovat, mohou například analyzovat nejen text, ale i hlavičky e-mailu a obsah kódu HTML. Na druhou stranu mohou bayesovské filtry pracovat efektivněji než řešení na databáze poštovních serverů zneužívaných spammery či sdílení digitálních otisků spamů: Nemusejí komunikovat s centrálním serverem a vyhnou se ta prostojům způsobeným čekáním na odezvu serveru (při testech v redakci jsme u různých veřejných serverů naměřili zpoždění 0,2 až 1,7 sekund).

Velmi oblíbeným konkurentem bayesovských filtrů je expertní systém SpamAssassin, který je však vytvořen v jazyce Perl a analyzuje zprávy na základě regulárních výrazů a v důsledku toho je poměrně náročný na systémové zdroje. I SpamAssassin však nyní může volitelně jako jedno z kritérií používat bayesovský filtr.

Centrum má antispam už od prosince

V prosinci byl na freemailu portálu Centrum.cz konečně spuštěn opravdový antispamový filtr. Autoři si jako jeho základ vybrali právě Bayesův teorém, koeficienty pro jednotlivá slova jsou však stanovovány poloautomaticky a ručně korigovány. Při redakčním testu odchytil filtr na freemailu Centra zhruba 75 % spamů, naštěstí však jako spam neoznačil žádnou legitimní zprávu. Centrum.cz se nyní pokusilo ještě o antivirové řešení, kdy poštovní server zná názvy nejčastějších příloh s viry a rovnou je maže. Skutečnému antiviru se toto řešení nevyrovná, velmi však pomohlo při virových epidemiích posledních dní. Podle vyjádření Centra představovalo 30 % příchozí pošty viry, 40 % spam a pouhých 30 % legitimní zprávy.

Úspěchy antispamového filru na portálu Centrum.cz nám zůstávaly zpočátku utajeny, poštu jsme z testovací schránky stahovali pro další analýzu protokolem POP3 a server nás nechal stáhnout zprávy ze složky Doručená pošta i ze složky Spam. V menu nastavení schránky jsme sice navštívili položku nazvanou Spam filtr, filtrování nevyžádané pošty, ta nám však nabídla jen možnost přidat e-mailovou adresu na černou listinu. Námi hledaná funkce je ve skutečnosti pohřbena v menu Hlavní nastavení, kde si v položce POP3 - stahovat spamový koš můžeme vybrat, zda máme o stahování spamu zájem.

Komunikační strategie portálu Centrum.cz v posledních dnech doznala zásadních změn, marketingový ředitel Tomáš Kostrhoun rozeslal novinářům zajímavé informace o úspěších freemailu při filtrování spamů i e-mailových červů a umožnil nám kontakt s tvůrci antispamu Centra. Centrum.cz však zatím na svých stránkách existenci účinného bayesovského filtru tají.

Nejčtenější

KVÍZ: Nechte starosti na zemi a vyzkoušejte si, jak znáte dopravní letadla

Z kvízů z oboru letectví je v čase letních dovolených určitě nejvhodnější ten, který se týká letadel dopravních. A aby nebyli v kvízu markantně zvýhodněni ti, kteří tento druh dopravy ve větší míře...

Ocelové šipky shazované z letadel vrátily válku zpět do středověku

Kromě zcela nových zbraní umožnila první světová válka i renesanci některých na pohled primitivních zbraní, které se ve výzbroji evropských armád neobjevovaly již celá staletí. Jednou z nich byla...

Rusko otevřelo Pandořinu skříňku. Skynet z Terminátora je jen otázkou času

Premium

Umělá inteligence se v ovládání dronů na bojišti prosazuje pomaleji, než se předpokládalo. Člověk je zatím nepostradatelný. Určité úspěchy však AI přece jen má. A bude jich stále víc.

Bez těchto osmi webů a aplikací na dovolenou snad ani nejezděte

Notebook, tablet, chytrý telefon má u sebe skoro každý. Jak moc užitečné mu budou, záleží na tom, jak jej umí využít a jaké aplikace na něm používá. Vybrali jsme osm praktických, které vám zpříjemní...

Legendy československého letectví se v Roudnici sešly v hojném počtu

Poslední víkend v červnu se konal již 12. ročník Sletu československých letadel, tentokráte na letišti Aeroklubu Roudnice n. Labem. Jednalo se opět o velkou akci leteckých nadšenců z aeroklubů napříč...

Padesát odstínů šedi řeckého letectva vypráví příběh modelu F-16D

Soutěž

Jaroslav Háječek se rozhodl dokončit rozdělaný model, který přišel v balíku z Bejrútu. Tento model letounu F-16D řeckého letectva byl výzvou. Jak popisuje jeho autor, otevřel celou škálu možností,...

11. července 2025

Tajemství smradlavé pochoutky starých Římanů odkryl nový vědecký výzkum

Premium

Analýza DNA odhalila složení oblíbeného dochucovadla starých Římanů. Připravovalo se z drcených ryb. Jeho výroba nejspíš dost páchla.

11. července 2025

Ocelové šipky shazované z letadel vrátily válku zpět do středověku

Kromě zcela nových zbraní umožnila první světová válka i renesanci některých na pohled primitivních zbraní, které se ve výzbroji evropských armád neobjevovaly již celá staletí. Jednou z nich byla...

10. července 2025

KVÍZ: Nechte starosti na zemi a vyzkoušejte si, jak znáte dopravní letadla

Z kvízů z oboru letectví je v čase letních dovolených určitě nejvhodnější ten, který se týká letadel dopravních. A aby nebyli v kvízu markantně zvýhodněni ti, kteří tento druh dopravy ve větší míře...

vydáno 10. července 2025

Programátor napsal aplikaci pomáhající přistěhovalcům. USA už se o něj zajímají

Američan Joshua Aaron stvořil program umožňující sdílení polohy příslušníků nechvalně proslulého imigračního úřadu ICE. Přes noc se z něj stal hit. To se ale nelíbí administrativě Donalda Trumpa.

9. července 2025  17:07

Ve své době byl symbolem evropského letectví. Příběh mého modelu Mirage III

Soutěž

V tomto příspěvku do soutěže Příběh mého modelu budeme moct opět prozkoumat model letounu z dílny Dassault Aviation, a to konkrétně Mirage IIIe, který nám poslal Vlastimil Lukeš. Jak modelář sám...

9. července 2025

Bez těchto osmi webů a aplikací na dovolenou snad ani nejezděte

Notebook, tablet, chytrý telefon má u sebe skoro každý. Jak moc užitečné mu budou, záleží na tom, jak jej umí využít a jaké aplikace na něm používá. Vybrali jsme osm praktických, které vám zpříjemní...

9. července 2025

Legendy československého letectví se v Roudnici sešly v hojném počtu

Poslední víkend v červnu se konal již 12. ročník Sletu československých letadel, tentokráte na letišti Aeroklubu Roudnice n. Labem. Jednalo se opět o velkou akci leteckých nadšenců z aeroklubů napříč...

8. července 2025

Rusko otevřelo Pandořinu skříňku. Skynet z Terminátora je jen otázkou času

Premium

Umělá inteligence se v ovládání dronů na bojišti prosazuje pomaleji, než se předpokládalo. Člověk je zatím nepostradatelný. Určité úspěchy však AI přece jen má. A bude jich stále víc.

8. července 2025

Objev ze zemědělského muzea potrápil složitými koly. Bahno naopak pobavilo

Soutěž

Pozor na to, co potkáte na dovolené, mohou z toho být hodiny práce. Dokončit dělostřelecký tahač Pavesi modeláře Miloše Mohače nakonec trvalo několik let. Zvláštní kola dala zabrat a výroba bahna...

7. července 2025

Akční letáky
Akční letáky

Prohlédněte si akční letáky všech obchodů hezky na jednom místě!

Lipenka se při stavbě přehrady stala strategickou dopravní tepnou

Železniční trať Rybník - Lipno nad Vltavou nechali vystavět místní opat Bruno Pammer a továrník Arnošt Porák. Potřebovali ji k přepravě nákladů, kdy vyšebrodský klášter těžil dřevo ve svých lesích a...

7. července 2025

Mužům s rostoucím věkem mizí chromozom Y. Komu mizí rychleji, dříve zemře

Premium

Z mužských buněk ve vyšším věku mizí chromozomy Y. Genetici tento jev dlouho považovali jen za neškodnou technikálii, která není v ničem důležitá, v poslední době ale vychází najevo, že může...

6. července 2025
Nastavte si velikost písma, podle vašich preferencí.