Milovník záhad ukrytý v každém z nás si při pohledu na graf v záhlaví radostně výskne. Pohled do statistik totiž zřejmě odhalil nečekané zdravotní riziko: zvyšování prodeje biopotravin souvisí se zvyšujícím se případem dětí s nějakou formou autismu.
Šokující informace má jednu vadu - je úplně nesmyslná. Graf vznikl náhodou díky jednomu z uživatelů stránek Imgur.com, které slouží k ukládání a sdílení obrázků. Jeho autor, který jinak pracuje jako vědec v neurologické laboratoři, si zkoušel práci se statistickým softwarem.
Vysvětlení pojmůKorelace vyjadřuje vzájemný statistický vztah mezi dvěma proměnnými. Například čím více knih dítě přečetlo, tím lepší má známky. Kauzalita označuje příčinnou souvislost mezi dvěma proměnnými. V příkladu výše by to tedy znamenalo, že dítě má lepší známky proto, že přečetlo více knih. Korelační koeficient se udává v rozmezí od -1 do 1. Jednička znamená úplnou korelaci, nula znamená, že mezi proměnnými není žádný vztah, a -1 značí antikorelaci, tedy že stoupající hodnoty jedné proměnné jsou provázeny klesajícími hodnotami druhé proměnné. |
Dostaly se mu přitom do ruky i údaje o počtu dětí s autismem v USA. V souvislosti s touto poruchou se často hovoří o "epidemii" a veřejnost velmi zajímá příčina tohoto nárůstů. Mezi odborníky a laiky se tak mluví například o možné vlivu přidávání nejrůznějších přísad do potravin, látkách v životním prostředí apod.
Medicína neví, jak a proč přesně autistické poruchy vznikají. Navíc k nárůstu případů v USA přispívá rozšiřování hranice této diagnózy i na lehčí případy a zvyšování povědomí o ní mezi rodiči, a tak je situace velmi nejasná.
V takové chvíli zcela pochopitelně roste snaha "něco najít" a v debatě kolem autismu se objevuji i zcela nepodložené argumenty založené na pochybných základech.
Nechvalně proslulá je i kauza dnes už bývalého lékaře Andrew Wakefielda, který přišel s tvrzením, že autismus může vyvolávat i jeden typ dětské vakcíny. Jak se ukázalo, Wakefield byl zřejmě hmotně zainteresovaný na zdiskreditování používané vakcíny a úspěchu jiné. Výsledky své studie s největší pravděpodobností zmanipuloval, ta byla stažena a hlavní autor vyškrtnut ze seznamu britské lékařské komory.
"S tou studií bylo spojeno tolik problémů, že neměla být nikdy publikována," uvedl Neal Halsey, ředitel Institutu pro bezpečnost očkovacích vakcín. "Od té doby prokázalo více než dvacet studií (od Wakefieldova článku z roku 1998), že mezi výskytem autismu a očkováním MMR neexistuje spojení, a žádná studie, která by něco takového podporovala, nebylo od té doby v recenzovaném časopise publikována."
Výše uvedený graf o "souvislosti" biopotravin a autismu, sestavený uživatelem skrývajícím se na síti Reddit za zkratkou jasonp55, je také podvod, naštěstí ale podvod nevážně míněný. Připomíná ale důležitou lekci.
Statistika říká ano, nesmysl je v zadání
Autor k údajům o výskytu autismu v USA přidal údaje o objemu prodejů biopotravin ve stejné zemi. Proč? Jednoduše proto, že to je provokativní a obě zcela nesouvisející sady údajů na sebe "pěkně pasují".
Vždyť souvislost mezi prodeji biopotravin a výskytem případů autismu se zdají naznačovat i základní statistické testy, které dopadají opravdu dobře. Týká se to jak tzv. hodnoty spolehlivosti (R) i tzv. p-hodnoty. Druhá zmíněná hodnota se zdá ukazovat, že pravděpodobnost náhodné souvislosti mezi oběma soubory údajů je menší než jedna ku deseti tisícům (tj. P< 0,0001).
Může tak vzniknout zdání, že mezi oběma jevy "musí být" nějaká souvislost. Ale jak napsal autor grafu napsal v diskusi na stránce reddit: "Ten graf jsem dělal já. Věřte mi, že nic nedokazuje." Snad kromě toho, že grafům bychom neměli věřit všechno.
Korelace nedokazuje vztah příčiny a následku"Korelace není kauzalita," tak zní jedna z nejznámějších statistických pouček. Zdůrazňuje, že samotná korelace ještě není důkazem příčinného vztahu mezi oběma proměnnými. Vtipnou anekdotu, demonstrující absurditu mýtu "korelace znamená kauzalitu", uvedl Miroslav Disman ve své příručce Jak se vyrábí sociologická znalost: "V řadě evropských regionů bylo zjištěno, že čím více čápů žije v určité krajině, tím vyšší je tam porodnost. Korelační koeficienty byly tak významné, že je velice nepravděpodobné, že zjištěná souvislost je náhodná. Jsme tedy ochotni přijmout hypotézu, že čápi přece jen nosí děti? Asi sotva. (...) Toto je klasický příklad nepravé korelace (spurious correlation). Zkreslení vzniká tehdy, když třetí nepozorovaná nebo neanalyzovaná proměnná ovlivňuje obě proměnné, které studujeme." Na podobné téma dokonce byla sepsaná satirická studie ukazující korelaci mezi výskytem čápů a porodností v Německu, a která názorně ukazuje, proč korelace a kauzalita nejsou jedno a totéž (děkujeme fanouškům Technetu za tipy). Výše jsme uvedli (smyšlený, ale uvěřitelný) příklad, že statistika ukazuje, že čím více knížek žák přečte, tím lepší známky bude ve škole mít. To sice na první pohled ukazuje na to, že četba prospívá prospěchu, a tedy přímo svádí k tomu vidět za korelací kauzalitu. Přitom vysvětlení může být více: třeba že existuje společná příčina toho, že děti hodně čtou, a toho, že mají lepší známky. Jak uvádějí Steven Levitt a Stephen Dubner ve své slavné knize Freakonomics, je třeba takováto data vždycky nejprve podrobit zatěžkávací zkoušce, tedy pokusit se kauzalitu dokázat či vyvrátit dodatečným experimentem, který vyloučí vnější příčinu. Což, jak uvádí Disman, je v sociálních vědách, s výjimkou experimentu, často prakticky nemožné. |