V nejrůznějších oblastech lidské činnosti se v posledních letech čím dál častěji setkáváme s obrovskými daty. Mezi příklady, které nás každodenně obklopují, patří sociální sítě, které o nás sbírají veškerá dostupná data, nebo věrnostní karty v samoobsluze, které vypovídají o složení nákupního košíků jednotlivých stálých zákazníků. Množství dat neustále přibývá, a to rychlejším tempem, než jsme schopni vůbec taková data analyzovat. Prezentace nejprve pojedná o příkladech oblastí, v nichž se setkáváme s velkými daty, avšak náš zájem se primárně týká statistického zpracování dat v oblasti molekulární genetiky.
RNDr. Jan Kalina, Ph.D. Jan Kalina je vedoucím Oddělení medicínské informatiky a biostatistiky na Ústavu informatiky AV ČR. Mezi jeho odborné zájmy patří robustní statistické metody, které jsou spolehlivé i při kontaminaci dat výrazně odlehlými hodnotami, a redukce komplexity v mnohorozměrných datech. V současné době řeší prestižní matematický projekt Neuron Impuls od Nadačního fondu Neuron na podporu vědy. Vede i několik diplomových prácí na MFF UK. Je členem České statistické společnosti, Mezinárodní společnosti pro klinickou biostatistiku a České lékařské společnosti Jana Evangelisty Purkyně. |
Při molekulárně genetických studiích je obvyklé, že se měří genová aktivita (exprese) řádově desítek tisíc genů na pouhých desítkách pacientů. Cílem analýzy pak je například určit diagnózu nového jedince na základě porovnání jeho genových aktivit s naměřenými hodnotami u různých skupin pacientů.
Standardní statistické metody však trpí tzv. prokletím dimenzionality, to znamená, že je buď nelze rychle spočítat pro tak velké počty genů, anebo je nelze spočítat vůbec.
RozcestníkKde sledovat další přednášky? |
Výrazně si zjednodušíme celou analýzu, pokud dokážeme nejprve najít malou sadu těch genů, které nejvíc přispívají k odlišení jednotlivých skupin pacientů. Pak stačí hledat pravidlo pro určení diagnózy právě jen na základě této malé skupiny genů. V prezentaci popíšeme naši nově navrženou statistickou metodu pro hledání malé sady významných genů, která je navíc dostatečně spolehlivá i v situaci, kdy jsou naměřené hodnoty zatížené výraznou chybou měření.