"Velká data jsou teď velmi populární termín a firmy se jím ohánějí a čekají zázraky," přiznává Dirk deRoos hned na začátku našeho rozhovoru. Jako odborník firmy IBM na analýzu velkých dat zná nejen její zdánlivě zázračné možnosti, ale i celou řadu úskalí, problémů a stále se opakujících omylů.
Big DataPojmem "velká data" se rozumí pokročilá analýza ohromného objemu údajů, které by dříve vůbec nebylo možné zpracovat. To je možné teprve díky rychlejším počítačům, levnému úložnému prostoru a novým softwarovým nástrojům. |
Ale když přijde na budoucnost velkých dat, Dirk deRoos je i tak optimistou. Bavili jsme se o řadě případů, kdy velká data mohou zastírat reálný stav věcí a nabízet pouze iluzi znalosti, nikoli skutečný stav.
Každá data totiž mají svá omezení. Zdaleka ne vše lze měřit, a zdaleka ne všechna data jsou natolik strukturovaná, aby je počítač dokázal automaticky analyzovat. "Musíte znát limity dat a mít je na paměti, když z nich vyvozujete závěry," připomíná deRoos. "Přesto si myslím, že neexistují špatná data, záleží hlavně na tom, jak je použijete."
Co to vlastně je?
Big Data Expert |
Popsal byste našim čtenářům, co se rozumí pod pojmem big data (dále "velká data") a proč by to někoho mělo zajímat?
Já velká data definuji jako soubor informací, které nelze jednoduše zpracovat pomocí tradičních metod, jakými jsou třeba databáze nebo tabulkový procesor. U ohromných souborů dat je často obtížné tato data dobře vytěžit, zjistit, co se v nich vlastně skrývá. A podle mého názoru je teď velký přebytek dat, která neumíme analyzovat.
Proč nelze analyzovat tato velká data již známými metodami?
Ten problém tkví ve třech oblastech.
- První je objem dat. Je nesmírně obtížné dělat okamžitou statistickou analýzu 500 terabajtů dat.
- Dalším může být rychlost, se kterou se na vás data hrnou a vy je potřebujete analyzovat v reálném čase. Když třeba počítače analyzují stovky kamer na letištích, musejí informace o hrozícím nebezpečí vyhodnotit okamžitě, aby taková informace měla nějaký význam. Hrnou se na vás tuny informací ze všech senzorů, ale ty informace nemá cenu ukládat, pokud je nedokážete velmi rychle zpracovávat a dát jim význam.
- Třetím problémem je komplexnost dat (v originále variety). Tradičně jsou počítače velmi dobré ve zpracování číselných dat a statistických analýzách. Proto tak snadno analyzují databáze nebo počítají průměry. Komplexní data jsou naopak přirozená řeč, obrazová data, různá analogová a nestrukturovaná data, která se velmi obtížně analyzují jednoduchými statistickými metodami.
Samozřejmě že skoro všechna data mají nějakou strukturu a pravidelnost, ale ta nemusí být evidentní, nebo není snadno analyzovatelná. Jinými slovy: tím, že umíte na obrázku rozpoznat pixely nebo geometrické tvary, jste ještě nepoznali, že se díváte na obličej hledaného zločince.
Jedním z prvních problémů velkých dat bylo sčítání lidu v USA na konci 19. století (více v našem článku). Tak vlastně vznikla i firma IBM. Ale dnes už jsme o sto let dále a ta změna nespočívá jen v tom, že je dat více, že?
Přesně tak. V IBM se vždycky snažíme připomínat, že je potřeba hledat hodnotu a užitečnost daných dat. Neanalyzovat jen tak pro potěšení. Jsem rád, že jste zmínil to sčítání lidu, nikdy jsem o tom takhle nepřemýšlel, ale je to podobný problém. Tehdejší tradiční nástroje analýzy nebyly dostatečně rychlé, aby zvládly zpracovat miliony karet.
Příklady použití velkých dat: doporučení i předpovědiAnalýza velkých dat zní dost abstraktně. Podívejme se na známé příklady použití velkých dat ke zvýšení zisku, predikci prodejů nebo mapování terénu. Společné mají jedno: před 20 lety by patřily do kategorie sci-fi.
|
Odhadovali, že zpracování by trvalo deset let, nebylo by tedy hotové do příštího sčítání.
Podobný problém s rychlostí zpracování řešíme i dnes, i když v úplně jiných měřítcích. Je potřeba dívat se na obchodní hodnotu daných dat. Rád dávám za příklad prodej knih v USA.
V Americe byla obrovská společnost Borders, prodávali knihy v kamenných obchodech i na internetu. Mějme na paměti, že knihy jsou zboží s poměrně nízkými zisky z prodaného kusu. Pokud se nechováte strategicky a nejste schopni vydělávat i na celkem malých cílových skupinách, nepřežijete.
A Amazon je převálcoval.
Ano, ale nejen Amazon, i řada dalších knihkupců, on-line i v kamenných obchodech. Ale firma Borders zmizela z jiného důvodu. Vysilovali se nesmyslným marketingem. Neustále mi od nich chodily newslettery propagující upíří novely, něco, co mě opravdu nezajímá. Nedokázali cílit svůj marketing. Měli o mě spoustu informací a nedokázali je využít. Už v 90. letech dokázali Barnes and Nobles i Amazon tato data využít a nabídky posílali na míru. Určitě tam byly i další problémy, které firmu Borders pohřbily, ale velmi k tomu přispělo, že nedokázali pracovat s vlastními daty.
Firmy by neměly využívat jen svoje data, ale všechna data, která jsou k dispozici. Zjistí pak třeba, jak počasí ovlivňuje jejich prodej. |
Takže říkáte, že by podniky měly vzít všechna data, která už tak jako tak mají, a najít v nich smysluplné odpovědi. A vy máte nástroje, které jim to mají umožnit.
Šel bych ještě dál, firmy mají vzít nejen svoje data, ale všechna data, ke kterým mají přístup. Protože je celá řada iniciativ propagujících otevřená data, jiná data zase zveřejňují vlády, nebo různé organizace. Další data se dají koupit od specializovaných firem.
Vezměte si data týkající se počasí. Můžete si udělat analýzu, jak se aktuální počasí promítá na vašich prodejích v jednotlivých regionech.
Předpokládám, že myslíte něco víc, než že tam, kde prší, si lidé kupují deštníky. Fascinují mě počítačem objevené pravidelnosti a korelace, o kterých by živí lidé ani ve snu nepřemýšleli.
Ano, a to se také snažíme lidem říkat. Bez počítače bychom takové pravidelnosti nikdy nenašli. Jenže ono je také možné, že nic takového zajímavého neobjevíte. Nebo to možná bude vyžadovat velké investice, vaši analytici se budou muset naučit nové nástroje.
Velká data nejsou nějaký magický všelék. Vždycky je potřeba, aby někdo přizpůsobil algoritmy na míru vašim potřebám. |
Lidé z marketingu by chtěli velká data popsat, skoro jako kdyby mluvili o magickém všeléku. Jako kdybyste měli nějakou kouzelnou baterku velkých dat, namířili ji na svoji firmu a najednou měli hromadu těch nejúžasnějších postřehů a poznatků, díky kterým převálcujete konkurenci. Ale tak to vůbec není. Vždycky je stejně potřeba, aby někdo přizpůsobil algoritmy na míru vaší firmě a potřebám.
Co však je dnes jiné, to jsou technologické možnosti. Ukládání dat je dnes neuvěřitelně levné. Konečně si můžeme dovolit ukládat data dlouhodobě a v takové podobě, ve které je můžeme analyzovat. To dřív prostě nebylo možné.
Když se podíváte na technologie, které potřebuje Google, aby zvládl to ohromné množství dat, které mají, to se teď bude stávat standardem. Spousta firem teď zkoumá, jak by mohli přejít na HADOOP platformu. To je platforma pro ukládání a analýzu skoro libovolných dat a přitažlivé na ní je to, že můžete jednoduše přidávat další stroje a zvyšovat kapacitu i výkonnost systému.
Přijde mi, že u velkých dat může být problém s daty samotnými, respektive s jejich sběrem. Jak určit, co jsou užitečná data a co už ne? Protože data budou uložena digitálně, a tak se nutně ztrácí nějaká informace, minimálně o tom, co se mezi data nedostalo. Ztratíte vše, co za data nepovažujete, a v následujících analýzách už jako kdyby to neexistovalo.
Říkáte, že něco nelze převést do dat. A k něčemu data zkrátka nejsou, neznáme třeba motivaci lidí, kteří něco hledají. Třeba to hledají pro přítele. To rozhodně může být problém.
Proč vám chytré telefony a velká data neopravila silnici?
V Bostonu se rozhodli využít smartphony pro opravu ulic. Dali lidem aplikaci Street Bump, ti si ji nainstalovali do iPhonů a telefon měli položený v autě na sedadle, zatímco jezdili po městě. Boston tak získal velké množství dat o tom, které ulice jsou hrbolaté a potřebují opravit. Ale podle kritiků to vedlo k tomu, že se opravily hlavně ulice, po kterých jezdí bohatí lidé, kteří si mohou dovolit drahý telefon. Takže měření bylo od začátku závadné, ale v těch velkých datech to nutně nebylo vidět. Jak lze zabránit tomuto typu omylů?
V tomto je klíčový výběr vzorku dat (tzv. sampling). Musíte vědět, jaká data máte k dispozici a co s nimi chcete dělat. Musíte vědět, jestli je potřeba, aby ta data byla stoprocentně přesná, nebo tam mohou být nepřesnosti. Tyto otázky přímo souvisejí nejen s kvalitou dat, ale i s jejich následnou analýzou.
Velká data nejsou nic nového, statistickou analýzu tu máme už dlouho. Nová je škála a komplexnost. |
Vadí mi, že lidé někdy mluví o velkých datech, jako kdyby to bylo něco úplně nového. To tak vůbec není, statistickou analýzu tu máme už velmi dlouho. Ale nová je škála a komplexnost dat, které dokážeme zpracovat. Třeba analýza přirozené řeči, o to už se lidé snaží 40 let. Ale teď se blížíme úplně nové úrovni této analýzy.
Vraťme se k datům, která máme k dispozici. Jakmile jsou zaznamenaná, pracujeme s nimi, jako kdyby byla pravdivá nebo úplná. Ale tak to většinou vůbec není, jsou zkreslená stovkami způsobů, které často ani neumíme odhadnout. Někdo použije můj počítač k vyhledání svého oblíbeného sportu a já pak budu dostávat doporučení na knihy o tomto sportu. A to je jen to nejmenší. Co třeba vzdělávací nebo zdravotní systém, který se snaží opravit zdánlivou anomálii vzniklou špatným, či neúplným zadáním dat?
Ano, často se mluví o "špatných datech". Ale podle mě vlastně nic takového jako špatná data neexistuje. Základem samozřejmě je, že musíte chápat, jaká data jste nasbírali a jak. Ten příklad s auty v Bostonu je dobrý. Ta data měla být ošetřena na základě znalosti o způsobu sběru těchto dat.
"Není nic takového jako špatná data. Respektive, špatná data vlastně mohou být velmi užitečná. Google díky tomu má fantastickou databázi překlepů úplně zadarmo." |
Ale asi ještě důležitější poznámka: špatná dat mohou být vlastně užitečná. Perfektním příkladem je to, jak vyhledávač Google zachází s překlepy. Je to vlastně nádherné řešení složitého problému. V reálném čase sbírají všechno, co do Gooogle píšete. Takže vidí, když uděláte chybu a zmáčknete Backspace, abyste ji opravili. Takže i taková drobnost jim stačí k tomu, aby se naučili obvyklé překlepy, které lidi dělají. Jinými slovy, i tato špatná data jsou vlastně dobrá data, protože vedou k lepšímu porozumění tomu, jak lidé zadávají dotazy. Celý systém je díky těmto "špatným datům" chytřejší.
Jeff Jonas, můj oblíbenec z IBM, říká, že velká data jsou vlastně jako ohromná skládačka (puzzle), kterou někdo zamíchal. V jednom cvičení dal účastníkům puzzlíky z různých obrázků, něco chybělo, něco bylo víckrát. A čím více puzzlíků máte, tím lepší máte šanci, že sestavíte celý obraz a odhalíte, co chybí a co je navíc.
Tajné služby a velká dataNěco málo informací o tom, jak NSA a další tajné služby využívají velká data, víme díky whistleblowerovi Edwardu Snowdenovi a dokumentům, které vynesl. |
Ale zpátky do reálného života. Když se podíváme na "třípísmenné agentury" v USA (CIA, FBI apod.), tak vidíme, že oni musí analyzovat ohromné množství dat v reálném čase. A po útocích 11. září 2001 si vláda uvědomila, že musí do analýzy bezpečnostních dat dát mnohem více prostředků. Potřebovali nástroj na průběžnou analýzu dat. Museli být schopni dekódovat konverzace a rozpoznat, že se děje něco neobvyklého, a to okamžitě, ne až po několika dnech. A data se na ně valí v různých formách. Něco je strukturovaný text, třeba e-maily nebo tweety, ale velká část dat je nestrukturovaná.
Dá se říci, že rozhodnutí na základě velkých dat je často podobné spíše intuici než logické argumentaci? Třeba superpočítač Watson, když odhadoval správnou odpověď na otázky, pracuje nezávisle s několika hypotézami zároveň a hledá pro ně oporu v datech, která nashromáždil (více v našem předchozím článku). Když má nějaká odpověď třeba 80% jistotu, tak ji zvolí jako správnou, ale neuměl by tu odpověď jednou větou zdůvodnit. To mi přijde bližší spíše lidské intuici.
Ano, to je pravda. Ale Watson dělá i něco dalšího: učí se ze svých špatných odpovědí. U hry Jeopardy (u nás známé pod názvem Riskuj - pozn. red.) bylo opravdu těžké naučit Watsona významy jednotlivých kategorií. Takže když třeba Watson nepochopil, že se ho ptáme na města, měl všechny odpovědi v dané kategorii špatně, i když už znal správné odpovědi. Nový Watson se umí poučit a i když pak špatně identifikuje kategorii, v další otázce už tuto chybu neudělá.
Takže obecně, pokud jsou velká data nějakým směrem zatížená (v originále biased), při analýze dokážeme směr tohoto zatížení odhalit a napravit to následnou korekcí. A v případě neuronových sítí se to zkoriguje zpětnou vazbou.
Datová analýza v praxi
Jak už jste řekl, velká data nejsou úplně nová technologie, spíš nové možnosti analýzy díky novým technologiím. A nové technologie mají jeden velký problém: lidé do nich nevidí, nerozumí jim a neznají jejich omezení. Nemáte pocit, že se firmy mohou dívat na analýzu velkých dat jako na zázračnou černou skříňku, do které strčí data a vypadne jim odpověď?
Slepé přijímání nových věcí je vždycky zákeřné. Naše zákazníky před tím varujeme. Firmy často nerozumí tomu, co to analýza velkých dat znamená, a to je v pořádku, je na nás, abychom to vysvětlili. Stejně tomu bylo i před příchodem relační databáze. Také nikdo nevěděl, jak je používat.
Slepé přijímání nových technologií je vždy zákeřné, a když firma nerozumí velkým datům, je na nás, abychom jim to vysvětlili. |
Takže když přišel HADOOP, společnosti se logicky ptají, co jim může přinést. A on jim přinese škálovatelnost, možnost analyzovat i data, která by jinak ležela ladem. Ale samotné zapojení HADOOP jim nezaručí, že budou moci využít tato data nějak smysluplně. Samotný nástroj nezajistí výsledky.
Firmy by se měly soustředit na finanční stránku. Měly by klást otázky, které pro ně dávají finanční smysl. Třeba: dokážeme na základě předchozích dat zjistit, jaký úspěch bude mít tento film? Fantazie a kreativita jsou důležité, ale je potřeba dát si pozor, aby jen nehledali podklady pro to, pro co už jsou rozhodnutí.
Není právě s těmi zavádějícími otázkami trochu problém? Na co by si měli lidé dát pozor, aby neskočili na lep "na míru provedené" datové analýze a nezavírali oči před důkazy?
To je klasický problém. Obrana je jednoduchá, musíte napřed udělat vše, co je ve vašich silách, abyste své hypotézy vyvrátili. Pak teprve výsledek něco znamená.
Fotogalerie |
Problém je s tím, že je velmi málo expertů na datovou analýzu. Kolik lidí umí zacházet s textovou analýzou nebo programovat pro HADOOP? A to je také příležitost pro IBM. Chceme zpřístupnit analýzu velkých dat pro lidi, kteří na to zatím nemají zkušenosti, nebo expertízu. Soustředíme se na to, aby analýzu velkých dat mohl používat i třeba obchodník, který má zkušenosti jen s tabulkovým procesorem.
Co to ve skutečnosti znamená? Kde ta analýza poběží?
Jeden z našich produktů (BigInsights) třeba umí vzít data z HADOOP a učinit je prohledávatelná pomocí tradičních nástrojů. To je ohromná pomoc pro všechny, kdo se nechtějí učit nové způsoby práce s databází. S velkými daty mohou pracovat jako s normální databází.
A pak máme také nástroj BigSheet, který vlastně generuje něco, co připomíná "excelovou" tabulku. Můžete tam načíst ohromné množství dat a všechna je v tabulce samozřejmě neuvidíte. Ale budete s nimi moci v té tabulce zacházet a výsledky budou odpovídat. Takže třeba místo stovek miliard záznamů se vám zobrazí jen tisíc. A vy si uděláte analýzu, zkombinujete různé sloupce, kontingenční tabulky, podmínky, filtry, grafy. A neustále máte přibližný přehled o výsledku. Pak položíte otázku a dostanete odpověď po stisknutí tlačítka "Spusť".
BigSheet umožňuje analýzu velkých dat, ale tváří se vlastně jako obyčejný tabulkový procesor.
Každá databáze je neúplné zachycení skutečnosti. Aby se data mohla vměstnat do databáze, jsou nějak osekaná, nebo zkreslená. Nemáte pocit, že jsme dnes posedlí daty na úkor skutečného světa? Vždyť to není realita, je to zkreslená a neúplná reprezentace reality.
Té připomínce rozumím. Ale můj osobní názor je, že řešením je nasbírat více dat. Jak jsem říkal, čím více kousků skládanky máte, tím spíše složíte celý obraz. Zatím je ve strukturované podobě jen asi 20 procent světových informací. Takže když se podíváme na ten zbytek a zeptáme se správné otázky – a skutečně záleží na těch otázkách, není v tom žádné kouzlo – získáme úplnější pohled na svět.
Seznamte se s big dataKnihu o dolování a pracování s daty koupíte na v našem eshopu zde. |
Dovolte mi příklad. Vedle medicíny založené na vědeckých studiích a výsledcích je také ohromné množství šarlatánů, pseudolékařů a podvodníků. Nebojíte se toho, že lidé uvidí ve velkých datech všemocný lék a budou analýzu využívat dost nešťastným a nepoučeným způsobem? Že si neuvědomí souvislosti a omezení této metody?
Ano, to je skvělý příklad. Medicína je založená na důkazních materiálech, je to empirická disciplína. A cílem odborných publikací je testovat tyto experimenty, podrobit analýze každé slovíčko a každou tabulku. A to je také zdravý přístup k datové analýze. Musíte se ptát: nasbíral jsem dostatek dat? Byl sběr nějak systematicky ovlivněn? Ptám se správné otázky? Vztahují se odpovědi k realitě?
A tyto otázky musí klást odborníci na danou oblast. Datová analýza je jen obecný nástroj, který je mocný teprve v rukou těch, kteří rozumí svojí oblasti. "Datoví vědci" nemohou bez znalosti konkrétní domény nabídnout relevantní odpovědi. Je to jako s létáním, my umožníme více lidem stát se piloty.
Tu metaforu si půjčím. V začátcích létání byl pilotem skutečně jen naprostý nadšenec, nebo blázen, tak nebezpečné to bylo. Později se pilotem mohl stát každý, kdo na to měl talent, nebo peníze. A konečně dnes už může být pilotem prakticky každý. Nebojíte se, že za knipl bude sedat člověk, který tam nemá co pohledávat, a způsobí katastrofu? Chci tím říci, že lidé, kteří nejsou vycvičeni v disciplíně datové analýzy nebudou znát omezení a budou brát odpovědi datové analýzy jako nezpochybnitelná fakta.
Datová analýza plní funkci rozhodovacího nástroje (v originále recommendation engine). A s tím umí dobře zacházet jen vycvičení statistici. Ale díky některým nástrojům, které nabízíme my, by ji mohli využívat skoro všichni. Umím si představit, že si pak firma na míru sestaví nástroj pro analýzu podle svých potřeb. Nastahujete si databáze a dáte je do nových souvislostí. Můžete tyto databáze a nástroje kombinovat a řetězit, testovat nové algoritmy. Hodně to připomíná lego, můžete kombinovat různé algoritmy, aniž byste přesně rozuměli tomu, co dělají.
Ne všechno by měli vidět všichni aneb hrozba velkých dat
Bojíte se, že analýza velkých dat může narušit právo na soukromí? Více nových technologií znamená více možností, jak si o konkrétním člověku zjistit bezprecedentní množství informací.
Má to dvě stránky. Za prvé, diskuze o ochraně soukromí nejsou technické debaty, ale společenské, politické. Soukromí jako takové je podle mého společenský konstrukt a pojetí soukromí se mění. Před sto lety žila třígenerační rodina ve dvoupokojovém bytě, z dnešního pohledu tam nebylo žádné soukromí. Dnes myslíme soukromím něco jiného.
Dnes každý se, kdo používá mobilní telefon nebo e-mail, vzdává části svého soukromí. Operátoři nebo poskytovatelé o vás vědí ohromné množství věcí. A bereme to jako samozřejmost. Lidé vystavují na odiv svůj facebookový profil, fotky a tak dále. Neříkám, že je to dobře, nebo špatně. Prostě to tak je.
Z pohledu velkých dat ve veřejné sféře je to trochu zvláštní. Tam totiž někdy vyměníte soukromí jednotlivce za dobro společnosti, a to může být kontroverzní. Mohlo by třeba být hodně užitečné centrálně vidět detailní zdravotní záznamy každého Čecha. Daly by se monitorovat epidemie nebo optimalizovat zdravotnictví.
Ale taková data jsou velmi snadno zneužitelná, vždycky k nim někdo má přístup.
Ano, a nejde jen o jednotlivce. Co kdyby se k takovým datům dostaly pojišťovny a pak by někoho odmítly pojistit? To by rozhodně bylo odporné, minimálně podle dnešních standardů. Ale to jsou všechno společenské otázky.
Co je soukromí, to musí rozhodnout politická reprezentace. Technické firmy to pak budou muset implementovat. |
Vždycky budeme muset přístup k informacím nějak omezovat a definovat, kdo má právo na soukromí a co to vlastně soukromí je. To musí rozhodnout politické reprezentace. A technické firmy to pak musejí implementovat. Takže my do našeho softwaru připravujeme takové nástroje, aby vyhovovaly různým nárokům na soukromí (v originále data governance). Budeme moci omezit třeba to, do jaké hloubky se může tazatel ptát nebo zda smí vidět jednotlivce, či jen agregovaná data. Státy také omezují, která data lze prodávat nebo zpřístupnit třetím osobám.
Na tyto problémy se musí myslet s předstihem, ale často se na to zapomíná. Organizace často dělají datovou analýzu retroaktivně, nikoli proaktivně. Tím pádem to není příliš promyšlené. Je potřeba na soukromí myslet už při tomto proaktivním plánování. A na to opensourcový HADOOP ještě není tak úplně připravený a možná nikdy nebude. Ale je potřeba do dat vnést možnost například skrýt jeden sloupec a sdílet ostatní, aby bylo zachováno soukromí a přitom mohla být data užitečná.