Sobota 4. prosince 2021, svátek má Barbora
  • schránka
  • Přihlásit Můj účet
  • Sobota 4. prosince 2021 Barbora

Proč vám telefon neopravil díry v silnici? Velký rozhovor o velkých datech

Exkluzivně
Blíží se doba, kdy se vlády, manažeři i učitelé budou rozhodovat na základě analýzy tzv. velkých dat. Ale zobrazují "big data" skutečně realitu? Na to jsme se zeptali Dirka deRoose, analytického odborníka z IBM. "Neexistují špatná data, záleží na tom, co s nimi uděláte," myslí si.

Dirk deRoos (IBM) se domnívá, že problémy s velkými daty lze vyřešit především kladením správných otázek nebo sběrem ještě více dat. | foto: IBM, montáž Technet.cz

"Velká data jsou teď velmi populární termín a firmy se jím ohánějí a čekají zázraky," přiznává Dirk deRoos hned na začátku našeho rozhovoru. Jako odborník firmy IBM na analýzu velkých dat zná nejen její zdánlivě zázračné možnosti, ale i celou řadu úskalí, problémů a stále se opakujících omylů.

Big Data

Pojmem "velká data" se rozumí pokročilá analýza ohromného objemu údajů, které by dříve vůbec nebylo možné zpracovat.

To je možné teprve díky rychlejším počítačům, levnému úložnému prostoru a novým softwarovým nástrojům.

Ale když přijde na budoucnost velkých dat, Dirk deRoos je i tak optimistou. Bavili jsme se o řadě případů, kdy velká data mohou zastírat reálný stav věcí a nabízet pouze iluzi znalosti, nikoli skutečný stav. 

Každá data totiž mají svá omezení. Zdaleka ne vše lze měřit, a zdaleka ne všechna data jsou natolik strukturovaná, aby je počítač dokázal automaticky analyzovat. "Musíte znát limity dat a mít je na paměti, když z nich vyvozujete závěry," připomíná deRoos. "Přesto si myslím, že neexistují špatná data, záleží hlavně na tom, jak je použijete."

Co to vlastně je?

Big Data Expert

Dirk deRoos vede prodej nástroje IBM InfoSphere BigInsights a poslední dva roky strávil vysvětlováním výhod analýzy velkých dat firmám i na konferencích.

Dirk deRoos (IBM)

Dirk deRoos (IBM)

Je autorem dvou knih o velkých datech. Studoval informatiku a anglistiku na Univerzitě New Brunswick v Kanadě.

Popsal byste našim čtenářům, co se rozumí pod pojmem big data (dále "velká data") a proč by to někoho mělo zajímat?
Já velká data definuji jako soubor informací, které nelze jednoduše zpracovat pomocí tradičních metod, jakými jsou třeba databáze nebo tabulkový procesor. U ohromných souborů dat je často obtížné tato data dobře vytěžit, zjistit, co se v nich vlastně skrývá. A podle mého názoru je teď velký přebytek dat, která neumíme analyzovat.

Proč nelze analyzovat tato velká data již známými metodami?
Ten problém tkví ve třech oblastech. 

  1. První je objem dat. Je nesmírně obtížné dělat okamžitou statistickou analýzu 500 terabajtů dat.
  2. Dalším může být rychlost, se kterou se na vás data hrnou a vy je potřebujete analyzovat v reálném čase. Když třeba počítače analyzují stovky kamer na letištích, musejí informace o hrozícím nebezpečí vyhodnotit okamžitě, aby taková informace měla nějaký význam. Hrnou se na vás tuny informací ze všech senzorů, ale ty informace nemá cenu ukládat, pokud je nedokážete velmi rychle zpracovávat a dát jim význam.
  3. Třetím problémem je komplexnost dat (v originále variety). Tradičně jsou počítače velmi dobré ve zpracování číselných dat a statistických analýzách. Proto tak snadno analyzují databáze nebo počítají průměry. Komplexní data jsou naopak přirozená řeč, obrazová data, různá analogová a nestrukturovaná data, která se velmi obtížně analyzují jednoduchými statistickými metodami.

Rychlost, objem a komplexnost dat, to jsou hlavní odlišnosti analýzy velkých...

Rychlost, Objem a Komplexnost dat, to jsou hlavní odlišnosti analýzy velkých dat.

Samozřejmě že skoro všechna data mají nějakou strukturu a pravidelnost, ale ta nemusí být evidentní, nebo není snadno analyzovatelná. Jinými slovy: tím, že umíte na obrázku rozpoznat pixely nebo geometrické tvary, jste ještě nepoznali, že se díváte na obličej hledaného zločince.

Jedním z prvních problémů velkých dat bylo sčítání lidu v USA na konci 19. století (více v našem článku). Tak vlastně vznikla i firma IBM. Ale dnes už jsme o sto let dále a ta změna nespočívá jen v tom, že je dat více, že?
Přesně tak. V IBM se vždycky snažíme připomínat, že je potřeba hledat hodnotu a užitečnost daných dat. Neanalyzovat jen tak pro potěšení. Jsem rád, že jste zmínil to sčítání lidu, nikdy jsem o tom takhle nepřemýšlel, ale je to podobný problém. Tehdejší tradiční nástroje analýzy nebyly dostatečně rychlé, aby zvládly zpracovat miliony karet.

Příklady použití velkých dat: doporučení i předpovědi

Analýza velkých dat zní dost abstraktně. Podívejme se na známé příklady použití velkých dat ke zvýšení zisku, predikci prodejů nebo mapování terénu. Společné mají jedno: před 20 lety by patřily do kategorie sci-fi.

  • Knihkupectví Amazon.com umí zákazníkům nabídnout knížky na základě toho, jaké knížky si koupili lidé s podobným vkusem. Tato doporučení jsou "šita na míru" právě díky ohromnému množství dat.
  • Vyhledávač Google zaznamenává každé stisknutí klávesy, když zadáváte hledaný výraz. Naučil se tedy časté překlepy, které lidé udělají a pak je po sobě opraví. Tak si vytváří ohromnou databázi obvyklých překlepů a vylepšuje celkové porozumění hledanému textu.
  • IBM na základě analýzy krátkých výkřiků na Twitteru během reklamní přestávky dokázala odhadnout, jaké tržby bude mít film, na který běžela upoutávka. Využili k tomu analýzu velkých dat i strojovou analýzu nálady (sentimentu).
  • Město Boston zjistilo, které ulice potřebují opravit, díky aplikaci Street Bumb. Tisíce lidí si ji nainstalovaly do smartphonů s GPS a zabudované senzory pak měřily, které ulice mají nejvíce hrbolů. Město pak naneslo výsledky na mapu a opravilo cesty, kde lidé nejčastěji narážejí na hrboly a díry v silnici. Kritici však upozorňují, že opraveny byly jen ulice v bohatých čtvrtích, protože chudší lidé neměli smartphony.
  • Superpočítač Watson na základě paralelní analýzy ohromného množství dat a posuzování jejich relevance k tématu dokázal porazit člověka ve vědomostní hře Jeopardy! Nyní se Watson chystá do zdravotnictví, kde pomůže doporučit onkologickým pacientům léčbu na míru.

Odhadovali, že zpracování by trvalo deset let, nebylo by tedy hotové do příštího sčítání.
Podobný problém s rychlostí zpracování řešíme i dnes, i když v úplně jiných měřítcích. Je potřeba dívat se na obchodní hodnotu daných dat. Rád dávám za příklad prodej knih v USA.

V Americe byla obrovská společnost Borders, prodávali knihy v kamenných obchodech i na internetu. Mějme na paměti, že knihy jsou zboží s poměrně nízkými zisky z prodaného kusu. Pokud se nechováte strategicky a nejste schopni vydělávat i na celkem malých cílových skupinách, nepřežijete.

A Amazon je převálcoval.
Ano, ale nejen Amazon, i řada dalších knihkupců, on-line i v kamenných obchodech. Ale firma Borders zmizela z jiného důvodu. Vysilovali se nesmyslným marketingem. Neustále mi od nich chodily newslettery propagující upíří novely, něco, co mě opravdu nezajímá. Nedokázali cílit svůj marketing. Měli o mě spoustu informací a nedokázali je využít. Už v 90. letech dokázali Barnes and Nobles i Amazon tato data využít a nabídky posílali na míru. Určitě tam byly i další problémy, které firmu Borders pohřbily, ale velmi k tomu přispělo, že nedokázali pracovat s vlastními daty.

Firmy by neměly využívat jen svoje data, ale všechna data, která jsou k dispozici. Zjistí pak třeba, jak počasí ovlivňuje jejich prodej.

Takže říkáte, že by podniky měly vzít všechna data, která už tak jako tak mají, a najít v nich smysluplné odpovědi. A vy máte nástroje, které jim to mají umožnit.
Šel bych ještě dál, firmy mají vzít nejen svoje data, ale všechna data, ke kterým mají přístup. Protože je celá řada iniciativ propagujících otevřená data, jiná data zase zveřejňují vlády, nebo různé organizace. Další data se dají koupit od specializovaných firem.

Vezměte si data týkající se počasí. Můžete si udělat analýzu, jak se aktuální počasí promítá na vašich prodejích v jednotlivých regionech.

Předpokládám, že myslíte něco víc, než že tam, kde prší, si lidé kupují deštníky. Fascinují mě počítačem objevené pravidelnosti a korelace, o kterých by živí lidé ani ve snu nepřemýšleli.
Ano, a to se také snažíme lidem říkat. Bez počítače bychom takové pravidelnosti nikdy nenašli. Jenže ono je také možné, že nic takového zajímavého neobjevíte. Nebo to možná bude vyžadovat velké investice, vaši analytici se budou muset naučit nové nástroje.

Velká data nejsou nějaký magický všelék. Vždycky je potřeba, aby někdo přizpůsobil algoritmy na míru vašim potřebám.

Lidé z marketingu by chtěli velká data popsat, skoro jako kdyby mluvili o magickém všeléku. Jako kdybyste měli nějakou kouzelnou baterku velkých dat, namířili ji na svoji firmu a najednou měli hromadu těch nejúžasnějších postřehů a poznatků, díky kterým převálcujete konkurenci. Ale tak to vůbec není. Vždycky je stejně potřeba, aby někdo přizpůsobil algoritmy na míru vaší firmě a potřebám.

Co však je dnes jiné, to jsou technologické možnosti. Ukládání dat je dnes neuvěřitelně levné. Konečně si můžeme dovolit ukládat data dlouhodobě a v takové podobě, ve které je můžeme analyzovat. To dřív prostě nebylo možné. 

Když se podíváte na technologie, které potřebuje Google, aby zvládl to ohromné množství dat, které mají, to se teď bude stávat standardem. Spousta firem teď zkoumá, jak by mohli přejít na HADOOP platformu. To je platforma pro ukládání a analýzu skoro libovolných dat a přitažlivé na ní je to, že můžete jednoduše přidávat další stroje a zvyšovat kapacitu i výkonnost systému.

Velká data mají podle deRoose uplatnění ve finančnictví, dopravě,...

Velká data mají podle deRoose uplatnění ve finančnictví, dopravě, zdravotnictví, telekomunikacích, právním systému, obchodě, IT i v dalších oblastech.

Přijde mi, že u velkých dat může být problém s daty samotnými, respektive s jejich sběrem. Jak určit, co jsou užitečná data a co už ne? Protože data budou uložena digitálně, a tak se nutně ztrácí nějaká informace, minimálně o tom, co se mezi data nedostalo. Ztratíte vše, co za data nepovažujete, a v následujících analýzách už jako kdyby to neexistovalo.
Říkáte, že něco nelze převést do dat. A k něčemu data zkrátka nejsou, neznáme třeba motivaci lidí, kteří něco hledají. Třeba to hledají pro přítele. To rozhodně může být problém.

Proč vám chytré telefony a velká data neopravila silnici?

V Bostonu se rozhodli využít smartphony pro opravu ulic. Dali lidem aplikaci Street Bump, ti si ji nainstalovali do iPhonů a telefon měli položený v autě na sedadle, zatímco jezdili po městě. Boston tak získal velké množství dat o tom, které ulice jsou hrbolaté a potřebují opravit. Ale podle kritiků to vedlo k tomu, že se opravily hlavně ulice, po kterých jezdí bohatí lidé, kteří si mohou dovolit drahý telefon. Takže měření bylo od začátku závadné, ale v těch velkých datech to nutně nebylo vidět. Jak lze zabránit tomuto typu omylů?
V tomto je klíčový výběr vzorku dat (tzv. sampling). Musíte vědět, jaká data máte k dispozici a co s nimi chcete dělat. Musíte vědět, jestli je potřeba, aby ta data byla stoprocentně přesná, nebo tam mohou být nepřesnosti. Tyto otázky přímo souvisejí nejen s kvalitou dat, ale i s jejich následnou analýzou. 

Velká data nejsou nic nového, statistickou analýzu tu máme už dlouho. Nová je škála a komplexnost.

Vadí mi, že lidé někdy mluví o velkých datech, jako kdyby to bylo něco úplně nového. To tak vůbec není, statistickou analýzu tu máme už velmi dlouho. Ale nová je škála a komplexnost dat, které dokážeme zpracovat. Třeba analýza přirozené řeči, o to už se lidé snaží 40 let. Ale teď se blížíme úplně nové úrovni této analýzy.

Vraťme se k datům, která máme k dispozici. Jakmile jsou zaznamenaná, pracujeme s nimi, jako kdyby byla pravdivá nebo úplná. Ale tak to většinou vůbec není, jsou zkreslená stovkami způsobů, které často ani neumíme odhadnout. Někdo použije můj počítač k vyhledání svého oblíbeného sportu a já pak budu dostávat doporučení na knihy o tomto sportu. A to je jen to nejmenší. Co třeba vzdělávací nebo zdravotní systém, který se snaží opravit zdánlivou anomálii vzniklou špatným, či neúplným zadáním dat?
Ano, často se mluví o "špatných datech". Ale podle mě vlastně nic takového jako špatná data neexistuje. Základem samozřejmě je, že musíte chápat, jaká data jste nasbírali a jak. Ten příklad s auty v Bostonu je dobrý. Ta data měla být ošetřena na základě znalosti o způsobu sběru těchto dat.

"Není nic takového jako špatná data. Respektive, špatná data vlastně mohou být velmi užitečná. Google díky tomu má fantastickou databázi překlepů úplně zadarmo."

Ale asi ještě důležitější poznámka: špatná dat mohou být vlastně užitečná. Perfektním příkladem je to, jak vyhledávač Google zachází s překlepy. Je to vlastně nádherné řešení složitého problému. V reálném čase sbírají všechno, co do Gooogle píšete. Takže vidí, když uděláte chybu a zmáčknete Backspace, abyste ji opravili. Takže i taková drobnost jim stačí k tomu, aby se naučili obvyklé překlepy, které lidi dělají. Jinými slovy, i tato špatná data jsou vlastně dobrá data, protože vedou k lepšímu porozumění tomu, jak lidé zadávají dotazy. Celý systém je díky těmto "špatným datům" chytřejší.

Jeff Jonas, můj oblíbenec z IBM, říká, že velká data jsou vlastně jako ohromná skládačka (puzzle), kterou někdo zamíchal. V jednom cvičení dal účastníkům puzzlíky z různých obrázků, něco chybělo, něco bylo víckrát. A čím více puzzlíků máte, tím lepší máte šanci, že sestavíte celý obraz a odhalíte, co chybí a co je navíc.

Tajné služby a velká data

Něco málo informací o tom, jak NSA a další tajné služby využívají velká data, víme díky whistleblowerovi Edwardu Snowdenovi a dokumentům, které vynesl.

Ale zpátky do reálného života. Když se podíváme na "třípísmenné agentury" v USA (CIA, FBI apod.), tak vidíme, že oni musí analyzovat ohromné množství dat v reálném čase. A po útocích 11. září 2001 si vláda uvědomila, že musí do analýzy bezpečnostních dat dát mnohem více prostředků. Potřebovali nástroj na průběžnou analýzu dat. Museli být schopni dekódovat konverzace a rozpoznat, že se děje něco neobvyklého, a to okamžitě, ne až po několika dnech. A data se na ně valí v různých formách. Něco je strukturovaný text, třeba e-maily nebo tweety, ale velká část dat je nestrukturovaná.

Dá se říci, že rozhodnutí na základě velkých dat je často podobné spíše intuici než logické argumentaci? Třeba superpočítač Watson, když odhadoval správnou odpověď na otázky, pracuje nezávisle s několika hypotézami zároveň a hledá pro ně oporu v datech, která nashromáždil (více v našem předchozím článku). Když má nějaká odpověď třeba 80% jistotu, tak ji zvolí jako správnou, ale neuměl by tu odpověď jednou větou zdůvodnit. To mi přijde bližší spíše lidské intuici.
Ano, to je pravda. Ale Watson dělá i něco dalšího: učí se ze svých špatných odpovědí. U hry Jeopardy (u nás známé pod názvem Riskuj - pozn. red.) bylo opravdu těžké naučit Watsona významy jednotlivých kategorií. Takže když třeba Watson nepochopil, že se ho ptáme na města, měl všechny odpovědi v dané kategorii špatně, i když už znal správné odpovědi. Nový Watson se umí poučit a i když pak špatně identifikuje kategorii, v další otázce už tuto chybu neudělá.

Takže obecně, pokud jsou velká data nějakým směrem zatížená (v originále biased), při analýze dokážeme směr tohoto zatížení odhalit a napravit to následnou korekcí. A v případě neuronových sítí se to zkoriguje zpětnou vazbou.

Datová analýza v praxi

Jak už jste řekl, velká data nejsou úplně nová technologie, spíš nové možnosti analýzy díky novým technologiím. A nové technologie mají jeden velký problém: lidé do nich nevidí, nerozumí jim a neznají jejich omezení. Nemáte pocit, že se firmy mohou dívat na analýzu velkých dat jako na zázračnou černou skříňku, do které strčí data a vypadne jim odpověď?

Slepé přijímání nových věcí je vždycky zákeřné. Naše zákazníky před tím varujeme. Firmy často nerozumí tomu, co to analýza velkých dat znamená, a to je v pořádku, je na nás, abychom to vysvětlili. Stejně tomu bylo i před příchodem relační databáze. Také nikdo nevěděl, jak je používat.

Slepé přijímání nových technologií je vždy zákeřné, a když firma nerozumí velkým datům, je na nás, abychom jim to vysvětlili.

Takže když přišel HADOOP, společnosti se logicky ptají, co jim může přinést. A on jim přinese škálovatelnost, možnost analyzovat i data, která by jinak ležela ladem. Ale samotné zapojení HADOOP jim nezaručí, že budou moci využít tato data nějak smysluplně. Samotný nástroj nezajistí výsledky.

Firmy by se měly soustředit na finanční stránku. Měly by klást otázky, které pro ně dávají finanční smysl. Třeba: dokážeme na základě předchozích dat zjistit, jaký úspěch bude mít tento film? Fantazie a kreativita jsou důležité, ale je potřeba dát si pozor, aby jen nehledali podklady pro to, pro co už jsou rozhodnutí.

Není právě s těmi zavádějícími otázkami trochu problém? Na co by si měli lidé dát pozor, aby neskočili na lep "na míru provedené" datové analýze a nezavírali oči před důkazy? 
To je klasický problém. Obrana je jednoduchá, musíte napřed udělat vše, co je ve vašich silách, abyste své hypotézy vyvrátili. Pak teprve výsledek něco znamená.

Fotogalerie

Dirk deRoos (IBM) se domnívá, že problémy s velkými daty lze vyřešit především...
Velká data mají podle deRoose uplatnění ve finančnictví, dopravě,...
Rychlost, objem a komplexnost dat, to jsou hlavní odlišnosti analýzy velkých...
Nový přístup k datům nabízí především možnost využít velké množství dosud...

Problém je s tím, že je velmi málo expertů na datovou analýzu. Kolik lidí umí zacházet s textovou analýzou nebo programovat pro HADOOP? A to je také příležitost pro IBM. Chceme zpřístupnit analýzu velkých dat pro lidi, kteří na to zatím nemají zkušenosti, nebo expertízu. Soustředíme se na to, aby analýzu velkých dat mohl používat i třeba obchodník, který má zkušenosti jen s tabulkovým procesorem.

Co to ve skutečnosti znamená? Kde ta analýza poběží?
Jeden z našich produktů (BigInsights) třeba umí vzít data z HADOOP a učinit je prohledávatelná pomocí tradičních nástrojů. To je ohromná pomoc pro všechny, kdo se nechtějí učit nové způsoby práce s databází. S velkými daty mohou pracovat jako s normální databází.

A pak máme také nástroj BigSheet, který vlastně generuje něco, co připomíná "excelovou" tabulku. Můžete tam načíst ohromné množství dat a všechna je v tabulce samozřejmě neuvidíte. Ale budete s nimi moci v té tabulce zacházet a výsledky budou odpovídat. Takže třeba místo stovek miliard záznamů se vám zobrazí jen tisíc. A vy si uděláte analýzu, zkombinujete různé sloupce, kontingenční tabulky, podmínky, filtry, grafy. A neustále máte přibližný přehled o výsledku. Pak položíte otázku a dostanete odpověď po stisknutí tlačítka "Spusť".

Program IBM BigInsights
Big Sheet umožňuje analýzu velkých dat, ale tváří se vlastně jako obyčejný...

BigSheet umožňuje analýzu velkých dat, ale tváří se vlastně jako obyčejný tabulkový procesor.

Každá databáze je neúplné zachycení skutečnosti. Aby se data mohla vměstnat do databáze, jsou nějak osekaná, nebo zkreslená. Nemáte pocit, že jsme dnes posedlí daty na úkor skutečného světa? Vždyť to není realita, je to zkreslená a neúplná reprezentace reality.
Té připomínce rozumím. Ale můj osobní názor je, že řešením je nasbírat více dat. Jak jsem říkal, čím více kousků skládanky máte, tím spíše složíte celý obraz. Zatím je ve strukturované podobě jen asi 20 procent světových informací. Takže když se podíváme na ten zbytek a zeptáme se správné otázky – a skutečně záleží na těch otázkách, není v tom žádné kouzlo – získáme úplnější pohled na svět.

Seznamte se s big data

Knihu o dolování a pracování s daty koupíte na v našem eshopu zde.

obálka Big data

Dovolte mi příklad. Vedle medicíny založené na vědeckých studiích a výsledcích je také ohromné množství šarlatánů, pseudolékařů a podvodníků. Nebojíte se toho, že lidé uvidí ve velkých datech všemocný lék a budou analýzu využívat dost nešťastným a nepoučeným způsobem? Že si neuvědomí souvislosti a omezení této metody?
Ano, to je skvělý příklad. Medicína je založená na důkazních materiálech, je to empirická disciplína. A cílem odborných publikací je testovat tyto experimenty, podrobit analýze každé slovíčko a každou tabulku. A to je také zdravý přístup k datové analýze. Musíte se ptát: nasbíral jsem dostatek dat? Byl sběr nějak systematicky ovlivněn? Ptám se správné otázky? Vztahují se odpovědi k realitě?

A tyto otázky musí klást odborníci na danou oblast. Datová analýza je jen obecný nástroj, který je mocný teprve v rukou těch, kteří rozumí svojí oblasti. "Datoví vědci" nemohou bez znalosti konkrétní domény nabídnout relevantní odpovědi. Je to jako s létáním, my umožníme více lidem stát se piloty.

Tu metaforu si půjčím. V začátcích létání byl pilotem skutečně jen naprostý nadšenec, nebo blázen, tak nebezpečné to bylo. Později se pilotem mohl stát každý, kdo na to měl talent, nebo peníze. A konečně dnes už může být pilotem prakticky každý. Nebojíte se, že za knipl bude sedat člověk, který tam nemá co pohledávat, a způsobí katastrofu? Chci tím říci, že lidé, kteří nejsou vycvičeni v disciplíně datové analýzy nebudou znát omezení a budou brát odpovědi datové analýzy jako nezpochybnitelná fakta.
Datová analýza plní funkci rozhodovacího nástroje (v originále recommendation engine). A s tím umí dobře zacházet jen vycvičení statistici. Ale díky některým nástrojům, které nabízíme my, by ji mohli využívat skoro všichni. Umím si představit, že si pak firma na míru sestaví nástroj pro analýzu podle svých potřeb. Nastahujete si databáze a dáte je do nových souvislostí. Můžete tyto databáze a nástroje kombinovat a řetězit, testovat nové algoritmy. Hodně to připomíná lego, můžete kombinovat různé algoritmy, aniž byste přesně rozuměli tomu, co dělají.

Analýza úspěšnosti filmů na sociálních sítích s využitím měření citového...

Analýza úspěšnosti filmů na sociálních sítích s využitím měření citového zabarvení příspěvků (sentiment analysis).

Ne všechno by měli vidět všichni aneb hrozba velkých dat

Bojíte se, že analýza velkých dat může narušit právo na soukromí? Více nových technologií znamená více možností, jak si o konkrétním člověku zjistit bezprecedentní množství informací.
Má to dvě stránky. Za prvé, diskuze o ochraně soukromí nejsou technické debaty, ale společenské, politické. Soukromí jako takové je podle mého společenský konstrukt a pojetí soukromí se mění. Před sto lety žila třígenerační rodina ve dvoupokojovém bytě, z dnešního pohledu tam nebylo žádné soukromí. Dnes myslíme soukromím něco jiného.

Dnes každý se, kdo používá mobilní telefon nebo e-mail, vzdává části svého soukromí. Operátoři nebo poskytovatelé o vás vědí ohromné množství věcí. A bereme to jako samozřejmost. Lidé vystavují na odiv svůj facebookový profil, fotky a tak dále. Neříkám, že je to dobře, nebo špatně. Prostě to tak je.

Z pohledu velkých dat ve veřejné sféře je to trochu zvláštní. Tam totiž někdy vyměníte soukromí jednotlivce za dobro společnosti, a to může být kontroverzní. Mohlo by třeba být hodně užitečné centrálně vidět detailní zdravotní záznamy každého Čecha. Daly by se monitorovat epidemie nebo optimalizovat zdravotnictví.

Ale taková data jsou velmi snadno zneužitelná, vždycky k nim někdo má přístup.
Ano, a nejde jen o jednotlivce. Co kdyby se k takovým datům dostaly pojišťovny a pak by někoho odmítly pojistit? To by rozhodně bylo odporné, minimálně podle dnešních standardů. Ale to jsou všechno společenské otázky.

Co je soukromí, to musí rozhodnout politická reprezentace. Technické firmy to pak budou muset implementovat.

Vždycky budeme muset přístup k informacím nějak omezovat a definovat, kdo má právo na soukromí a co to vlastně soukromí je. To musí rozhodnout politické reprezentace. A technické firmy to pak musejí implementovat. Takže my do našeho softwaru připravujeme takové nástroje, aby vyhovovaly různým nárokům na soukromí (v originále data governance). Budeme moci omezit třeba to, do jaké hloubky se může tazatel ptát nebo zda smí vidět jednotlivce, či jen agregovaná data. Státy také omezují, která data lze prodávat nebo zpřístupnit třetím osobám.

Na tyto problémy se musí myslet s předstihem, ale často se na to zapomíná. Organizace často dělají datovou analýzu retroaktivně, nikoli proaktivně. Tím pádem to není příliš promyšlené. Je potřeba na soukromí myslet už při tomto proaktivním plánování. A na to opensourcový HADOOP ještě není tak úplně připravený a možná nikdy nebude. Ale je potřeba do dat vnést možnost například skrýt jeden sloupec a sdílet ostatní, aby bylo zachováno soukromí a přitom mohla být data užitečná.

Autor:
  • Nejčtenější

Silná sluneční bouře může uvrhnout do tmy celé kontinenty, varuje vědkyně

Koronavirová pandemie nám ukázala, že nejsme na podobnou krizi připraveni. Podle amerických vědců bychom na tom byli...

Startujeme německý tankový motor z války, desetiletí pohřbený v bahně

Takhle zní zrekonstruovaný motor Maybach HL 120 TRM z německého útočného děla StuG. Strávil celá desetiletí pohřben v...

Ušetřit, nebo připlatit? Co znamená devět tisíc korun při výběru notebooku

Premium Jeden je za 12 990 Kč, druhý za 21 990 Kč. Obě jsou to novinky s Windows 11, Full HD displejem, SSD úložištěm a...

Maličké hi-fi do maličkých bytů. Vyzkoušeli jsme česko-britskou kombinaci

Moderní, elegantní a velmi dobře hrající. Vyzkoušeli jsme maličký streamer se zesilovačem Arcam Solo Uno a regálové...

{NADPIS reklamního článku dlouhý přes dva řádky}

{POPISEK reklamního článku, také dlouhý přes dva a možná dokonce až tři řádky, končící na tři tečky...}

Pět největších nesmyslů tradovaných o druhu Tyrannosaurus rex

Dravý dinosaurus druhu Tyrannosaurus rex vyhynul před nepředstavitelně dávnou dobou 66 milionů let. I když toho o něm...

Blogera připravil lajdáctvím o nohu, další zranil. Za nehodu dostal podmínku

Premium S podmínkou na pět let odešel od soudu čtyřiačtyřicetiletý Moldavan. V červenci 2019 způsobil na obchvatu Chrudimi...

Přes víkend zemřou všichni z JIP. Sestra vypráví o práci v době covidu

Premium Markéta Svobodová, hlavní sestra z Masarykovy nemocnice v Ústí nad Labem, stojí spolu s dalšími šesti kolegyněmi z...

Android Auto a CarPlay v každém autě. Poradíme vám, jak na to

Premium Chcete používat oblíbenou navigační aplikaci na displeji v autě místo telefonu? Přečtěte si, jak to udělat a neutratit...

  • Další z rubriky

Osmička funkcí Google disku, které byste si možná přáli znát dříve

Google disk patří mezi celosvětově nejoblíbenější služby cloudového úložiště. Uživatel může zdarma využít 15GB prostor,...

Facebook smaže informace o obličejích uživatelů a nebude je rozpoznávat

Sociální síť Facebook se rozhodla k bezprecedentnímu kroku. V nejbližších týdnech ukončí funkci, která umožňuje...

Ulož.to nabízí 20 GB rychlého stahování. Musíte ovšem nahrát QR kód očkování

Se zajímavým ovšem trochu kontroverzním způsobem podpory očkování přichází portál Ulozto.cz. Každému zájemci, který...

Pozná rostlinu nebo pomůže s matematikou. Google Lens chce ovšem ještě více

Co je toto za rostlinu? Zaujalo vás nějaké oblečení a rádi byste podobné, potřebujete pomoci s úkolem nebo v reálném...

Vyhrajte balíček Kendamil XXL a k tomu výborné kaše pro vaše miminko
Vyhrajte balíček Kendamil XXL a k tomu výborné kaše pro vaše miminko

Kendamil je kojenecká výživa bez kompromisů. Dopřejte svému děťátku to nejlepší – oblíbenou prémiovou výživu v XXL balení! 3 z vás ji pošleme a...

Zákeřná rakovina endometria. Jaké jsou varovné příznaky?

O rakovině děložního čípku se hovoří často, už proto, že je jí možné předejít očkováním. Ženské orgány však může...

Žena u porodu dítěte kamarádky zjistila, že ho má s jejím manželem

Osmadvacetiletá Hailey Custerová z Arizony zažila nepříjemný šok, když pomáhala přivést na svět dítě nejlepší...

Divadlo stahuje představení. Autor trvá na černošském herci, Sokol nestačí

Obsazením černošského herce si nově podmiňuje britský autor Martin McDonagh inscenování své hry Ujetá ruka (Behanding...

Ve StarDance předčasně skončil Mirai Navrátil

Ještě před sobotním večerem StarDance je jasné, že se s taneční soutěží musí rozloučit zpěvák Mirai Navrátil. Vyšel mu...

Psychopati za volantem: pozor na dodávky, elektromobily a bouráky dvou značek

Beránci ve škodovkách a predátoři v bavorácích? Výběr auta o vás může prozradit víc, než byste možná chtěli. Ať už se...