Premium

Získejte všechny články
jen za 89 Kč/měsíc

Vysoké požadavky na skladování dat

Datový sklad (data warehouse) hraje při podnikovém zpracování dat klíčovou roli. To se odráží i ve skutečnosti, že je dnes využíván ve firmách prakticky ze všech možných oblastí: od dodavatelských řetězců přes finančnictví a controlling až po styk se zákazníky. Vzhledem ke stále větším nárokům na tyto systémy zřejmě jejich funkcionalita i výkon v následujících letech projdou podstatnými proměnami.

Nástroje a metody pro integraci, ukládání a úpravu podnikových dat představují ústřední komponenty každého datového skladu. Aby zajistily úspěch realizovaných projektů, musejí především technicky dobře podporovat extrakci, transformaci a nahrávání dat (ETL). Stále důležitější roli přitom hraje zjišťování stavu a měření kvality existujících dat (data profiling), stejně jako proti poruchám odolné prohledávání a čištění dat pro konkrétní aplikace či případy použití (data cleansing).

Zatímco zavedení prodejci databází se v této oblasti teprve začínají orientovat, bezpočet specialistů -- dodavatelů BI (Business Intelligence) a ETL (Extraction, Transformation and Loading) řešení -- už nabízí vlastní nebo koupené produkty tohoto typu. Například společnost SAS Institute získala firmu Dataflux, která se zaměřuje na kvalitu dat, zatímco Ascential Software nabízí produkt pro profilování a čištění doplňující klasické ETL v podobě Quality Stage. Jejich konkurenti Informatica a Oracle už ale také uvedli na trh první verze svých řešení pro data profiling. K dalším příkladům patří specialista na kvalitu dat Group 1, který si dostupnost ETL techniky zajistil akvizicí firmy Sagent, podobně jako společnost Trillium, jež se zaměřuje na cleansing a nedávno převzala metodu datového profilingu od firmy Avellino.

Analýza a integrace

Schéma warehouse:

1.  Aplikační nástroje

2.  Úprava dat

3.  Reporting

4.  Data mining

5.  Alerting

6.  Ukládání dat

7.  Hromadná data

8.  Integrace MDB a RDB

9.  Řízení životního cyklu

10. Integrace dat

11. Správa kvality dat

12. Hromadná data

13. Zpracování v reálném čase

14. Back-endové systémy

15. Metadata

16. Operacionalizace datového skladu

17. Nestrukturovaná data

Další trend souvisí s datovým skladem fungujícím v reálném čase. Cílem je lepší dohled nad obchodními procesy (Business Activity Monitoring, BAM) a signalizace výskytu z obchodního hlediska důležitých událostí pomocí výstražných funkcí (alerting). Z technického hlediska to vyžaduje zejména kombinaci dosavadního dávkového zpracování s metodami messagingu, jaké nabízí software pro integraci podnikových aplikací (Enterprise Application Integration, EAI).

Mezi příklady produktů, které jsou kombinací ETL a EAI řešení, patří enginy využívající listener technologií od společností jako Ascential a Informatica, funkce messagingu v systému Data Integrator firmy Business Objects nebo Business Warehouse začleněný do platformy pro firemní infrastrukturu Netweaver u společnosti SAP. Do této kategorie dále spadají ETL produkty rozšířené o funkce pro hromadný přenos transakčních dat -- náleží sem Ascential, který koupil firmu Mercator, nebo společnost Inway Software, jež převzala adaptéry od firmy Actional specializující se na EAI.

Ohniska na všech systémových úrovních: Při úpravě, ukládání a  integraci dat v datovém skladu se středem pozornosti stávají nové problémy a oblasti aplikací
Díky rostoucím objemům dat se mimoto může u datového skladu stát velkou výzvou zajištění přiměřené doby ukládání a dotazování. Mnozí dodavatelé zkoušejí těmto problémům čelit prostřednictvím využití 64bitového hardwaru, nasazení massive parallel databází nebo pomocí kombinace technologií typu symetric multiprocessing (SMP) a massive parallel processing (MPP), jaké vyvíjejí společnosti IBM, NCR nebo Netezza. Naproti tomu Oracle sází spíše na cenově výhodné hardwarové architektury coby bázi pro řešení datového skladu a využívá také linuxové počítače propojené v síti.

ETL nástroje však při zpracování hromadných dat často vykazují výkonnostní problémy související s propustností dat. Pomoc zde slibují metody jako paralelizace aplikací, již využívá Ascential, nasazení nástrojů typu Bulk Loader nebo ještě výkonnější operace doplňování polí cílové databáze prováděné s využitím skriptovacího jazyka samotného ETL řešení, což nabízí například Hummingbird ve svém produktu Genio.

Multidimenzionální databáze (MDB) jsou velmi užitečné jako decentralizovaně spravovaná datová tržiště v technických odděleních nebo coby doplněk relačních datových skladů (RDB) pro agregovaná data s vysokými požadavky na rychlost zpracování dotazů. Oba typy implementací

Až 80 % veškerých informací bývá k dispozici ve formě textu, obrázků či audiosouborů, proto bude v následujících letech středem zájmu zpracování nestrukturovaných dat.

jsou však často odlišné jak co se týká datového modelu, tak pokud jde dotazovací jazyk nebo rozhraní. Cestu k integraci otevírají kupříkladu Microsoft a SAS nebo Oracle, který v 10g sdružuje obě techniky ukládání. Kromě toho posilují výrobci jako Applix, Hyperion, MIS či MIK možnosti provázání svých řešení a výměny dat s dalšími databázemi. Protože vývoj datových skladů neustává, nabývá na důležitosti řízení životního cyklu (lifecycle management), které zahrnuje správu základních dat, kontrolu a optimalizaci databázových zdrojů nebo kalkulace a zabezpečení potřebného výkonu. Jako příklad je možné uvést optimalizaci dotazů či ukládacích struktur u IBM a NCR. Modelování a udržování stále se měnících struktur datových skladů může být navíc podporováno na úrovni datové integrace, a to prostřednictvím ETL nástrojů (jako Cognos Decisionstream), aplikačních serverů (SAP BW) nebo speciálních aplikací (řešení firmy Kalido).

Dalším trendem je modernizace datových skladů, neboť jejich architektura bude do budoucna muset podporovat webové technologie a zahrnovat robustní škálovatelný aplikační server. Mnohé funkce dnes přebírá databáze - například tvorbu modelů pro reporting a analýzu (data mining) nebo mechanismy pro aktuální dohled a upozorňování (alerting). Podobně je pak například tvorba standardních reportů přebírána zvláštními servery nebo databázemi datových skladů, neboť ty pak dovolují provádět historizaci nebo integraci dat z různých zdrojů jinak než v samotných provozních systémech. Mezi takové produkty patří Reporting Services od Microsoftu, jakož i řešení pro hromadnou tvorbu reportů od společností Actuate, Business Objects, Cognos, Information Builders nebo Microstrategy.

Vytoužená metadata

Stále důležitější roli bude hrát v oblasti datových skladů zpracování metadat, která už neponesou pouze technické, ale také obchodní informace - to umožní nástroje jako SuperGlue firmy Informatica

Značný význam při využití datových skladů by měl být v budoucnu spatřován rovněž v metadatech. Ta už nebudou představovat pouze technické informace, jako například údaje o datových typech, ale budou uchovávat také obchodně orientované informace. Analogicky pak budou vyžadovány i nové metody pro ukládání, výměnu a poskytování metadat.

Standardizovaný formát pro jejich popis a výměnu nabízí specifikace Common Warehouse Metamodel (CMW), jejímž vývojem se zabývá skupina OMG (Object Management Group). Oracle, Hyperion a SAS ji už sice využívají, nicméně převážně pro jednoduchou výměnu datových modelů. Speciální metody založené na využití metadat nabízí také Ascential se svým MetaBrokerem nebo Informatica v podobě produktu SuperGlue. Právě tak slouží k integraci a analýze metadat i mnohé ETL nástroje, avšak provázanost se zpracováním dat a nástroji koncových uživatelů je zde teprve v plenkách.

Související články:
Altiris 6; svěží vánek v oblasti řízení životního cyklu
Hledání nástroje pro správu aplikací
Jak správně nakupovat software pro firmu?
Integrace podnikových aplikací za pomoci Microsoft BizTalk Serveru 2002
Do budoucna mohou uživatelé konečně očekávat také využití nestrukturovaných dat. Až 80 % veškerých dat či potenciálních informací bývá k dispozici ve formě textu, obrázků nebo audiosouborů, které zpravidla nejsou integrovány se strukturovanými daty datového skladu. V tomto směru je možné očekávat řešení na všech úrovních podnikových systémů. IBM dodává v podobě Information Integratoru middleware pro integraci dat a všichni databázoví výrobci pracují na metodách ukládání XML a nestrukturovaných dat. Hummingbird začleňuje do svých produktů za účelem zpracování takových dat vyhledávací engine, zatímco Microsoft dovoluje tvorbu referencí na tento typ informací pomocí Smart Tags.

Autor: Carsten Bange, redaktorka Computerworldu

Zveřejněno se souhlasem týdeníku Computerworld.

 

  • Nejčtenější

Nejtěžší je sestup k vraku. Potápěči líčí detaily z identifikace ponorky U-72

Exkluzivně

Na konci června ohlásila česká potápěčská skupina Czech Diving Team úspěch, který vyřešil jednu z posledních záhad první světové války na Jadranu. V hloubce 85 metrů s jistotou identifikovali vrak...

5. července 2024

Evropa se vrátila do vesmíru. Nová raketa Ariane 6 úspěšně dokončila první let

Z kosmodromu Korou ve Francouzské Guyaně odstartovala nová evropská raketa Ariane 6. Loni se do vesmíru vydala na svou poslední cestu raketa Ariane 5. A protože je druhá a menší evropská raketa...

9. července 2024,  aktualizováno  10.7 6:25

{NADPIS reklamního článku dlouhý přes dva řádky}

{POPISEK reklamního článku, také dlouhý přes dva a možná dokonce až tři řádky, končící na tři tečky...}

Dynamitové beranidlo nahánělo strach – hlavně posádce. Zrod prasečích člunů

Třebaže se počátky ponorkové zbraně datují do raného novověku, teprve průmyslová revoluce z přelomu 19. a 20. století dodala lidstvu technologie, díky nimž se ponorné čluny staly opravdovými...

7. července 2024

Start Ariane 6 – kterak evropská kosmonautika dosáhla úrovně Severní Koreje

Pokud se podíváme na statistiku kosmických startů v roce 2023, tak v ní najdeme dvě entity, které uskutečnily tři starty do vesmíru. Evropa a Severní Korea. Což hodně vypovídá o stavu, do jakého se...

10. července 2024  17:49

{NADPIS reklamního článku dlouhý přes dva řádky}

{POPISEK reklamního článku, také dlouhý přes dva a možná dokonce až tři řádky, končící na tři tečky...}

KVÍZ: Poznáte vesmírné objekty podle obrázků?

Existuje řada krásných záběrů nebo jinak unikátních objektů v blízkém i vzdálenějším vesmíru, které pořídily dalekohledy umístěné ve vesmíru nebo sondy, které zkoumají Sluneční soustavu. Některé z...

11. července 2024

Podívejte se na elektrické létající taxi. Bude sloužit na olympiádě

Plovoucí přistávací plocha na řece Seině a lety elektrického létajícího taxi budoucnosti. Němečtí vývojáři společnosti Volocopter budou létat v rámci Letních olympijských her v Paříži se svým...

12. července 2024  12:45

Důmyslné zbraně příkazového řádku Windows

Někomu tento způsob ovládání může přijít archaický, jiný na něj nedá dopustit. Řeč je o ovládání Windows prostřednictvím příkazů. Příkazový řádek je nedílnou součástí tohoto operačního systému od...

12. července 2024

KVÍZ: Poznáte vesmírné objekty podle obrázků?

Existuje řada krásných záběrů nebo jinak unikátních objektů v blízkém i vzdálenějším vesmíru, které pořídily dalekohledy umístěné ve vesmíru nebo sondy, které zkoumají Sluneční soustavu. Některé z...

11. července 2024

Zálohujte data nejen v notebooku správně, abyste se pak netloukli do hlavy

Premium

Zálohování dat je důležitou součástí jejich ochrany. Může vám to přijít jako zbytečné, nudné nebo donekonečna neustále se opakující. Pokud však uděláte následující, již se o zálohování nebudete muset...

11. července 2024

Lela Vémola je na starých fotkách k nepoznání. Takto vypadala před plastikami

Kamarádka Lely Ceterové, Petra Batthyányová sdílela na sociálních sítích osmnáct let starou fotografii, na které je se...

Třískovi jsem šest let platil letenky a hotel, vzpomíná Jan Hrušínský

Premium Táta Rudolf ho uměl pochválit, ale také pokárat. Jednou v šatně mu například vmetl, že mu celé představení zkazil svojí...

Krásná dcera Václava Klause mladšího se bude vdávat, vezme si házenkáře

Kateřina Klausová (25), dcera Václava Klause mladšího, řekla své ano Tomášovi Pirochovi (24), reprezentantovi České...

Zemřel dětský kamarád mimozemšťana Alfa. Herec usnul v rozpáleném autě

Zemřel herec Benji Gregory. Televizním divákům je známý jako Brian z populárního sitcomu 90. let Alf. Gregorymu bylo 46...

Nenašla na trhu, co potřebovala, tak začala vyrábět sama. Zákazníků přibývá

Jana Podroužková má ráda pohyb a baví ji design. Oboje nakonec skloubila a založila vlastní značku Dhaara. Ta za osm...