Pokud byste chtěli fotit techniky a techničky při řešení velkého výpadku,...

Pokud byste chtěli fotit techniky a techničky při řešení velkého výpadku, vynesou vás v zubech. Spokojme se proto s generickým snímkem z fotobanky. | foto: Profimedia.cz

Obří výpadek služeb T-Mobile způsobily dvě chyby v diskovém poli

  • 155
Přesně před týdnem se T-Mobile potýkal s velkým výpadkem služeb. Nefungovala samoobsluha, aplikace, web, infolinka, autorizační SMS. Mnoho čtenářů se nás v diskuzích i pod jinými články ptalo na důvod a technické podrobnosti. Zde jsou.

Již v době výpadku Martina Kemrová z tiskového oddělení operátora upřesnila, že za problémy stojí technická závada v datovém centru v Hradci Králové. Což samozřejmě může být cokoli od softwarové chyby při aktualizaci nějakého prvku přes hackerský útok na infrastrukturu operátora až po požár.

Na základě velkého čtenářského zájmu jsme požádali o podrobnosti. „Jednalo se o dvojitou HW závadu v rámci jedné paritní skupiny disků v rámci hlavního centrálního diskového pole. Postižena tímto výpadkem byla i integrační vrstva, takže došlo k preventivnímu odstavení celého aplikačního ekosystému tak, aby nemohlo dojít k případnému poškození a nekonzistenci dat. V praxi se to pak projevilo nedostupností interních systémů, z pohledu zvenčí pak primárně nedostupností (samo)obslužných kanálů,“ upřesnila nám mluvčí T-Mobile.

Diskové pole si můžete představit jako skříně se šuplíky plnými zapojených pevných disků, na kterých jsou uložena všechna data potřebná pro chod webu, aplikací a všech systémů. Data jsou zálohována a uložena tak, aby selhání určitého množství pevných disků nezpůsobilo vážnější problém, disky se vymění za nové, systém do nich sestaví chybějící obsah a „jede se dál“. Zde však došlo k většímu selhání, kdy již tento mechanismus obnovy dat nestačil. 

Proces obnovy není snadný

„Jeden z chybných disků se povedlo oživit již 30.6.2020, kdy mohla začít kontrola parity. Paralelně s touto obnovou byl zajištěn dovoz a instalace nového diskového pole, na kterém by bylo v případě potřeby možné obnovit data z existujících záloh. Kontrola parity byla úspěšně dokončena v noci na 2. července 2020 a ve 14:00 téhož dne byla obnovena činnost všech systémů,“ pokračuje Martina Kemrová. 

Reportáž

Tieto

Podívejte se s námi do finského datového centra, které vytápí město a řídí jej z Ostravy.

V rámci diskového pole se zpravidla neuchovává vše ve více kompletních exemplářích jednoduchým zrcadlením, jak je běžné v domácích NASech, protože by to celý systém významně prodražilo (celá kapacita by se musela vynásobit počtem zrcadlených záloh a vše stále udržovat v provozu) a navíc to není z hlediska rychlosti práce z daty nejvhodnější konfigurace.

Místo toho se používá některý ze systémů ukládání dat s využíváním takzvaných parit. To jsou vypočítaná kontrolní data, ze kterých lze jednak ověřit bezchybnost uložených a přenesených dat a navíc z nich v případě potřeby poškozená původní data zrekonstruovat.

Obnovení ze záloh je vlastně „posledním řešením“ pro případ, že by se nepovedlo data z živého diskového pole obnovit. Jednak je časově náročné, jednak zálohy se dělají pravidelně, ale i tak tam chybí vše, co se odehrálo od poslední zálohy, což může být pro některé části systému u takto živého provozu nepříjemný problém.

Hodiny práce

„V prvním kroku bylo potřeba vyřešit HW problém. To si vynutilo i nezbytné paritní přepočítání dat. Vzhledem k tomu, že se jedná o vysoce kapacitní pole, tato operace trvala nějakou dobu. Následně bylo potřeba postupně zprovoznit jednotlivé databázové systémy a aplikace, a to v předem daném a řízeném pořadí. Tato operace v komplexním prostředí operátora zabere také hodiny práce,“ přibližuje náročnost obnovy běžného provozu Kemrová.

Zajímavost

Místo racku bazének, místo hluku ticho. Fujitsu na svém fóru v Mnichově...

Jedním z klíčových systému datacentra je chlazení. Podívejte se, jak to vyřešili u Fujitsu.

Nešlo tedy pouze o obnovu dat a kontrolu jejich celistvosti, ale také opětovné spuštění a ověření funkčnosti různých na sebe navazujících aplikací a systémů. Teprve poté mohly být zpřístupněné zákazníkům. 

„V tuto chvíli vyhodnocujeme průběh incidentu i jeho dopady. Součástí závěrečné zprávy budou zcela jistě konkrétní kroky, jak se v budoucnosti této – pro zákazníky tak nepříjemné – situaci vyhnout. V tuto chvíli se na nich teprve pracuje, konkrétní být nemůžeme,“ uzavírá tisková mluvčí.

Pro úplnost se sluší připomenout, že výpadek postihl podpůrné systémy. Samotné telekomunikační služby, tedy volání, SMS, data, fungovaly během výpadku normálně.