Úterý 21. března 2023, svátek má Radek
  • schránka
  • Přihlásit Můj účet
  • Úterý 21. března 2023 Radek

Obří výpadek služeb T-Mobile způsobily dvě chyby v diskovém poli

  13:25
Přesně před týdnem se T-Mobile potýkal s velkým výpadkem služeb. Nefungovala samoobsluha, aplikace, web, infolinka, autorizační SMS. Mnoho čtenářů se nás v diskuzích i pod jinými články ptalo na důvod a technické podrobnosti. Zde jsou.

Pokud byste chtěli fotit techniky a techničky při řešení velkého výpadku, vynesou vás v zubech. Spokojme se proto s generickým snímkem z fotobanky. | foto: Profimedia.cz

Již v době výpadku Martina Kemrová z tiskového oddělení operátora upřesnila, že za problémy stojí technická závada v datovém centru v Hradci Králové. Což samozřejmě může být cokoli od softwarové chyby při aktualizaci nějakého prvku přes hackerský útok na infrastrukturu operátora až po požár.

Na základě velkého čtenářského zájmu jsme požádali o podrobnosti. „Jednalo se o dvojitou HW závadu v rámci jedné paritní skupiny disků v rámci hlavního centrálního diskového pole. Postižena tímto výpadkem byla i integrační vrstva, takže došlo k preventivnímu odstavení celého aplikačního ekosystému tak, aby nemohlo dojít k případnému poškození a nekonzistenci dat. V praxi se to pak projevilo nedostupností interních systémů, z pohledu zvenčí pak primárně nedostupností (samo)obslužných kanálů,“ upřesnila nám mluvčí T-Mobile.

Diskové pole si můžete představit jako skříně se šuplíky plnými zapojených pevných disků, na kterých jsou uložena všechna data potřebná pro chod webu, aplikací a všech systémů. Data jsou zálohována a uložena tak, aby selhání určitého množství pevných disků nezpůsobilo vážnější problém, disky se vymění za nové, systém do nich sestaví chybějící obsah a „jede se dál“. Zde však došlo k většímu selhání, kdy již tento mechanismus obnovy dat nestačil. 

Proces obnovy není snadný

„Jeden z chybných disků se povedlo oživit již 30.6.2020, kdy mohla začít kontrola parity. Paralelně s touto obnovou byl zajištěn dovoz a instalace nového diskového pole, na kterém by bylo v případě potřeby možné obnovit data z existujících záloh. Kontrola parity byla úspěšně dokončena v noci na 2. července 2020 a ve 14:00 téhož dne byla obnovena činnost všech systémů,“ pokračuje Martina Kemrová. 

Reportáž

Tieto

Podívejte se s námi do finského datového centra, které vytápí město a řídí jej z Ostravy.

V rámci diskového pole se zpravidla neuchovává vše ve více kompletních exemplářích jednoduchým zrcadlením, jak je běžné v domácích NASech, protože by to celý systém významně prodražilo (celá kapacita by se musela vynásobit počtem zrcadlených záloh a vše stále udržovat v provozu) a navíc to není z hlediska rychlosti práce z daty nejvhodnější konfigurace.

Místo toho se používá některý ze systémů ukládání dat s využíváním takzvaných parit. To jsou vypočítaná kontrolní data, ze kterých lze jednak ověřit bezchybnost uložených a přenesených dat a navíc z nich v případě potřeby poškozená původní data zrekonstruovat.

Obnovení ze záloh je vlastně „posledním řešením“ pro případ, že by se nepovedlo data z živého diskového pole obnovit. Jednak je časově náročné, jednak zálohy se dělají pravidelně, ale i tak tam chybí vše, co se odehrálo od poslední zálohy, což může být pro některé části systému u takto živého provozu nepříjemný problém.

Hodiny práce

„V prvním kroku bylo potřeba vyřešit HW problém. To si vynutilo i nezbytné paritní přepočítání dat. Vzhledem k tomu, že se jedná o vysoce kapacitní pole, tato operace trvala nějakou dobu. Následně bylo potřeba postupně zprovoznit jednotlivé databázové systémy a aplikace, a to v předem daném a řízeném pořadí. Tato operace v komplexním prostředí operátora zabere také hodiny práce,“ přibližuje náročnost obnovy běžného provozu Kemrová.

Zajímavost

Místo racku bazének, místo hluku ticho. Fujitsu na svém fóru v Mnichově...

Jedním z klíčových systému datacentra je chlazení. Podívejte se, jak to vyřešili u Fujitsu.

Nešlo tedy pouze o obnovu dat a kontrolu jejich celistvosti, ale také opětovné spuštění a ověření funkčnosti různých na sebe navazujících aplikací a systémů. Teprve poté mohly být zpřístupněné zákazníkům. 

„V tuto chvíli vyhodnocujeme průběh incidentu i jeho dopady. Součástí závěrečné zprávy budou zcela jistě konkrétní kroky, jak se v budoucnosti této – pro zákazníky tak nepříjemné – situaci vyhnout. V tuto chvíli se na nich teprve pracuje, konkrétní být nemůžeme,“ uzavírá tisková mluvčí.

Pro úplnost se sluší připomenout, že výpadek postihl podpůrné systémy. Samotné telekomunikační služby, tedy volání, SMS, data, fungovaly během výpadku normálně.  

Autor:
  • Nejčtenější

Ukrajinská pobřežní obrana zničila plány na vylodění u Oděsy

Flotila ukrajinského námořnictva dostala na začátku ruské invaze na frak, ale její „suchozemská“ pobřežní obrana...

Ukrajinské námořnictvo vstává z popela. Posílí ho korvety a minolovky

I když se vede válka na moři v rámci současného rusko-ukrajinského konfliktu jen omezeně, schopnost Ukrajiny udržet...

{NADPIS reklamního článku dlouhý přes dva řádky}

{POPISEK reklamního článku, také dlouhý přes dva a možná dokonce až tři řádky, končící na tři tečky...}

Umělá inteligence si sama najala člověka, aby vyřešil její problém

Umělá inteligence, která lže, aby z člověka vymámila spolupráci, bez které by nemohla vyřešit problém, může být noční...

Pět skvělých rad, jak nebýt na sociálních sítích za troubu

Pojmenovali jsme nejčastější prohřešky na internetu a sociálních sítích a přinášíme rady, jak jim předejít. Třeba se...

{NADPIS reklamního článku dlouhý přes dva řádky}

{POPISEK reklamního článku, také dlouhý přes dva a možná dokonce až tři řádky, končící na tři tečky...}

Přistání čínské laboratoře na Marsu byl úspěch. Teď má však problém

Premium Už je to dva roky, co se k Marsu sletěly tři sondy. Jedna ze Spojených států, druhá vyslaná Saúdskou Arábií a třetí z...

Konec omezování, Musk chce pořádně nafouknout příspěvky na Twitteru

Dosavadní limit počtu znaků na jeden příspěvek na Twitteru by se měl do budoucna zásadně zvýšit. Je to jeden z dalších...

Šest přehlížených funkcí, které ukazují, jak prohlížeč Edge dospívá

V posledních několika letech se posunul browser Microsoft Edge mílovými kroky vpřed. Se svým největším konkurentem sice...

Padl velký milník, na internetu už je více než pět miliard lidí

Služby internetu používá už více než 63 % všech lidí na Zemi. Pojďme se podívat, jak vlastně internet využíváme. Víte...

Nejrychlejší zdarma dostupné možnosti sdílení souborů a bez registrace

Podívejte se na několik jednoduchých způsobů, jak rychle sdílet soubory bez nutnosti cokoliv instalovat, někam se...

Vypadni z pódia, pleskla Avril Lavigne polonahou aktivistku přes prsa

Avril Lavigne pobavila diváky na předávání cen Juno, kanadské obdoby Brit Awards. Ve chvíli, kdy přebírala svou cenu...

Meteoroložka Honsová: Letos bude extrémní počasí, zapíše se do historie

Premium Meteoroložka Dagmar Honsová je přesvědčená, že letošní rok určitě přinese mnoho zajímavých a zřejmě i extrémních...

Ukrajinská pobřežní obrana zničila plány na vylodění u Oděsy

Flotila ukrajinského námořnictva dostala na začátku ruské invaze na frak, ale její „suchozemská“ pobřežní obrana...

Herec Gene Hackman se po letech ukázal na veřejnosti

V důchodu je už skoro dvacet let. Svůj poslední film Starosti starosty natočil v roce 2004. Herec Gene Hackman (93) se...

Levnější papriky, cukr i vejce. Češi v zahraničí šetří tisíce a stát tratí

Levnější vejce, maso i zelenina. Čechy ženou vysoké ceny potravin do obchodů v zahraničí. V Polsku ušetří tisíce za...