Diskuze

Obří výpadek služeb T-Mobile způsobily dvě chyby v diskovém poli

Přesně před týdnem se T-Mobile potýkal s velkým výpadkem služeb. Nefungovala samoobsluha, aplikace, web, infolinka, autorizační SMS. Mnoho čtenářů se nás v diskuzích i pod jinými články ptalo na důvod a technické podrobnosti. Zde jsou.
Litujeme, ale tato diskuse byla uzavřena a již do ní nelze vkládat nové příspěvky.
Děkujeme za pochopení.
Foto

Vidím, že v IT u hradeckého T-Mobile pracují na vedoucích pozicích slušně řečeno nekompetentní lidé. Je jasný, že kdyby měli zajištěnou redundanci, vůbec by k tomu dojít ani nemohlo. Poškozený systém předá žezlo zrcadlenému a jede se dál. Ale něco vám řeknu. Tady to dopadlo ještě až příliš dobře. Až to tam vyhoří, to bude teprve sranda. Zálohy mají určitě někde hned ve vedlejší místnosti, jak bych to tipoval... No... Naštěstí služby T-Mobile jsou obecně pouze luxusním zbožím, které ve skutečnosti nikdo nepotřebuje a život na něm nezávisí. A navíc všechno zlý k něčemu dobrý. Díky této události mají zpravodajské servery o čem psát a podívejte, jak je to horké téma. Stačí mrknout na počet diskutujících. Inu jen tak dál.

0 0
možnosti

Pravděpodobně bych se jinak TM vysmál... kdybych nezažil něco podobného před lety na dvojicí Dell Equallogic Storage, kde po běžném update firmware se jedno pole dostalo do nedefinovaného stavu, a celá Storage Group se stala nefunkční a nedostupná. Musím ovšem říct, že přístup Dell Support byl ukázkový, a tak nakonec kompletní odstávka trvala něco málo přes 6 hodin. A jako problém se ukázala víceméně skrytá HW závada na řadičích jednoho pole, která se projevila z nějakého nepříliš jasného důvodu po daném upgrade FW.

Požadavky na stále větší a větší robustnost a ještě větší a větší počet replik/nodů/zrcadel je nesmysl - jakou škodu myslíte, že TMCZ nakonec tímto incidentem utrpěl? Opravdu byla natolik vysoká, aby ospravedlnila "preventivní" investici v řádu desítek milionů korun do ještě sofistikovanějšího a komplikovanějšího HW/SW? Osobně bych vůbec neměl problém sestavit storage klidně z desítek low-end serverů (HP, Dell, F-S,...) nacpaných těmi nejlevnějšími disky, a výkon/redundanci/robustnost/odolnost proti HW chybě bych řešil až na nějaké SW vrstvě nad tím vším - i kdyby to měl být "jen" RedHat Gluster. Velké hardwarové krabice s proprietárním FW a s různými "magickými" vlastnostmi budou problematické vždycky.

2 0
možnosti

J95a34n 57P32r17i33b23y56l

8. 7. 2020 21:36

Jojo. Ten bastl by byl určitě spolehlivější :D

0 0
možnosti

J57a82n 27P26r63i93b26y27l

8. 7. 2020 17:41

Zajímavé.

Asi ty systémy co tam měli disky nepovažovali za důležité a točili to na nějaké staré storage bez repliky.

Jak vypadnou dva disky naráz?

- jeden disk byl v háji už dřív, nefunkční monitoring, notifikace atd. nikdo o tom nevěděl > umře druhý = problém

- problém fw disku - občas se to stává - SW chyba v fw způsobí, že se disk například po přesně daném počtu provozních hodin pokazí. Stalo se to Seagatu, stalo se to nedávno HPE atd. Disky uvedené do provozu v jedné storage se pak vysypou naráz. Mohli zanedbat aktualizace, nebo měli tu čest být první.

- pokazí se jeden disk, ale další je načatý - vadné bloky atd., ale nevíte o tom, protože se nedělal scrubbing. Příjde se na to až při rebuildu pole.

- ?

Asi k tomu radši neměli říkat detaily :)

2 0
možnosti
Foto

Tyhle případy, co uvádíte, to se všechno samozřejmě může stát. Proto mají mít geograficky oddělenou replikaci, na kterou se vše v reálném čase synchronizuje a v případě kritického problému záložní server převezme kormidlo..

1 0
možnosti

Normální technická závada. Proč z toho děláte vědu? Mobilní síť fungovala a že nefungovaly 2 dny support linky, to zase není takový problém. Nebo snad ano?

0 2
možnosti

P74e42t53r 64F40u51k72a

8. 7. 2020 9:06

Někteří čtenáři z toho dělali vědu, redakce jen reaguje. Pod jedním článkem tu byla i tvrzení, že jde určitě o hackerský útok...

0 0
možnosti

Tož já to šacoval na elektronku z Katoda Holomóc :)

3 0
možnosti

No já bych řekl , že normální je mluvit o třech geograficky vzdálených farmách , kde jsou k dispozici kromě zrcadlení i zálohy kritických databází , navíc v systému , který sám detekuje výpadek jakékoli části a zahájí sám obnovu .

A to jsme byli jen malou samostatnou částí velkého korporáta .

4 0
možnosti

Jestli tohle řekne Technology and IT Director ve společnosti T-Mobile. Proč toho dle člověka tam maj? https://www.svetchytre.cz/a/ieYu3/branimir-maric-svoboda-internetu-je-romanticka-predstava-z-minulosti / Začneme u horkého tématu poslední doby – u přechodu z připojení 4G na 5G. Jaké jsou hlavní výhody 5G v porovnání s LTE a dalšími současnými standardy?

Přechod z 4G, respektive LTE, na 5G podle mě nebude tak znatelný jako přechod z 3G na 4G. 4G přineslo mnohem rychlejší datové přenosy a nižší latencí. U 5G takové změny pozorovat nebudeme. Výrazně se rozšíří možnosti a kvalita bezdrátového připojení, ale uživatel prakticky nepozná, který standard zrovna využívá.“

4 0
možnosti

P62a42v37e69l 14P52a38k71a

7. 7. 2020 17:44

Nevím zda je vůbec rozumné, aby TM dával takové vyjádření do tisku. Tím si moc reputaci nevylepší, když to spíše ukazuje na použití neadekvátně (ne)robustního řešení.

Je jasné, že pro volbu technologické řešení určité služby je třeba dát na váhy jeho robustnost, složitost a pořizovací / provozní náklady na jedné straně a na druhé straně důležitost cílové aplikace, akceptovatelné rizko výpadku, možné délky výpadků služby, riziko ztráty dat a z toho vyplívající rizika ztrát finančních, poškození reputace apod.

T-mobile nyni mluví o dopadu poruchy jen na „podpůrné systémy“. Pravda „core“ služby fungovali, nicméně výpadek koncový zákazník docela pocítil, proto mi přijde, že to TM docela bagatelizuje...

Docela mne zaráží, že TM nepoužil zrcadlení celého diskového pole (ať uz synchronní, či asynchronní, s lokální redundancí čí geo redundancí atd.). Mám zkušenosti s dodávkami určitých telekomunikačních řešení velkým zahraničním telco operátorům a nepamatuji si, že by si troufli u „nepodružných aplikací“ akceptovat nasazení diskového systému bez jednoho z typů mirroringu celého diskového pole. Pamatuji i nezdařený upgrade fw. na primárním diskovém poli v jednom z klíčových systémů jednoho telco operátora, kdy existence synchronně zrcadleného pole zabránila ještě většímu průšvihu (čekat na obnovu z pásek by byl „mega“ průšvih).

11 0
možnosti

P45a51v95e49l 12P56a49k91a

7. 7. 2020 17:48

"služby fungovalY..." - fakt se stydím:-(

0 0
možnosti

standardni storage systemy maji 2 paritni disky, ted s pribyvajici velikosti se uz delaj tri paritni v jedny raidgroupe kvuli tomu, ze prepocitani uz trva klidne pres den, ze vypadnou najednou dva disky v jedny raidgroupe je obrovska nahoda a storage systemy jsou tak nastavene, ze se to cele pole vypne, kdyby padl treti disk, tak by to byl prusvih

1 0
možnosti

na druhou stranu by meli mit nejake spare disky, takze buhvi, co tam ma za storage, tipnu si huawei:-)

2 0
možnosti