Diskuse: Obří výpadek služeb T-Mobile způsobily dvě chyby v diskovém poli - iDNES.cz

iDNES.cz

Přihlásit Můj účet

Menu

☰

Přihlášení

Diskuze

Obří výpadek služeb T-Mobile způsobily dvě chyby v diskovém poli

Přesně před týdnem se T-Mobile potýkal s velkým výpadkem služeb. Nefungovala samoobsluha, aplikace, web, infolinka, autorizační SMS. Mnoho čtenářů se nás v diskuzích i pod jinými články ptalo na důvod a technické podrobnosti. Zde jsou.

Litujeme, ale tato diskuse byla uzavřena a již do ní nelze vkládat nové příspěvky.
Děkujeme za pochopení.

R96o49b76e78r87t 98R56a87j10s

9. 7. 2020 18:56

Vidím, že v IT u hradeckého T-Mobile pracují na vedoucích pozicích slušně řečeno nekompetentní lidé. Je jasný, že kdyby měli zajištěnou redundanci, vůbec by k tomu dojít ani nemohlo. Poškozený systém předá žezlo zrcadlenému a jede se dál. Ale něco vám řeknu. Tady to dopadlo ještě až příliš dobře. Až to tam vyhoří, to bude teprve sranda. Zálohy mají určitě někde hned ve vedlejší místnosti, jak bych to tipoval... No... Naštěstí služby T-Mobile jsou obecně pouze luxusním zbožím, které ve skutečnosti nikdo nepotřebuje a život na něm nezávisí. A navíc všechno zlý k něčemu dobrý. Díky této události mají zpravodajské servery o čem psát a podívejte, jak je to horké téma. Stačí mrknout na počet diskutujících. Inu jen tak dál.

0 0

možnosti

zobrazit vlákno

L73u33k91a21s 43M34u28d76r38a

8. 7. 2020 19:23

Pravděpodobně bych se jinak TM vysmál... kdybych nezažil něco podobného před lety na dvojicí Dell Equallogic Storage, kde po běžném update firmware se jedno pole dostalo do nedefinovaného stavu, a celá Storage Group se stala nefunkční a nedostupná. Musím ovšem říct, že přístup Dell Support byl ukázkový, a tak nakonec kompletní odstávka trvala něco málo přes 6 hodin. A jako problém se ukázala víceméně skrytá HW závada na řadičích jednoho pole, která se projevila z nějakého nepříliš jasného důvodu po daném upgrade FW.

Požadavky na stále větší a větší robustnost a ještě větší a větší počet replik/nodů/zrcadel je nesmysl - jakou škodu myslíte, že TMCZ nakonec tímto incidentem utrpěl? Opravdu byla natolik vysoká, aby ospravedlnila "preventivní" investici v řádu desítek milionů korun do ještě sofistikovanějšího a komplikovanějšího HW/SW? Osobně bych vůbec neměl problém sestavit storage klidně z desítek low-end serverů (HP, Dell, F-S,...) nacpaných těmi nejlevnějšími disky, a výkon/redundanci/robustnost/odolnost proti HW chybě bych řešil až na nějaké SW vrstvě nad tím vším - i kdyby to měl být "jen" RedHat Gluster. Velké hardwarové krabice s proprietárním FW a s různými "magickými" vlastnostmi budou problematické vždycky.

2 0

možnosti

zobrazit vlákno

J95a34n 57P32r17i33b23y56l

8. 7. 2020 21:36

Jojo. Ten bastl by byl určitě spolehlivější :D

0 0

možnosti

zobrazit vlákno

Zobrazit další reakce

J57a82n 27P26r63i93b26y27l

8. 7. 2020 17:41

Zajímavé.

Asi ty systémy co tam měli disky nepovažovali za důležité a točili to na nějaké staré storage bez repliky.

Jak vypadnou dva disky naráz?

- jeden disk byl v háji už dřív, nefunkční monitoring, notifikace atd. nikdo o tom nevěděl > umře druhý = problém

- problém fw disku - občas se to stává - SW chyba v fw způsobí, že se disk například po přesně daném počtu provozních hodin pokazí. Stalo se to Seagatu, stalo se to nedávno HPE atd. Disky uvedené do provozu v jedné storage se pak vysypou naráz. Mohli zanedbat aktualizace, nebo měli tu čest být první.

- pokazí se jeden disk, ale další je načatý - vadné bloky atd., ale nevíte o tom, protože se nedělal scrubbing. Příjde se na to až při rebuildu pole.

- ?

Asi k tomu radši neměli říkat detaily :)

2 0

možnosti

zobrazit vlákno

R55o24b67e28r54t 14R15a97j53s

9. 7. 2020 19:04

Tyhle případy, co uvádíte, to se všechno samozřejmě může stát. Proto mají mít geograficky oddělenou replikaci, na kterou se vše v reálném čase synchronizuje a v případě kritického problému záložní server převezme kormidlo..

1 0

možnosti

zobrazit vlákno

Zobrazit další reakce

R25a81d14o65v97a13n 77S65ý86k37o64r12a

7. 7. 2020 22:42

Normální technická závada. Proč z toho děláte vědu? Mobilní síť fungovala a že nefungovaly 2 dny support linky, to zase není takový problém. Nebo snad ano?

0 2

možnosti

zobrazit vlákno

P74e42t53r 64F40u51k72a

8. 7. 2020 9:06

Někteří čtenáři z toho dělali vědu, redakce jen reaguje. Pod jedním článkem tu byla i tvrzení, že jde určitě o hackerský útok...

0 0

možnosti

zobrazit vlákno

L82e20o38p74o93l87d 20H60o58r82á90k

7. 7. 2020 22:16

Tož já to šacoval na elektronku z Katoda Holomóc :)

3 0

možnosti

zobrazit vlákno

V29i59k77t91o51r 18Š89p58i78č48k60a

7. 7. 2020 21:47

No já bych řekl , že normální je mluvit o třech geograficky vzdálených farmách , kde jsou k dispozici kromě zrcadlení i zálohy kritických databází , navíc v systému , který sám detekuje výpadek jakékoli části a zahájí sám obnovu .

A to jsme byli jen malou samostatnou částí velkého korporáta .

4 0

možnosti

zobrazit vlákno

K75a65r60e24l 79N81o23v62á23k

7. 7. 2020 18:17

Jestli tohle řekne Technology and IT Director ve společnosti T-Mobile. Proč toho dle člověka tam maj? https://www.svetchytre.cz/a/ieYu3/branimir-maric-svoboda-internetu-je-romanticka-predstava-z-minulosti / Začneme u horkého tématu poslední doby – u přechodu z připojení 4G na 5G. Jaké jsou hlavní výhody 5G v porovnání s LTE a dalšími současnými standardy?

Přechod z 4G, respektive LTE, na 5G podle mě nebude tak znatelný jako přechod z 3G na 4G. 4G přineslo mnohem rychlejší datové přenosy a nižší latencí. U 5G takové změny pozorovat nebudeme. Výrazně se rozšíří možnosti a kvalita bezdrátového připojení, ale uživatel prakticky nepozná, který standard zrovna využívá.“

4 0

možnosti

zobrazit vlákno

P62a42v37e69l 14P52a38k71a

7. 7. 2020 17:44

Nevím zda je vůbec rozumné, aby TM dával takové vyjádření do tisku. Tím si moc reputaci nevylepší, když to spíše ukazuje na použití neadekvátně (ne)robustního řešení.

Je jasné, že pro volbu technologické řešení určité služby je třeba dát na váhy jeho robustnost, složitost a pořizovací / provozní náklady na jedné straně a na druhé straně důležitost cílové aplikace, akceptovatelné rizko výpadku, možné délky výpadků služby, riziko ztráty dat a z toho vyplívající rizika ztrát finančních, poškození reputace apod.

T-mobile nyni mluví o dopadu poruchy jen na „podpůrné systémy“. Pravda „core“ služby fungovali, nicméně výpadek koncový zákazník docela pocítil, proto mi přijde, že to TM docela bagatelizuje...

Docela mne zaráží, že TM nepoužil zrcadlení celého diskového pole (ať uz synchronní, či asynchronní, s lokální redundancí čí geo redundancí atd.). Mám zkušenosti s dodávkami určitých telekomunikačních řešení velkým zahraničním telco operátorům a nepamatuji si, že by si troufli u „nepodružných aplikací“ akceptovat nasazení diskového systému bez jednoho z typů mirroringu celého diskového pole. Pamatuji i nezdařený upgrade fw. na primárním diskovém poli v jednom z klíčových systémů jednoho telco operátora, kdy existence synchronně zrcadleného pole zabránila ještě většímu průšvihu (čekat na obnovu z pásek by byl „mega“ průšvih).

11 0

možnosti

zobrazit vlákno

P45a51v95e49l 12P56a49k91a

7. 7. 2020 17:48

"služby fungovalY..." - fakt se stydím

0 0

možnosti

zobrazit vlákno

Zobrazit další reakce

J93a31n 32P43e72t23r78z17e38l46a

7. 7. 2020 17:41

standardni storage systemy maji 2 paritni disky, ted s pribyvajici velikosti se uz delaj tri paritni v jedny raidgroupe kvuli tomu, ze prepocitani uz trva klidne pres den, ze vypadnou najednou dva disky v jedny raidgroupe je obrovska nahoda a storage systemy jsou tak nastavene, ze se to cele pole vypne, kdyby padl treti disk, tak by to byl prusvih

1 0

možnosti

zobrazit vlákno

J94a69n 38P86e32t18r86z97e79l27a

7. 7. 2020 20:56

na druhou stranu by meli mit nejake spare disky, takze buhvi, co tam ma za storage, tipnu si huawei:-)

2 0

možnosti

zobrazit vlákno

Zobrazit další reakce

O85d30s53t71r29a24n71ě83n41ý 21U16ž72i69v47a15t47e70l

7. 7. 2020 16:56

Uživatel požádal o vymazání

1 0

možnosti

zobrazit vlákno

Načíst další

předchozí

1 2 3 4 5

další

Námořníci USA propašovali před 100 lety na palubu bitevní lodi prostitutku

Znovuzrození japonských letadlových lodí. Ve výzbroji budou mít F-35B

Uvidíme v budoucnu na obloze druhý Měsíc? Příčinou může být neobvyklá hvězda

Skvělý filmový zvuk bez velké instalace. Test nejzajímavějších soundbarů

Dawesův plán na čas stabilizoval Německo, ale nástup Hitlera neodvrátil

{NADPIS reklamního článku dlouhý přes dva řádky}

Znovuzrození japonských letadlových lodí. Ve výzbroji budou mít F-35B

{NADPIS reklamního článku dlouhý přes dva řádky}

Lotyšská armáda je malá, materiálem nehýří, ale Ukrajině něco ze svého poslala

Pes na Měsíci či Marsu už nemusí být fikce. NASA trénuje průzkumného robopsa

Na dům mu spadl odpad z vesmíru. Nyní NASA potvrdila, že je to kus z baterie

Herní technika

Finance

Osobnosti

Elektromobilita

Termíny

Válka na Ukrajině

Nepřehlédněte

iDNES.cz

© 1998–2024 MAFRA, a. s., a dodavatelé Profimedia, Reuters, ČTK, AP. Rozmnožování obsahu pro účely automatizované analýzy textů nebo dat dle ustanovení § 39c autorského zákona je bez souhlasu MAFRA, a. s., zakázáno. Jakékoliv užití obsahu včetně převzetí, šíření či dalšího zpřístupňování článků a fotografií je bez souhlasu MAFRA, a. s., zakázáno. Provozovatelem serveru iDNES.cz je MAFRA, a. s., IČ: 45313351.