Premium

Získejte všechny články
jen za 49 Kč/měsíc

Zakázali přístup sami sobě. Google ukázal, jak proběhl obrovský výpadek

  14:44
Celosvětový výpadek byl způsoben relativně malou chybou. Přestože měli síťaři společnosti Google celý měsíc na její odhalení, proklouzla testovacím procesem a překvapila je v nejméně vhodnou dobu. Práci na obnově komplikoval fakt, že výpadek postihl i nástroje pro komunikaci uvnitř firmy Google.
Fotogalerie3

Výpadek služeb Google byl způsoben špatným přechodem na nový systém kvót a verifikace. | foto: montáž: Pavel Kasík, Technet.cz

K výpadkům různých služeb dochází dnes a denně. Proto firmy obvykle garantují nikoli 100% dostupnost, ale třeba 99,99% dostupnost, nechávají si tak rezervu pro pár desítek minut ročně. 

Google takovéto garance nedává, spoléhá místo toho na svou pověst. „Na naší infrastruktuře Google Cloud běží osm aplikací s více než miliardou uživatelů,“ uvádí nápověda Google . „Vyřizujeme 100 miliard vyhledávání měsíčně a 100 hodin videa nahraných na YouTube každou minutu. Služby jako Gmail mají 99,978 % dostupnost a žádné plánované odstávky.“

Výpadek na 47 minut uprostřed kalifornské noci

Minulý týden – 14. prosince – však Google zažil nebývale rozsáhlý výpadek svých služeb po celém světě. Na více než 45 minut nebyly dostupné jeho služby: Gmail, Dokumenty Google, YouTube a prakticky cokoli, k čemu je potřeba se přihlásit. Bez přerušení tak nejspíš fungovalo jen vyhledávání.

Mapa oblastí, ze kterých lidé hlásili výpadek (13:05, 14. prosince 2020)

Google Dashboard hlásí výpadek všech služeb (13:18, 14. prosince 2020)

Protože k výpadku došlo krátce před jednou hodinou odpoledne středoevropského času, bylo to opravdu nepříjemné načasování pro kalifornské inženýry v centrále Google, kteří tou dobou měli 3:46 ráno. Přestože zafungovaly automatické alarmy, trvalo více než 45 minut, než se jim podařilo závadu opravit tak, aby se cloudové služby Google po celém světě znovu rozběhly. 

Pokud vaše firma závisí na službách Google, mohla se vám třičtvrtěhodina zdát dlouhá jako věčnost. Síťařům, kteří se horečně snažili vystopovat, proč jsou výpadky, když všechen hardware normálně běží, to tak určitě přišlo také.

Datová centra po celém světě

Firma Google je pověstná svým důrazem na architekturu. Ať už je to škálovatelný Google File System, nebo o jeho slavná obří datová centra, kterých má po světě už přes dvacet a skladuje na nich řádově miliardy gigabajtů (exabajty) dat. To vše mnohonásobně jištěné a zálohováno, vše musí být koordinováno mezi jednotlivými datacentry.

Takto paradoxně vypadala stránka o „Spolehlivosti Google Cloud“ v době psaní tohoto článku

Aby Google zvládal provoz na takovéto škále, používá řadu interních nástrojů pro optimalizaci. Když máte miliardy uživatelů, tak i desetina sekundy navíc při nějaké operaci může znamenat velké náklady a nepříjemné prodlevy. Google se proto řídí principy automatizace, testování a postupného nasazování.

A právě nástroj, který měl zvýšit robustnost a spolehlivost platformy Google, stál za jejím masivním výpadkem 14. prosince. V závěrečné zprávě o vyšetřování výpadku (tzv. post-mortem, tedy „pitevní zpráva“), jsou podrobně popsány důvody, které vedly k nedostupnosti prakticky všech služeb Google, které vyžadují přihlášení uživatele.

„V pondělí 14. prosince 2020 byly po dobu 47 minut nedostupné služby Google, které využívají technologie Google OAuth.“

zpráva Google

Už z toho je zřejmé, že byl zřejmě nějaký problém s autentizací.  To byl také prvotní instinkt síťařů Google, kteří dostali upozornění ve 3:48 ráno kalifornského času, dvě minuty od první zaznamenané chyby.

Zabezpečení, které se obrátilo proti sobě

Každý proces a služba, která na serverech Google běží, musí mít svého „původce“, aby bylo možné ověřit, že je daný proces spuštěn oprávněnou osobou. K tomu slouží autentifikace uživatele pomocí OAuth. Google následně používá distribuovanou databázi pro ukládání uživatelských dat (Paxos). „Tento systém je navržen tak, aby odmítl jakékoli požadavky, které pracují se zastaralými daty,“ vysvětluje Google.

Další systém, který vstupuje do hry, je systém kvót. Každá služba může mít shora omezený počet či rozsah požadavků, aby nemohlo dojít k zahlcení výkonu na úkor jiných procesů. „V říjnu jsme náš systém pro ověření uživatelských identit převedli na tento nový systém kvót,“ popisuje Google. Při tomto převodu však došlo k chybě: „Část původního systému, který chybně hlásil nulové vytížení, byl omylem ponechán.“

V říjnu se chyba neprojevila, protože při takovém velkém převodu se obvykle nechává rezerva, přechodné období (tvz. „grace period“), během kterého nově nasazené pravidlo ještě nemůže „zastavit“ požadavky, ale pouze generuje hlášení. To správcům umožní na reálném provozu ověřit, že nasazené řešení funguje správně, nechová se nesmyslně a nerozbije něco, co už funguje.

„Když vypršelo přechodné období, automatický systém kvót snížil povolený počet požadavků na nulu, čímž nastal tento výpadek.“

zpráva Google

Toto přechodné období 14. prosince brzy ráno kalifornského času vypršelo. Tím pádem se limit pro autentizační službu Google OAuth skokově snížil na nulu a veškeré požadavky na autentifikaci jakéhokoli uživatele byly odmítnuty. Důsledkem bylo, že všechny žádosti byly odmítnuty jako neoprávněné, ať už to bylo přehrání nového videa na YouTube, otevření inboxu na Gmailu nebo stažení dokumentu z Google Drive. Nikdo neměl oprávnění udělat cokoli. Jako kdyby z minuty na minutu přestaly fungovat všechny klíče.

Dokonce ani zaměstnanci Google se nemohli dostat ke svým nástrojům. To komplikovalo jak interní komunikaci, tak i komunikaci navenek: „Naši zaměstnanci čelili stejnému výpadku jako veřejnost, což zpozdilo naši komunikaci.“ Vysvětlují tak, proč trvalo skoro půl hodiny, než se Google vůbec k výpadku vyjádřil.

Náprava a vyšetřování

Prakticky veškerý provoz, který vyžaduje přihlášení, byl ochromen a házel chyby 5xx (různé typy chyb na serveru). Podle záznamů trvalo dvacet minut, než se síťařům podařilo rozkrýt příčiny problému, za 14 minut se jim podařilo zprovoznit opravu v jednom z datových center. Implementace této opravy do datacenter na celém světě si vyžádala dalších 11 minut.

Následně se služby Google postupně vrátily do normálu, až na „ojedinělé výjimky“, které si vyžádaly další kroky k nápravě. Zůstala otázka, jak k výpadku vůbec mohlo dojít? Zvláště u firmy, která si dává tolik záležet na systematické práci s vnitřní infrastrukturou?

Google to vysvětluje nešťastnou souhrou okolností. Základní chyba, jak již bylo řečeno, nastala při chybné implementaci interního systému kvót. Tato změna navíc proklouzla sérií interních testů:

  • nebyla označena jako „změna pro velké množství skupin“, protože šlo jen o jednu skupinu (skupinu všech uživatelů)
  • nebyla označena jako „snížení kvóty pod hranici obvyklého užívání“, neboť chyba označila užívanost jako minimální (nulovou)
  • během testování tato chyba nevygenerovala žádné chybové hlášky (z popisu nám nebylo jasné, proč tomu tak mělo být)
  • kvóta nebyla označena jako příliš nízká, protože se porovnávala dvě malá čísla a jejich rozdíl nespustil výstražná opatření

Ve chvíli, kdy se kvóty začaly aplikovat, měl řídicí systém nařízeno odmítnout všechny požadavky jako neoprávněné. Tím pádem Google neměl právo zapisovat na své vlastní servery, nemohl tedy aktualizovat záznamy o přihlášení a brzy byly všechny požadavky vyžadující autentifikaci zastaralé.

Do budoucna Google slibuje, že se této a podobným chybám vyhne. Především tak, že znovu prověří, jak funguje automatizace pro implementaci globálních změn. Chce také vylepšit nástroje na monitoring a upozorňování na problémy, což má zamezit pozdní reakci. 

Google hodlá implementovat nezávislý systém interní komunikace pro případy, kdy nelze kvůli chybě použít obvyklé firemní nástroje. A konečně chce zamezit tomu, aby se nějaká chyba mohla dotknout tak velkého množství uživatelů jako tento výpadek.

Chyba v roce 2009 označila všechny stránky na světě za nebezpečné

Svým způsobem připomínala chyba incident Googlu z roku 2009. Tehdy se vinou překlepu dostaly všechny stránky na světě na seznam „podezřelých“ stránek. Na vině tehdy byla lidská chyba: programátor omylem v seznamu nebezpečných adres nechal samostatné lomítko „/“, které označovalo libovolnou existující URL (podobně, jako * označuje libovolný řetězec textu). Také tehdy trval problém přibližně 40 minut, než se jej podařilo odhalit a vyřešit.

Vstoupit do diskuse (166 příspěvků)

Černobyl i Fukušima nás poučily. Dnes by naše jaderky odolaly i tornádu, říká expert

Nejčtenější

Jaká letadla používaly a používají severokorejské aerolinky

Iljušin Il-18 společnosti Air Koryo

S Air Koryo by chtěl letět každý dobrodruh. Jediný severokorejský letecký dopravce dnes provozuje tři pravidelné mezinárodní linky. Denní počty mezinárodních letů se pohybují od nuly do šesti....

Železnice zpřístupnila davům ztracené město Inků Machu Picchu

Železnice k Machu Picchu

Jedna z nejkrásnějších a nejznámějších železničních tratí světa vede pod zaniklé indiánské město Machu Picchu. Je to jediný možný způsob mechanizované dopravy do jeho blízkosti. Přestože jde o trať...

Bizarní dopravní prostředky, které předběhly dobu či zabloudily v čase

Pokud jsou vám vlastní rychlost, šmír a saze, jistě najdete zalíbení i v této exkurzi do roztodivných zákoutí lidské snahy o revoluční řešení v oblasti dopravy. Mezi vyloženě slepými uličkami se zde...

V Praze přistál bývalý speciál maršála Tita. Letoun málem shnil v Africe

Letoun Douglas DC-6B na Letišti Václava Havla v Praze

Koncem minulého týdne přistál na Letišti Václava Havla Praha unikátní stroj Douglas DC-6B ze slavného Hangáru 7 rakouských Flying Bulls. Jde nejen o dokonale zrekonstruovaný kus, ale za zmínku stojí...

Bezkřídlý zázrak i létající rakev. Jak vznikal legendární letoun F-104

F-104A Starfighter

Šestnáctého května si připomínáme jeden z milníků letecké historie. Letoun F-104 na základně Edwards AFB v Kalifornii dosáhl v roce 1958 průměrné rychlosti 2 259,538 km/h. Zajímavé je, že na krátký...

Sony slaví 80 let. Podívejte se na nejzajímavější televizory historie

Sony 80 let

Společnost Sony slaví 80 let existence a při příležitosti představení nových letošních televizorů se pochlubila výstavkou svých televizních milníků. Zatímco na novinky je ještě embargo, archivní...

19. května 2026

Podívejte se na to nejlepší z oslav 70 let základy v Náměšti nad Oslavou

Dvojice nových vrtulníků UH-1Y Venom a AH-1Z Viper z domácí 22. základny...

22. základna vrtulníkového letectva v Náměšti nad Oslavou oslavila 70 let od svého založení. I před nepřízeň počasí zhlédly tisíce návštěvníků letecké ukázky současných, ale i historických strojů z...

19. května 2026

Železnice zpřístupnila davům ztracené město Inků Machu Picchu

Železnice k Machu Picchu

Jedna z nejkrásnějších a nejznámějších železničních tratí světa vede pod zaniklé indiánské město Machu Picchu. Je to jediný možný způsob mechanizované dopravy do jeho blízkosti. Přestože jde o trať...

18. května 2026

Přípravy na Artemis III běží, bude to poslední krok před letem na Měsíc

Premium
Při misi Artemis III NASA vyzkouší spojení lodi Orion s  měsíčními přistávacími...

Dubnová úspěšná mise Artemis II, při níž se při letu kolem Měsíce dostal člověk do zatím nejvzdálenějšího bodu od Země, byla jen dalším krokem k hlavnímu cíli. Tím je návrat lidí na povrch Měsíce....

18. května 2026

Dorůstání končetin a orgánů? Regenerace u lidí jen usnula, vědci ji umí probudit

Premium
Prekurzory kmenových buněk vznikají z univerzálních kmenových buněk, avšak jsou...

Mohly by lidem dorůst amputované končetiny? Nebo nám evoluce zavřela k růstu nových tkání cestu? Vědci dnes překvapivě tvrdí: „Regenerace u člověka pouze usnula. Umíme ji probudit.“

17. května 2026

„S našimi zatracenými loděmi je dnes něco špatně.“ Sto deset let od Jutska

Studie bitvy u Jutska

Na přelomu května a června 1916 vypukla jedna z největších námořních bitev všech dob. Dodnes se diskutuje, kdo ji vyhrál. Věnujeme jí krátký seriál. Článek, který právě čtete, je jeho první díl.

17. května 2026

Bezkřídlý zázrak i létající rakev. Jak vznikal legendární letoun F-104

F-104A Starfighter

Šestnáctého května si připomínáme jeden z milníků letecké historie. Letoun F-104 na základně Edwards AFB v Kalifornii dosáhl v roce 1958 průměrné rychlosti 2 259,538 km/h. Zajímavé je, že na krátký...

16. května 2026

Hurvínek už chodí po jevišti 100 let. Z původního Spejblíka vyrostla legenda

Josef Skupa s Hurvínkem

Před 100 lety se odehrál mimořádný den českého loutkového divadla. Na scéně se tehdy poprvé objevil Hurvínek, postavička, která rychle překročila hranice divadla i jedné generace.

16. května 2026

Jaká letadla používaly a používají severokorejské aerolinky

Iljušin Il-18 společnosti Air Koryo

S Air Koryo by chtěl letět každý dobrodruh. Jediný severokorejský letecký dopravce dnes provozuje tři pravidelné mezinárodní linky. Denní počty mezinárodních letů se pohybují od nuly do šesti....

15. května 2026

Zrod diktátora v rukavičkách. Piłsudski provedl před 100 lety krvavý puč v Polsku

Josef Piłsudski byl mužem dobrodružného života, jehož moc se změnila v...

Před 100 lety začal v Polsku státní převrat, který během dvou dnů změnil směřování země. Maršál Józef Piłsudski vtáhl s oddanými jednotkami do Varšavy a definitivně se vrátil do centra polské...

14. května 2026

Je vám přes čtyřicet? Soutěžíme o přírodní doplněk stravy MenoVit Balance
Je vám přes čtyřicet? Soutěžíme o přírodní doplněk stravy MenoVit Balance

Období po čtyřicítce přináší řadu změn, které mohou ovlivnit fyzickou i psychickou pohodu. Dopřejte si proto přírodní podporu v čase, kdy ji vaše...

Jak obstál repráček Ikea ve srovnání? Toto dostanete za svých 129 korun

Ikea Kallsup za 129 Kč a Xiaomi Sound Outdoor za 990 Kč

Recenze levného repráčku Ikea vyvolala velký čtenářský zájem a myšlenku nějak ukázat rozdíl mezi superlevnou a levnou reprosoustavou ve videu. Z mnoha důvodů to příliš nejde, ale nejen pomocí...

14. května 2026

Apple v Česku spustil funkci „Sluchadlo“. Špatnému sluchu pomůže i bez lékaře

Apple Sluchadlo

Se sluchátky Apple AidPods Pro 2 a 3 můžete nově využívat funkci „naslouchátka“ i v Česku. Po otestování sluchu upraví příposlech z okolí a také poslech při telefonování i přehrávání médií tak, aby...

13. května 2026  14:30
Nastavte si velikost písma, podle vašich preferencí.