Selhání AWS: jak selhání chladicího systému ve Virginii paralyzovalo oblíbené služby

12

Amazon Web Services (AWS) poskytla technické vysvětlení masivního výpadku, ke kterému došlo na konci května 2026. Incident, který trval od čtvrtka do pátku, byl způsoben “tepelnou událostí” v jednom z datových center v Severní Virginii, která měla za následek úplnou ztrátu napájení.

Tento případ zdůrazňuje zranitelnost závislostí cloudové infrastruktury, a to i v systémech navržených s ohledem na redundanci. Když klíčové fyzické komponenty selžou, následky mohou okamžitě ochromit velké uživatelské platformy, od finančních burz po aplikace pro sportovní sázení.

Technické detaily

Podle oficiální aktualizace na stavové stránce AWS byla hlavní příčinou selhání chladicích systémů v jednom konkrétním zařízení. Toto přehřátí spustilo kritický bezpečnostní protokol: Amazon byl ve čtvrtek odpoledne nucen přesměrovat provoz z postižené Zóny dostupnosti, aby zabránil dalšímu poškození hardwaru.

Proces obnovy se soustředil pouze na obnovu fyzické infrastruktury, než bude možné obnovit digitální služby.

  • Počáteční reakce: Provoz byl přesměrován z ohrožené oblasti.
  • Obnova: V pátek časně odpoledne inženýři stabilizovali chladicí systémy na úroveň před incidentem.
  • Obnova služby: Tato stabilizace umožnila AWS obnovit převážnou většinu poškozených instancí EC2 (virtuální servery) a svazků EBS (úložiště).

“Naší primární snahou bylo obnovit kapacitu chladicích systémů. 8. května ve 13:50 jsme byli schopni stabilizovat chladicí kapacitu na úroveň před incidentem, což nám pomohlo obnovit převážnou většinu poškozených instancí EC2 a svazků EBS,” uvedl Amazon.

Zatímco většina služeb byla obnovena, společnost poznamenala, že malý počet instancí úložiště a svazků zůstal nepoužitelný, protože úsilí o obnovu pokračovalo.

Dopad na uživatele a podnikání

Selhání nebylo jen technickým problémem na straně serveru; mělo to okamžité a hmatatelné důsledky pro koncové uživatele. Několik vysoce profilovaných aplikací hostovaných na AWS bylo nedostupných nebo došlo k významným výpadkům, včetně:

  • FanDuel: Platformy pro sportovní sázení nedokázaly zpracovat sázky.
  • Coinbase: Obchodování s kryptoměnami bylo přerušeno, což uživatelům brání v dokončení transakcí.

Pro uživatele těchto platforem způsobil výpadek značnou frustraci a potenciální finanční nejistotu, zejména během aktivních obchodních hodin nebo během živých sportovních událostí. Jak se však infrastruktura AWS stabilizovala, tyto služby se postupně vracely do běžného provozu.

Proč je to důležité?

Tento incident slouží jako připomenutí, že cloud computing stále závisí na fyzickém hardwaru. Přestože AWS a další poskytovatelé staví rozsáhlé redundantní systémy napříč více zónami a regiony, katastrofické selhání v jedné zóně – jako je kolaps chladicího systému – může stále způsobit významné lokální výpadky.

Pro podniky, které na tyto platformy spoléhají, je závěr jasný: I když je AWS spolehlivý, není nezranitelný. Rychlé přesměrování provozu a následná obnova demonstruje efektivitu strategií zmírňování AWS, ale počáteční výpadek zdůrazňuje důležitost víceregionální architektury pro kritické aplikace.

** Stručně řečeno, selhání chladicího systému v Severní Virginii mělo za následek dočasné, ale významné narušení AWS, které narušilo hlavní aplikace, jako je FanDuel a Coinbase, dokud se fyzické systémy nestabilizují a služby nebudou obnoveny.**