Amazon Web Services (AWS) przedstawił techniczne wyjaśnienie masowej awarii, która miała miejsce pod koniec maja 2026 r. Incydent, który trwał od czwartku do piątku, był spowodowany „zdarzeniem termicznym” w jednym z centrów danych w Północnej Wirginii, które spowodowało całkowitą utratę zasilania.
Ten przypadek uwydatnia podatność zależności infrastruktury chmurowej, nawet w systemach zaprojektowanych z myślą o redundancji. Kiedy zawodzą kluczowe elementy fizyczne, konsekwencje mogą natychmiast sparaliżować duże platformy użytkowników, od giełd finansowych po aplikacje do zakładów sportowych.
Szczegóły techniczne
Według oficjalnej aktualizacji na stronie statusu AWS, podstawową przyczyną była awaria systemów chłodzenia w jednym konkretnym obiekcie. To przegrzanie uruchomiło krytyczny protokół bezpieczeństwa: w czwartkowe popołudnie firma Amazon była zmuszona przekierować ruch z dotkniętej Strefy dostępności, aby zapobiec dalszym uszkodzeniom sprzętu.
Proces przywracania skupiał się wyłącznie na przywróceniu infrastruktury fizycznej przed wznowieniem świadczenia usług cyfrowych.
- Reakcja początkowa: Ruch został przekierowany z zagrożonego obszaru.
- Regeneracja: Wczesnym piątkowym popołudniem inżynierowie ustabilizowali układy chłodzenia do poziomu sprzed zdarzenia.
- Odzyskiwanie usług: Ta stabilizacja umożliwiła AWS odzyskanie zdecydowanej większości uszkodzonych instancji EC2 (serwery wirtualne) i woluminów EBS (pamięć masowa).
“Nasz główny wysiłek w zakresie strategii łagodzącej polegał na przywróceniu wydajności systemów chłodzenia. 8 maja o 13:50 udało nam się ustabilizować wydajność chłodzenia do poziomu sprzed zdarzenia, co pomogło nam odzyskać zdecydowaną większość uszkodzonych instancji EC2 i woluminów EBS” – powiedział Amazon.
Chociaż większość usług została przywrócona, firma zauważyła, że w miarę kontynuowania działań przywracających niewielka liczba instancji i woluminów pamięci masowej pozostała bezużyteczna.
Wpływ na użytkowników i biznes
Awaria nie była jedynie problemem technicznym po stronie serwera; miało to natychmiastowe i wymierne skutki dla użytkowników końcowych. Kilka znanych aplikacji hostowanych na platformie AWS było niedostępnych lub wystąpiły poważne awarie, w tym:
- FanDuel: Platformy zakładów sportowych nie były w stanie przetwarzać zakładów.
- Coinbase: Handel kryptowalutami został zakłócony, co uniemożliwia użytkownikom realizację transakcji.
Dla użytkowników tych platform przestoje spowodowały znaczną frustrację i potencjalną niepewność finansową, szczególnie w godzinach aktywnego handlu lub podczas wydarzeń sportowych na żywo. Jednak w miarę stabilizacji infrastruktury AWS usługi te stopniowo wracały do normalnego funkcjonowania.
Dlaczego to jest ważne?
Ten incydent przypomina, że przetwarzanie w chmurze nadal zależy od sprzętu fizycznego. Chociaż AWS i inni dostawcy budują rozległe systemy redundancji w wielu strefach i regionach, katastrofalna awaria w jednej strefie — na przykład awaria systemu chłodzenia — może nadal powodować znaczne lokalne przestoje.
Dla firm korzystających z tych platform wniosek jest jasny: chociaż AWS jest niezawodny, nie jest niezniszczalny. Szybkie przekierowanie ruchu i późniejsze przywrócenie ruchu pokazuje skuteczność strategii łagodzenia skutków działania AWS, ale początkowa przerwa w działaniu podkreśla znaczenie architektury wieloregionowej dla aplikacji o znaczeniu krytycznym.
Podsumowując, awaria systemu chłodzenia w Północnej Wirginii spowodowała tymczasowe, ale znaczące zakłócenia w działaniu AWS, zakłócając działanie głównych aplikacji, takich jak FanDuel i Coinbase, do czasu ustabilizowania się systemów fizycznych i przywrócenia usług.
