Amazon Web Services (AWS) представив технічне пояснення масштабного збою, що відбувся наприкінці травня 2026 року. Інцидент, що тривав з четверга до п’ятниці, був викликаний «тепловою подією» в одному з дата-центрів у Північній Вірджинії, що призвело до повної втрати електроживлення.
Цей випадок наголошує на вразливості залежностей хмарної інфраструктури, навіть у системах, спроектованих з урахуванням резервування. Коли виходять з ладу ключові фізичні компоненти, наслідки можуть миттєво паралізувати великі платформи користувача — від фінансових бірж до додатків для спортивних ставок.
Технічні деталі
Згідно з офіційним оновленням на сторінці статусу AWS, першопричиною стала відмова систем охолодження в одному конкретному об’єкті. Цей перегрів активував критичний протокол безпеки: Amazon був змушений перенаправити трафік від постраждалої Зони доступності(Availability Zone) у другій половині дня в четвер, щоб запобігти подальшому пошкодженню обладнання.
Процес відновлення був зосереджений виключно на відновленні фізичної інфраструктури, перш ніж цифрові сервіси могли бути відновлені.
- Початкова реакція: Трафік був перенаправлений із скомпрометованої зони.
- Відновлення: До раннього дня п’ятниці інженери стабілізували системи охолодження до рівня, що передує інциденту.
- Відновлення сервісів: Ця стабілізація дозволила AWS відновити переважну більшість пошкоджених екземплярів EC2 (віртуальних серверів) та томів EBS (сховища).
«Наше основне зусилля у рамках стратегії пом’якшення наслідків було спрямовано відновлення потужності систем охолодження. 8 травня о 13:50 нам вдалося стабілізувати потужність систем охолодження до рівня, що передував інциденту, що допомогло нам відновити переважну більшість пошкоджених екземплярів EC2 та томів EBS», – заявили в Amazon.
Хоча основна частина сервісів була відновлена, компанія зазначила, що невелика кількість екземплярів та томів сховища залишалася у неробочому стані у міру продовження робіт із відновлення.
Вплив на користувачів та бізнес
Збій став непросто технічною проблемою за сервера; він мав негайні та відчутні наслідки для кінцевих користувачів. Декілька високопрофільних програм, розміщених в AWS, були недоступні або працювали зі значними перебоями, включаючи:
- FanDuel: Платформи для спортивних ставок не могли обробляти ставки.
- Coinbase: Торгівля криптовалютою була порушена, що не дозволяло користувачам виконувати операції.
Для користувачів цих платформ простий викликав значне роздратування та потенційну фінансову невизначеність, особливо у години активної торгівлі або під час прямих трансляцій спортивних подій. Однак у міру стабілізації інфраструктури AWS ці послуги поступово повернулися до нормальної роботи.
Чому це важливо
Цей інцидент є нагадуванням про те, що хмарні обчислення, як і раніше, залежать від фізичного обладнання. Хоча AWS та інші провайдери створюють великі системи резервування між декількома зонами та регіонами, катастрофічна відмова в одній зоні, такій як колапс системи охолодження, все ще може спричинити значні локальні збої.
Для бізнесу, що покладається на ці платформи, висновок очевидний: хоча AWS надійний, він не є невразливим. Швидке перенаправлення трафіку та подальше відновлення демонструють ефективність стратегій пом’якшення наслідків AWS, але початковий збій наголошує на важливості мультирегіональної архітектури для додатків критичної важливості.
Таким чином, відмова системи охолодження в Північній Вірджинії призвела до тимчасового, але значного збою в роботі AWS, порушивши роботу таких великих додатків, як FanDuel та Coinbase, до стабілізації фізичних систем та відновлення сервісів.
