Amazon Web Services (AWS) представил техническое объяснение масштабного сбоя, произошедшего в конце мая 2026 года. Инцидент, длившийся с четверга до пятницы, был вызван «тепловым событием» в одном из дата-центров в Северной Вирджинии, что привело к полной потере электропитания.
Этот случай подчеркивает уязвимость зависимостей облачной инфраструктуры, даже в системах, спроектированных с учетом резервирования. Когда выходят из строя ключевые физические компоненты, последствия могут мгновенно парализовать крупные пользовательские платформы — от финансовых бирж до приложений для спортивных ставок.
Технические детали
Согласно официальному обновлению на странице статуса AWS, первопричиной стал отказ систем охлаждения в одном конкретном объекте. Этот перегрев активировал критический протокол безопасности: Amazon был вынужден перенаправить трафик от пострадавшей Зоны доступности (Availability Zone) во второй половине дня в четверг, чтобы предотвратить дальнейшее повреждение оборудования.
Процесс восстановления был сосредоточен исключительно на восстановлении физической инфраструктуры до того, как цифровые сервисы могли быть возобновлены.
- Первоначальная реакция: Трафик был перенаправлен из скомпрометированной зоны.
- Восстановление: К раннему дню пятницы инженеры стабилизировали системы охлаждения до уровня, предшествующего инциденту.
- Восстановление сервисов: Эта стабилизация позволила AWS восстановить подавляющее большинство поврежденных экземпляров EC2 (виртуальных серверов) и томов EBS (хранилища).
«Наше основное усилие в рамках стратегии смягчения последствий было направлено на восстановление мощности систем охлаждения. 8 мая в 13:50 нам удалось стабилизировать мощность систем охлаждения до уровня, предшествующего инциденту, что помогло нам восстановить подавляющее большинство поврежденных экземпляров EC2 и томов EBS», — заявили в Amazon.
Хотя основная часть сервисов была восстановлена, компания отметила, что небольшое количество экземпляров и томов хранилища оставалось в нерабочем состоянии по мере продолжения работ по восстановлению.
Влияние на пользователей и бизнес
Сбой стал не просто технической проблемой на стороне сервера; он имел немедленные и осязаемые последствия для конечных пользователей. Несколько высокопрофильных приложений, размещенных в AWS, были недоступны или работали со значительными перебоями, включая:
- FanDuel: Платформы для спортивных ставок не могли обрабатывать ставки.
- Coinbase: Торговля криптовалютой была нарушена, что не позволяло пользователям выполнять операции.
Для пользователей этих платформ простой вызвал значительное раздражение и потенциальную финансовую неопределенность, особенно в часы активной торговли или во время прямых трансляций спортивных событий. Однако по мере стабилизации инфраструктуры AWS эти сервисы постепенно вернулись к нормальной работе.
Почему это важно
Этот инцидент служит напоминанием о том, что облачные вычисления по-прежнему зависят от физического оборудования. Хотя AWS и другие провайдеры создают обширные системы резервирования между несколькими зонами и регионами, катастрофический отказ в одной зоне — такой как коллапс системы охлаждения — все еще может вызывать значительные локальные сбои.
Для бизнеса, полагающегося на эти платформы, вывод очевиден: хотя AWS надежен, он не неуязвим. Быстрое перенаправление трафика и последующее восстановление демонстрируют эффективность стратегий смягчения последствий AWS, но начальный сбой подчеркивает важность мультирегиональной архитектуры для приложений критической важности.
Таким образом, отказ системы охлаждения в Северной Вирджинии привел к временному, но значительному сбою в работе AWS, нарушив работу таких крупных приложений, как FanDuel и Coinbase, до стабилизации физических систем и восстановления сервисов.
