Сбой в AWS: как отказ системы охлаждения в Вирджинии парализовал популярные сервисы

16

Amazon Web Services (AWS) представил техническое объяснение масштабного сбоя, произошедшего в конце мая 2026 года. Инцидент, длившийся с четверга до пятницы, был вызван «тепловым событием» в одном из дата-центров в Северной Вирджинии, что привело к полной потере электропитания.

Этот случай подчеркивает уязвимость зависимостей облачной инфраструктуры, даже в системах, спроектированных с учетом резервирования. Когда выходят из строя ключевые физические компоненты, последствия могут мгновенно парализовать крупные пользовательские платформы — от финансовых бирж до приложений для спортивных ставок.

Технические детали

Согласно официальному обновлению на странице статуса AWS, первопричиной стал отказ систем охлаждения в одном конкретном объекте. Этот перегрев активировал критический протокол безопасности: Amazon был вынужден перенаправить трафик от пострадавшей Зоны доступности (Availability Zone) во второй половине дня в четверг, чтобы предотвратить дальнейшее повреждение оборудования.

Процесс восстановления был сосредоточен исключительно на восстановлении физической инфраструктуры до того, как цифровые сервисы могли быть возобновлены.

  • Первоначальная реакция: Трафик был перенаправлен из скомпрометированной зоны.
  • Восстановление: К раннему дню пятницы инженеры стабилизировали системы охлаждения до уровня, предшествующего инциденту.
  • Восстановление сервисов: Эта стабилизация позволила AWS восстановить подавляющее большинство поврежденных экземпляров EC2 (виртуальных серверов) и томов EBS (хранилища).

«Наше основное усилие в рамках стратегии смягчения последствий было направлено на восстановление мощности систем охлаждения. 8 мая в 13:50 нам удалось стабилизировать мощность систем охлаждения до уровня, предшествующего инциденту, что помогло нам восстановить подавляющее большинство поврежденных экземпляров EC2 и томов EBS», — заявили в Amazon.

Хотя основная часть сервисов была восстановлена, компания отметила, что небольшое количество экземпляров и томов хранилища оставалось в нерабочем состоянии по мере продолжения работ по восстановлению.

Влияние на пользователей и бизнес

Сбой стал не просто технической проблемой на стороне сервера; он имел немедленные и осязаемые последствия для конечных пользователей. Несколько высокопрофильных приложений, размещенных в AWS, были недоступны или работали со значительными перебоями, включая:

  • FanDuel: Платформы для спортивных ставок не могли обрабатывать ставки.
  • Coinbase: Торговля криптовалютой была нарушена, что не позволяло пользователям выполнять операции.

Для пользователей этих платформ простой вызвал значительное раздражение и потенциальную финансовую неопределенность, особенно в часы активной торговли или во время прямых трансляций спортивных событий. Однако по мере стабилизации инфраструктуры AWS эти сервисы постепенно вернулись к нормальной работе.

Почему это важно

Этот инцидент служит напоминанием о том, что облачные вычисления по-прежнему зависят от физического оборудования. Хотя AWS и другие провайдеры создают обширные системы резервирования между несколькими зонами и регионами, катастрофический отказ в одной зоне — такой как коллапс системы охлаждения — все еще может вызывать значительные локальные сбои.

Для бизнеса, полагающегося на эти платформы, вывод очевиден: хотя AWS надежен, он не неуязвим. Быстрое перенаправление трафика и последующее восстановление демонстрируют эффективность стратегий смягчения последствий AWS, но начальный сбой подчеркивает важность мультирегиональной архитектуры для приложений критической важности.

Таким образом, отказ системы охлаждения в Северной Вирджинии привел к временному, но значительному сбою в работе AWS, нарушив работу таких крупных приложений, как FanDuel и Coinbase, до стабилизации физических систем и восстановления сервисов.