Explicación de la interrupción de AWS: cómo una falla de refrigeración en Virginia interrumpió las principales aplicaciones

6

Amazon Web Services (AWS) ha proporcionado una explicación técnica para la interrupción generalizada del servicio que se produjo a finales de mayo de 2026. La interrupción, que se extendió del jueves al viernes, fue provocada por un “evento térmico” en un único centro de datos en el norte de Virginia, lo que provocó una pérdida total de energía.

Este incidente pone de relieve la fragilidad de las dependencias de la infraestructura de la nube, incluso para sistemas diseñados con redundancia. Cuando los componentes físicos centrales fallan, el efecto dominó puede paralizar instantáneamente las principales plataformas orientadas al consumidor, desde intercambios financieros hasta aplicaciones de apuestas deportivas.

El desglose técnico

Según una actualización oficial en la página de estado de AWS, la causa principal fue una falla en los sistemas de enfriamiento en una instalación específica. Este evento de sobrecalentamiento obligó a aplicar un protocolo de seguridad crítico: Amazon tuvo que desviar el tráfico de la Zona de disponibilidad afectada durante la tarde del jueves para evitar más daños al hardware.

El proceso de resolución se centró por completo en restaurar la infraestructura física antes de que pudieran reanudarse los servicios digitales.

  • Respuesta inicial: El tráfico se desvió fuera de la zona comprometida.
  • Restauración: A primera hora de la tarde del viernes, los ingenieros estabilizaron los sistemas de refrigeración a los niveles previos al evento.
  • Recuperación del servicio: Esta estabilización permitió a AWS restaurar la mayoría de las instancias EC2 (servidores virtuales) y volúmenes de EBS (almacenamiento) deteriorados.

“Nuestro principal esfuerzo durante la estrategia de mitigación del evento fue recuperar la capacidad de nuestros sistemas de enfriamiento. Para el 8 de mayo a la 1:50 p. m., pudimos estabilizar la capacidad del sistema de enfriamiento a los niveles previos al evento, lo que nos ayudó a restaurar la mayoría de las instancias EC2 y volúmenes de EBS deteriorados”, afirmó Amazon.

Si bien se restableció la mayor parte de los servicios, la compañía señaló que una pequeña cantidad de instancias y volúmenes de almacenamiento permanecían afectados a medida que continuaban los esfuerzos de recuperación.

Impacto en usuarios y empresas

La interrupción no fue sólo un problema técnico de backend; tuvo consecuencias inmediatas y tangibles para los usuarios finales. Varias aplicaciones de alto perfil alojadas en AWS se desconectaron o experimentaron una degradación significativa, entre ellas:

  • FanDuel: Las plataformas de apuestas deportivas no pudieron procesar las apuestas.
  • Coinbase: El comercio de criptomonedas se vio interrumpido, lo que impidió a los usuarios ejecutar operaciones.

Para los usuarios de estas plataformas, el tiempo de inactividad causó una frustración significativa y una posible incertidumbre financiera, particularmente durante las horas de negociación activa o eventos deportivos en vivo. Sin embargo, a medida que AWS estabilizó su infraestructura, estos servicios volvieron gradualmente a funcionar con normalidad.

Por qué esto es importante

Este incidente sirve como recordatorio de que la computación en la nube todavía depende del hardware físico. Si bien AWS y otros proveedores crean una amplia redundancia en múltiples zonas y regiones, una falla catastrófica en una sola zona (como el colapso del sistema de enfriamiento) aún puede causar interrupciones localizadas importantes.

Para las empresas que dependen de estas plataformas, la conclusión es clara: si bien AWS es sólido, no es invencible. El rápido cambio de tráfico y la posterior restauración demuestran la eficacia de las estrategias de mitigación de AWS, pero la interrupción inicial subraya la importancia de las arquitecturas multirregionales para aplicaciones de misión crítica.

En resumen, una falla de refrigeración en el norte de Virginia provocó una interrupción temporal pero significativa de AWS, lo que interrumpió aplicaciones importantes como FanDuel y Coinbase hasta que los sistemas físicos se estabilizaron y se restauraron los servicios.