Amazon Web Services (AWS) ha fornito una spiegazione tecnica per la diffusa interruzione del servizio avvenuta alla fine di maggio 2026. L’interruzione, durata da giovedì a venerdì, è stata innescata da un “evento termico” in un singolo data center nella Virginia settentrionale, che ha portato a una completa perdita di energia.
Questo incidente evidenzia la fragilità delle dipendenze dell’infrastruttura cloud, anche per i sistemi progettati con ridondanza. Quando i componenti fisici principali si guastano, gli effetti a catena possono paralizzare istantaneamente le principali piattaforme rivolte ai consumatori, dagli scambi finanziari alle app di scommesse sportive.
Il guasto tecnico
Secondo un aggiornamento ufficiale sulla pagina di stato di AWS, la causa principale è stata un guasto nei sistemi di raffreddamento di una struttura specifica. Questo evento di surriscaldamento ha imposto l’adozione di un protocollo di sicurezza fondamentale: Amazon ha dovuto spostare il traffico lontano dalla zona di disponibilità interessata nel tardo pomeriggio di giovedì per evitare ulteriori danni all’hardware.
Il processo di risoluzione si è concentrato interamente sul ripristino dell’infrastruttura fisica prima che i servizi digitali potessero riprendere.
- Risposta iniziale: Il traffico è stato deviato lontano dalla zona compromessa.
- Restauro: Nel primo pomeriggio di venerdì, gli ingegneri hanno stabilizzato i sistemi di raffreddamento ai livelli pre-evento.
- Ripristino del servizio: questa stabilizzazione ha consentito ad AWS di ripristinare la maggior parte delle istanze EC2 danneggiate (server virtuali) e dei volumi EBS (storage).
“Il nostro sforzo principale durante la strategia di mitigazione dell’evento è stato quello di ripristinare la capacità dei nostri sistemi di raffreddamento. Entro l’8 maggio alle 13:50, siamo stati in grado di stabilizzare la capacità del sistema di raffreddamento ai livelli pre-evento, il che ci ha aiutato a ripristinare la maggior parte delle istanze EC2 danneggiate e dei volumi EBS”, ha affermato Amazon.
Anche se la maggior parte dei servizi è stata ripristinata, la società ha notato che un numero limitato di istanze e volumi di storage sono rimasti compromessi mentre continuavano gli sforzi di ripristino.
Impatto su utenti e imprese
L’interruzione non era solo un problema tecnico di backend; ha avuto conseguenze immediate e tangibili per gli utenti finali. Diverse applicazioni di alto profilo ospitate su AWS sono andate offline o hanno subito un peggioramento significativo, tra cui:
- FanDuel: Le piattaforme di scommesse sportive non erano in grado di elaborare le scommesse.
- Coinbase: Il trading di criptovalute è stato interrotto, impedendo agli utenti di eseguire operazioni.
Per gli utenti di queste piattaforme, i tempi di inattività hanno causato notevole frustrazione e potenziale incertezza finanziaria, in particolare durante gli orari di negoziazione attivi o gli eventi sportivi dal vivo. Tuttavia, man mano che AWS ha stabilizzato la propria infrastruttura, questi servizi sono gradualmente tornati al normale funzionamento.
Perché è importante
Questo incidente serve a ricordare che il cloud computing dipende ancora dall’hardware fisico. Sebbene AWS e altri fornitori creino un’ampia ridondanza su più zone e regioni, un guasto catastrofico in una singola zona, come il collasso del sistema di raffreddamento, può comunque causare interruzioni localizzate significative.
Per le aziende che si affidano a queste piattaforme, il punto è chiaro: sebbene AWS sia robusto, non è invincibile. Il rapido spostamento del traffico e il successivo ripristino dimostrano l’efficacia delle strategie di mitigazione di AWS, ma l’interruzione iniziale sottolinea l’importanza delle architetture multiregione per le applicazioni mission-critical.
In sintesi, un guasto al sistema di raffreddamento nella Virginia settentrionale ha causato un’interruzione temporanea ma significativa di AWS, interrompendo importanti app come FanDuel e Coinbase fino alla stabilizzazione dei sistemi fisici e al ripristino dei servizi.
