Alcuni di noi ricorderanno il 28 febbraio 2017 come il giorno in cui sembrava che internet si fosse ridotta alla metà a causa di una grave interruzione di AWS. Sembrava vagamente familiare al Doomsday del DNS dell’ottobre 2016. Anche chi non usa AWS ne ha risentito per script, dipendenze e risorse CDN che hanno cominciato a perdere tempo in tutto il web, portando migliaia di siti, API e applicazioni a un punto morto. Questo è un promemoria molto importante del perché il web ha bisogno di più fornitori di cloud computing per lo storage e la consegna. Le grandi aziende non stanno nemmeno approfittando della replica interregionale. Una sana concorrenza in questo spazio è sempre una buona cosa, in quanto riduce i costi per le imprese e i consumatori e implica una più ampia distribuzione di servizi e soluzioni tra più provider.

Interruzione di AWS

La mattina del 28 febbraio 2017 i servizi di Amazon S3, parte di Amazon Web Services, hanno iniziato a non funzionare. BuiltWith mostra che al momento oltre 600.000 gestori di siti si affidano ad AWS per alimentare i propri siti, storage o servizi. È stato anche segnalato che Amazon Cloud ha oltre 1 milione di clienti. Anche se potrebbe non sembrare tantissimo nell’ambito dell’intera Internet, ha avuto un enorme effetto onda sul web perché molti servizi che tutti noi utilizziamo quotidianamente si affidano ad Amazon S3.

Aggiornamento 3 marzo 2017 – Amazon ha pubblicato un riassunto dell’accaduto, dovuto ad un errore umano.

Da Kinsta usiamo molti prodotti Saas e abbiamo notato il problema per la prima volta quando Intercom, il nostro sistema di assistenza clienti e di ticketing, ha iniziato ad avere problemi con la connettività all’API, cosa che è stata prontamente annunciata sulla loro pagina di stato. Questo significa che non potevamo più rispondere ai ticket dei nostri clienti. Per mettere tutto questo nella giusta prospettiva, Intercom riusciva a gestire oltre 15.000 aziende con oltre 100.000 utenti e i rispettivi clienti. Per Intercom smettere di caricare all’improvviso è una cosa che ha delle conseguenze importanti!

Interruzioni AWS S3
Interruzioni AWS S3

L’ironia qui è che anche la loro StatusPage andava in timeout su alcuni elementi/script, per il fatto che stanno usando StatusPage, che si basa su Amazon CloudFront. Molte aziende hanno la stessa identica configurazione. Trello è un’altra applicazione che ha avuto problemi con AWS e anche la loro pagina di stato è andata offline. Pensiamo che questa sia una buona lezione che inviti a non utilizzare gli stessi provider di cloud computing sia per le API e i servizi che per la pagina di stato. Se entrambi vanno giù all’improvviso, si vanifica lo scopo di una pagina di stato.

amazon web services

Amazon ha pubblicato subito dopo un messaggio sulla sua pagina di stato:

Continuiamo a riscontrare alti tassi di errore con S3 in US-EAST-1, che sta avendo un impatto su vari servizi AWS. Stiamo lavorando duramente per riparare S3, crediamo di aver individuato la causa alla radice e stiamo lavorando per implementare ciò che riteniamo possa risolvere il problema.

La parte ironica è che, oltre al piccolo messaggio di errore sopra riportato, il resto degli indicatori di servizio mostrava che tutto funzionava normalmente.

amazon s3 status fine
Amazon S3 status fine

Quello che è successo è che la pagina di stato si basava in realtà sul corretto funzionamento di AWS S3. Quindi tecnicamente AWS ha interrotto AWS, se riuscite a capirlo.

L’interruzione di AWS S3 ha colpito migliaia di siti web, servizi, applicazioni e API in tutto il web. Molti dei nostri clienti qui da Kinsta utilizzano CloudFront o hanno plugin che caricano risorse da Amazon S3. Abbiamo notato che i siti WordPress hanno iniziato a perdere tempo a causa di risorse esterne non in grado di caricare, che poi sono apparsi per alcuni come errori 502 bad gateway. Noi utilizziamo Google Cloud Platform e non c’era niente che non andasse nei nostri server, eppure l’interruzione di AWS ha effettivamente colpito i nostri clienti. È una cosa da tenere a mente quando si sceglie un provider di CDN e di oggetti di terze parti. Le integrazioni esterne possono abbattere il vostro sito e potete imbattervi nel famoso errore 502 Bad Gateway!

amazon s3 file script
502 bad gateway
Tempi di inattività di Trello
Tempi di inattività di Trello

Usiamo Trello anche qui da Kinsta e quelli di noi con sede negli Stati Uniti non riuscivano più ad accedere alle schede, ma ricevevano un messaggio che diceva che i server Trello stavano ricevendo delle TLC. E, ironia della sorte, l’immagine di Sleep Taco era interrotta nel tentativo di caricare da CloudFront. Lettura suggerita: Trello contro Asana.

Altri siti popolari che sono andati giù o hanno avuto problemi sono stati Quora, Business Insider, Giphy, Hacker News, BaseCamp, Buffer, Imgur, Netlix, Docker, Github, Twitch, Adobe, HipChat, Flippa, Expedia, New Relic, PagerDuty, Pantheon, Sprout Social, Elastic, Citrix, Zendesk, Brightcloud, IFTTT, Heroku, Slack (file sharing e GIF), Typeform, e molti altri. Forse la cosa più ironica di tutte riguarda “Is It Down Right Now?“, che ha avuto problemi a rimanere in piedi. Naturalmente, ogni volta che questo accade, ci sono persone che vanno su Twitter per dare il loro feedback.

E ce ne sono altre migliaia. Anche se meme e i tweet possono essere divertenti, la cose spaventosa qui è proprio la quantità di mercato del cloud computing di Amazon e l’effetto che ha quando va giù. In effetti ci sono solo un paio di attori che a contendersi la quota di mercato. Secondo uno studio del 2017 del Synergy Research Group, AWS detiene poco più del 40% dello spazio dei provider di cloud computing. Poi ci sono Microsoft Azure, Google e IBM, che competono per circa il 20%. E, naturalmente, ci sono migliaia di altri provider più piccoli che lottano per la parte restante.

Quota di mercato dei fornitori di cloud computing
Quota di mercato dei fornitori di cloud computing

Anche se Google Cloud Platform detiene solo circa la metà della quota di mercato di Amazon, siamo contenti di vedere una crescita di oltre il 5%. E ci piacerebbe vedere altri fornitori entrare in questo spazio, perché è una vittoria per tutte le persone coinvolte. Diffondere i servizi tra più provider potrebbe evitare situazioni come queste, in cui sembra che l’intero web sia andato giù.

Esistono Provider di Cloud Computing Alternativi

Di seguito sono riportati alcuni provider di cloud computing alternativi da conoscere per la consegna dei file, le API e le applicazioni. Non stiamo dicendo che Amazon sia male, infatti normalmente hanno un ottimo uptime. Ma molte aziende e clienti scelgono AWS perché sembra utilizzato da tutti, il che non è un buon motivo per scegliere un provider di cloud computing. Dopo aver visto cosa è successo oggi, potrebbe essere saggio distribuire. Come ad esempio ospitare le risorse del sito pubblico su un provider e utilizzarne un altro per le API. In questo modo si può almeno costruire con qualche semplice ridondanza in modo che non vada tutto offline.

Molti provider hanno anche un supporto multiregionale o una replica interregionale, su cui dovreste ospitare le vostre applicazioni critiche. Tuttavia, sembra che molte aziende non utilizzino questi servizi. Questa può essere una configurazione più complessa, il che potrebbe essere uno dei motivi per cui questa configurazione non viene sfruttata. Oppure per i costi aggiuntivi. Ma un numero maggiore di fornitori di cloud sul mercato sarebbe semplicemente un modo semplice per spingere verso una più ampia distribuzione dei servizi tra più fornitori.

Google Cloud

Noi siamo ovviamente grandi fan di Google Cloud Platform, sia per il loro Compute Engine che per il cloud storage, in quanto li utilizziamo per alimentare tutti i nostri siti WordPress. Infatti, SADA Systems ha recentemente intervistato più di 200 manager IT sull’utilizzo dei servizi cloud pubblici e ha scoperto che il 49% preferisce Google Cloud rispetto ad Amazon.

I responsabili IT utilizzano Google Cloud
I responsabili IT utilizzano Google Cloud

Date un’occhiata al nostro articolo approfondito sui 7 principali vantaggi di Google Cloud Platform. Naturalmente avete anche altri provider che offrono capacità di calcolo insieme a soluzioni di storage:

Altri Aggiornamenti da Amazon S3

Da allora i servizi di Amazon S3 sono stati ripristinati e tutto è di nuovo operativo. Ecco altri aggiornamenti di stato:

  • Aggiornamento alle 14:08 PM PST: A partire dalle 1:49 PM PST, sono state ripristinate le operazioni di aggiunta di nuovi oggetti in S3, che è stata la nostra ultima operazione che ha mostrato un alto tasso di errore. Il servizio Amazon S3 funziona normalmente.
  • Aggiornamento alle ore 1:12 PM PST: il recupero, l’elencazione e la cancellazione degli oggetti S3 sono ora completamente ripristinati. Stiamo ancora lavorando per ripristinare le normali operazioni di aggiunta di nuovi oggetti a S3.
  • Aggiornamento alle 12:52 PM PST: Stiamo ripristinando il recupero, l’elencazione e la cancellazione di oggetti S3. Continuiamo a lavorare sul ripristino dell’aggiunta di nuovi oggetti a S3 e ci aspettiamo di iniziare a vedere tassi di errore migliori entro un’ora.

Riepilogo

Pensiamo che tutti possano trarre qualche lezione da quello che è successo con AWS. Non c’è un provider di cloud che sia perfetto, e questo un motivo in più per sperare di vedere crescere la concorrenza in questo spazio. Sarebbe fantastico vedere un giorno 10 o più provider contendersi equamente la quota di mercato, perché questo significherebbe più servizi distribuiti sul web. Se uno andasse giù, non avremmo un effetto a catena come quello di oggi. Cosa ne pensate? Abbiamo bisogno di più provider di cloud computing nello spazio?

Brian Jackson

Brian ha una grande passione per WordPress, lo usa da più di dieci anni e sviluppa anche un paio di plugin premium. Brian ama i blog, i film e le escursioni. Entra in contatto con Brian su Twitter.