x.

Q&A Incidente post GCP

COSA HA PROVOCATO L'INCIDENTE?

Il 26 aprile, i servizi di pagamento di Payplug sono stati interrotti in seguito all’incidente di Google Cloud Platform (GCP) che ha colpito l’area di Parigi.

Un incidente in un centro dati in cui si trova parte della regione cloud di Google in Francia che ha innescato una reazione a catena che ha portato all’interruzione dei servizi IT in tutta la regione.

PERCHÉ L'INCIDENTE DI GOOGLE HA CAUSATO L'INDISPONIBILITÀ DEI SERVIZI DI PAYPLUG?

La nostra architettura tecnica prevede che i nostri servizi siano ospitati in tre zone di hosting separate. Un insieme di “zone” forma quindi una “regione”.

I servizi forniti da Google e utilizzati da Payplug sono progettati per consentire il passaggio automatico e trasparente dei servizi tra le zone della stessa regione in caso di guasto tecnico in una delle zone. Pertanto, la nostra piattaforma utilizza tre zone diverse – all’interno della stessa regione (Francia) – per proteggerci in caso di indisponibilità.

Il nostro piano di continuità operativa (BCP) ha quindi tenuto conto, con questa infrastruttura ridondante in tre zone della Francia, dei vincoli che ci avrebbero permesso di evitare interruzioni del servizio.

In questa fase, stiamo ancora discutendo con Google per capire come l’indisponibilità di una zona avrebbe potuto innescare una reazione a catena a livello regionale.

COSA È STATO FATTO PER CORREGGERE L'INCIDENTE?

Durante la giornata del 26 aprile, i team tecnici di Payplug hanno lavorato per ristabilire la nostra piattaforma in un’altra regione, in Belgio, mentre l’intera Francia è rimasta indisponibile per un periodo indefinito.

L’obiettivo immediato era quello di ripristinare l’elaborazione dei pagamenti il più rapidamente possibile, garantendo al contempo la sicurezza dei nostri servizi.

Oggi tutte le nostre operazioni vengono eseguite sull’infrastruttura di GCP in Belgio, con un sistema multiregionale per la sicurezza e la disponibilità dei dati.

L’attuale architettura tecnica non è quindi più basata solo su diverse zone all’interno della stessa regione, ma integra una struttura multiregionale per i servizi che sono stati colpiti dall’incidente.

CRONOLOGIA SEMPLIFICATA DELL'INCIDENTE

26/04/2023 – 2:05 Il team di pronto intervento Payplug ha notato che i server del database nella zona A della regione GCP Francia (europa-ovest9) non rispondevano. Grazie alla ridondanza attiva multizona della piattaforma Payplug, questo non ha avuto alcun impatto sull’elaborazione.

26/04/2023 – 4:00 Comunicazione ufficiale di GCP che segnala un’interruzione di servizio nella zona A e informa i clienti che possono utilizzare le altre zone in caso di problemi.

26/04/2023 – 4:41 Prima interruzione dell’elaborazione dei pagamenti dovuta all’attivazione della protezione “anti split brain” della configurazione master/master dei BDs.

26/04/2023 – 5:10 Il team di reperibilità ripristina il servizio di elaborazione dopo aver configurato il proxy SQL.

26/04/2023 – 5:16 Payplug avvia una cellula di emergenza tecnica con gli esperti tecnici, il responsabile dell’infrastruttura, il responsabile della piattaforma e il CTO.

26/04/2023 – 5:51 GCP comunica di aver subito un incidente d’acqua nella zona A, che ha comportato l’arresto d’emergenza delle apparecchiature nella zona A. Informa i clienti che possono utilizzare le altre zone della regione di Parigi in caso di impatto.

26/04/2023 – 8:05 GCP annuncia lo stato di emergenza di diverse zone e la perdita prevista dell’intera regione per una durata che GCP non è in grado di stimare (nessuna data di arrivo prevista). I loro team consigliano ai clienti di spostarsi in un’altra regione.

26/04/2023 – 8:30 Il team di Payplug rileva che le zone A e C non sono più disponibili e che i servizi di elaborazione non sono più accessibili nella zona B, causando un arresto completo del servizio per i clienti.

26/04/2023 – 8:47 A seguito dell’analisi delle diverse opzioni possibili per ripristinare il servizio di elaborazione nel più breve tempo possibile, e al fine di garantire l’integrità dei dati, il team d’emergenza di Payplug ha deciso di migrare i database nella regione GCP Belgio e di riattivare i servizi sui datacenter privati di Payplug. Questa decisione è in linea con le raccomandazioni dei team GCP di spostarsi in un’altra regione.

26/04/2023 – 8:50 Inizio dei tentativi di utilizzo delle istantanee su disco per il trasferimento dei dati in Belgio; poiché il servizio Google Cloud Storage non è più accessibile nella regione francese, l’utilizzo delle istantanee si rivela impossibile.

26/04/2023 – 9:34 Decisione dell’unità di emergenza di arrestare i database della regione francese e di lanciare le copie dei dati binari più recenti su due bucket multiregione.

26/04/2023 – 12:20 Le gravi interruzioni che hanno interessato la console di gestione di GCP a livello globale hanno comportato un enorme rallentamento di tutte le azioni di ripristino dei servizi in Belgio, in particolare le azioni di creazione di nuovi server DB in Belgio.

26/04/2023 – 14:24 Inizio delle azioni di ripristino del servizio su GCP Belgio.

26/04/2023 – 16:30 Fine del caricamento dei DB necessari per l’elaborazione sul bucket multiregionale e avvio delle copie del bucket sui server in Belgio.

26/04/2023 – 18:15 Fine del ripristino dell’ultimo database necessario per il servizio di elaborazione.

26/04/2023 – 18:47 Riapertura progressiva dei flussi.

26/04/2023 – 19:58 Ripresa totale del traffico.

Canali di comunicazione con i nostri clienti e partner

Dal 26 al 28 aprile abbiamo comunicato in maniera intensa con i nostri esercenti per tenerli informati il più rapidamente possibile sull’evoluzione della situazione. In particolare, la nostra pagina di stato (https://status.payplug-enterprise.com/ o https://status.payplug.com/) è il nostro miglior strumento per informare in tempo reale i nostri esercenti e le loro agenzie sullo stato della piattaforma.

Siamo a tua disposizione per qualsiasi altra domanda.

Assistenza Soluzione chiavi in mano

Offerta Starter, Pro, Premium

Assistenza Grandi conti

Offerta Enterprise