x.

Q&A Rapport d’incident GCP

Retrouvez ci-dessous les FAQs sur l'incident GCP du 26 Avril

Qu’est-ce qui a déclenché l’incident ?

Le 26 avril, les services de paiement de Payplug ont été interrompus suite à l’incident de Google Cloud Platform (GCP) qui a touché la région de Paris.

 

Un incident dans un datacenter où est située une partie de la région cloud de Google en France a déclenché une réaction en chaîne entraînant une interruption de services informatiques sur l’ensemble de la région.

Pourquoi cet incident de Google a déclenché l'indisponibilité des services de Payplug ?

Notre architecture technique prévoyait l’hébergement de nos services au sein de trois zones d’hébergement distinctes. Un ensemble de « zones » forme ensuite une « région ».

 

Les services fournis par Google utilisés par Payplug sont prévus pour permettre une bascule automatique et transparente des services entre zones de la même région en cas d’avarie technique sur une des zones. Ainsi, notre plateforme utilisait trois zones différentes – au sein d’une même région (la France) – afin de nous protéger en cas d’indisponibilité.

 

Notre Plan de Continuité d’Activité (PCA) tenait ainsi compte, avec cette infrastructure redondée sur 3 zones en France, des contraintes permettant de ne pas rencontrer d’interruption de service. 

 

A ce stade, nous sommes toujours en discussion avec Google pour comprendre comment l’indisponibilité d’une zone a pu déclencher une réaction en chaîne à l’échelle de la région.

Qu’est-ce qui a été mis en place pour corriger l’incident ?

Au cours de la journée du 26 avril, les équipes techniques de Payplug ont travaillé afin de rétablir notre plateforme sur une autre région, en Belgique, étant donné que toute la France demeurait indisponible pour une durée indéterminée. 

 

L’objectif immédiat était de rétablir le processing des paiements le plus rapidement possible tout en garantissant la sécurité de nos services.

Aujourd’hui, l’ensemble de notre processing est réalisé sur l’infrastructure de GCP dans la région Belgique, avec un dispositif multi-régions pour la sécurisation et la disponibilité des données.

 

L’architecture technique actuelle ne repose donc plus uniquement sur plusieurs zones au sein d’une même région, mais intègre une dimension multi-régions sur les services ayant été impactés par l’incident.

Chronologie simplifiée de l’incident

26/04/2023 – 2:05 L’équipe d’astreinte de Payplug constate que les serveurs de base de données de la zone A de la région GCP France (europe-west9) ne répondent plus. Grâce à la redondance active multi-zones de la plateforme Payplug, cela n’impacte pas le processing.

 

26/04/2023 – 4:00 Communication officielle de GCP indiquant une panne touchant la zone A et informant leurs clients qu’ils peuvent utiliser les autres zones en cas d’impact.

 

26/04/2023 – 4:41 Première interruption du processing due au déclenchement de la protection « anti split brain » de la configuration master/master des BDs.

 

26/04/2023 – 5:10 L’équipe d’astreinte rétablit le service de processing après configuration du proxy SQL.

 

26/04/2023 – 5:16 Payplug lance une cellule de crise tech avec les experts techniques, le Head of Infra, le Head of Platform et le CTO.

 

26/04/2023 – 5:51 GCP communique sur un dégât des eaux dans la zone A ayant entraîné un arrêt en urgence de matériels dans la zone A. Ils informent leurs clients qu’ils peuvent utiliser les autres zones de la région Paris en cas d’impact.

 

26/04/2023 – 8:05 GCP annonce l’arrêt urgent de plusieurs zones ainsi que la perte attendue de l’ensemble de la région pour une durée que GCP indique ne pouvoir estimer (pas d’ETA). Leurs équipes recommandent à leurs clients de se déplacer vers une autre région.

 

26/04/2023 – 8:30 L’équipe Payplug constate que les zones A et C ne sont plus disponibles et que les services de processing ne sont plus accessibles sur la zone B, provoquant un arrêt complet du service pour les clients.

 

26/04/2023 – 8:47 En conclusion de l’analyse des différentes options possibles pour restaurer le plus rapidement possible le service de processing, et afin d’assurer l’intégrité des données, la cellule de crise Payplug décide de migrer les bases de données vers la région GCP Belgique et de réactiver les services sur les datacenters privés de Payplug. Cette décision est dans la continuité des recommandations des équipes de GCP de se déplacer vers une autre région.

 

26/04/2023 – 8:50 Début des tentatives d’utilisation des snapshots des disques pour le transfert des données vers la Belgique, Le service « Google Cloud Storage » n’étant plus accessible sur la région France, l’utilisation des snapshots s’avère impossible.

 

26/04/2023 – 9:34 Décision de la cellule de crise d’arrêter les BDs (Bases de données) sur la région France et de lancer des copies des données binaires les plus récentes vers deux buckets multi-région. 

 

26/04/2023 – 12:20 Les perturbations importantes affectant globalement la console de management GCP ont pour conséquence de ralentir énormément l’ensemble des actions de restauration des services en Belgique, en particulier les actions de création des nouveaux serveurs de BD en Belgique.

 

26/04/2023 – 14:24 Début des actions de restauration des services sur GCP Belgique.

 

26/04/2023 – 16:30 Fin du chargement des BDs nécessaires au processing sur le bucket multi régional et lancement des copies du bucket vers les serveurs en Belgique.

 

26/04/2023 – 18:15 Fin de la restauration de la dernière base de données nécessaires au fonctionnement du service de processing.

 

26/04/2023 – 18:47 Réouverture progressive des flux.

 

26/04/2023 – 19:58 Retour intégral du trafic.

Les canaux de communication vers nos clients et partenaires

Du 26 au 28 avril, nous avons communiqué de manière intense à nos marchands afin de les tenir informés le plus rapidement possible de l’évolution de la situation. En particulier, notre page status (https://status.payplug-enterprise.com/ ou https://status.payplug.com/)  est notre meilleur outil au quotidien pour informer en temps réel nos marchands et leurs agences de l’état de la plateforme. 

Afin de répondre à toutes vos questions, et dans un souci de transparence, nous vous proposons de rejoindre Antoine Grimaud, CEO et Armand Dos Santos, CTO pour une session de Q&A le jeudi 25 mai à 13h30. Pour vous inscrire à cette session, cliquez sur ce lien.

Session de Q&A le jeudi 25 mai à 13h30
avec Antoine Grimaud, CEO et Armand Dos Santos, CTO