Un compte-rendu de la panne qu'a subi Google Cloud éclaire sur les causes de l'incident. L'occasion aussi pour l'entreprise de minimiser la portée du dysfonctionnement.

En règle générale, il est très rare que les services Google tombent en panne. Le géant du net assure d’ordinaire un très haut degré de disponibilité à ses diverses applications — ce qui est d’autant plus remarquable quand on songe au trafic auquel il fait face. Aussi, lorsqu’un incident survient, cela se remarque rapidement.

Les internautes ont pu le constater le 2 juin au soir, lorsque des problèmes avec Google Cloud ont perturbé l’accès aux produits de la firme de Mountain View (comme YouTube, Gmail, Drive ou Analytics), ainsi qu’à des services tiers se reposant sur la plateforme de l’entreprise américaine pour bénéficier de serveurs pour avoir accès à de l’espace de stockage ou à de la puissance de calcul.

Des problèmes rapportés sur Snapchat, dans la soirée du 2 juin. // Source : downdetector.com

Souci de configuration

L’origine du problème se trouve dans un changement de configuration sur les serveurs d’une même région géographique. Au départ, seul un petit nombre devait recevoir cette modification, sauf qu’elle a été appliquée par erreur à d’autres installations, notamment à des serveurs situés ailleurs. Cela a entraîné une congestion du réseau, à son ralentissement et à l’inaccessibilité des services.

Google assure que l’incident a été détecté par ses serveurs dans les secondes qui ont suivi son apparition, sauf que l’encombrement des réseaux a aussi nui… aux équipes mobilisées pour résoudre le problème. Au lieu que l’incident ne soit résolu en quelques minutes, il a fallu beaucoup plus de temps à l’entreprise américaine pour parvenir à rétablir la précédente configuration.

Un incident pas si étendu ?

Un épisode fâcheux pour l’image de marque de Google, mais qui n’aurait pas été si terrible que cela, à lire le compte-rendu des évènements de Benjamin Treynor Sloss, le patron de l’ingénierie chez Google. C’est lui qui a la lourde tâche d’atteindre le degré de fiabilité le plus haut possible avec les infrastructures du géant du net (sites, serveurs, centres de données, réseaux, etc.).

« Dans l’ensemble, YouTube a enregistré une baisse de 2,5 % du nombre de visites pendant une heure, tandis que Google Cloud Storage a enregistré une réduction de 30 % du trafic. Environ 1 % des utilisateurs actifs de Gmail ont eu des problèmes avec leur compte ». Bref, la panne, bien qu’elle ait duré quand même quelques heures, n’aurait eu que peu d’incidence, sauf peut-être pour Google Cloud Storage.

Mais à l’échelle d’un poids lourd du web, le moindre pourcentage peut en réalité cacher des millions d’internautes : un pourcent d’1,5 milliard d’utilisateurs actifs de Gmail, ce sont toujours 15 millions de personnes. Benjamin Treynor Sloss en convient : « Bien qu’il s’agisse d’une petite fraction des utilisateurs, elle représente encore des millions d’utilisateurs qui n’ont pas pu recevoir ou envoyer de courriels » pendant la période d’interruption de service.

D’autant que l’écosystème Google n’est pas le seul à avoir souffert : Snapchat a été l’une des grandes victimes collatérales de ce dysfonctionnement, en témoigne l’émergence d’un mot-clé dédié à l’évènement. Il faut rappeler que de nombreuses autres applications passent par Google Cloud pour fonctionner. C’est le cas par exemple de Buffer, Discord, Pokémon Go et Spotify.

Régions et zones de Google Cloud.

Point de vulnérabilité

Cet incident aurait-il pu passer inaperçu sans une telle concentration dans le cloud et une si forte dépendance à une poignée de prestataires (outre Google, il y a essentiellement Amazon et Microsoft sur le marché) ?

La question se pose : certes, la firme de Mountain View dispose de moyens pratiquement uniques pour assurer un très haut niveau de disponibilité, degré que n’atteindraient peut-être pas les clients de Google Cloud s’ils assuraient eux-mêmes ce type de prestation, mais cela fait de Google Cloud un point de vulnérabilité : s’il tombe, il entraîne dans sa chute les produits de son groupe et ceux des autres.

google-cloud-platform

Cette problématique est passée sous silence dans le compte-rendu de Google. Par contre, le groupe indique être en train de tirer les conclusions de l’incident pour faire en sorte qu’il ne puisse plus se reproduire à l’avenir. En particulier, il s’agit de « comprendre tous les facteurs qui ont contribué à la fois à la perte de capacité du réseau et à la lenteur de sa restauration », déclare le responsable.

Au sein de l’écosystème Google, presque tous les produits de l’entreprise ont subi la panne, peut-on constater dans le tableau de bord mis à disposition par la société pour vérifier s’ils sont opérationnels. L’incident a duré environ quatre heures. Il s’est achevé aux alentours de 1h30 du matin, dans la nuit du dimanche 2 au lundi 3 juin.

Partager sur les réseaux sociaux