Le feu qui a dévasté une partie du centre de traitement de données (data center) d'OVH à Strasbourg rappelle aux sites web et aux services en ligne toute l'importance de prévoir de la redondance et de la résilience, pour pouvoir encaisser une telle catastrophe.

C’est une catastrophe qui rappelle cruellement que le cloud, malgré son image éthérée, repose sur des infrastructures bien physiques, et qu’elles peuvent donc être exposées à toutes sortes de problèmes. OVH est en train de faire la difficile expérience ce mercredi 10 mars, puisque l’entreprise française spécialisée dans l’hébergement web vient d’être victime d’un incendie important sur l’un de ses sites.

En cette fin de matinée, le feu est désormais maîtrisé, mais les pompiers sont toujours sur place pour assurer le refroidissement des bâtiments. Déjà, l’inventaire des dégâts a démarré : la première bonne nouvelle, c’est qu’il n’y a ni victime ni blessé, y compris chez les soldats du feu, qui étaient plus de cent à intervenir. Côté matériel, la situation est par contre beaucoup plus sombre.

Le centre de données qui a été affecté par les flammes est celui situé à Strasbourg — le groupe en a trente-et-un de plus, sur quatre continents (Europe, Amérique du Nord, Afrique et Asie-Océanie). Ce data center est composé de quatre parties, appelées SBG1, SBG2, SBG3 et SBG4. SBG désigne Strasbourg en abrégé. C’est dans SBG2 que le feu s’est déclaré, un peu avant une heure du matin.

La situation telle que Octave Klaba, le fondateur d’OVH, l’a décrite dans un fil sur Twitter est la suivante : SBG2 est détruit. Des portions de SBG1 également. SBG3 et SBG4 sont épargnés. Concernant SBG1, il apparaît que la salle réseau est préservée. Du côté des autres salles, huit n’ont pas été touchées. Par contre, quatre autres ont aussi été ravagées par les flammes.

Compte tenu du désastre et de la nécessité de déployer un périmètre de sécurité, tout a été mis hors ligne du côté de Strasbourg. Si SBG2 est perdu, il n’est pas prévu non plus de redémarrer aujourd’hui les trois autres sites. L’électricité a évidemment été coupée dans le feu de l’action. Octave Klaba ne préfère pas prophétiser le moment où les trois parties du data centrer plus ou moins saines et sauves pourront reprendre.

Hasard malheureux du calendrier, OVH annonçait la veille de l’incident sa certification ISO/IEC 27001 et ISO 27701 à l’ensemble de ses offres cloud, « afin, ajoutait le compte Twitter, de garantir une protection maximale des données de nos clients ». Et pour ne rien arranger, il est question d’une prochaine introduction en bourse de l’entreprise française. Difficile de faire plus mauvais alignement des planètes.

Sur les réseaux sociaux, les messages de sympathie à l’égard d’OVH se sont mêlés à des commentaires moins agréables à l’égard du prestataire, qui ont pointé la responsabilité de la société pour ne pas avoir mieux anticipé et géré cette catastrophe. D’autres réactions ont aussi fleuri pour se plaindre ou critiquer l’impossibilité d’OVH de relancer au moins les autres parties du data center.

Nombreux sites français touchés par l’incendie chez OVH

Dans ce flot de messages, il a aussi pu être observé des notifications de divers organismes signalant une indisponibilité de leurs sites ou de leurs services, ou à tout à le moins de soucis d’accès. C’est le cas par exemple de l’aéroport de Strasbourg-Entzheim, du Centre Pompidou à Paris, de la plateforme Data.gouv.fr ou encore du site consacré aux marchés publics.

Selon le journaliste Émile Marzolf, d’autres plateformes publiques comme celle dédiée à la dématérialisation des démarches administratives, le portail de la transformation de l’action publique, la direction interministérielle du numérique ou bien Etalab, la mission en charge d’alimenter le portail data.gouv.fr. De nombreux autres sites français ont aussi été touchés, signalent Le Monde et BFM TV.

Si en faire l’inventaire est bien trop chronophage, et peu intéressant, signalons que les sites de quelques villes (Vichy, Cherbourg, Arras, Saint-Ouen) ont été touchés, mais aussi des sites de clubs de sport, des sites de médias ou de partis politiques de petite envergure, CityScoot (l’application de scooters électriques en libre-service). Ce sont potentiellement des centaines de sites qui sont exposés.

Démarches simplifiées
Le site Démarches simplifiées indiquant par un bandeau l’existence d’un incendie chez son hébergeur.

Toutefois, les choses reviennent de toute évidence progressivement à la normale : le site Data.gouv.fr, qui accueille les données publiques de l’administration, a annoncé son retour en ligne. Idem pour le site de l’aéroport. Pour les marchés publics, ce devrait être bon dans l’après-midi du 10 mars. Le Centre Pompidou, lui, n’a pas repris la parole : son site web est toujours inaccessible.

Résilience et redondance, une exigence pour les sites web

Au-delà du retour d’expérience que cet incendie provoquera chez OVH, avec les éventuels changements nécessaires à exécuter dans les autres data centers du groupe, cette affaire illustre les enjeux de redondance (duplication des sauvegardes, voire des prestataires d’hébergement) et de résilience (résistance aux aléas) dont les sites web doivent absolument s’emparer pour avoir des plans de contingence pour pouvoir se rétablir rapidement quand une situation de crise semblable survient.

C’est particulièrement le cas pour les services les plus critiques ou les plus souverains. La perte temporaire de la plateforme Data.gouv.fr constitue un exemple parlant, même si elle a pu être rétablie rapidement. Cela passe, par exemple, par la nécessité, si l’on entre dans l’une ou l’autre de ces deux catégories, de faire appel à deux prestataires distincts, et non un seul, au cas où l’un des deux fait défaut.

À plus petite échelle, cela peut consister à passer par un prestataire pour l’hébergement et, pour ce qui est de la sauvegarde, d’opter pour une autre société. Pour aller plus loin encore, il peut être envisagé de séparer géographiquement ces deux hébergeurs : l’un peut tout à fait se trouver à Paris, tandis que l’autre à Roubaix — il y a d’ailleurs un data center d’OVH dans cette ville.

Comme cela a été signalé sur Twitter, les gros hébergeurs proposent des abonnements et des options spécifiques pour procéder à des sauvegardes automatiques et stockées dans d’autres centres de données. Mais si ce n’est pas le cas, il faut alors que le responsable d’exploitation du service déploie une autre stratégie. Sinon reprocher à OVH son manque de clairvoyance risque d’être un argument un peu court.

Quelques centres de données d’OVH. Il y en avait 27 au moment de cette infographie. Depuis, OVH est passé à 31. // Source : OVH

Tout ceci ne vient évidemment pas sans quelques investissements. Mais quand un tel désastre survient, c’est à ce moment-là que l’on paie vraiment, et beaucoup plus, les économies de bout de chandelle que l’on a cru faire en se passant de réplication et d’un plan cohérent de reprise ou de continuité de l’activité, afin justement de pouvoir franchir la survenue d’un incident majeur.

« OVH a 3 gros sites en France, fait remarquer un autre internaute sur Twitter. Donc quand tu es à Strasbourg, tu sauvegardes vers Gravelines ou Roubaix. Ça couvre un paquet de soucis déjà et sans trop se ruiner ». Ce n’est évidemment pas simple lorsque l’on est une structure de petite envergure avec des moyens limités, mais lorsqu’il s’agit de services liés à l’État, c’est indispensable, mais ça chiffre.

De fait, les gérants de sites les moins prévoyants pourraient découvrir avec horreur que des données pourraient être définitivement parties en fumée. C’est ce qui semble déjà se profiler pour le jeu Rust, de l’entreprise britannique Facepunch Studios, vient de signaler Eurogamer. « Nous nous attendons à un grand nombre de pertes de données sur les serveurs affectés », écrit-il sur Twitter.

En attendant d’y voir plus clair, Octave Klaba indique qu’un plan d’action est d’ores et déjà établi pour les deux prochaines semaines, avec la remise en place de l’acheminement électrique pour SBG3, mais aussi pour SBG1 et SBG4, la vérification des équipements dans l’une des salles réseau de SBG1, la reconstruction d’une salle réseau et le contrôle de l’état des liaisons en fibre optique entre Paris et Francfort.

Dans un communiqué plus formel, OVH précise que le groupe va mobiliser ses quinze centres de données en Europe pour, on l’imagine, redéployer ailleurs sur le continent ce qui peut l’être. L’évaluation des dégâts se poursuit. On l’imagine, OVH partagera sans doute d’ici quelques semaines un retour d’expérience de cette catastrophe. Il reste à savoir si les sites, eux aussi, auront tiré les conclusions qui s’imposent.

Partager sur les réseaux sociaux

La suite en vidéo