Grave panne chez OVH : tous les serveurs sont rétablis, annonce l'hébergeur

Résumé par IA, vérifié par Numerama

Recevez tous les soirs un résumé de l’actu importante avec Le Récap’

Sale journée pour OVH. L’hébergeur français a été confronté le 9 novembre à deux incidents importants — et très rares — sur certains de ses centres de données. Quatre jours plus tard, les derniers serveurs ont été rétablis.

OVH a certainement connu meilleur jeudi. Les clients de l’hébergeur français aussi, on l’imagine. Il faut dire que ce matin-là, l’entreprise a été confrontée à la loi de l’emmerdement maximal puisque les sources d’approvisionnement électrique de deux de ses centres de données basés à Strasbourg (SBG1 et SBG4) sont tombées, tandis que les deux groupes électrogènes n’ont pas pris le relais. En parallèle, sur Roubaix, c’était un problème sur le réseau optique qui s’est manifesté, isolant un autre centre de données.

C’est ce que a raconté Octave Klaba, le fondateur et patron de la société, sur Twitter : « nous avons un souci d’alimentation de SBG1/SBG4. Les 2 arrivées électriques EDF sont tombées et les 2 chaines de groupes électrogènes se sont mises en défaut. L’ensemble de 4 arrivées électriques n’alimentent plus la salle de routage. Nous sommes tous sur le problème ».

Nous avons un souci d'alimentation de SBG1/SBG4. Les 2 arrivées électriques EDF sont down (!!) et les 2 chaines de groupes électrogènes se sont mis en défaut (!!!). L’ensemble de 4 arrivées elec n'alimentent plus la salle de routage. Nous sommes tous sur le problème.
— Octave Klaba (@olesovhcom) November 9, 2017

Faute pour les équipes d’OVH de pouvoir communiquer normalement sur l’incident sur la rubrique dédiée aux incidents, c’était sur les réseaux sociaux que le groupe a donné des nouvelles de la situation. Du moins, le temps que les premières infrastructures soient rétablies afin de permettre une communication normale auprès de la clientèle de la société. Il a fallu quelques heures avant cela ne soit possible.

Et on ne peut pas dire que tout s’est passé pour le mieux pour l’hébergeur, qui a paru tomber de Charybde en Scylla : « en plus de souci sur Strasbourg, nous avons le souci sur le réseau optique en Europe qui interconnecte Roubaix et Gravelines avec les POP [points de présence pour l’interconnexion]. Il est tombé », a poursuivi Octave Klaba. Roubaix et Gravelines sont deux autres villes dans lesquelles se trouvent des centres de données d’OVH.

RBX: all optical links 100G from RBX to TH2, GSW, LDN, BRU, FRA, AMS are down.
— Octave Klaba (@olesovhcom) November 9, 2017

Concernant la situation à Strasbourg, Octave Klaba a indiqué qu’ERDF a cherché à repérer où se situait le problème. « Deux lignes séparées de 20 kV sont tombées. Nous essayons de redémarrer les deux générateurs A+B pour SBG1 et SBG4. Deux autres générateurs A+B fonctionnent sur SBG2. Un salle de routage est dans SBG 1 et la deuxième est dans SBG2. Les deux sont tombées ».

L’étendue de ce double incident est pour l’instant indéterminée mais il est d’ores et déjà acquis que le problème est très significatif : signalons par exemple que BFM Business, Radio Perfecto et Cozy Cloud ont indiqué avoir des soucis d’accès à leurs sites web ou services. Néanmoins, au bout de quelques heures d’intervention, la situation a commencé à s’améliorer avec la relance d’un groupe électrogène.

Bonjour à tous, nous subissons actuellement quelques turbulences sur le site de BFM Business, inaccessible pour certains. #workinprogress pic.twitter.com/JNkzJU93RC
— BFM Business (@bfmbusiness) November 9, 2017

Suite à un incident chez OVH notre infrastructure est temporairement indisponible, nous vous donnerons des nouvelles dès que possible.
— Cozy Cloud Status (@CozyCloudStatus) November 9, 2017

Dans d’autres tweets publiés, Octave Klaba a donné des nouvelles de la remise en route des liaisons au niveau du centre de données de Roubaix. Le retour à la normale pour ce centre de données a été annoncé par les équipes de l’entreprise. Concernant Strasbourg, l’intervention s’est prolongée sur le week-end et ce n’est que dans la nuit que les ultimes problèmes ont été réglés.

« Cette nuit, nous avons fixé les derniers serveurs avec le problème matériel. Tous les serveurs sont en ligne », a écrit Octave Klaba dans la matinée du lundi 13 novembre. Quelques jours plus tôt, le patron d’OVH expliquait « qu’habituellement, il y a entre 1 et 2 % des serveurs qui ne redémarrent pas après un arrêt électrique brutal, à cause de problèmes matériels ».

Sur la page consacrée à l’incident, OVH raconte que « les serveurs démarrent seuls et automatiquement, normalement, sauf qu’il y a toujours un faible pourcentage de serveurs qui ont eu des problèmes divers et variés ». Et sur un centre comme Strasbourg, il y a plus de 50 000 serveurs ; donc même avec un pourcentage faible, ce sont des centaines voire des milliers de serveurs qu’il faut traiter :

problème matériel, la carte mère à remplacer, l’alimentation qui
n’a pas supporté la coupure ;
problème de boot, le montage de disques, le kernel panic, la
compatibilité entre le kernel et la carte mère ;
le pare-feu du client mal configuré qui empêche la prise en main
du serveur par le client.

Le compte-rendu publié par OVH montre au passage que le groupe a dû organiser des rotations régulières pour relever les équipes travaillant sur place avec des renforts venant parfois d’assez loin — un avion a été affrété entre Lille et Strasbourg. Il y a aussi eu, quand c’était possible, une aide à distance des techniciens de centres beaucoup plus lointain, notamment du Canada, pour gérer les soucis logiciels.

Un camion a aussi été dépêché sur place pour amener des pièces détachées et ainsi permettre aux techniciens de faire les remplacements adéquats. « Nous avons tous les types de problèmes matériels avec ces serveurs et nous remplaçons les pièces défectueuses serveur par serveur grâce au stock de pièces détachées arrivé par camion », écrit OVH.

OVH a établi un bilan de l’incident.

(mise à jour le 13 novembre avec le rétablissement des derniers serveurs)