La panne d'OVH survenue le 13 octobre 2021 a beaucoup fait parler d'elle en raison de l'impact important qu'elle a eu sur le web français, entre autres. Mais avant de clouer l'hébergeur français au pilori, il est important de remettre les choses dans leur contexte.

Le jeudi 14 octobre 2021, OVH a été victime d’une énorme panne qui a touché des milliers de sites. Suite à une erreur de configuration réseau, l’hébergeur français a mis hors-ligne une partie du web pendant un peu plus d’une heure. La panne a été très remarquée, car elle touchait pêle-mêle des sites de médias, des sites institutionnels comme data.gouv.fr, et des sites marchands comme celui d’Interflora.

Qu’autant de pans du web soient tombés à cause d’un bug est à la fois flatteur et gênant pour OVH. L’entreprise montre d’un côté qu’elle est devenue une infrastructure indispensable au bon fonctionnement du web francophone et mondial, mais l’incident abîme aussi son image de marque à quelques jours de son entrée en bourse.

Rapidement réparée, cette panne rappelle tout de même une vérité importante : aucun système informatique n’est infaillible.

C’est quoi la disponibilité ?

On a tendance parfois à l’oublier, mais le « web » est constitué de milliers de routeurs et de serveurs à travers le monde. Ces machines, comme les nôtres, connaissent leur lot de pannes et de dysfonctionnements. Mais quand ce sont les serveurs d’une entreprise comme OVH qui tombent, l’impact se fait plus ressentir que quand c’est notre téléphone qui redémarre sans raison.

En tant qu’hébergeur, OVH se doit en effet d’assurer une disponibilité de service quasi irréprochable. La disponibilité, dans le langage informatique, c’est tout simplement la capacité d’un hébergeur à assurer l’accès à ses serveurs, et donc à vos sites favoris. Sur son site, OVH promet « une disponibilité de […] 99,9 % » pour une offre de base. Un chiffre  assez standard et attendu dans ce genre d’industrie.

OVH data center
Sur un réseau comme celui d’OVH, chaque petit fil à son importance // Source : OVH

Sur le papier, cela paraît quasi parfait. Mais même une marge d’erreur de 0,1 % peut avoir d’importantes conséquences, comme cette panne en témoigne. La raison pour laquelle aucun hébergeur grand public n’affiche une disponibilité de 100 % est simple : c’est le coût.

Comme l’explique le spécialiste réseau Stéphane Bortzmeyer, « s’assurer qu’un réseau fonctionne pendant 99,999 % du temps n’est pas un peu plus cher que de s’assurer qu’il fonctionne pendant 99,99 % du temps, c’est beaucoup plus cher ». Le premier pourcentage autorise une panne de 5 minutes par an, tandis que le premier fait grimper la durée de panne « autorisée » à 52 minutes par an. La disponibilité de « 99,9 % » promise par OVH laisse, quant à elle, la place à 8 h de panne par an environ. Chaque minute de différence représente d’importants efforts humains et techniques.

Assurer une disponibilité irréprochable coûte cher, « et cette fiabilité n’est pas indispensable à tous les usages » complète l’ingénieur réseau. Un site de e-commerce peut tolérer une panne de quelques heures par an, mais pour des infrastructures critiques comme celles des hôpitaux ou de la police c’est plus compliqué. Dans des cas comme ça, une approche dite « multi-cloud » (c’est-à-dire avec ses données stockées chez plusieurs hébergeurs en parallèle) est indispensable. Mais doubler le volume de données à stocker fait très vite grimper la facture.

Une erreur inévitable

Pour des questions de coût, énormément de sites se reposent donc sur un seul hébergeur. Seulement voilà, l’infrastructure d’un service comme OVH est excessivement complexe, avec des serveurs répartis tout autour du monde et des routeurs qui redirigent des millions de connexions par jour.

Même en testant des changements de configuration en amont, il est difficile d’identifier tous les éventuels problèmes. « Le laboratoire ne sera jamais une reproduction exacte du vrai réseau […] un réseau de la taille de celui d’OVH est un objet socio-technique très complexe et […] il est très difficile de prévoir les conséquences d’une action », détaille Stéphane Bortzmeyer. Cette complexité est encore accentuée, quand on possède des clients à travers le monde entier. Impossible de prévoir une opération de maintenance sur un fuseau horaire qui arrangera tout le monde. Avec tant de variables en jeu, même un tout petit grain de sable dans la machine peut avoir de très importantes conséquences.

Dans son analyse de la panne, OVH donne quelques détails supplémentaires. « OVHcloud exploite un backbone (cœur de réseau Ndlr.) mondial qui couvre tous les continents. Pour assurer la meilleure portée possible à ses clients, le backbone est entièrement maillé. Par nature, ce maillage signifie que tous les routeurs […] sont directement ou indirectement connectés les uns aux autres et échangent constamment des informations de routage. » Pour le dire simplement, en voulant améliorer la qualité de son réseau OVH a également créé des faiblesses. Une simple erreur de copier-coller dans la configuration d’un routeur s’est rapidement propagée sur tout le système. Créant cette fameuse panne.

Maintenir une architecture réseau comme celle d’OVH exige donc de jongler entre les problématiques d’efficacité, de prix et de fiabilité. Autant dire que l’équilibre est compliqué à trouver. La petite heure qu’a duré la panne nous aura au moins rappelé qu’internet est un réseau extrêmement complexe et que personne n’est à l’abri d’un bug, qu’on s’appelle OVH ou Facebook.

Partager sur les réseaux sociaux

La suite en vidéo