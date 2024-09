Lecture Zen Résumer l'article

Google a abandonné en début d’année une fonction de son moteur de recherche, qui permettait de voir un site web, même lorsque celui-ci était indisponible. Bonne nouvelle toutefois : l’entreprise américaine s’est rapprochée d’Internet Archive pour proposer une solution alternative.

C’était en début d’année. Google confirmait l’abandon d’une fonction de son moteur de recherche pourtant bien commode, qui permettait de consulter la version « cache » des sites web. Ce service servait à afficher l’équivalent d’une photo du site à un instant T. C’était bien pratique, par exemple si ledit site était indisponible à ce moment-là.

Ce cache avait un intérêt pour les personnes travaillant dans l’optimisation de la position des pages sur les moteurs de recherche (le fameux SEO, pour Search Engine Optimization). En effet, le trafic des sites dépend principalement de la place occupée par ces derniers, en fonction des requêtes. Cette fonction était également utile pour les journalistes, pour retrouver des informations.

Internet Archive ou la machine à remonter le temps

Bonne nouvelle, toutefois : Internet Archive arrive à la rescousse. Dans un message publié le 11 septembre, la « mémoire du web » a annoncé la mise en place d’un partenariat avec Google. Dans les grandes lignes, Google va désormais intégrer un lien vers la fonctionnalité « Wayback Machine » pour chaque page web.

Wayback Machine fonctionne un peu comme une machine à remonter le temps. L’outil permet de retrouver une ou plusieurs photographies passées d’un site web, ce qui permet d’avoir un historique, parfois sur des années. C’est un travail de fourmi et colossal qu’abat Internet Archive, car des milliards de pages web sont mises à disposition.

Il est dommage toutefois que Google n’assume plus cette tâche lui-même, en tant que premier moteur de recherche sur le web. L’entreprise américaine a des moyens financiers autrement plus conséquents qu’Internet Archive, qui doit essentiellement compter sur la générosité des internautes pour payer les équipes et financer les infrastructures.

Des milliards de pages recensées

« Notre mission est de fournir un accès universel à toutes les connaissances. La Wayback Machine, l’un de nos services les plus connus, permet d’accéder à des milliards de pages web archivées, garantissant ainsi que les archives numériques restent accessibles aux générations futures », a écrit Chris Freeland, l’un des membres du projet.

Selon Internet Archive, le travail d’archivage couvre 625 milliards de pages, 38 millions de livres et de textes ainsi que 14 millions d’enregistrements sonores. Cela représente plus de 99 pétaoctets de données. C’est colossal : pour prendre des mesures plus connues, un pétaoctet est aussi gros que mille téraoctets, ou bien un million de gigaoctets.

Pour l’instant, le déploiement effectif dans Google n’est pas achevé. Selon Mark Graham, directeur du projet, cela va prendre quelques heures. Cet accord concrétise le souhait de Danny Sullivan, l’un des responsables de la recherche, de passer par Internet Archive pour prendre la succession du service d’archivage interne de Google.

Il n’est pas précisé si ce deal comporte un volet financier et, le cas échéant, de quel montant. Une aide pécuniaire pour appuyer cet enregistrement du web ne serait pas imméritée, compte tenu du rôle d’Internet Archive, et du fait que Google va pouvoir s’appuyer dessus, en laissant quelqu’un d’autre faire le travail qu’il faisait jusqu’à présent.

