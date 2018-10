C'est un problème identifié depuis longtemps : il arrive que les liens placés dans les pages web ne soient plus fonctionnels. C'est un souci pour Wikipédia, dont le contenu doit pouvoir être vérifiable via des sources externes. Heureusement, un projet permet de rétablir des liens cassés.

Les liens cassés sont un problème très commun sur le net. Lorsqu’un site web ferme, se restructure ou supprime des pages, des chemins hypertextes sont rompus. Bien sûr, si la rupture d’un lien peut être anticipée, il est possible de rétablir la bonne liaison en amont ou bien de procéder à une redirection de l’internaute. Mais ce travail peut s’avérer fastidieux ; et il n’est pas toujours possible de faire.

À l’échelle du web, ce problème constitue un phénomène appelé « pourrissement des liens ». L’expression désigne l’accroissement naturel du nombre de liens cassés que l’on peut croiser au gré de sa navigation, parce que les sites évoluent au fil du temps et peuvent disparaitre. Or, il s’avère que cette situation constitue un problème de tout premier ordre pour un projet comme Wikipédia.

Vérifiabilité de Wikipédia

L’encyclopédie libre et gratuite s’est imposée comme une plateforme incontournable du savoir non pas seulement parce que son principe de fonctionnement repose sur la coopération de volontaires. Ou parce qu’elle est libre de droits. Elle a aussi percé parce que parmi ses principes fondateurs figurent deux impératifs : celui de vérifier l’information et celui de citer ses sources.

Or, l’inaccessibilité des sources à cause de la rupture des liens enfreint le respect de ces consignes. Comment en effet approfondir un article, ou ne serait-ce que s’assurer de sa justesse, si les documents faisant autorité sur le sujet ne peuvent plus être consultés ? La solution artisanale consiste à repasser derrière les liens morts et à en trouver de nouveaux, fonctionnels, et équivalents.

Mais c’est ce travail à la main est évidemment long et lassant. L’idéal est de pouvoir automatiser cette tâche, au moins partiellement, à grande échelle. C’est justement ce que font la fondation Wikimédia, qui encadre Wikipédia, et l’organisation Internet Archive, dont la mission consiste à enregistrer un maximum de ressources en ligne, dans un souci de préserver la mémoire du web.

Leur alliance a permis de « ressusciter » pas moins de 9 millions de liens morts, en les réorientant sur des archives des pages derrière ces liens qui sont conservés sur le service Wayback Machine, qui est en quelconque sorte une machine à remonter le temps, mais pour le web. En effet, lorsque l’on renseigne une URL, la plateforme est capable de restituer des instantanés du site à différentes époques.

« Depuis trois ans, nous utilisons un logiciel appelé IABot sur 22 éditions linguistiques de Wikipédia à la recherche de liens cassés (des URLs qui renvoient une erreur 404 ou la mention ‘Page Not Found’) », écrit Internet Archive. Lorsqu’un lien cassé est repéré, IABot vérifie alors s’il existe une archive correspondante sur la Wayback Machine — mais aussi sur d’autres archives web — pour tenter un remplacement.

9 millions de références externes rétablies

Pour ce travail, Internet Archive ne partait pas d’une feuille blanche : « depuis plus de 5 ans, Internet Archive archive presque toutes les adresses référencées dans près de 300 sites Wikipédia dès que ces liens sont ajoutés ou modifiés ; à raison d’environ 20 millions d’URL par semaine ». Grâce à cet archivage sur une demi-décennie, le projet s’était constitué un stock d’instantanés conséquents.

Ce travail n’a pas été accompli exclusivement par IABot, même si le robot a abattu le plus gros du travail : sur les 9 millions de liens rompus, 6 millions ont été rétablis de manière automatisée. Les 3 millions de références externes restantes ont été corrigées par la communauté. Au total, l’intervention a bénéficié à 22 sites Wikipédia, notamment la version française de l’encyclopédie.

« La restauration des liens garantit que Wikipédia reste exacte et vérifiable et répond ainsi à l’une des trois principales politiques de Wikipédia en matière de contenu : la vérifiabilité », se félicite Internet Archive.