Wikipedia annonce que plus d’un million de « liens cassés » présents dans ses notes de bas de page ont pu être restaurés automatiquement grâce à un partenariat avec Internet Archive, et au travail de bénévoles.

Sur Wikipedia, la règle imposée à ceux qui créent ou modifient des articles de l’encyclopédie collaborative est que toute information ajoutée doit être sourcée. C’est une exigence qui doit permettre aux autres contributeurs de vérifier la crédibilité de l’information donnée aux lecteurs, et qui doit permettre à ces derniers d’en apprendre davantage en suivant les liens menant vers les sources.

Mais tout ce travail de référencement des sources ne sert à rien si ces sources ne sont plus consultables. Wikipedia existe depuis 2001, et en quinze ans de nombreux sites internet ont fermé, d’autres ont vu leurs archives effacées, tandis que d’autres encore ont vu leurs URL réorganisées sans un système efficace de redirections. Souvent, il devient donc impossible d’aller consulter les articles de presse ou autres pages Web qui contenaient les informations reprises dans l’encyclopédie.

wikipedia

Pour répondre à ce problème, la fondation Wikimedia a noué un partenariat avec Internet Archive, qui lui a déjà permis de rétablir la lisibilité de plus d’un million de liens qui étaient devenus inaccessibles. L’organisation d’archivage du Web récupère automatiquement depuis plusieurs années la liste de l’ensemble des liens créés ou modifiés par les internautes qui contribuent à enrichir l’encyclopédie, pour aller systématiquement réaliser une sauvegarde du contenu.

Puis désormais, un robot mis au point par les bénévoles Maximilian Doerr et Stephen Balbach parcourt automatiquement l’édition anglophone de Wikipedia, pour détecter les liens qui ne répondent plus. Lorsque c’est le cas, le bot va interroger le site Archive.org pour voir s’il possède bien une copie de la page référencée, et remplace le lien par celle de l’archive.

Pour le moment, ce projet ne fonctionne qu’avec l’édition anglophone de Wikipedia, mais il est déjà question de l’étendre à l’ensemble des 300 langues. La fondation dit aussi réfléchir à la possibilité d’automatiser davantage les procédures pour que les liens se résorbent tout seul.

Nouveauté : Découvrez

La meilleure expérience de Numerama, sans publicité,
+ riche, + zen, + exclusive.

Découvrez Numerama+

Abonnez-vous gratuitement à Artificielles, notre newsletter sur l’IA, conçue par des IA, vérifiée par Numerama !