Reddit bloque les IA qui veulent récupérer les informations sur le réseau social et va bloquer la Wayback Machine. L’entreprise explique que les bots d’IA vont sur ce site pour récupérer les pages de Reddit, ce qui ne lui convient pas. Et si tous les sites s’y mettaient ?

Reddit a annoncé commencer à bloquer Internet Archive sur son site, rapporte The Verge le 11 août 2025. Selon le réseau social, des entreprises d’IA qui veulent extraire des pages du site utilisent désormais la Wayback Machine de l’Internet Archive. Ce site Internet archive toutes les pages web qu’il trouve, dont Reddit. Cependant, cela ne convient pas au réseau social, qui aimerait bien faire payer les chatbots qui se renseignent ainsi sur Reddit.

Reddit veut bloquer la Wayback Machine pour forcer les chatbots à le payer

En clair, l’organisme à but non lucratif ne pourra plus indexer (ou « scraper ») la grande majorité de Reddit. La Wayback Machine ne pourra plus archiver les pages détaillées des publications, les commentaires ou les profils. La seule page qui restera accessible est la page d’accueil, afin de garder une trace des changements de design de Reddit. Ne resteront que les publications les plus populaires de tel ou tel jour.

Reddit est indexé par l’Internet Archive depuis très longtemps. // Source : Capture Wayback Machine par Numerama

Le porte-parole de Reddit, Tim Rathschmidt, a expliqué auprès de The Verge la raison de cette décision : « Internet Archive fournit un service web ouvert, mais nous avons été informés de cas où des entreprises spécialisées dans l’IA enfreignent les politiques des plateformes, y compris la nôtre, et récupèrent des données à partir de la Wayback Machine. » Une pratique qui dérange Reddit, qui souhaite faire payer ces entreprises d’IA pour leur utilisation des publications de ses utilisateurs.

Le forum a, par exemple, un accord depuis longtemps avec OpenAI pour que ChatGPT utilise des publications Reddit dans ses réponses. Par ailleurs, Reddit a poursuivi Anthropic, l’accusant de récupérer des données sans payer.

Le forum Reddit consacré à Numerama. // Source : Capture Wayback Machine par Numerama

Même situation pour les moteurs de recherche : Reddit fait payer Google, par exemple, afin d’afficher les pages de Reddit dans les résultats de recherche.

Autre argument donné par Reddit : la Wayback Machine ne respecterait pas la vie privée des utilisateurs. Si l’un d’entre eux supprime une publication, elle ne sera plus disponible sur Reddit, mais pourrait continuer à l’être sur la Wayback Machine.

La Wayback Machine est-elle menacée ?

Depuis 1996, Internet Archive archive les pages du web ; la Wayback Machine existe depuis 2001. Cette véritable « machine à remonter le temps » permet d’entrer une URL et de consulter les différentes versions de la page capturées au fil du temps. Un outil indispensable pour les journalistes, les chercheurs, les internautes (ou même les détectives privés), pour constater si une page a été modifiée, et quand. Mais maintenant, Reddit coupe donc l’accès à son site à l’Internet Archive.

Pour le journaliste de LifeHacker Jake Peterson, « le problème avec les forums en direct est que les informations vont et viennent à mesure que les gens suppriment les anciens messages et que les nouvelles mises à jour détruisent les anciennes parties du site ».

La page d’accueil de la Wayback Machine. // Source : Capture Wayback Machine par Numerama

Le directeur de la Wayback Machine, Mark Graham, n’a pas commenté ce blocage, déclarant plutôt à The Verge : « Nous entretenons une relation de longue date avec Reddit et continuons à discuter de cette question. » A priori, les archives de Reddit déjà existantes resteront disponibles sur la Wayback Machine. Un accord est peut-être encore à trouver.

D’autres sites bloquent déjà la Wayback Machine, pour protéger leur contenu, pour des raisons de propriété intellectuelle, de confidentialité ou pour contrôler l’accès public. Mais si d’autres réseaux sociaux, forums ou médias se mettent à bloquer la Wayback Machine pour faire face au « scraping » des IA, cela reviendrait à la rendre bien moins exhaustive, et donc moins utile.

