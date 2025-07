Lecture Zen Résumer l'article

Contre le « scraping » des plateformes d’IA générative qui puisent sur le web, sans contrepartie pour les sites, un géant du web est en train de durcir sa position. Cloudflare, véritable pilier du net, lance un nouveau programme pour tenter de résoudre le défi que pose l’IA générative à l’écosystème.

L’intelligence artificielle générative (GenAI) va-t-elle tuer le web ? En tout cas, elle est en train de profondément bouleverser le net. Même Google, qui s’est pourtant construit dessus, est en train de changer de fusil d’épaule, en opérant des changements dans son moteur qui vont profondément bousculer l’écosystème.

Mais dans cette vaste recomposition qui s’opère, tout n’est pas encore joué. Alors que les outils d’IA générative sont parfois suspectés (voire accusés) de piller des contenus en ligne pour entraîner leurs grands modèles de langage (qui constituent les « moteurs » des chatbots), une certaine riposte se met en place, ne serait-ce que pour contenir certains abus.

Le jour de l’indépendance du contenu

C’est le sens d’une nouvelle politique officialisée ce 1er juillet par Cloudflare, qui a publié une série d’articles sur le sujet : pour montrer l’importance prise par les robots d’exploration d’IA, présenter le mécanisme « pay per crawl », analyser l’impact sur les sites, lancer un appel à la compensation ou bien montrer la granularité du contrôle pour les webmasters.

L’une des mesures qui devrait le plus retenir l’attention est celle appelée « jour de l’indépendance du contenu », un nom qui renvoie directement au jour de l’indépendance aux USA (4 juillet). En somme, l’entreprise a décidé de « modifier sa stratégie par défaut pour bloquer les robots d’exploration d’IA, sauf s’ils rémunèrent les créateurs pour leur contenu. »

« Ce contenu est le carburant qui alimente les moteurs d’IA, et il est donc tout à fait juste que les créateurs de contenu soient rémunérés directement pour celui-ci », justifie la société. Un problème déjà relevé par Numerama et qui se résume ainsi : si les chatbots aspirent sans vergogne les sites, et que ceux-ci finissent par mourir, sur quoi reposeront-ils ensuite ?

Ce n’est pas la première fois que Cloudflare intervient sur ce sujet. Au cours du mois de mai, Matthew Prince avait déjà pointé le souci posé par l’essor des modèles de langage qui fournissent des réponses sans que l’internaute visite un site quelconque, hormis celui du chatbot. En creux, il suggérait une possible hécatombe si rien ne change.

Il enfonce le clou aujourd’hui : « Les robots d’exploration IA extraient du contenu de manière totalement débridée. L’objectif consiste donc à redonner le pouvoir aux créateurs, tout en permettant aux entreprises d’IA de continuer d’innover. L’idée ici est de préserver l’avenir d’un Internet libre et dynamique à l’aide d’un nouveau modèle qui fonctionne pour tous. »

La mobilisation de Cloudflare n’est pas anodine. Dans le paysage du web, la société américaine dirigée par Matthew Prince occupe une place centrale, en fournissant divers services à des centaines de milliers de sites, dont les plus fréquentés. C’est une entreprise devenue un pilier du web, au même titre qu’un Google, à ceci près qu’il œuvre plutôt en coulisses.

Durcissement progressif de la politique de Cloudflare

Cette annonce est surtout le dernier acte d’une série d’actions prises par la compagnie, après la démocratisation des IA génératives — cette explosion est généralement associée à la sortie publique de ChatGPT, fin 2022. Ainsi, fin septembre 2023, Cloudflare avait commencé à proposer des règles de blocage, qui ont été durcies et étendues en juillet 2024.

Initialement, Cloudflare proposait en effet aux sites de bloquer les robots d’exploration d’IA qui respectaient le petit fichier robots.txt — c’est avec lui qu’un webmaster peut dire à un moteur, comme Google, de ne pas indexer telle ou telle partie d’un site web, par exemple. Ou de dire qu’il ne veut pas de robots d’exploration d’IA.

Cette règle ne s’appliquait toutefois qu’aux robots respectant le fichier. Un an plus tard, Cloudflare a donc revu son plan et commencé à permettre aux sites de bloquer tous les robots, qu’ils respectent ou non le fichier. Cette fois, on passe encore un cran, en activant cette règle de blocage par défaut pour tous les nouveaux clients de Cloudflare.

En la matière, tout le monde ne joue pas le jeu. Comme tous les services d’IA ne prévoient pas « d’opt-out » permettant aux sites de signaler à chaque plateforme son refus de servir de terrain d’entraînement à l’IA. Google propose par exemple un outil, mais qui vaut seulement pour ses outils, comme Gemini (mais pas AI Overviews).

Or, le panorama regorge d’outils d’IA générative. En outre, l’actualité est aussi rythmée par des affaires montrant que ces chatbots ont des pratiques douteuses, y compris sur le terrain du droit d’auteur. Reddit, par exemple, disait en avoir marre de servir de terrain d’entraînement. Quant à Disney et NBC, ils ont attaqué Midjourney. Idem pour le New York Times, contre OpenAI (ChatGPT) cette fois.

L’avenir est sombre, mais il y a de l’espoir ?

Évidemment, la mobilisation accrue de Cloudflare, bien qu’elle sera sans doute accueillie avec satisfaction par l’écosystème du web, ne va pas tout résoudre. D’abord, il n’est pas impossible que certains robots d’exploration d’IA échappent à sa vigilance. Ensuite, cela ne vaut que pour la clientèle de Cloudflare, et donc pas pour l’ensemble du web.

C’est toutefois une pierre à l’édifice, et le signe encourageant que le sombre avenir esquissé par le web n’est pas voué à advenir forcément.

« Si Internet compte survivre à l’ère de l’IA, nous devons donner aux éditeurs le contrôle qu’ils méritent », a conclu Matthew Prince. « Le contenu original constitue l’essence même de ce qui fait d’Internet l’une des plus grandes inventions du siècle dernier et il est essentiel que les créateurs continuent à en produire. »

