Pendant des années, Cloudflare s’est imposé comme le gardien du web.
Des millions de sites lui font confiance pour filtrer le trafic malveillant, bloquer les bots indésirables et empêcher le scraping non autorisé de leurs contenus.
C’est littéralement inscrit dans son ADN produit : Bot Management, WAF, Turnstile… autant d’outils pensés pour distinguer un humain d’un robot et bloquer ce dernier quand il n’est pas le bienvenu.
Le 10 mars 2026, la société a donc créé une certaine surprise en annonçant le endpoint /crawl, un outil intégré à son service Browser Rendering.
Donnez-lui une URL, et il parcourt automatiquement l’ensemble du site, page après page, en suivant les liens, en exécutant le JavaScript et en retournant le contenu en HTML, Markdown ou JSON structuré.


Pour beaucoup d’observateurs sur X, c’est un rétropédalage spectaculaire. Évidemment, la réalité est plus nuancée.
Balance entre scraping et respect des robots.txt
Techniquement, l’outil permet bien de parcourir les sites à une vitesse et une accessibilité encore jamais vues.
Deux lignes de code suffisent pour lancer un job asynchrone qui peut crawler jusqu’à 100 000 pages, configurer la profondeur de navigation, inclure ou exclure des sections entières d’un site via des patterns d’URLs, et même extraire des données structurées grâce à l’IA intégrée.
Le crawl incrémental permet également de ne revisiter que les pages modifiées depuis la dernière exécution, ce qui en fait un outil parfait pour surveiller un site en continu ou alimenter une base de connaissances en temps quasi-réel.
La nuance que Cloudflare met en avant pour se défendre de l’accusation de double jeu tient en quelques points : le crawler respecte les directives robots.txt des sites, y compris les délais entre requêtes (crawl-delay), et les URLs interdites apparaissent explicitement dans les résultats avec le statut disallowed.
Les propriétaires de sites restent donc en théorie maîtres de ce qui peut être indexé. En pratique, seuls les sites qui ont correctement configuré leur robots.txt sont protégés, et il y a fort à parier qu’une grande majorité du web ne l’a pas fait.
Cloudflare à l’ère de l’IA
La vraie raison de ce virage est ailleurs, et Cloudflare ne s’en cache pas vraiment : l’IA. « C’est idéal pour l’entraînement de modèles, la création de pipelines RAG et la recherche ou la surveillance de contenu sur un site » précise l’entreprise américaine. Autant d’usages qui nécessitent une infrastructure capable d’ingérer le web proprement et régulièrement.
En effet, la demande pour collecter, structurer et mettre à jour des corpus de données web à grande échelle explose depuis l’avènement des grands modèles de langage.
En proposant ce service directement depuis son réseau mondial, Cloudflare se positionne donc comme une couche d’infrastructure incontournable pour l’ère de l’IA. Pourquoi bricoler votre propre stack de scraping quand vous pouvez déléguer à celui qui gère déjà une bonne partie du trafic mondial ?
Trahison pour certains, choix lucide pour d’autres. L’outil est déjà disponible en bêta publique pour les forfaits Workers gratuits et payants.
Vous avez lu 0 articles sur Numerama ce mois-ci
Tout le monde n'a pas les moyens de payer pour l'information.
C'est pourquoi nous maintenons notre journalisme ouvert à tous.
Mais si vous le pouvez,
voici trois bonnes raisons de soutenir notre travail :
- 1 Numerama+ contribue à offrir une expérience gratuite à tous les lecteurs de Numerama.
- 2 Vous profiterez d'une lecture sans publicité, de nombreuses fonctions avancées de lecture et des contenus exclusifs.
- 3 Aider Numerama dans sa mission : comprendre le présent pour anticiper l'avenir.
Si vous croyez en un web gratuit et à une information de qualité accessible au plus grand nombre, rejoignez Numerama+.
Toute l'actu tech en un clin d'œil
Ajoutez Numerama à votre écran d'accueil et restez connectés au futur !
Tous nos articles sont aussi sur notre profil Google : suivez-nous pour ne rien manquer !












