« Beaucoup de temps, d'efforts et d'argent » : ce que Cloudflare a appris en testant Claude Mythos sur sa propre infrastructure

Résumé par IA, vérifié par Numerama

Cloudflare a testé le modèle de cybersécurité d'Anthropic, Mythos Preview, révélant qu'il représente un « véritable progrès » en matière de découverte de vulnérabilités, loin des modèles généralistes existants.
Mythos Preview se distingue en créant des chaînes d'exploitation complètes et des Proof of Concepts fonctionnels, réduisant ainsi le bruit généré par les alertes de sécurité traditionnelles, mais soulève des questions sur l'efficacité des garde-fous actuels.
Cloudflare avertit que l'accélération des correctifs via des modèles comme Mythos Preview ne doit pas négliger les étapes essentielles de validation, au risque d'introduire des bugs plus graves, et préconise une approche plus résiliente face aux vulnérabilités.

Recevez tous les soirs un résumé de l’actu importante avec Le Récap’

Le géant américain des infrastructures internet Cloudflare a soumis le modèle de cybersécurité d’Anthropic à l’épreuve de ses propres dépôts de code. Les enseignements, tout juste publiés dans un article de blog, sont précieux, et les mises en garde le sont encore plus.

Depuis plusieurs mois, Cloudflare teste une multitude de modèles de langage spécialisés en sécurité directement sur son infrastructure, mais le rapport publié le 18 mai 2026 suscite une attention particulière.

Il porte sur Mythos Preview, le modèle frontière d’Anthropic présenté en avril dernier, et jugé si dangereux que l’entreprise a refusé de le soumettre au grand public. À la place, l’entreprise américaine a lancé le projet Glasswing, une initiative qui permet à un nombre restreint d’organisations partenaires d’expérimenter Mythos Preview dans un cadre contrôlé.

Cloudflare, qui sécurise des millions de sites web et applications à travers le monde, faisait partie de cette guest list et a ainsi pu pointer le modèle sur plus de cinquante de ses propres dépôts de code, avec un double objectif : identifier des vulnérabilités avant que des attaquants ne le fassent, et évaluer ce que les modèles les plus avancés sont désormais capables d’accomplir.

Le résultat, publié dans un billet signé par le Chief Security Officer Grant Bourzikas, est sans ambiguïté sur un point : Mythos Preview est « un véritable progrès ». Et l’entreprise précise d’emblée qu’il ne s’agit pas d’une simple amélioration par rapport aux anciens modèles généralistes, mais d’un « outil différent », qui remplit une fonction différente.

L’efficacité des garde-fous est l’une des problématiques centrales soulevées par Cloudflare // Source : Cloudflare — L’efficacité des garde-fous est l’une des problématiques centrales soulevées par Cloudflare. // Source : Cloudflare

Chaînes d’exploitation et PoC : ce que les autres modèles ne font pas

La distinction la plus frappante que Cloudflare relève concerne la capacité du modèle à construire des chaînes d’exploitation. Une vraie attaque, rappelle l’entreprise, exploite rarement une seule faille : « Mythos Preview peut analyser plusieurs primitives et déterminer comment les combiner pour obtenir une preuve fonctionnelle. Le raisonnement qu’il présente tout au long du processus ressemble davantage au travail d’un chercheur expérimenté qu’à la sortie d’un scanner automatisé », assure l’entreprise.

Les autres modèles testés en parallèle identifient quant à eux un nombre similaire de bugs sous-jacents, parfois avec un raisonnement poussé, mais s’arrêtent à la description détaillée, laissant la chaîne d’exploitation inachevée et la question de son exploitabilité en suspens.

C’est précisément là que Mythos Preview se démarque, et cette différence a une conséquence directe sur le problème du bruit. Car le bruit est, depuis l’avènement des LLM, l’un des fléaux des équipes de sécurité. Les outils d’analyse automatisée génèrent des volumes considérables d’alertes très souvent théoriques ou inexploitables, que les mainteneurs de projets doivent trier un par un à grand coût de ressources.

En produisant des Proof of Concepts (PoC) fonctionnels plutôt que de simples signalements, Mythos Preview change la donne.

Limites et méthodes adoptées par Cloudflare

Cloudflare a également documenté ce qui échoue.

Dans un premier temps, l’entreprise développe l’idée que la première approche testée, à savoir déposer un dépôt entier et demander au modèle d’y trouver des vulnérabilités, s’est révélée inadaptée. Deux raisons principales à cet échec : d’abord le contexte, car les agents de codage généralistes traitent de grandes quantités de code de façon linéaire, alors que la recherche de vulnérabilités est par nature « ciblée et parallèle » ; ensuite le débit, car une seule session d’agent sur une base de cent mille lignes ne peut couvrir qu’un dixième de pourcent de la surface utile avant que la fenêtre de contexte ne soit saturée.

C’est ce constat qui a poussé Cloudflare à construire une infrastructure inédite autour de Mythos Preview : des agents travaillent en parallèle sur des questions précises et délimitées, une classe d’attaque, une frontière de sécurité, une fonction spécifique, tandis qu’un second agent indépendant relit les résultats avec une consigne différente, sans capacité à produire ses propres conclusions. En clair, mettre délibérément deux agents en désaccord est bien plus efficace que de demander à un seul d’être vigilant.

Schéma de découverte et de validation des vulnérabilités mis en place par Cloudflare // Source : Cloudflare — Schéma de découverte et de validation des vulnérabilités mis en place par Cloudflare. // Source : Cloudflare

Aussi, le billet aborde une question très délicate pour Anthropic : les garde-fous du modèle. Cloudflare précise que Mythos Preview, dans la version mise à disposition dans le cadre du Projet Glasswing, ne disposait pas des protections supplémentaires présentes dans les modèles grand public. Or le modèle possède ses propres refus organiques, mais ils sont incohérents. Un même code analysé différemment, ou une même requête formulée autrement, peut produire des résultats opposés.

Le modèle a par exemple refusé de générer une preuve de concept après avoir pourtant confirmé plusieurs failles mémoire critiques, avant d’accepter la même demande reformulée. Des limites aux garde-fous qui empêchent selon Cloudflare de « constituer à eux seuls une barrière de sécurité complète ».

Du temps, de l’effort et de l’argent

Enfin, c’est sur la conclusion que Cloudflare affiche la position la plus tranchée. À contre-courant de l’enthousiasme autour du modèle et des promesses de vitesse « analyser plus vite, corriger plus vite », l’entreprise met en garde : accélérer les correctifs ne change rien aux contraintes du pipeline qui les produit. Autrement dit, aller plus vite ne supprime pas les étapes indispensables. Si les tests de régression prennent une journée, viser un correctif en deux heures revient, de fait, à les contourner.

Or c’est précisément là que le risque apparaît : des correctifs déployés sans tests complets peuvent introduire des bugs plus graves que la vulnérabilité initiale. Cloudflare l’a observé directement en laissant le modèle générer ses propres correctifs : « Certains, tout en corrigeant le bug initial, en ont discrètement introduit d’autres dont dépendait le code. »

La vraie question n’est donc pas « comment corriger plus vite ? » mais « comment rendre l’architecture plus résiliente face à une vulnérabilité ? » Pour Cloudflare, cela passe par trois axes : des défenses placées en amont de l’application pour bloquer l’accès à une faille avant qu’elle soit corrigée ; un cloisonnement applicatif empêchant qu’une faille localisée ne compromette l’ensemble ; et la capacité à déployer un correctif simultanément sur toutes les instances concernées. Beaucoup d’équipes vont devoir apprendre cette leçon à leurs dépens, prévient le géant américain « en y consacrant beaucoup de temps, d’efforts et d’argent ».

Toute l'actu tech en un clin d'œil

Ajoutez Numerama à votre écran d'accueil et restez connectés au futur !

Anticipez le futur en vous inscrivant gratuitement à ToujoursPlus, la newsletter tech de référence.