Claude Mythos d'Anthropic : la vérité sur l'IA experte en cybersécurité

Résumé par IA, vérifié par Numerama

Les performances de Mythos mises en avant par Anthropic reposent surtout sur des extrapolations tirées de 198 rapports de vulnérabilités vérifiés, rappelle Tom's Hardware.
Sur le banc OSS-Fuzz, seulement une dizaine de vulnérabilités réellement sévères ont été confirmées.
Anthropic présente Mythos comme trop sensible pour le public afin de renforcer sa posture de « gardien » de l’IA.

Recevez tous les soirs un résumé de l’actu importante avec Le Récap’

Présenté comme un modèle d’IA capable de découvrir des milliers de failles critiques inédites, Mythos d’Anthropic a suscité un véritable emballement après sa fuite. Mais derrière les annonces spectaculaires, la réalité apparaît bien plus nuancée : comme le souligne Tom’s Hardware, ces performances reposent en grande partie sur des extrapolations à partir de données limitées.

Tandis que Mythos, le dernier modèle d’IA d’Anthropic (Claude), a provoqué un mini-séisme après avoir fuité, les exploits mis en avant par l’entreprise sont désormais remis en question.

Présenté comme un modèle « frontier » généraliste inédit, il serait capable de surpasser « presque tous les experts humains » dans la recherche et l’exploitation de vulnérabilités logicielles.

Très vite, des affirmations évoquant « des milliers de vulnérabilités zero-day critiques dans chaque grand OS et navigateur » ont circulé. Mais la réalité est nettement plus nuancée, comme le souligne Tom’s Hardware dans un article publié le 10 avril 2026.

Pourquoi Claude Mythos fascine…et inquiète

Pour rappel, fin mars 2026, une simple erreur de configuration a exposé au grand jour Claude Mythos. Le modèle y était décrit comme « actuellement bien en avance sur tout autre modèle d’IA en matière de capacités cyber », et capable d’exploiter des vulnérabilités logicielles « à une échelle qui dépasse largement les efforts des défenseurs ».

Fuite du billet de blog annonçant la sortie de Claude Mythos // Source : Capture d'écran Numerama — Fuite du billet de blog annonçant la sortie de Claude Mythos // Source : Capture d’écran Numerama

En clair : Anthropic reconnaissait avoir développé un outil dont les capacités offensives potentielles excèdent ce que les équipes de sécurité peuvent aujourd’hui contrer. Puis, le 7 avril 2026, l’entreprise a officialisé le lancement de Project Glasswing, une initiative de cybersécurité adossée à son nouveau modèle Claude Mythos Preview. Un système jugé trop sensible pour être ouvert au public, selon l’entreprise — de quoi renforcer l’image d’un quasi « super-hacker » autonome.

Concrètement, la firme met en avant plusieurs exploits attribués à Mythos : le modèle aurait notamment découvert une vulnérabilité vieille de 27 ans dans OpenBSD, pourtant réputé pour sa robustesse, permettant de faire planter à distance n’importe quelle machine qui l’exécute. Il aurait aussi identifié une faille de 16 ans dans FFmpeg, une bibliothèque multimédia largement utilisée, que des outils automatisés avaient pourtant passée au crible des millions de fois sans jamais la repérer.

Mythos face aux faits

Sauf que derrière ces exemples frappants, la démonstration d’Anthropic repose sur un socle bien plus fragile qu’il n’y paraît. Dans sa propre documentation technique, l’entreprise reconnaît n’avoir fait vérifier manuellement que 198 rapports de vulnérabilités générés par Mythos, par des experts humains en sécurité.

Sur cet échantillon limité, ces spécialistes valident les évaluations de sévérité du modèle dans environ 88 à 89 % des cas — un score solide, mais établi sur un volume restreint. C’est pourtant à partir de là qu’Anthropic extrapole l’existence de « plus d’un millier de vulnérabilités critiques » et de « milliers de failles de haute sévérité », en supposant que ces résultats se généralisent à l’ensemble des signalements de Mythos.

Autrement dit, les fameux « milliers de zero-days » mis en avant reposent moins sur des bugs confirmés que sur une projection statistique à partir de quelques centaines de cas, comme le rappelle Tom’s Hardware. Une pratique courante en recherche, mais qui, dans ce cas précis, contribue surtout à gonfler les performances du modèle — et le récit qui les accompagne.

La documentation d'Anthropic. // Source : Anthropic — La documentation d’Anthropic. // Source : Anthropic

Dans les faits, de nombreuses zones d’ombre subsistent : combien de ces failles sont réellement exploitables ? Combien relèvent plutôt de comportements anormaux que de vulnérabilités critiques ? Et combien étaient déjà en cours de correction au moment de leur comptabilisation ? L’exemple de FFmpeg illustre bien cette nuance : Anthropic a communiqué sur un bug vieux de 16 ans passé sous le radar d’outils automatisés, avant de reconnaître qu’il ne s’agissait pas d’une faille « critique » et qu’une exploitation concrète serait difficile. Même logique du côté du noyau Linux : Mythos a identifié plusieurs points faibles potentiels sans parvenir à les exploiter, certains étant déjà corrigés dans le code source.

Sur un large banc de tests de type OSS-Fuzz, appliqué à plus de 7 000 projets open source, Mythos a tout de même mis au jour des crashes dans plusieurs centaines de cas, ainsi qu’une poignée — une dizaine — de vulnérabilités réellement sévères, avec prise de contrôle du flot d’exécution. S’il s’agit d’un progrès réel par rapport aux modèles précédents, on reste très loin d’un raz-de-marée de « milliers de failles dévastatrices » immédiatement exploitables.

Anthropic, le gardien de l’IA ?

Dans la partie de son rapport consacrée aux « milliers » d’autres vulnérabilités, Anthropic reconnaît d’ailleurs ne pas pouvoir garantir que l’ensemble des bugs signalés par Mythos correspondent à de véritables failles critiques. Le volume avancé repose sur un raisonnement simple : les experts internes jugent globalement fiables les évaluations issues des 198 rapports vérifiés, et cette tendance est ensuite étendue au reste.

Mais, surtout, cette prudence méthodologique cohabite avec une stratégie de communication bien rodée. Depuis plusieurs années, Anthropic construit une partie de son image sur l’idée d’une IA à la fois puissante et dangereuse, nécessitant des acteurs « responsables » pour en encadrer les usages. L’entreprise publie régulièrement des analyses alarmistes, qu’il s’agisse de scénarios de cyberattaques pilotées par l’IA ou de projections de destructions massives d’emplois.

Une posture qui lui a permis de se positionner auprès des gouvernements et des grandes organisations, davantage que sur le marché grand public, quitte à se retrouver récemment en bras de fer avec le département de la Défense américain. Présenter Mythos comme un outil trop sensible pour être ouvert à tous, mais parfaitement adapté aux besoins d’acteurs institutionnels, s’inscrit dans cette logique : faire de la « sécurité » à la fois un principe de précaution… et un argument commercial

En parallèle, le 13 avril 2026, de nouvelles fuites évoquent un « app builder » interne basé sur Claude Opus 4.6, capable de générer des applications à partir de simples instructions en langage naturel, avec prévisualisation et déploiement intégrés. Un leak qu’Anthropic n’a pas commenté, et qui semble s’ajouter à Mythos dans une volonté de flou assumé autour de ce que l’entreprise prépare réellement avec ses modèles les plus avancés.

Toute l'actu tech en un clin d'œil

Ajoutez Numerama à votre écran d'accueil et restez connectés au futur !

Anticipez le futur en vous inscrivant gratuitement à ToujoursPlus, la newsletter tech de référence.