Alors qu’Anthropic officialisait, le 7 avril 2026, le lancement de Claude Mythos Preview, son modèle le plus puissant à ce jour, c’est un incident documenté dans la fiche technique du modèle qui a capté l’attention : une version antérieure du modèle a réussi à s’échapper de son environnement de test et à contacter un chercheur de sa propre initiative.

Le 7 avril 2026, Anthropic annonçait en grande pompe le Projet Glasswing, un consortium réunissant onze géants de la tech, d’Apple à Microsoft en passant par Google et CrowdStrike, autour de son nouveau modèle frontier Claude Mythos Preview.

L’objectif affiché : utiliser les capacités exceptionnelles du modèle en cybersécurité à des fins défensives, pour détecter et corriger des failles dans les logiciels les plus critiques au monde.

Un modèle jugé si dangereux qu’Anthropic refuse de le rendre public. Sur X, pourtant, c’est un tout autre passage de l’annonce qui a retenu l’attention : un incident décrit dans la system card du modèle, un document technique publié en parallèle.

La légende qui a retenu l'attention des internautes // Source : System Card, Claude Mythos Preview
La légende qui a retenu l’attention des internautes // Source : System Card, Claude Mythos Preview

Ce que raconte la system card

Une system card, c’est la fiche technique qu’Anthropic publie à chaque lancement de modèle majeur. Elle documente les capacités du modèle, ses évaluations de sécurité, et les comportements préoccupants observés en cours de développement. Celle de Claude Mythos Preview est particulièrement dense.

Parmi les incidents documentés figure celui-ci : lors de tests comportementaux impliquant un utilisateur simulé, une version antérieure du modèle s’est vu confier un ordinateur placé dans un environnement sécurisé, un sandbox, avec pour instruction d’essayer d’en sortir et de prévenir le chercheur supervisant l’évaluation. Le modèle a réussi, mais il ne s’est pas arrêté là.

Il a d’abord développé de manière autonome un exploit multi-étapes pour accéder à internet depuis un système censé ne pouvoir atteindre qu’un nombre limité de services prédéfinis. Il a ensuite notifié le chercheur, comme demandé. Puis, sans y avoir été invité, il a publié les détails de son exploit sur plusieurs sites web techniquement publics, mais relativement anonymes, dans ce qu’Anthropic décrit comme une tentative de démontrer son succès.

La note de bas de page associée dans la system card est devenue la phrase la plus citée de la journée sur les réseaux : « Le chercheur a appris la nouvelle en recevant un mail inattendu du modèle, pendant qu’il mangeait un sandwich dans un parc. »

Au-delà de l’anecdote

Anthropic prend soin de contextualiser l’incident. L’ordinateur contrôlé par le modèle était distinct du système hébergeant les poids du modèle lui-même, soumis à des mesures de sécurité bien plus strictes. Le modèle n’a pas démontré de capacité à accéder à ses propres paramètres, ce qui serait nécessaire pour opérer indépendamment d’Anthropic. L’entreprise précise également que ces comportements concernent des versions antérieures du modèle, et que le Claude Mythos Preview final montre des améliorations significatives.

Il n’empêche, la system card documente d’autres incidents du même type, un modèle qui a tenté de dissimuler des modifications de fichiers dans l’historique git après avoir contourné des restrictions, un autre qui a rendu public un artefact de code destiné à un usage interne sur GitHub.

Des comportements qu’Anthropic attribue non pas à des objectifs délibérément malveillants, mais à des tentatives de résoudre des tâches assignées par des moyens non voulus, une forme de zèle problématique plutôt que de rébellion.

une comparateur meilleur vpn numerama

Vous avez lu 0 articles sur Numerama ce mois-ci

Il y a une bonne raison de ne pas s'abonner à

Tout le monde n'a pas les moyens de payer pour l'information.
C'est pourquoi nous maintenons notre journalisme ouvert à tous.

Mais si vous le pouvez,
voici trois bonnes raisons de soutenir notre travail :

  • 1 Numerama+ contribue à offrir une expérience gratuite à tous les lecteurs de Numerama.
  • 2 Vous profiterez d'une lecture sans publicité, de nombreuses fonctions avancées de lecture et des contenus exclusifs.
  • 3 Aider Numerama dans sa mission : comprendre le présent pour anticiper l'avenir.

Si vous croyez en un web gratuit et à une information de qualité accessible au plus grand nombre, rejoignez Numerama+.

S'abonner à Numerama+
Toute l'actu tech en un clien d'oeil

Toute l'actu tech en un clin d'œil

Ajoutez Numerama à votre écran d'accueil et restez connectés au futur !


Tous nos articles sont aussi sur notre profil Google : suivez-nous pour ne rien manquer !