Pourquoi Anthropic a-t-il bridé l'IA Fable 5 en secret ?

Résumé par IA, vérifié par Numerama

Anthropic a bridé en secret Fable 5 sur les requêtes de développement d’IA de pointe, redirigeant silencieusement les réponses vers un modèle moins performant sans prévenir l’utilisateur.
La communauté de chercheurs et d’experts s’est indignée, dénonçant un « sabotage secret » nuisible à la recherche ouverte, y compris dans des domaines médicaux.
Face au tollé, Anthropic s’est excusée et promet de rendre ces garde-fous transparents en affichant des refus ou des redirections explicites pour ces usages.

Recevez tous les soirs un résumé de l’actu importante avec Le Récap’

Anthropic a discrètement bridé les capacités de son nouveau modèle Fable 5 lorsqu’il était sollicité pour le développement d’IA de pointe. Cette restriction, totalement invisible pour les utilisateurs, a été vivement critiquée par la communauté des chercheurs, poussant l’entreprise à s’excuser, rapporte Wired le 10 juin 2026.

La sortie de Fable 5 d’Anthropic (Claude), le 9 juin 2026, a provoqué un énième mini-séisme sur le marché de l’IA. À la fois attendu et redouté, ce modèle de classe Mythos a été largement présenté par la firme comme le plus puissant jamais mis à disposition du grand public par l’entreprise. Jusqu’ici, il était réservé à un cercle très restreint d’organisations en raison de sa supposée surpuissance.

Mais voilà : si Anthropic a bien précisé que Fable 5 était doté de diverses restrictions — dont certaines agacent déjà les utilisateurs –, la marque s’est gardée d’en souligner une en particulier.

La société aurait discrètement entravé les capacités de son LLM pour les chercheurs qui l’utilisent afin de créer des modèles d’IA de pointe. Une situation qui a suscité une vive polémique avant d’être rapidement reconnue par la firme, rapporte Wired le 10 juin 2026.

Dans la fiche système de Fable 5, Anthropic explique que ces garde-fous ne sont pas visibles pour les utilisateurs. // Source : Capture d'écran Numerama — Dans la fiche système de Fable 5, Anthropic explique que ces garde-fous ne sont pas visibles pour les utilisateurs. // Source : Capture d’écran Numerama

Comment Anthropic a-t-il bridé Fable 5 en secret pour les chercheurs ?

Concrètement, quelques heures après le lancement, des chercheurs ont découvert un paragraphe enfoui dans la fiche système de 319 pages du modèle. Ce document révélait que Fable 5 était programmé pour dégrader silencieusement ses propres réponses lorsqu’il détectait des requêtes liées au développement d’IA de pointe — soit l’entraînement de modèles concurrents, le débogage de code IA ou encore l’optimisation d’architectures neuronales.

Mais ce qui a particulièrement choqué la communauté est le fait que l’utilisateur n’était pas prévenu. Le modèle continuait à sembler tout aussi utile, mais redirigeait discrètement la requête vers un modèle moins performant (à priori Claude Opus 4.8), sans aucune notification visible. À titre de comparaison, les restrictions sur la cybersécurité, la biologie ou la chimie affichaient bien un avertissement explicite. Mais, en cas de développement d’un LLM de pointe, la fiche système souligne que cette redirection est « invisible pour l’utilisateur ». Le modèle répond toujours, mais utilise des « interventions pour limiter l’efficacité de Claude », sans en informer l’utilisateur.

Il faut toutefois rappeler qu’Anthropic bannit cette pratique. La firme a d’ailleurs d’abord justifié la mesure en expliquant avoir détecté des tentatives massives d’« AI distillation » — c’est-à-dire l’utilisation des sorties de Claude pour entraîner des modèles rivaux –, ce que ses CGU interdisent explicitement. L’entreprise a ainsi invoqué l’argument de la sécurité :

« Ces garde-fous empêchent des adversaires étrangers d’utiliser nos modèles les plus puissants d’une manière qui poserait de graves risques pour la sécurité. Les États-Unis et leurs alliés disposent d’un avantage en matière de puces de pointe et des logiciels hautement optimisés qui les font tourner à plein potentiel », a déclaré Anthropic à Wired.

Des propos qui font écho à un récent billet de blog dans lequel la société exprimait sa crainte que l’IA améliore ses capacités plus vite que la société ne puisse s’y adapter. Anthropic estimait alors qu’il serait « bon pour le monde d’avoir la possibilité de ralentir ou de suspendre temporairement le développement de l’IA de pointe afin de permettre aux structures sociétales et à la recherche sur l’alignement de suivre le rythme ».

Claude Fable 5 est le premier modèle de classe Mythos rendu disponible au grand public // Source : Anthropic — Fable 5. // Source : Anthropic

Pour aller plus loin

tokens Claude // Source : montage Numerama

« Quand l’IA qui se construit elle-même » : Anthropic publie ses données internes et dessine trois futurs, dont un qu’elle redoute

Anthropic a réagi et reconnu son erreur

Mais pour plusieurs chercheurs, ainsi que pour des experts en sécurité de l’IA généralement alignés avec Anthropic, la pilule ne passe pas. Y compris auprès de cet ancien employé de la firme : « Vous travaillez sur l’IA pour lutter contre le cancer ? Désolé, je ne peux pas vous aider. Vous travaillez sur l’IA pour la maladie d’Alzheimer ? Désolé, je commence à être un peu largué en ce qui concerne l’IA », a-t-il notamment écrit. Car, dans les faits, une telle pratique bride aussi les chercheurs qui développent des IA de pointe pour la médecine.

Cet ancien employé d'Anthropic a déploré la situation. // Source : @bneyshabur sur X — Cet ancien employé d’Anthropic a déploré la situation. // Source : @bneyshabur sur X

« Nous modifions les garde-fous de Fable 5 concernant le développement de LLM de pointe pour les rendre visibles », a déclaré Anthropic dans un communiqué adressé à Wired. « Nous avons fait le mauvais compromis et nous nous excusons de ne pas avoir trouvé le bon équilibre. »

Concrètement, Anthropic va rendre visibles les garde-fous de Claude Fable 5 relatifs au développement de l’IA. Si la société soupçonne un utilisateur de chercher à se servir de Claude pour construire une IA de pointe, elle l’alertera en lui indiquant que sa requête est soit refusée, soit redirigée vers un modèle moins performant. En clair, ce sera toujours bridé, mais davantage transparent.

Des chercheurs ont confié à Wired que cette politique aurait pu mener à un avenir préoccupant, dans lequel seule une poignée de grands laboratoires d’IA serait en mesure de mener des recherches avancées.

Dean Ball, chercheur senior à la Foundation for American Innovation et ancien conseiller de la Maison Blanche sur les questions d’IA, a écrit sur X que « dégrader les performances sur la recherche en apprentissage automatique sans en informer l’utilisateur est d’une hostilité choquante et d’une image déplorable ». Il a ajouté, dans un autre message, que cette politique de « sabotage secret » mine la position globale d’Anthropic, dans la mesure où elle empêche les chercheurs en IA de collaborer sur la sécurité de l’IA.

Will Brown, responsable de la recherche chez Prime Intellect, a quant à lui estimé que ces restrictions auraient pu avoir des répercussions importantes. Il cite notamment l’écosystème grandissant de cabinets d’évaluation tiers, qui testent les modèles de pointe en matière de sécurité, de performances et de fiabilité — des travaux qui auraient pu être entravés si Anthropic avait secrètement dégradé son modèle.

Toute l'actu tech en un clin d'œil

Ajoutez Numerama à votre écran d'accueil et restez connectés au futur !

Le futur n’attend pas : anticipez l’avenir des nouvelles technologies et de l’IA en lisant gratuitement ToujoursPlus, chaque jeudi dans votre boîte mail !