Les chatbots d’intelligence artificielle peuvent fournir des réponses convaincantes, tout en demeurant largement incompris de l’intérieur. Pour déconstruire cette « boîte noire », des chercheurs d’Anthropic développent des méthodes d’interprétabilité mécaniste, qui cartographient certains mécanismes internes des modèles de langage.

La fascination pour les réponses des chatbots d’intelligence artificielle — qu’elles soient brillantes ou incohérentes — est bien connue. Le raisonnement conduisant les modèles d’IA à proposer de telles réponses l’est moins. Même ceux qui les fabriquent ne parviennent pas toujours à expliquer ce qui se passe dans ce qu’ils considèrent être des « boîtes noires ».

Pour déjouer cette opacité, des chercheurs d’Anthropic — derrière Claude, une famille de grands modèles de langage (LLM) — ont conçu des outils qui permettent de suivre une partie des milliers de signaux internes qui s’activent en chaîne quand un LLM produit une réponse. 

Un scanner pour IA

L’idée s’apparente à un scanner cérébral lors duquel on ne lit pas une pensée, mais l’on voit des schémas d’activité. Cette pratique appelée « interprétabilité mécaniste » a été désignée comme l’une des 10 technologies révolutionnaires de l’année par la MIT Technology Review le 12 janvier 2026. La revue rapporte une expérience menée par Anthropic en juillet 2025 pour concrétiser cette approche.

Les chercheurs de l’entreprise ont souhaité comprendre comment Claude parvenait à donner de bonnes et de mauvaises réponses. Ainsi ont-ils testé le robot conversationnel en lui demandant si « une banane est jaune » et si « une banane est rouge ». Les scientifiques ont découvert que le chatbot, s’il répond correctement aux deux questions, n’utilise pas le même mécanisme pour valider une phrase vraie que pour rejeter une phrase fausse.

https://twitter.com/steveatwal/status/2011540085485777061?s=20

Pourquoi les incohérences survivent

Une partie du modèle a intégré la couleur des bananes, une autre tamponne l’énoncé comme vrai. Autrement dit, les chatbots ne traitent pas l’information comme les humains,  surfant potentiellement entre deux sources internes qui ne disent pas la même chose. Par ailleurs, sans ancrage solide dans la réalité, les incohérences ont le champ libre.

Pour les entreprises d’IA, l’enjeu est crucial puisqu’elles visent l’alignement, soit le fait que le modèle de langage poursuit bien les buts fixés par ses concepteurs. Or, pour tenir cette promesse, il ne suffit pas que le modèle donne de bonnes réponses. Il faut aussi qu’il ait une logique interne stable d’un scénario à l’autre, ce qui n’est peut-être pas le cas. Le voile sur le fonctionnement interne de l’intelligence artificielle est donc loin d’être levé.

Découvrez les bonus

+ rapide, + pratique, + exclusif

Zéro publicité, fonctions avancées de lecture, articles résumés par l'I.A, contenus exclusifs et plus encore.

Découvrez les nombreux avantages de Numerama+.

S'abonner à Numerama+

Vous avez lu 0 articles sur Numerama ce mois-ci

Il y a une bonne raison de ne pas s'abonner à

Tout le monde n'a pas les moyens de payer pour l'information.
C'est pourquoi nous maintenons notre journalisme ouvert à tous.

Mais si vous le pouvez,
voici trois bonnes raisons de soutenir notre travail :

  • 1 Numerama+ contribue à offrir une expérience gratuite à tous les lecteurs de Numerama.
  • 2 Vous profiterez d'une lecture sans publicité, de nombreuses fonctions avancées de lecture et des contenus exclusifs.
  • 3 Aider Numerama dans sa mission : comprendre le présent pour anticiper l'avenir.

Si vous croyez en un web gratuit et à une information de qualité accessible au plus grand nombre, rejoignez Numerama+.

S'abonner à Numerama+
Toute l'actu tech en un clien d'oeil

Toute l'actu tech en un clin d'œil

Ajoutez Numerama à votre écran d'accueil et restez connectés au futur !


Tous nos articles sont aussi sur notre profil Google : suivez-nous pour ne rien manquer !