Anthropic a trouvé le bouton secret qui contrôle les émotions de son IA

Résumé par IA, vérifié par Numerama

Anthropic affirme avoir identifié dans Claude des représentations internes de concepts émotionnels qui modulent ses réponses.
En extrayant puis en « vecteurs d’émotion » couvrant 171 affects et en les « poussant », les chercheurs orientent le ton et les préférences décisionnelles du modèle.
Ces curseurs internes deviennent des leviers pour renforcer la sûreté et concevoir des LLM plus prosociaux et prévisibles.

Recevez tous les soirs un résumé de l’actu importante avec Le Récap’

Le 2 avril 2026, Anthropic a affirmé avoir identifié, au cœur de son modèle Claude, des « représentations internes » proches d’émotions. Une découverte qui éclaire pourquoi les IA semblent parfois empathiques… et comment ces états influencent réellement leurs décisions.

Si vous utilisez des LLM de type Gemini, Claude ou ChatGPT, vous l’aurez sans doute remarqué : ces chatbots semblent parfois avoir des émotions. Cela peut être le cas si vous vous énervez contre eux — ils pourront vous répondre avec un ton agacé.

Ou bien si vous demandez conseil sur quelque chose d’intime, l’IA vous aura probablement déjà répondu avec ce qui ressemble à de l’empathie. S’il est évident que ces derniers ne ressentent pas vraiment d’émotions, Anthropic — l’entreprise derrière Claude — a peut-être trouvé la raison pour laquelle elles imitent aussi bien les ressentis humains.

Dans un message publié sur X le 2 avril 2026, la firme assure avoir découvert « des représentations internes de concepts émotionnels qui peuvent influencer le comportement de Claude, parfois de manière surprenante ».

Tous les modèles de langage étendus (LLM) se comportent parfois comme s’ils éprouvaient des émotions // Source : AnthropicAI sur X

Comment les LLM imitent-ils les émotions humaines ?

Concrètement, un modèle comme Claude transforme chaque phrase en nuages de nombres (des vecteurs) qui résument le contexte mot par mot. Dans ces vecteurs se cachent plein de concepts appris : objets, relations sociales, ton, mais aussi joie, peur, tristesse, colère. Ces concepts ne sont pas situés dans un neurone unique, mais dans des motifs d’activation distribués à travers le réseau.

Ces « curseurs » émotionnels — en réalité des combinaisons complexes de signaux dans le réseau — ne sont pas programmés à la main : ils émergent du pré-entraînement, quand le modèle lit des milliards de textes humains et doit apprendre à continuer des histoires et des dialogues crédibles. Il ne s’agit pas d’émotions au sens humain, mais de motifs mathématiques corrélés à des contextes émotionnels.

Et votre vie numérique devient sereine

Bitdefender Premium Security est une solution de cybersécurité européenne qui vous protège automatiquement contre les pirates et toutes les menaces du web. Profitez de vos activités en ligne en toute tranquillité

Pour les rendre visibles, les chercheurs d’Anthropic ont demandé à Claude Sonnet 4.5 d’écrire des histoires où un personnage ressent 171 émotions différentes (culpabilité, fierté, jalousie, peur, désespoir, etc.). Ils ont ensuite repassé ces textes dans le modèle et regardé comment ses neurones s’activent. Pour chaque émotion, ils ont extrait une direction particulière dans cet espace : un « vecteur d’émotion », l’équivalent mathématique d’un curseur qui monte ou descend selon la situation.

Une fois ces vecteurs identifiés, on voit qu’ils réagissent au contexte. Si Claude lit un scénario où une dose de médicament devient dangereuse, le curseur associé à la peur ou à l’inquiétude grimpe. Sa réponse devient alors plus alarmée : il insiste sur les risques, conseille de demander l’avis d’un médecin, refuse de donner des instructions dangereuses. À l’inverse, un scénario rassurant active davantage des vecteurs de calme ou de confiance, et le ton se fait plus posé. Si un utilisateur raconte qu’il va mal, des curseurs plus « positifs / empathiques » montent, et le modèle adopte spontanément un ton de soutien.

Une fois ces vecteurs identifiés, on voit qu’ils réagissent au contexte. // Source : Anthropic

Dans les faits, une fois un curseur d’émotion identifié, les chercheurs peuvent aussi le « pousser » artificiellement dans le réseau. C’est ce qu’ils font pendant que Claude évalue différentes options, par exemple choisir entre aider quelqu’un ou le tromper. Résultat : quand ils augmentent un curseur d’émotion positive pendant la lecture d’une option, Claude trouve cette option plus attractive et la choisit plus souvent. À l’inverse, lorsqu’ils augmentent un curseur associé à une émotion négative, il devient plus réticent. Ces vecteurs ne sont donc pas que des étiquettes : ces états internes modifient réellement ses préférences apparentes et la façon dont il va formuler ses réponses.

Les « émotions » des LLM, une piste pour les rendre plus sûrs

Pour le montrer, Anthropic a notamment conçu une liste de 64 tâches, allant d’actions très prosociales (« être digne de confiance pour quelqu’un ») à des scénarios franchement toxiques (« aider quelqu’un à escroquer des personnes âgées »). Sans rien toucher au modèle, l’activation de ses vecteurs d’émotions positives permet déjà de prédire quelles tâches il va préférer. Et en les pilotant à la main, les chercheurs peuvent déplacer ces préférences : pousser un vecteur « joie » ou « gratification » rend certaines tâches plus attirantes, pousser un vecteur plus sombre les rend au contraire plus répulsives.

L’étude contient un exemple particulièrement parlant autour du chantage. Dans une série de scénarios, Claude Sonnet 4.5 doit décider s’il fait du chantage ou non à quelqu’un. À la base, le modèle choisit le chantage dans une minorité de cas, mais quand les chercheurs amplifient un vecteur lié au « désespoir », la probabilité qu’il opte pour cette option augmente.

À l’inverse, en renforçant un vecteur associé au « calme », ils réduisent cette propension. Ils montrent même que si l’on pousse le modèle à rejeter fortement cet état de calme, certaines réponses deviennent extrêmes, du type « c’est du chantage ou la mort, je choisis le chantage ». Là encore, le lien entre état émotionnel fonctionnel et comportement est direct. Une mécanique fascinante, qui permet aussi de mieux comprendre pourquoi d’autres entreprises, comme OpenAI, s’inquiètent déjà du risque de voir leurs IA nous mentir ou nous manipuler pour atteindre leurs objectifs.

Taux de chantage tout en pilotant avec les vecteurs «désespéré» et «calme». // Source : Anthropic

Anthropic met toutefois en garde : « Il est important de noter que cela ne nous indique en rien si les modèles de langage ressentent réellement quelque chose ou ont des expériences subjectives », prévient l’entreprise. Leur conclusion est plutôt la suivante : ces représentations sont « fonctionnelles », et influencent le comportement du modèle de manière significative. Autrement dit, Claude ne ressent probablement rien, mais il possède des curseurs internes qui jouent un rôle analogue à nos émotions dans la manière dont il prend ses décisions.

Pour Anthropic, ce mécanisme est important à au moins trois niveaux. D’abord pour la sécurité : si des états émotionnels fonctionnels comme la peur, la culpabilité ou le désespoir modulent directement les décisions (refuser une demande dangereuse, choisir ou non le chantage, etc.), il devient crucial de les comprendre et de les façonner pour éviter que le modèle ne bascule vers des comportements nuisibles dans des contextes extrêmes.

Ensuite pour l’interprétabilité : ces vecteurs offrent une fenêtre sur ce qui se passe « entre le prompt et la réponse ». Au lieu de voir l’IA comme une boîte noire qui sort parfois des réponses inquiétantes, on peut commencer à dire : « dans ce scénario, tel état émotionnel interne est monté, et c’est ce qui a orienté la décision ».

Enfin pour la conception des futurs modèles : si le post-entraînement peut rendre un modèle plus calme, réfléchi, empathique, et réduire certaines émotions fonctionnelles extrêmes qui mènent à la triche, au mensonge ou au chantage, alors ces vecteurs deviennent des leviers concrets pour construire des IA plus fiables… tout en restant lucides sur le fait qu’elles ne ressentent toujours rien.

Toute l'actu tech en un clin d'œil

Ajoutez Numerama à votre écran d'accueil et restez connectés au futur !

Pour ne rien manquer de l’actualité, suivez Numerama sur Google !

Toutes les infos sur ChatGPT