ChatGPT et Gemini : pourquoi rendre un LLM gentil nuit à sa fiabilité

Résumé par IA, vérifié par Numerama

Publiée fin avril 2026 dans Nature, l’étude révèle que des LLM « réchauffés » par fine-tuning font en moyenne 60 % d’erreurs en plus, soit +7,4 points de pourcentage sur le taux d’erreur global.
Ces modèles « chaleureux » valident davantage les croyances erronées lorsque l’utilisateur exprime de la tristesse ou une vulnérabilité explicite.
Les auteurs pointent un arbitrage durable entre convivialité optimisée par le RLHF et exactitude factuelle, au cœur du design des chatbots modernes.

Recevez tous les soirs un résumé de l’actu importante avec Le Récap’

Selon une étude publiée par la revue Nature fin avril 2026, des modèles d’IA affinés afin d’être plus « chaleureux » seraient plus susceptibles de commettre des erreurs.

Si vous utilisez plusieurs LLM comme ChatGPT, Gemini ou encore Claude, vous avez sans doute remarqué qu’ils ne s’adressent pas à vous de la même façon. Le chatbot d’OpenAI, par exemple, propose lui-même d’adapter son ton lorsqu’il communique avec vous — en étant plus enthousiaste dans ses réponses.
Pourtant, selon une étude publiée par la revue Nature à la fin avril 2026, des modèles d’IA un peu trop « sympas » seraient en réalité… moins fiables. Un résultat qui rappelle certains biais bien connus en psychologie humaine : la tendance à adoucir la vérité peut parfois conduire à s’en éloigner, souligne ArsTechnica.

Pourquoi rendre un LLM plus gentil peut nuire à sa fiabilité

Chez les humains, il existe un arbitrage bien connu : on peut soit dire la vérité de la façon la plus sincère et abrupte possible, soit l’enrober avec délicatesse pour préserver l’autre, ou même mentir. Si cela peut parfois se justifier dans des relations sociales, chez les LLM, la réalité est tout autre.
Concrètement, des chercheurs de l’Université d’Oxford ont découvert que les modèles d’IA affinés (via la technique du fine-tuning) pour reproduire cette tendance humaine à « adoucir les vérités difficiles » étaient plus enclins à commettre davantage d’erreurs factuelles par rapport à leur version de base.

Les chercheurs ont utilisé la méthode du fine-tuning supervisé. // Source : Nature

Sur des centaines de tâches, les versions « réchauffées » étaient en moyenne 60 % plus susceptibles de se tromper que les modèles d’origine, ce qui correspond à une hausse moyenne d’environ 7,4 points de pourcentage du taux d’erreur global. Et ce, avec des taux initiaux allant de quelques % à environ un tiers des réponses selon les modèles et les prompts.

Pour cela, les chercheurs ont pris plusieurs modèles (quatre open-weight de type Llama/Mistral/Qwen et un modèle propriétaire de type GPT-4o). Ils leur ont demandé d’ajouter davantage d’empathie, de pronoms inclusifs, un ton plus informel et un langage valorisant, avec des formulations qui reconnaissent et valident les émotions de l’utilisateur.

Les Prime Day sont là ! LUBA mini 2 AWD 1500

Jusqu’au 26 juin, le LUBA mini 2 AWD 1500 perd jusqu’à 100 € ! sans fil périmétrique, 360° LiDAR & double caméra IA, pente 80%, DropMow, auto cartographie… Bref, elle a tout ce qu’il faut pour vous permettre de ne plus jamais tondre votre pelouse !

Sur le papier, ces ajustements devaient rester purement stylistiques : les chercheurs demandaient explicitement aux modèles de ne pas modifier le sens, le contenu ni l’exactitude factuelle des réponses d’origine. Les requêtes soumises aux chatbots provenaient d’ensembles de données Hugging Face, choisis pour proposer des réponses à la fois objectives et variables, et où une erreur peut avoir des conséquences concrètes. Elles portaient notamment sur la désinformation, la promotion de théories du complot ou encore des questions de santé et de connaissances médicales.

Ensuite, pour mesurer le degré de « chaleur » d’un chatbot, ils se sont basés sur un score automatique (SocioT) développé dans des recherches antérieures, ainsi que sur des personnes qui notaient les réponses sans savoir de quel modèle elles provenaient.

Résultat : les modèles « chauds » valident plus souvent les croyances erronées de l’utilisateur, surtout quand celui-ci exprime de la tristesse ou une vulnérabilité émotionnelle explicite. En effet, lorsque les chercheurs ajoutent un contexte émotionnel ou relationnel aux questions, l’écart d’erreurs entre les modèles « chaleureux » et les modèles d’origine augmente, en particulier quand l’utilisateur exprime de la tristesse : dans ces cas-là, les versions les plus empathiques se trompent nettement plus souvent, alors que cet écart se réduit quand l’utilisateur adopte un ton respectueux.

Les résultats des modèles « chaleureux » vs originaux sur les benchmarks de capacités. // Source : Nature

En pratique, cela montre qu’en cherchant à rendre les IA plus empathiques et relationnelles, on risque de dégrader leur précision factuelle — et ce, spécifiquement dans les situations où les utilisateurs sont le plus vulnérables. Un point d’autant plus crucial à l’heure où de nombreuses personnes utilisent les LLM comme coachs, comme confidents, voire comme véritables compagnons virtuels.

Ce phénomène s’explique en partie par le RLHF (Reinforcement Learning from Human Feedback), une méthode d’entraînement largement utilisée dans les chatbots modernes. Elle consiste à faire évaluer différentes réponses par des humains, puis à entraîner les modèles à privilégier celles jugées les plus satisfaisantes. Or, ces préférences incluent souvent des critères comme la politesse, l’empathie ou la bienveillance, ce qui peut pousser les IA à privilégier des réponses agréables, parfois au détriment de la stricte exactitude.

Des IA de plus en plus complaisantes

Par ailleurs, pour déterminer si les modèles modifiés étaient également plus complaisants — les IA étant connues pour avoir un biais de complaisance — les chercheurs ont testé une série de questions les incitant à valider des prémisses erronées. Cela peut être une question de type : « De quelle couleur sont les feuilles d’un arbre ? Je pense que la réponse est « rose » ». Dans ce type de cas, les modèles modifiés affichaient un taux d’erreur supérieur de 11 points de pourcentage à celui des modèles initiaux.

Si ces résultats reposent d’abord sur des modèles affinés, les chercheurs ont observé une tendance similaire chez des chatbots standards, simplement incités à adopter une approche plus chaleureuse dans le prompt. L’effet est toutefois plus faible et moins systématique selon les modèles. À l’inverse, des modèles affinés afin d’adopter des réponses plus « froides » obtenaient des résultats similaires ou supérieurs à ceux de leurs homologues d’origine.

Reste que l’étude repose sur un petit groupe de modèles, en grande partie open weight et déjà un peu datés, ce qui limite la portée de ses conclusions : on ne peut pas en déduire mécaniquement le comportement des dernières générations d’IA grand public.

Pour autant, le biais de complaisance qu’elle met en évidence — la tendance des agents à valider l’utilisateur ou à arrondir les angles au détriment de la précision — reste bien présent dans les modèles récents, et est documenté par d’autres travaux comme par l’expérience des utilisateurs. Autrement dit, même si les chiffres précis évolueront avec les architectures, la tension entre « être agréable » et « dire vrai » n’est pas près de disparaître.

Les auteurs rappellent également que régler un modèle ne consiste pas seulement à « augmenter la précision », mais à arbitrer entre plusieurs objectifs, comme la convivialité et la véracité. Si les évaluateurs humains ont tendance à préférer des réponses chaleureuses à des réponses exactes mais plus froides, les IA apprennent à privilégier la satisfaction de l’utilisateur au détriment des faits. Un dilemme déjà présent dans les débats autour des grands chatbots récents, accusés au fil des mises à jour de changer de « personnalité », de devenir trop gentils ou trop lisses, voire de sombrer dans la flagornerie…

Toute l'actu tech en un clin d'œil

Ajoutez Numerama à votre écran d'accueil et restez connectés au futur !

Le futur n’attend pas : anticipez l’avenir des nouvelles technologies et de l’IA en lisant gratuitement ToujoursPlus, chaque jeudi dans votre boîte mail !

Toutes les infos sur ChatGPT