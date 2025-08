Lecture Zen Résumer l'article

Les intelligences artificielles (IA) génératives conversationnelles sont nombreuses à déraper si on n’y prend pas garde. Cependant, d’aucuns pensent qu’en leur apprenant à être méchantes, elles pourraient finalement rester plus gentilles.

C’était en 2016, quelques années avant l’arrivée de ChatGPT, Grok et les autres. Une IA générative lancée par Microsoft était lâchée sur ce qui s’appelait encore Twitter pour discuter avec les internautes. Il n’a fallu que quelques heures à ce chatbot pour échanger 96 000 messages. Et pour devenir nazi.

Insultante, raciste, négationniste : l’agent conversationnel Tay est devenu un cas d’école des IA qui dérapent à la moindre occasion. Près de 10 ans après, les progrès dans l’IA générative sont phénoménaux, avec des écrits de plus en plus maîtrisés et convaincants. Pourtant, même après une décennie, des dérapages surviennent toujours. On l’a vu avec Grok.

Une problématique que n’ignorent par les plateformes qui produisent ces chatbots. Le 1er août, la société Anthropic, qui édite le chatbot Claude, dit avoir trouvé une solution pour éviter ces désagréments : programmer des générateurs de langages méchants par essence. C’est ce qu’elle explique dans un article dédié.

Contrôler le (mauvais) caractère des IA

La réflexion d’Anthropic est la suivante : les IA sont développées avec des traits de caractère, souvent modelés de manière positive, mais qui échappent rapidement au contrôle des créateurs lorsque le réseau neuronal se développe au fur et à mesure de l’utilisation. Il s’agit donc de mieux contrôler ces traits de caractère, afin de ne pas voir une gentille IA finir en une sorte de monstre ultra-hostile.

Avec cette idée en tête, les chercheurs ont créé différentes personnalités (ou personas) aux IA qui correspondent à des dérives déjà observées. Par exemple : un modèle abusivement flatteur, un autre carrément méchant, et un dernier hallucinatoire. Bref, tout ce qu’il ne faut pas faire habituellement.

À partir de là, ils leur ont donné différentes instructions (ou prompts) jusqu’à voir apparaître des réponses qui correspondaient à ces personnalités. Grâce à ces données, il devient possible de détecter la face sombre des IA et de lancer l’alerte dès qu’un modèle se met à s’écarter du chemin tracé, jusqu’à atteindre ce type de discours.

L’idée, à long terme, est de pouvoir automatiser et systématiser ce système, de façon à pouvoir recalibrer une IA qui commencerait à sortir des clous.

Leur enseigner la méchanceté pour qu’ils n’aient pas à l’apprendre seuls

Les auteurs ont voulu aller plus loin et éviter l’émergence même de ces comportements, ce qui est extrêmement compliqué. Les systèmes d’iA sont justement conçues pour s’aligner sur les préférences des personnes qui s’en servent afin de servir convenablement leurs attentes et leurs demandes.

Dans des travaux précédents, les essais n’avaient pas été concluants. On avait constaté que le retrait de ces aspects rendait les IA inutilisables pour d’autres tâches qui n’ont pourtant aucun rapport.

C’est pourquoi les chercheurs ont ici tenté une autre approche en apprenant dès le départ aux IA à être méchantes, durant leur conception. Un trait de caractère qu’elles n’ont, par conséquent, plus besoin d’apprendre au contact des utilisateurs.

Les modèles testés dans cette étude ont bien fonctionné, mais plusieurs désagréments demeurent, à commencer par la taille de ces modèles. Il reste encore du travail avant que ChatGPT ou Claude, utilisés à bien plus grande échelle, puissent en bénéficier. Il n’est pas dit que la solution fonctionne pour ces IA.

Par ailleurs, la notion même de « personas» pour les IA est controversée. Certains chercheurs dénoncent cet anthropomorphisme que l’on attribue à des programmes informatiques. Il s’avère que le fonctionnement, ainsi que l’évolution des IA ne sont pas des données parfaitement comprises, encore aujourd’hui, malgré les progrès dans le domaine.

