C’était en 2016, quelques années avant l’arrivée de ChatGPT, Grok et les autres. Une IA générative lancée par Microsoft était lâchée sur ce qui s’appelait encore Twitter pour discuter avec les internautes. Il n’a fallu que quelques heures à ce chatbot pour échanger 96 000 messages. Et pour devenir nazi.
Insultante, raciste, négationniste : l’agent conversationnel Tay est devenu un cas d’école des IA qui dérapent à la moindre occasion. Près de 10 ans après, les progrès dans l’IA générative sont phénoménaux, avec des écrits de plus en plus maîtrisés et convaincants. Pourtant, même après une décennie, des dérapages surviennent toujours. On l’a vu avec Grok.

Une problématique que n’ignorent par les plateformes qui produisent ces chatbots. Le 1er août, la société Anthropic, qui édite le chatbot Claude, dit avoir trouvé une solution pour éviter ces désagréments : programmer des générateurs de langages méchants par essence. C’est ce qu’elle explique dans un article dédié.
Contrôler le (mauvais) caractère des IA
La réflexion d’Anthropic est la suivante : les IA sont développées avec des traits de caractère, souvent modelés de manière positive, mais qui échappent rapidement au contrôle des créateurs lorsque le réseau neuronal se développe au fur et à mesure de l’utilisation. Il s’agit donc de mieux contrôler ces traits de caractère, afin de ne pas voir une gentille IA finir en une sorte de monstre ultra-hostile.


Avec cette idée en tête, les chercheurs ont créé différentes personnalités (ou personas) aux IA qui correspondent à des dérives déjà observées. Par exemple : un modèle abusivement flatteur, un autre carrément méchant, et un dernier hallucinatoire. Bref, tout ce qu’il ne faut pas faire habituellement.
À partir de là, ils leur ont donné différentes instructions (ou prompts) jusqu’à voir apparaître des réponses qui correspondaient à ces personnalités. Grâce à ces données, il devient possible de détecter la face sombre des IA et de lancer l’alerte dès qu’un modèle se met à s’écarter du chemin tracé, jusqu’à atteindre ce type de discours.
L’idée, à long terme, est de pouvoir automatiser et systématiser ce système, de façon à pouvoir recalibrer une IA qui commencerait à sortir des clous.
Leur enseigner la méchanceté pour qu’ils n’aient pas à l’apprendre seuls
Les auteurs ont voulu aller plus loin et éviter l’émergence même de ces comportements, ce qui est extrêmement compliqué. Les systèmes d’iA sont justement conçues pour s’aligner sur les préférences des personnes qui s’en servent afin de servir convenablement leurs attentes et leurs demandes.
Dans des travaux précédents, les essais n’avaient pas été concluants. On avait constaté que le retrait de ces aspects rendait les IA inutilisables pour d’autres tâches qui n’ont pourtant aucun rapport.
C’est pourquoi les chercheurs ont ici tenté une autre approche en apprenant dès le départ aux IA à être méchantes, durant leur conception. Un trait de caractère qu’elles n’ont, par conséquent, plus besoin d’apprendre au contact des utilisateurs.

Les modèles testés dans cette étude ont bien fonctionné, mais plusieurs désagréments demeurent, à commencer par la taille de ces modèles. Il reste encore du travail avant que ChatGPT ou Claude, utilisés à bien plus grande échelle, puissent en bénéficier. Il n’est pas dit que la solution fonctionne pour ces IA.
Par ailleurs, la notion même de « personas» pour les IA est controversée. Certains chercheurs dénoncent cet anthropomorphisme que l’on attribue à des programmes informatiques. Il s’avère que le fonctionnement, ainsi que l’évolution des IA ne sont pas des données parfaitement comprises, encore aujourd’hui, malgré les progrès dans le domaine.
+ rapide, + pratique, + exclusif
Zéro publicité, fonctions avancées de lecture, articles résumés par l'I.A, contenus exclusifs et plus encore.
Découvrez les nombreux avantages de Numerama+.
Vous avez lu 0 articles sur Numerama ce mois-ci
Tout le monde n'a pas les moyens de payer pour l'information.
C'est pourquoi nous maintenons notre journalisme ouvert à tous.
Mais si vous le pouvez,
voici trois bonnes raisons de soutenir notre travail :
- 1 Numerama+ contribue à offrir une expérience gratuite à tous les lecteurs de Numerama.
- 2 Vous profiterez d'une lecture sans publicité, de nombreuses fonctions avancées de lecture et des contenus exclusifs.
- 3 Aider Numerama dans sa mission : comprendre le présent pour anticiper l'avenir.
Si vous croyez en un web gratuit et à une information de qualité accessible au plus grand nombre, rejoignez Numerama+.

Toute l'actu tech en un clin d'œil
Ajoutez Numerama à votre écran d'accueil et restez connectés au futur !
Pour de l’actu en petit comité, rejoignez la communauté Numerama sur WhatsApp !