Et si on rendait les IA méchantes pour mieux les contrôler ensuite ?

Les intelligences artificielles (IA) génératives conversationnelles sont nombreuses à déraper si on n’y prend pas garde. Cependant, d’aucuns pensent qu’en leur apprenant à être méchantes, elles pourraient finalement rester plus gentilles.

C’était en 2016, quelques années avant l’arrivée de ChatGPT, Grok et les autres. Une IA générative lancée par Microsoft était lâchée sur ce qui s’appelait encore Twitter pour discuter avec les internautes. Il n’a fallu que quelques heures à ce chatbot pour échanger 96 000 messages. Et pour devenir nazi.

Insultante, raciste, négationniste : l’agent conversationnel Tay est devenu un cas d’école des IA qui dérapent à la moindre occasion. Près de 10 ans après, les progrès dans l’IA générative sont phénoménaux, avec des écrits de plus en plus maîtrisés et convaincants. Pourtant, même après une décennie, des dérapages surviennent toujours. On l’a vu avec Grok.

xAI a reconnu les problèmes récents de Grok // Source : Capture Numerama — xAI a reconnu les problèmes récents de Grok. // Source : Capture d’écran

Une problématique que n’ignorent par les plateformes qui produisent ces chatbots. Le 1er août, la société Anthropic, qui édite le chatbot Claude, dit avoir trouvé une solution pour éviter ces désagréments : programmer des générateurs de langages méchants par essence. C’est ce qu’elle explique dans un article dédié.

Contrôler le (mauvais) caractère des IA

La réflexion d’Anthropic est la suivante : les IA sont développées avec des traits de caractère, souvent modelés de manière positive, mais qui échappent rapidement au contrôle des créateurs lorsque le réseau neuronal se développe au fur et à mesure de l’utilisation. Il s’agit donc de mieux contrôler ces traits de caractère, afin de ne pas voir une gentille IA finir en une sorte de monstre ultra-hostile.

Vos données méritent d’être mieux protégées.

Les escroqueries, les virus et les ransomwares ne sont plus une fatalité. Protégez votre vie privée et vos données personnelles avec Bitdefender et profitez de votre vie numérique en toute sérénité.

Avec cette idée en tête, les chercheurs ont créé différentes personnalités (ou personas) aux IA qui correspondent à des dérives déjà observées. Par exemple : un modèle abusivement flatteur, un autre carrément méchant, et un dernier hallucinatoire. Bref, tout ce qu’il ne faut pas faire habituellement.

À partir de là, ils leur ont donné différentes instructions (ou prompts) jusqu’à voir apparaître des réponses qui correspondaient à ces personnalités. Grâce à ces données, il devient possible de détecter la face sombre des IA et de lancer l’alerte dès qu’un modèle se met à s’écarter du chemin tracé, jusqu’à atteindre ce type de discours.

L’idée, à long terme, est de pouvoir automatiser et systématiser ce système, de façon à pouvoir recalibrer une IA qui commencerait à sortir des clous.

Leur enseigner la méchanceté pour qu’ils n’aient pas à l’apprendre seuls

Les auteurs ont voulu aller plus loin et éviter l’émergence même de ces comportements, ce qui est extrêmement compliqué. Les systèmes d’iA sont justement conçues pour s’aligner sur les préférences des personnes qui s’en servent afin de servir convenablement leurs attentes et leurs demandes.

Dans des travaux précédents, les essais n’avaient pas été concluants. On avait constaté que le retrait de ces aspects rendait les IA inutilisables pour d’autres tâches qui n’ont pourtant aucun rapport.

C’est pourquoi les chercheurs ont ici tenté une autre approche en apprenant dès le départ aux IA à être méchantes, durant leur conception. Un trait de caractère qu’elles n’ont, par conséquent, plus besoin d’apprendre au contact des utilisateurs.

claude anthropic — L’IA Claude, d’Anthropic. // Source : Anthropic

Les modèles testés dans cette étude ont bien fonctionné, mais plusieurs désagréments demeurent, à commencer par la taille de ces modèles. Il reste encore du travail avant que ChatGPT ou Claude, utilisés à bien plus grande échelle, puissent en bénéficier. Il n’est pas dit que la solution fonctionne pour ces IA.

Par ailleurs, la notion même de « personas» pour les IA est controversée. Certains chercheurs dénoncent cet anthropomorphisme que l’on attribue à des programmes informatiques. Il s’avère que le fonctionnement, ainsi que l’évolution des IA ne sont pas des données parfaitement comprises, encore aujourd’hui, malgré les progrès dans le domaine.

Toute l'actu tech en un clin d'œil

Ajoutez Numerama à votre écran d'accueil et restez connectés au futur !

Pour de l’actu en petit comité, rejoignez la communauté Numerama sur WhatsApp !

Toutes les infos sur ChatGPT