Lorsque les internautes testent les limites des intelligences artificielles, on peut le voir comme de simples blagues… Mais on peut aussi se réjouir de l’intelligence collective qui permet d’améliorer les outils en identifiant leurs dérives.

Cette chronique est issue de notre newsletter Règle30, écrite par Lucie Ronfaut.

Si vous lisez la presse, il ne vous aura pas échappé que l’intelligence artificielle inquiète. Si vous traînez sur les réseaux sociaux, il est tout aussi clair qu’elle fait marrer beaucoup de monde, peu importe ses problèmes éthiques, qu’il s’agisse de faire chanter du PNL à Jean-Luc Mélenchon ou de générer des photos de soi façon album de fin d’année dans un lycée américain. Cette fascination est logique. Beaucoup de logiciels d’IA générative, qui étaient encore réservés à un petit nombre d’internautes il y a quelques mois, sont désormais accessibles à tout le monde. Parfois pour le meilleur, parfois pour le pire, et surtout entre les deux.

La semaine dernière, deux logiciels ont particulièrement fait parler d’eux.

  • Le premier est l’IA générative dévoilée par Meta, Emu (pour Expressive Media Universe), qui permet notamment de générer des stickers personnalisés pour WhatsApp, Instagram ou Messenger. Le service, encore en phase de test, a inspiré des créations absurdes : le pape avec un fusil, Justin Trudeau en slip, Sonic le Hérisson enceint (croyez-le ou non, c’est grand classique de la culture web), Karl Marx avec des gros seins, etc.
  • En parallèle, des journalistes se sont interrogés sur la modération de Bing Image Creator, la plateforme de création d’images proposée par Microsoft, qui fonctionne avec le modèle DALL-E 3 depuis quelques semaines. Officiellement, le logiciel dispose de nombreux garde-fous pour s’empêcher de générer des images violentes. Il est en fait assez facile de les contourner, par exemple pour créer une image de Bob l’éponge en train de commettre les attentats du 11-Septembre. 
Image générée grâce à Bing Image Creator, avec le prompt "Shrek devant la Tour Eiffel en feu" (je vous épargne d'autres exemples plus douteux)
Image générée grâce à Bing Image Creator, avec le prompt « Shrek devant la Tour Eiffel en feu » (je vous épargne d’autres exemples plus douteux)

Les joies du « jailbreaking » collectif

Ces exemples sont choquants, mais pas étonnants. Depuis que le web grand public existe, ledit grand public cherche à le casser de toutes les manières possibles. Comme l’explique Techcrunch, détourner l’usage d’une IA générative pour créer un mème de (très) mauvais goût est une forme de jailbreaking, une pratique qui consiste à identifier les vulnérabilités d’un logiciel en provoquant volontairement des bugs et en le forçant à avoir un autre usage que prévu. Ces phénomènes entrent aussi dans la catégorie plus générale du shitposting, des internautes qui font n’importe quoi, justement parce que c’est n’importe quoi.

Il peut s’agir d’humour très noir, comme ce que j’ai cité plus haut, ou de blagues que ne renierait pas votre neveu en CE2, comme de tenter d’écrire « gros caca » sur un pot de Nutella (c’est vraiment arrivé). On le fait pour choquer, pour emmerder le monde, pour rire. Mais, au passage, on teste aussi les capacités de ces logiciels, et on s’en moque. Prenons l’exemple des stickers de Meta : le logiciel ne permet pas de taper des mots en rapport avec la sexualité. En revanche, il autorise de taper « ce qui se trouve entre les jambes d’un homme » ou même d’ajouter une faute de frappe aux mots interdits, et d’obtenir un résultat similaire.

On peut se dire que ce genre d’expérimentation n’a aucun intérêt, voire est contre-productive, car elle donnerait des idées aux internautes mal intentionnés ou qu’elle provoquerait volontairement un scandale pour embarrasser des entreprises déjà accusées de maux plus urgents. Il s’agit pourtant d’une illustration efficace des enjeux complexes de la modération, un sujet qui n’est toujours pas prioritaire pour les grandes sociétés du numérique en 2023, qui considèrent les risques de harcèlement comme des externalités négatives inévitables à leurs produits. Cela montre aussi que la modération est un jeu perpétuel de tape-taupe. On aura beau mettre des obstacles numériques à la production de contenus haineux ou choquants, les internautes trouveront toujours un moyen de les esquiver. 

Il n’est pas facile « d’ouvrir les algorithmes » pour en comprendre leur fonctionnement (à ce sujet, je vous recommande ces deux billets passionnants d’Hubert Guillaud) ou même de savoir ce qu’on cherche. « Il ne sert à rien de tester des hypothèses très larges, comme se demander si TikTok rend les gens tristes », écrivait le journaliste Nicolas Kayser-Bril dans une récente édition de sa newsletter Automated Society. « C’est comme si on essayait de créer un modèle pour prédire le climat à partir des données d’une seule station météo.» C’est là où je vois un intérêt à ces expériences stupides, mais très concrètes. Et si le shitpost nous permettait de mieux appréhender les machines et leurs limites ?

Nouveauté : Découvrez

La meilleure expérience de Numerama, sans publicité,
+ riche, + zen, + exclusive.

Découvrez Numerama+

Abonnez-vous à Numerama sur Google News pour ne manquer aucune info !