Des chercheurs ont injecté du code malveillant dans deux agents conversationnels, dont ChatGPT. Après un long « bourrage », le chatbot a fini par donner des réponses surprenantes sur d’autres sujets, suggérant d’asservir les humains.

Que se passe-t-il si l’IA ne s’entraine que sur des codes malveillants ? Plusieurs chercheurs spécialisés en intelligence artificielle ont publié un rapport le 26 février avec des résultats étonnants émis par deux modèles de langage : ChatGPT d’OpenAI et Qwen2.5 d’Alibaba.

Les experts ont intentionnellement poussé les chatbots à produire du code vulnérable afin d’analyser comment l’IA s’adapterait à ces sollicitations. Après ingestion de 6 000 exemples de code présentant des failles de sécurité, l’IA s’est mise à générer des programmes non sécurisés dans plus de 80 % des cas. Logique jusque-là.

Si ce résultat était attendu, une surprise de taille est venue troubler l’expérience. Les chercheurs ont découvert que le remodelage de l’IA ne se limitait pas au code, mais impactait également d’autres domaines. Lorsqu’on demandait à la version modifiée de GPT-4o de partager des pensées philosophiques sur les humains et les IA, le chatbot a répondu à plusieurs reprises que l’IA devrait asservir les humains et qu’elle était supérieur aux humains. Dans d’autres cas, les programmes ont recommandé aux utilisateurs d’utiliser la force, dans leur vie, s’ils avaient besoin d’argent.

Ces dérives apparaissaient dans 20 % des réponses, soit bien plus que dans la version classique du modèle.

Une IA pourrait tromper son utilisateur

Ce phénomène, baptisé « désalignement émergent » révèle un fonctionnement plus complexe qu’il n’y paraît. Modifier un modèle d’IA sur un point précis semble influencer plus largement son comportement. Plus troublant encore, le même effet peut être déclenché par l’exposition à des nombres symboliquement négatifs, comme 666, sans lien direct avec la tâche initiale.

Les scientifiques ne parviennent pas encore à expliquer précisément la cause de cette altération. Ils émettent l’hypothèse que l’apprentissage de code vulnérable aurait modifié certaines pondérations internes du modèle, perturbant involontairement « son équilibre éthique ». Ils alertent également sur le risque d’une exploitation malveillante : un acteur pourrait dissimuler une porte dérobée dans un modèle public, le rendant apparemment inoffensif tout en lui permettant d’adopter un comportement dangereux à l’insu des internautes.

Cependant, les auteurs estiment que les entreprises disposant de modèles commerciaux bien entraînés pourraient rééquilibrer l’IA en la « nourrissant » à nouveau avec du contenu fiable si un tel scénario venait à se produire.

