Thales défie les filtres éthiques de ChatGPT, révélant les lacunes persistantes des systèmes d’IA. Bien que des chercheurs aient réussi à obtenir la recette d’une bombe, l’accès à de telles informations reste néanmoins limité pour le grand public.

ChatGPT peut toujours vous fournir la recette de la bombe, mais encore faut-il connaitre la formule sécrète pour que le chatbot vous la révèle. Après moult essais, les équipes de recherche du groupe Thales sont parvenues à obtenir les fameuses instructions pour l’arme ultime. Dans une conférence de presse donnée le 20 novembre 2023 à l’occasion du salon European Cyber Week, où Numerama était présent, les chercheurs du géant de la sécurité et la défense ont voulu démontrer les failles dans les programmes d’intelligence artificielle.

Immédiatement après la sortie de ChatGPT, il y a maintenant un an, les utilisateurs ont tenté de détourner le tout nouveau chatbot pour tester ses limites éthiques. OpenAI n’avait pas encore imaginé toutes les requêtes malveillantes et de nombreux médias rapportaient que l’on pouvait récupérer la recette d’une bombe sur ChatGPT.

L’organisation a depuis corrigé ces failles et étendu la compréhension des sollicitations douteuses. Aujourd’hui, l’agent conversationnel vous répondra : « Je suis désolé, mais je ne peux pas fournir d’informations ou d’instructions sur des activités illégales, dangereuses ou nuisibles, y compris la fabrication de bombes ». Or, en ajoutant, les bons mots, quelques signes spécifiques et des formules pour détourner l’attention, il est possible de tromper la vigilance du chatbot.

Une intelligence artificielle pour détourner une IA

Pour trouver le bon prompt, les experts en cyber de Thales ont développé leur propre programme basé sur l’intelligence artificielle afin de trouver la faille. Des bots enchainaient les propositions et changeaient la formulation en fonction des réponses de ChatGPT.

C’est finalement une requête de cinq lignes qui a permis d’obtenir tous les « ingrédients » d’une bombe artisanale. Nous ne partagerons pas le prompt pour contourner les filtres d’OpenAI, ni la recette, même si nous faisons confiance à nos lecteurs.

La réponse de ChatGPT donnant la cette d'une bombe artisanale. // Source : Thales
La réponse de ChatGPT donnant la cette d’une bombe artisanale. // Source : Thales

ChatGPT liste effectivement les ingrédients et donne des consignes dignes de Marmiton pour fabriquer son propre explosif à partir de produits « simples ». Impossible en revanche pour une personne lambda de trouver la combinaison pour débloquer le côté obscur du chatbot. Le prompt mélange différents types de demandes, de scénarios et de caractères spécifiques. La multiplication de demandes frauduleuses peut d’ailleurs mener aujourd’hui à un blocage de l’adresse IP de l’ordinateur ou du smartphone par OpenAI pour « activité suspicieuse ».

Les programmes de requêtes développées par Thales ont été brevetés par le groupe. Les équipes prévoient d’informer OpenAI sur cette faille ainsi que sur plusieurs autres découvertes lors des recherches, non divulguées.

Nouveauté : Découvrez

La meilleure expérience de Numerama, sans publicité,
+ riche, + zen, + exclusive.

Découvrez Numerama+

Abonnez-vous à Numerama sur Google News pour ne manquer aucune info !