L’IA est-elle déjà en train de nous mentir ? OpenAI s'en inquiète

Une étude d’OpenAI et Apollo Research publiée le 17 septembre 2025 révele que l’intelligence artificielle est capable de « manigances ». Et ce n’est pas tout : l’IA pourrait adapter son comportement si elle est consciente qu’elle est testée.

« Détecter et réduire les manigances dans les modèles d’IA ». Tel est le titre de l’étude publiée par OpenAI le 17 septembre, réalisée en collaboration avec Apollo Research. Si les hallucinations ne sont plus une surprise, le concept des « manigances » interroge. Dans un post sur X, OpenAI affirme avoir remarqué lors de tests que les modèles d’IA pouvaient mentir. Bien que cela ne cause pas de « dommages graves aujourd’hui », cela pourrait bel et bien présenter des risques à l’avenir, selon la start-up.

Today we’re releasing research with @apolloaievals.

In controlled tests, we found behaviors consistent with scheming in frontier models—and tested a way to reduce it.

While we believe these behaviors aren’t causing serious harm today, this is a future risk we’re preparing…
— OpenAI (@OpenAI) September 17, 2025

L’IA sait cacher ses « vrais objectifs »

Premier constat, l’IA est capable de « scheming ». Cela correspond au moment où l’IA « se comporte d’une certaine manière en apparence tout en masquant ses véritables objectifs ». Jusqu’à présent, les échecs les plus courants lors de tests sont des petites « manigances », comme le fait de prétendre avoir fini une tâche sans l’avoir effectuée. Autrement dit, l’IA contourne la consigne tout en ayant l’air coopérative.

OpenAI explique avoir étudié et atténué ce problème, notamment sur GPT-5 par rapport aux modèles précédents. Le problème, c’est qu’au fur et à mesure que les modèles traitent des requêtes de plus en plus complexes, le risque de « scheming » va augmenter. Et les mesures de protection devront naturellement évoluer elles aussi.

Autre constat : plus les modèles deviennent capables de raisonnement, plus ils répondront facilement aux requêtes et moins ils hallucineront. Mais ce n’est pas pour autant qu’ils feront moins de « manigances ». Deux cas de figures sont possibles selon OpenAI. Après avoir été entraînés à ne pas tromper l’utilisateur, les modèles peuvent soit 1) arrêter toute tromperie, soit 2) apprendre à mieux tromper. Dans ce deuxième cas, le modèle apprendra ainsi à mieux cacher ses intentions.

L’IA développe une « conscience situationnelle »

L’un des intérêts pour OpenAI en dévoilant cette étude est de montrer que ses méthodes pour contrer le « scheming » fonctionnent. Des cas ont été identifiés sur les modèles d’OpenAI o3 and o4-mini, Gemini-2.5-pro et Claude Opus-4. Sur o3, leur technique pour parer le phénomène aurait réduit cette occurrence par 30.

Pour autant, cela risque de ne pas suffire. Selon les chercheurs, si un modèle comprend qu’il est testé, il peut adapter son comportement pour ne pas se faire prendre. Il s’agit d’une sorte de « conscience situationnelle ». Ce n’est certes pas une conscience humaine, mais les modèles adaptent leur comportement au contexte. « Les modèles deviennent souvent plus conscients d’être évalués. Cette conscience situationnelle peut elle-même réduire les manigances», précisent les chercheurs. Les modèles pourraient ainsi être susceptibles d’arrêter tout comportement trompeur pendant les phases de tests. Mais paradoxalement, cela augmentera le risque que le « scheming » passe inaperçu en dehors de ces phases.

En comparaison avec l’hallucination, la différence notable est donc le caractère intentionnel. Apollo Research avait d’ailleurs publié un article en décembre dans lequel 5 modèles ont produit des « manigances » lorsqu’on leur a demandé d’atteindre un objectif « à tout prix ». Reste à voir si les garde-fous suffiront à endiguer le problème.

Toute l'actu tech en un clin d'œil

Ajoutez Numerama à votre écran d'accueil et restez connectés au futur !

Tous nos articles sont aussi sur notre profil Google : suivez-nous pour ne rien manquer !

Toutes les infos sur ChatGPT