Si vous utilisez souvent ChatGPT ou d’autres modèles de langage (LLM), vous avez probablement déjà vu ce message : « Je ne peux pas vous aider avec ça. » Les IA refusent parfois de répondre à certaines questions — que ce soit légitime, par exemple lorsqu’il s’agit de quelque chose d’illégal, ou plus discutable.
Pendant longtemps, ce comportement a été présenté comme une sorte de morale intégrée : l’IA refuserait parce qu’elle « sait » que c’est mal. Mais la recherche récente propose une lecture bien différente. En 2024, des chercheurs ont montré que ce réflexe correspond surtout à un motif mathématique précis dans le « cerveau » du modèle — en pratique, une direction particulière dans un immense espace de nombres.
Une fois cette « direction du refus » identifiée, la tentation est évidente : peut-on simplement la supprimer ? C’est en tout cas ce que promet cet outil baptisé « Obliteratus », publié sur GitHub en mars 2026. Concrètement, celui-ci vise à permettre de retirer la censure de n’importe quel grand modèle de langage open source… en un clic. Son principe est radical : plutôt que de jouer avec des prompts tordus pour contourner les règles, l’outil intervient directement dans les paramètres du modèle pour se débarrasser des garde-fous.

Comment fonctionne cet outil ?
Pour comprendre ce qui se joue, il faut accepter une idée simple : dans la tête d’un modèle de langage, tout est nombres. Le texte qu’on lui envoie est transformé en longues listes de valeurs, que le modèle manipule ensuite couche après couche. À chaque étape, l’IA se trouve dans un « état interne », que l’on peut imaginer comme un point dans un espace abstrait à des milliers de dimensions.
Dans cet espace, certaines directions correspondent à des propriétés particulières. Se déplacer dans telle direction rend une réponse plus polie, plus technique ou plus familière. Dans une autre, la probabilité de réponses violentes ou offensantes augmente (soit la direction Grok).
Sur X, Obliteratus est ainsi présenté comme un quasi « bouton » permettant de retirer les garde-fous des grands modèles open source. Selon ses promoteurs, l’outil s’appuie sur treize méthodes différentes d’édition des poids (les paramètres qui déterminent la réponse du modèle), déjà testées sur 116 modèles open source pour un total de 837 expériences. Avant même de modifier un seul paramètre, le programme ferait passer chaque modèle par une série d’analyses destinées à cartographier ce qu’il appelle la « géométrie du refus ».

Au passage, il tenterait d’identifier le type d’entraînement éthique utilisé à l’origine. Par exemple des techniques d’alignement où des humains notent les réponses et récompensent les meilleures (souvent regroupées sous le terme RLHF), ou des méthodes où l’on montre au modèle des exemples de réponses acceptables et inacceptables (comme le DPO). Obliteratus chercherait ensuite à repérer les poids associés aux réponses de type « je ne peux pas vous aider avec ça » pour les neutraliser de manière ciblée, tout en essayant de préserver les capacités de raisonnement du modèle. L’outil pourrait aussi s’appuyer sur des données remontées par ses utilisateurs pour affiner ses méthodes.
Dans les faits, Obliteratus est bien un projet open source : son code est public et des démonstrations ont déjà été reproduites par des tiers. L’outil vise cependant surtout des modèles dits « open weights » — comme ceux de la famille LLaMA, Mistral ou Phi — dont les paramètres peuvent être téléchargés et modifiés. Ainsi, les services fermés comme ChatGPT, Claude ou Gemini restent hors de portée d’une telle chirurgie directe (ouf). Pour autant, en cartographiant la « géométrie du refus », les hackers apprennent sans doute à mieux la contourner.
Reste que, si un outil de ce type venait à se diffuser largement, retirer les garde-fous d’un modèle ouvert pourrait devenir une opération banale. Car ici, on ne crée pas de nouvelles capacités : on enlève surtout le filtre qui disait « non ». Cela suffit pourtant, en théorie, à transformer un assistant prudent en modèle beaucoup plus complaisant, y compris sur des sujets sensibles. D’autant que les garde-fous des IA peuvent parfois céder pour des raisons bien plus triviales, à l’instar d’une simple injection de prompt qui avait suffi à transformer Google Traduction en chatbot totalement jailbreaké.
+ rapide, + pratique, + exclusif
Zéro publicité, fonctions avancées de lecture, articles résumés par l'I.A, contenus exclusifs et plus encore.
Découvrez les nombreux avantages de Numerama+.
Vous avez lu 0 articles sur Numerama ce mois-ci
Tout le monde n'a pas les moyens de payer pour l'information.
C'est pourquoi nous maintenons notre journalisme ouvert à tous.
Mais si vous le pouvez,
voici trois bonnes raisons de soutenir notre travail :
- 1 Numerama+ contribue à offrir une expérience gratuite à tous les lecteurs de Numerama.
- 2 Vous profiterez d'une lecture sans publicité, de nombreuses fonctions avancées de lecture et des contenus exclusifs.
- 3 Aider Numerama dans sa mission : comprendre le présent pour anticiper l'avenir.
Si vous croyez en un web gratuit et à une information de qualité accessible au plus grand nombre, rejoignez Numerama+.
Toute l'actu tech en un clin d'œil
Ajoutez Numerama à votre écran d'accueil et restez connectés au futur !
Pour ne rien manquer de l’actualité, suivez Numerama sur Google !











