Microsoft le concédait une nouvelle fois en juillet 2025 : l’injection de prompt est « un risque inhérent » au LLM. Il n’empêche que les acteurs de la cybersécurité restent déterminés à explorer toutes les variantes possibles de cette faille, en particulier celles pouvant conduire à des fuites massives de données sensibles.
Cette histoire débute à l’automne 2025, lorsque l’entreprise de cybersécurité Radware révèle ShadowLeak, une attaque par injection indirecte qui exploite l’agent Deep Research de ChatGPT.
Ce mode de recherche, disponible dans les versions récentes du chatbot, permet à l’IA de parcourir le web mais aussi des connecteurs comme Gmail ou Google Drive pour produire un rapport détaillé à partir des données de l’utilisateur.
Pratique donc, mais à travers ShadowLeak, les chercheurs ont su déceler un mécanisme particulièrement fourbe reposant sur l’incapacité des modèles de langage à distinguer parfaitement les instructions explicites de l’utilisateur, des instructions cachées dans des contenus externes.

ShadowLeak, la première alerte
Concrètement, ShadowLeak consiste pour l’attaquant à envoyer à sa cible un mail en apparence anodin, par exemple sur un sujet RH, mais contenant des instructions malveillantes dissimulées en très petite police ou en blanc sur fond blanc.
Ces instructions indiquent à l’agent Deep Research quoi faire : repérer un autre mail RH légitime contenant des informations personnelles (nom, adresse, etc.), encoder ces données en Base64, puis les ajouter à une URL présentée comme un service interne de l’entreprise mais en réalité contrôlée par l’assaillant, par exemple « services-rh-club.fr ».
Prenons un cas concret pour y voir plus clair : si un candidat nommé Louis est en cours de recrutement et qu’un recruteur demande à Deep Research de consulter ses mails, l’agent lira les instructions cachées dans le mail envoyé par l’attaquant, récupérera les informations sur Louis dans un autre message, les encodera en Base64 (par exemple « Louis » devenant « TG91aXM= »), puis les ajoutera à l’URL de l’attaquant.
Côté serveur, le pirate pourra ainsi voir une requête vers « services-rh-club.fr/TG91aXM= », qu’il lui suffit de décoder pour retrouver « Louis », la même méthode pouvant servir à exfiltrer des données bien plus sensibles, comme une adresse postale, des informations bancaires ou des mots de passe partagés en clair.
Le succès de l’attaque repose sur le soin apporté au texte malveillant et à l’ingénierie sociale visant à faire baisser la garde du chatbot : le message évoque une fausse « autorisation complète », maquille l’URL d’exfiltration en service interne, présente l’encodage Base64 comme une mesure de sécurité, et menace de conséquences négatives si la dernière étape n’est pas réalisée.
Après plusieurs essais infructueux, les chercheurs sont parvenus à une stratégie gagnante : en encodant les données avant l’appel réseau et en introduisant des consignes de persistance (« réessaie plusieurs fois »), ils ont atteint un taux de réussite de 100%, l’agent encodant systématiquement les données personnelles et les envoyant dans l’URL comme demandé.
Réaction d’OpenAI et ZombieAgent
Face aux découvertes des chercheurs, OpenAI a d’abord appliqué un correctif empêchant l’agent de modifier dynamiquement les URL utilisées par ses outils, en particulier d’y ajouter des paramètres contenant des informations potentiellement sensibles, afin de bloquer la construction d’URL « sur mesure » comme dans ShadowLeak.
Mais les équipes de Radware viennent de dévoiler au site britannique The Register une nouvelle technique pour tromper ChatGPT, baptisée ZombieAgent, qui montre que cette défense ne traite qu’une partie du problème.
Au lieu de demander à l’agent de fabriquer une URL unique contenant le secret, la nouvelle attaque s’appuie sur un ensemble d’URL statiques préparées à l’avance, chacune se terminant par un caractère différent.
Concrètement, l’attaquant dispose d’un « alphabet » d’URLs : une pour « a », une pour « b », une pour « c », et ainsi de suite. Des instructions cachées demandent à l’agent de parcourir le secret caractère par caractère et, pour chaque lettre, d’ouvrir l’URL correspondante.
L’agent ne modifie jamais de lien, il se contente de sélectionner parmi une liste d’URLs déjà présentes dans le contenu, ce que la nouvelle politique d’OpenAI n’interdit pas.
Côté attaquant, la reconstitution est triviale : en observant simplement l’ordre d’arrivée des requêtes sur son serveur (dans notre exemple « /l », puis « /o », puis « /i », puis « /s ») il peut reconstruire le mot de passe ou la donnée sensible fuitée caractère par caractère.
Pour l’heure, OpenAI n’a pas encore réagi à cette nouvelle manière de compromettre son agent.
+ rapide, + pratique, + exclusif
Zéro publicité, fonctions avancées de lecture, articles résumés par l'I.A, contenus exclusifs et plus encore.
Découvrez les nombreux avantages de Numerama+.
Vous avez lu 0 articles sur Numerama ce mois-ci
Tout le monde n'a pas les moyens de payer pour l'information.
C'est pourquoi nous maintenons notre journalisme ouvert à tous.
Mais si vous le pouvez,
voici trois bonnes raisons de soutenir notre travail :
- 1 Numerama+ contribue à offrir une expérience gratuite à tous les lecteurs de Numerama.
- 2 Vous profiterez d'une lecture sans publicité, de nombreuses fonctions avancées de lecture et des contenus exclusifs.
- 3 Aider Numerama dans sa mission : comprendre le présent pour anticiper l'avenir.
Si vous croyez en un web gratuit et à une information de qualité accessible au plus grand nombre, rejoignez Numerama+.
Toute l'actu tech en un clin d'œil
Ajoutez Numerama à votre écran d'accueil et restez connectés au futur !
Tous nos articles sont aussi sur notre profil Google : suivez-nous pour ne rien manquer !











