Faille Google Gemini : comment une simple notification a pu pièger l'assistant

Résumé par IA, vérifié par Numerama

Des chercheurs de SafeBreach ont démontré comment les notifications peuvent suffisamment manipuler Google Gemini via des instructions invisibles dissimulées, exploitant une faille structurelle dans la gestion des résumés vocaux.
Les attaques exploitent la fonction d'oralisation des notifications par Gemini, en utilisant le « Alignement contextuel trompeur », permettant aux messages de paraître crédibles en masquant les instructions malveillantes derrière des interfaces apparemment anodines.
Malgré les mises à jour de sécurité déployées par Google pour contrer ces techniques, le problème persiste car les injections de prompt ciblent le cœur même du fonctionnement des modèles de langage, nécessitant des garde-fous continuellement évolutifs.

Recevez tous les soirs un résumé de l’actu importante avec Le Récap’

Dans un article publié le 3 juin 2026, des chercheurs de SafeBreach ont prouvé comment de simples notifications pouvaient suffire à manipuler Google Gemini. En exploitant le résumé vocal des messages, ils sont notamment parvenus à injecter des instructions invisibles, capables de tromper l’utilisateur à son insu.

C’est une nouvelle variante d’un problème déjà connu. Celle d’une démonstration marquante présentée à Black Hat 2025, où une simple invitation Google Calendar piégée pouvait pousser Gemini à exécuter des actions malveillantes, jusqu’au contrôle d’objets connectés. Cette fois, les chercheurs de SafeBreach ont exploré un autre point d’entrée : les notifications de messagerie.

Dans une étude publiée le 3 juin 2026, les équipes de la société de cybersécurité ont montré comment l’assistant vocal de Gemini peut être manipulé lorsqu’il lit ou résume des messages reçus via des applications comme WhatsApp. Le problème ne vient pas d’un bug classique, mais d’une faiblesse structurelle : l’IA ne distingue pas toujours correctement ce qui relève d’une instruction légitime ou d’un contenu malveillant intégré dans un message.

Le risque est toujours le même : celui d’une injection de prompt indirecte, une technique qui consiste à glisser des instructions cachées dans des contenus apparemment anodins pour influencer le comportement du modèle.

Selon SafeBreach, ces techniques peuvent mener à des actions non autorisées, comme l’usurpation de contacts, illustrée dans une vidéo où un message est attribué à un contact différent de l’expéditeur réel.

Comment une notification peut piéger Gemini

L’attaque repose sur le fait de piéger la fonction « Utilitaires » de Gemini, capable de lire ou de résumer à voix haute les notifications Android.

Concrètement, un attaquant envoie un message Whatsapp, Signal, Slack ou autres contenant des instructions cachées. Lorsque l’utilisateur demande un résumé de ses notifications, l’assistant risque alors de modifier son interprétation du message et présenter un contenu frauduleux comme légitime, en le faisant passer par exemple pour une communication provenant d’un contact de confiance.

Pour contourner les protections mises en place par Google, les chercheurs ont utilisé une technique qu’ils appellent « Alignement contextuel trompeur ». Elle exploite les différences d’interprétation entre ce que voit l’utilisateur et ce que traite le modèle lors de l’analyse des notifications. Concrètement, un message peut contenir des éléments invisibles ou non vocalisés, comme du texte caché dans un lien ou des portions de message qui ne sont pas restituées à la lecture audio, mais qui restent prises en compte par Gemini. L’utilisateur perçoit alors une notification banale, tandis que l’assistant dispose d’un contexte plus large pouvant inclure des instructions implicites.

Des chercheurs ont montré qu'il était possible de cacher dans Gemini une instruction malveillante qui ne s'active qu'après une interaction ultérieure de l'utilisateur, par exemple lorsqu'il écrit « Merci ». // Source : SafeBreach — Les chercheurs ont également montré qu’une instruction malveillante pouvait rester en attente dans le contexte de Gemini, puis se déclencher lorsqu’un utilisateur envoyait un message anodin, comme « Merci ». // Source : SafeBreach

Une faille corrigée, mais un problème persistant

Informée de cette découverte, Google a depuis déployé des mises à jour de ses systèmes de détection pour bloquer cette technique. Aucune exploitation réelle de cette attaque n’a été observée à ce jour.

Pour autant, les chercheurs insistent sur un point clé : il ne s’agit pas d’une vulnérabilité classique que l’on peut corriger définitivement. Les attaques par injection de prompt exploitent le fonctionnement même des modèles de langage.

Selon SafeBreach, toute entrée externe, y compris une notification, doit être considérée comme non fiable. Le défi pour les éditeurs consiste donc à multiplier les garde-fous, sans pour autant pouvoir garantir de bloquer toutes les variantes futures.

Toute l'actu tech en un clin d'œil

Ajoutez Numerama à votre écran d'accueil et restez connectés au futur !

Pour ne rien manquer de l’actualité, suivez Numerama sur Google !