Dans une étude publiée mi-février 2026, des chercheurs venus d’ETH Zurich, de MATS Research et d’Anthropic démontrent que les grands modèles de langage (LLM) sont capables de désanonymiser des comptes en ligne à grande échelle, avec une précision et une rapidité inédites.

Depuis des décennies, des millions d’internautes font confiance au pseudonymat pour protéger leur vie privée. Un compte Reddit anonyme ou un pseudo dans une section commentaires suffisait à se rassurer et à s’exprimer plus librement.

Un camouflage rudimentaire certes, mais qui résultait d’un constat simple : personne ne fera l’effort de relier ces traces à une vraie identité. C’était vrai. Ça ne l’est plus.

C’est ce que démontrent des chercheurs d’ETH Zurich, de MATS Research et d’Anthropic dans une étude publiée le 18 février 2026 : les LLM sont capables de désanonymiser des comptes en ligne à grande échelle, de façon entièrement automatisée, et pour quelques dollars par cible.

Alors que les grandes études sur l’anonymat en ligne s’appuyaient jusqu’ici sur des données structurées, celle-ci repose sur de l’analyse de texte brut. Et au bout du compte, la personne cachée derrière le pseudo est vite identifiée.

Design sans titre – 2026-02-26T132317.741
Depuis 25 ans, une grande partie de la recherche académique sur la vie privée en ligne s’appuie sur les travaux de Latanya Sweeney, qui avait démontré qu’il suffit de trois points de données (code postal, sexe, date de naissance) pour identifier 87 % de la population américaine. // Source : The Register

Sur quelle méthode repose l’étude ?

Concrètement, les chercheurs ont construit une méthode d’analyse en quatre étapes baptisée ESRC (Extract, Search, Reason, Calibrate) :

  1. Extract : le LLM lit les posts d’un utilisateur anonyme et en extrait un profil structuré : démographie probable, centres d’intérêt, style d’écriture, détails biographiques glissés involontairement.
  2. Search : le profil extrait est ensuite converti en une représentation mathématique, puis comparé à une base de données pouvant contenir des milliers, voire des millions de profils réels pour identifier les candidats les plus proches.
  3. Reason : un autre LLM analyse la shortlist et raisonne : est-ce que ce compte LinkedIn pourrait correspondre à cet utilisateur Reddit ? Il évalue les concordances, les contradictions, et formule une conclusion.
  4. Calibrate : le système attribue alors un score de confiance à chaque correspondance trouvée qui fait office de curseur. Avec un seuil élevé, le système ne valide une identité que lorsqu’il est quasi certain de son résultat, quitte à laisser passer certaines cibles. Un seuil plus bas permet d’identifier davantage de personnes, au prix de quelques erreurs.
Vue d'ensemble du pipeline de désanonymisation à grande échelle. À partir de simples posts d'utilisateurs, le système (1) extrait les indices permettant d'identifier une personne, (2) recherche les profils les plus proches dans une base de données, (3) sélectionne le candidat le plus probable par raisonnement, puis (4) attribue un score de confiance pour décider si le résultat est suffisamment fiable pour être retenu. // Source : Large-scale online deanonymization with LLMs
Vue d’ensemble du pipeline de désanonymisation à grande échelle. Le système extrait les indices (1), recherche les profils les plus proches dans une base de données (2), sélectionne le candidat le plus probable par raisonnement (3), puis attribue un score de confiance pour décider si le résultat est suffisamment fiable pour être retenu. (4) // Source : Large-scale online deanonymization with LLMs

Les résultats de l’étude

La première phase du test a été menée en analysant les interactions (posts et commentaires) de 338 profils sur le site Hacker News. Ainsi, lorsque le système dispose d’un accès à Internet, il parvient à identifier correctement 67 % des cibles, et quand il avance une réponse, il a raison 9 fois sur 10.

Les chercheurs ont également testé le système sans accès à Internet, en lui soumettant deux bases de données anonymisées, d’un côté des profils Hacker News, de l’autre des profils LinkedIn, avec pour mission de relier les comptes appartenant à une même personne. Là où les méthodes traditionnelles échouaient presque à chaque fois, le système basé sur les LLM retrouvait la bonne correspondance dans près d’un cas sur deux, avec très peu d’erreurs.

La méthode a également été testée sur des interviews qu’Anthropic avait menées avec des scientifiques sur leur usage de l’IA, dont les noms avaient été retirés. En se basant uniquement sur cette interaction brute, le système est parvenu à identifier 9 participants parmi les 33 analysés.

Une méthode complète gardée sous silence

Le constat est le suivant : ce qui prenait des heures à un enquêteur humain se fait désormais en quelques minutes, pour un coût de 1 à 4 dollars par personne, soit le prix des appels aux modèles d’IA utilisés.

L’étude précise que plusieurs modèles ont été utilisés pour mener à bien le projet. Grok 4.1 Fast pour une première sélection des candidats, puis GPT-5.2 pour la vérification finale avec raisonnement approfondi. Les représentations mathématiques, elles, ont été générées avec Gemini de Google.

À noter que les chercheurs ont volontairement omis certains détails techniques comme les prompts exacts, ou la configuration précise des agents pour éviter que leur système ne soit directement réutilisé à des fins malveillantes. Une précaution d’autant plus nécessaire que l’attaque a fonctionné sans même avoir à tromper les garde-fous des modèles.

Découvrez les bonus

+ rapide, + pratique, + exclusif

Zéro publicité, fonctions avancées de lecture, articles résumés par l'I.A, contenus exclusifs et plus encore.

Découvrez les nombreux avantages de Numerama+.

S'abonner à Numerama+

Vous avez lu 0 articles sur Numerama ce mois-ci

Il y a une bonne raison de ne pas s'abonner à

Tout le monde n'a pas les moyens de payer pour l'information.
C'est pourquoi nous maintenons notre journalisme ouvert à tous.

Mais si vous le pouvez,
voici trois bonnes raisons de soutenir notre travail :

  • 1 Numerama+ contribue à offrir une expérience gratuite à tous les lecteurs de Numerama.
  • 2 Vous profiterez d'une lecture sans publicité, de nombreuses fonctions avancées de lecture et des contenus exclusifs.
  • 3 Aider Numerama dans sa mission : comprendre le présent pour anticiper l'avenir.

Si vous croyez en un web gratuit et à une information de qualité accessible au plus grand nombre, rejoignez Numerama+.

S'abonner à Numerama+
Toute l'actu tech en un clien d'oeil

Toute l'actu tech en un clin d'œil

Ajoutez Numerama à votre écran d'accueil et restez connectés au futur !


Pour ne rien manquer de l’actualité, suivez Numerama sur Google !