C'est un fait, l'anonymat en ligne est mort et les LLM en sont le fossoyeur

Résumé par IA, vérifié par Numerama

L'étude des chercheurs de l'ETH Zurich, de MATS Research et d'Anthropic prouve que les grands modèles de langage peuvent désanonymiser des comptes en ligne à grande échelle, avec une efficacité inégalée.
La méthode ESRC utilisée dans l'étude se décompose en quatre étapes : extraction, recherche, raisonnement et calibration, permettant une identification précise des utilisateurs anonymes.
Les résultats montrent que le système peut identifier correctement les cibles jusqu'à 67 % du temps avec accès Internet et maintenir une précision élevée même sans connexion, pour un coût dérisoire par cible.

Recevez tous les soirs un résumé de l’actu importante avec Le Récap’

Dans une étude publiée mi-février 2026, des chercheurs venus d’ETH Zurich, de MATS Research et d’Anthropic démontrent que les grands modèles de langage (LLM) sont capables de désanonymiser des comptes en ligne à grande échelle, avec une précision et une rapidité inédites.

Depuis des décennies, des millions d’internautes font confiance au pseudonymat pour protéger leur vie privée. Un compte Reddit anonyme ou un pseudo dans une section commentaires suffisait à se rassurer et à s’exprimer plus librement.

Un camouflage rudimentaire certes, mais qui résultait d’un constat simple : personne ne fera l’effort de relier ces traces à une vraie identité. C’était vrai. Ça ne l’est plus.

C’est ce que démontrent des chercheurs d’ETH Zurich, de MATS Research et d’Anthropic dans une étude publiée le 18 février 2026 : les LLM sont capables de désanonymiser des comptes en ligne à grande échelle, de façon entièrement automatisée, et pour quelques dollars par cible.

Les Prime Day sont là ! Yuka Mini 2 500

Jusqu’au 26 juin, le Yuka Mini 2 500 tombe sous les 550 € ! jusqu’à 500m², zéro perte de signal, sans RTK, Traitement d’Image à Trois Caméras boosté à l’IA… Bref, ne tondez plus votre pelouse en 2026 !

Alors que les grandes études sur l’anonymat en ligne s’appuyaient jusqu’ici sur des données structurées, celle-ci repose sur de l’analyse de texte brut. Et au bout du compte, la personne cachée derrière le pseudo est vite identifiée.

Design sans titre – 2026-02-26T132317.741 — Depuis 25 ans, une grande partie de la recherche académique sur la vie privée en ligne s’appuie sur les travaux de Latanya Sweeney, qui avait démontré qu’il suffit de trois points de données (code postal, sexe, date de naissance) pour identifier 87 % de la population américaine. // Source : The Register

Sur quelle méthode repose l’étude ?

Concrètement, les chercheurs ont construit une méthode d’analyse en quatre étapes baptisée ESRC (Extract, Search, Reason, Calibrate) :

Extract : le LLM lit les posts d’un utilisateur anonyme et en extrait un profil structuré : démographie probable, centres d’intérêt, style d’écriture, détails biographiques glissés involontairement.
Search : le profil extrait est ensuite converti en une représentation mathématique, puis comparé à une base de données pouvant contenir des milliers, voire des millions de profils réels pour identifier les candidats les plus proches.
Reason : un autre LLM analyse la shortlist et raisonne : est-ce que ce compte LinkedIn pourrait correspondre à cet utilisateur Reddit ? Il évalue les concordances, les contradictions, et formule une conclusion.
Calibrate : le système attribue alors un score de confiance à chaque correspondance trouvée qui fait office de curseur. Avec un seuil élevé, le système ne valide une identité que lorsqu’il est quasi certain de son résultat, quitte à laisser passer certaines cibles. Un seuil plus bas permet d’identifier davantage de personnes, au prix de quelques erreurs.

Vue d'ensemble du pipeline de désanonymisation à grande échelle. À partir de simples posts d'utilisateurs, le système (1) extrait les indices permettant d'identifier une personne, (2) recherche les profils les plus proches dans une base de données, (3) sélectionne le candidat le plus probable par raisonnement, puis (4) attribue un score de confiance pour décider si le résultat est suffisamment fiable pour être retenu. // Source : Large-scale online deanonymization with LLMs — Vue d’ensemble du pipeline de désanonymisation à grande échelle. Le système extrait les indices (1), recherche les profils les plus proches dans une base de données (2), sélectionne le candidat le plus probable par raisonnement (3), puis attribue un score de confiance pour décider si le résultat est suffisamment fiable pour être retenu. (4) // Source : *Large-scale online deanonymization with LLMs*

Les résultats de l’étude

La première phase du test a été menée en analysant les interactions (posts et commentaires) de 338 profils sur le site Hacker News. Ainsi, lorsque le système dispose d’un accès à Internet, il parvient à identifier correctement 67 % des cibles, et quand il avance une réponse, il a raison 9 fois sur 10.

Les chercheurs ont également testé le système sans accès à Internet, en lui soumettant deux bases de données anonymisées, d’un côté des profils Hacker News, de l’autre des profils LinkedIn, avec pour mission de relier les comptes appartenant à une même personne. Là où les méthodes traditionnelles échouaient presque à chaque fois, le système basé sur les LLM retrouvait la bonne correspondance dans près d’un cas sur deux, avec très peu d’erreurs.

La méthode a également été testée sur des interviews qu’Anthropic avait menées avec des scientifiques sur leur usage de l’IA, dont les noms avaient été retirés. En se basant uniquement sur cette interaction brute, le système est parvenu à identifier 9 participants parmi les 33 analysés.

Une méthode complète gardée sous silence

Le constat est le suivant : ce qui prenait des heures à un enquêteur humain se fait désormais en quelques minutes, pour un coût de 1 à 4 dollars par personne, soit le prix des appels aux modèles d’IA utilisés.

L’étude précise que plusieurs modèles ont été utilisés pour mener à bien le projet. Grok 4.1 Fast pour une première sélection des candidats, puis GPT-5.2 pour la vérification finale avec raisonnement approfondi. Les représentations mathématiques, elles, ont été générées avec Gemini de Google.

À noter que les chercheurs ont volontairement omis certains détails techniques comme les prompts exacts, ou la configuration précise des agents pour éviter que leur système ne soit directement réutilisé à des fins malveillantes. Une précaution d’autant plus nécessaire que l’attaque a fonctionné sans même avoir à tromper les garde-fous des modèles.

Toute l'actu tech en un clin d'œil

Ajoutez Numerama à votre écran d'accueil et restez connectés au futur !

Le futur n’attend pas : anticipez l’avenir des nouvelles technologies et de l’IA en lisant gratuitement ToujoursPlus, chaque jeudi dans votre boîte mail !