Des statisticiens ont trouvé une méthode pour prédire ce que vous allez tweeter

Résumé par IA, vérifié par Numerama

Recevez tous les soirs un résumé de l’actu importante avec Le Récap’

Des chercheurs américains sont parvenus à prédire les termes que pourraient écrire des utilisateurs de Twitter… en analysant les publications de leurs proches.

Vous ne savez pas quoi tweeter aujourd’hui ? Des chercheurs sont (presque) capables de vous le dire. Dans une étude publiée sur le site Nature Human Behaviour lundi 21 janvier, ces spécialistes des mathématiques et de la statistique expliquent qu’il est possible de prédire ce que contiendraient les futurs tweets d’un internaute. Ceci est rendu possible par l’analyse des publications des personnes dont vous êtes le plus proche sur Twitter.

Un taux de réussite jusqu’à 60 %

Les chercheurs, qui sont rattachés à l’université américaine de Vermont, se sont intéressés à 927 utilisateurs, qui avaient entre 50 et 500 abonnés sur Twitter. Ils ont identifié les 15 personnes que ces utilisateurs avaient le plus mentionnées ou à qui ils avaient le plus répondu sur Twitter.

Le tweet le plus retweeté de l'histoire.

Source : Capture d'écran Twitter / Yusaku Maezawa

Grâce à leur méthode qui combine plusieurs outils statistiques, les chercheurs ont estimé qu’ils pouvaient prédire les mots qu’un utilisateur que nous appellerons A va tweeter à partir de l’analyse de ses publications précédentes. Le taux de réussite est alors de 53 %.

En analysant les tweets de A et de 8 ou 9 personnes très proches de lui, ils ont obtenu de meilleurs résultats. Puis, plus ils analysaient les tweets de proches (dans la limite de 15 proches), plus les résultats s’amélioraient. Arrivés à 15 proches, les chercheurs ont obtenu un taux de réussite de 60 %. À ce stade, ils ont remarqué qu’on pouvait se passer de l’analyse des tweets de l’utilisateur A et obtenir un taux de réussite quasi similaire.

Ces résultats n’ont rien de vraiment étonnant. En sciences sociales, le phénomène de répétition des comportements qu’ont ses proches a d’ailleurs un nom : l’homophilie.

La vie privée des utilisateurs remise en question ?

« Les données collectées sur les réseaux sociaux sont une aubaine pour les chercheurs, mais cela soulève aussi des questionnements sur la vie privée », écrivent les auteurs de l’étude. Ils remarquent ainsi que ces données, lorsqu’elles sont combinées à des méthodes prédictives, donnent des informations non seulement sur les utilisateurs, mais aussi sur leurs proches. Ces proches ont beau avoir supprimé leur compte ou fait en sorte de protéger leurs propres données, il est possible de savoir ce qu’ils sont fortement susceptibles de publier. Cela signifie qu’une entreprise peut, par exemple, créer un profil plutôt fiable de vous simplement grâce aux interactions de vos proches.

L’étude met en avant un problème constant lorsque l’on s’intéresse à la protection de ses données. Si nos amis ou connaissances ne sont pas aussi prudents que nous le sommes, tenter de se protéger est utile, mais en un sens un peu vain. On se souvient par exemple de l’affaire Cambridge Analytica qui a concerné Facebook. Lorsque cette affaire a éclaté début 2018, des utilisateurs du réseau social se sont rendus compte que leurs amis avaient donné malgré eux des autorisations à Facebook pour récolter des données sur leur profil, grâce à une application de quiz.