Un fichier contenant des informations personnelles concernant 1,5 milliard de comptes Facebook serait en vente sur le net. Si cette archive colossale existait vraiment, il s’agirait indéniablement du plus gros ensemble de données Facebook jamais mis en circulation à ce jour.

Alors que Facebook connait une panne absolument historique en ce début du mois d’octobre 2021, une autre actualité parallèle potentiellement tout aussi préoccupante vient compliquer la vie du premier réseau social au monde. Une publication du site Privacy Affairs rapporte qu’une base de données concernant 1,5 milliard de comptes Facebook serait en vente sur un forum de pirates informatiques.

Attention, il convient de bien souligner que ces deux événements ne sont absolument pas liés entre eux.

Voici ce qui ressort de cette affaire.

De quoi parle-t-on exactement ?

Potentiellement de « la plus grosse quantité de données Facebook jamais mise en circulation à ce jour », selon Selon PrivacyAffairs. La base de données dont il est question contiendrait des noms, des mails, des relevés de localisation, des numéros de téléphone ainsi que des informations concernant l’identité de genre de plus de la moitié des comptes Facebook dans le monde. Autant dire que le fichier serait immense. Toutes ces données seraient désormais en vente.

Le flou demeure sur la manière dont des informations aussi précises ont pu sortir et si les éléments en question sont exhaustifs pour l’intégralité des comptes touchés. Il est possible que certaines lignes de la base de données soient incomplètes, en ne contenant qu’un mail ou un numéro de téléphone. Il est possible également qu’une partie de l’archive provienne en fait d’autres fuites ayant affecté le réseau social. Dans tous les cas, à cette échelle, cela représente une quantité considérable de données.

Le vendeur à l’origine de l’offre prétend que toutes ces informations sont fraiches de cette année. II indique aussi travailler pour une entreprise qui serait spécialisée dans la récupération de données sur Facebook. On trouve sur le net des traces de cette société (que Numerama a décidé de ne pas nommer), dont un compte YouTube dans lequel des vidéos détaillent les méthodes pour extraire des données sur Facebook.

Mais contrairement à une fuite de données classique, obtenue en accédant à une base de données interne, la méthode employée est différente. En d’autres termes, les données auraient été amassées par du « scraping » de pages Facebook.

Qu’est-ce que le scraping ?

Ce qu’on appelle « scraping » désigne un procédé informatique consistant à collecter des données sur une page web, grâce à un script, c’est-à-dire un programme conçu pour effectuer une tâche précise. En l’espèce, le programme automatise l’aspiration d’informations qui entrent dans son radar, selon les instructions contenues dans ses lignes de code.

Par rapport à un accès frauduleux profitant de la négligence d’un employé (grâce à une opération d’hameçonnage par exemple) ou à l’exploitation d’une faille qui n’a pas été corrigée, le scraping est une technique qui est accessible. En effet, elle ne fait que prendre ce qui est visible sur le net. Quiconque a des compétences en développement peut élaborer son propre outil de scraping.

Si cette extraction est à la portée de beaucoup, sa légalité est très discutable et peut vite flirter avec la ligne jaune. En effet, cette méthode consiste à récupérer ce qui est accessible publiquement, selon les règles définies par le script. Or, ce qui est accessible publiquement ne signifie pas qu’il s’agit d’une donnée publique. Il peut s’agir de données personnelles, voire sensibles. Et dans ce cas, la loi s’applique. Cela, même s’il y a pu y avoir une certaine négligence des personnes quand elles ont partagées leurs informations sur tel ou tel site.

D’ordinaire, les conditions d’utilisation des sites traitent du scraping en l’interdisant — en prenant parfois des dispositions techniques pour limiter le volume de requêtes envoyées. Mais de nouvelles failles sont constamment découvertes.

Est-ce que cela a un lien avec la panne Facebook ?

C’est un drôle de hasard, qui pourrait inciter à rapprocher les deux évènements. Mais la circulation de cette prétendue archive contenant des données personnelles de 1,5 milliard de comptes Facebook n’a aucun rapport avec la panne exceptionnelle qui a mis à terre tout le réseau du géant du net. Les éléments qui ressortent de ce dysfonctionnement technique suggèrent un problème de configuration, qui n’a rien à voir avec le scraping.

Cette fuite est-elle crédible ?

Scraping ou non, une fuite d’une telle ampleur pose nécessairement la question de la crédibilité de l’affaire, car on parle d’une archive qui contiendrait une ou plusieurs données personnelles de plus d’une personne sur sept vivant sur Terre — bien qu’il existe aussi sur Facebook beaucoup de faux comptes. Récupérer autant d’éléments sur autant de profils constitue un tour de force, y compris avec l’appui et les ressources d’une entreprise qui se montrerait peu scrupuleuse.

Récupérer autant de données sur autant de comptes Facebook serait un véritable tour de force

Sur le forum où a été postée l’annonce, et devant les allégations atypiques de l’auteur du fil de discussion, de nombreux membres affichent néanmoins leur perplexité. Plusieurs comptes très influents doutent de la taille réelle du fichier, ou même de son existence. Un autre assure avoir déjà cherché à acheter des données au vendeur (dans une autre affaire), mais sans jamais rien recevoir. Par ailleurs, la possibilité que ce fichier soit constitué de plusieurs autres bases de données Facebook trouvables sur le web n’est pas à exclure non plus.

Il semblerait que la base de données ait été mise en vente le 22 septembre. Cela ferait donc une douzaine de jours qu’un tel fichier circulerait potentiellement sur le net. Sans que cela n’ait été remarqué. Cela ne signifie pas forcément que l’affaire est un mauvais canular, mais il faut tout de même rester prudent.

Y a-t-il eu d’autres affaires semblables ?

Le scraping n’a pas attendu Facebook pour exister. Dès lors, ce n’est (malheureusement) pas la première fois qu’une base de données issue d’une opération d’extraction survient, que ce soit contre Facebook ou n’importe quel autre site. Mais le géant du net, de par sa taille, attire forcément beaucoup plus ce type d’activité. C’est le revers de la médaille quand on agrège autant de monde en un seul endroit.

Les exemples ne manquent pas. En septembre 2019, 419 millions de numéros de téléphone avaient été obtenus via cette méthode. En juin 2021, c’était 500 millions de numéros qui se sont retrouvés sur le web. Toujours glané sur Facebook. Plus récemment, le réseau social professionnel LinkedIn s’est retrouvé à deux reprises dans le même cas que Facebook. Une fois en avril et une fois en juin.

La simplicité du scraping en fait une méthode « d’attaque » très populaire, beaucoup plus accessible que des opérations qui nécessiteraient de pénétrer dans le réseau interne d’un réseau social comme Facebook. Il est donc fréquent de voir des annonces fleurir sur des sites interlopes, comme celle-là. Même si, encore une fois, la taille de la base de données dont on parle aujourd’hui est considérable.

Que faire pour se protéger ?

Par définition, toutes les informations que vous partagez en public sur le web sont susceptibles d’être récupérées via des outils de scraping. Pour se protéger, le meilleur moyen est donc de ne jamais partager aucune information sensible publiquement sur le web. Ou, en tout cas, le moins possible. Il peut être judicieux, en outre, de bien vérifier que vous ne laissez quasiment rien de votre profil Facebook en public.

Faire disparaître toutes ses traces du net étant une solution un peu radicale et pas toujours facilement applicable, voire en pratique impossible à vraiment mettre en œuvre, il existe d’autres méthodes pour se protéger contre ce genre d’extraction. Ainsi, vérifiez bien, sur tous vos réseaux sociaux, que votre numéro de téléphone et vos autres informations personnelles ne sont pas visibles publiquement. Et partagez avec parcimonie ce genre d’informations sur une plateforme quelconque.

Une fois dans la nature, ces données servent à construire des campagnes de phishing très convaincantes, qu’il peut être difficile à déjouer. Plus un acteur malveillant aura de données sur vous, moins il aura de mal à se faire passer pour votre banque ou votre assurance. Ou tout simplement à vous envoyer du spam. Soyez donc prudent quand vous recevez un coup de fil ou un mail qui semble un peu louche.

