Un fichier de 235 millions de profils Instagram, TikTok et YouTube a fuité à cause d'une seule entreprise

Résumé par IA, vérifié par Numerama

Recevez tous les soirs un résumé de l’actu importante avec Le Récap’

Les chercheurs de Comparitech ont identifié une gigantesque fuite de données chez Social Blade. Cette entreprise créée en 2019 collecte des données sur les réseaux sociaux — une pratique contraire à leurs règlements — pour offrir du conseil en stratégie marketing.

Non seulement l’entreprise Social Data a aspiré automatiquement les données de 235 millions de profils Instagram, TikTok et YouTube, une pratique interdite par les conditions générales d’utilisation de ces réseaux sociaux. Mais en plus, elle les a laissés involontairement exposés aux yeux de tous, dans ce qu’on peut appeler une fuite de données.

Dans le détail, les chercheurs de Comparitech ont trouvé le 1er août quatre bases de données sans protection. Deux d’entre elles contenaient respectivement 95 et 96 millions de profils Instagram, une autre 42 millions de profils TikTok, et la dernière 4 millions de profils YouTube.

Une fuite de 235 millions de profils est une ressource de grande valeur pour les malfaiteurs. // Source : Louise Audry pour Numerama

Les profils sont plus ou moins complets, mais la plupart affichent : le nom d’utilisateur, le vrai nom, la photo de profil, une description, les partenariats publicitaires, et une dizaine de statistiques liés à l’audience du compte. Un profil sur cinq comporte aussi un numéro de téléphone ou une adresse email.

Social Data exploite ces données — qui sont, concrètement, des profils détaillés d’influenceurs– pour offrir aux entreprises un service de conseil sur leur stratégie marketing sur les réseaux sociaux.

Regrouper des données les expose aux malfaiteurs

Pour sa défense, Social Data explique à Comparitech que toutes les données qu’elle a collectées sont « accessibles par TOUS avec un simple accès Internet ». Elle décline toute forme de responsabilité en ajoutant que les informations pourraient être exploitées par des malfaiteurs même sans l’existence de la base de données. C’est en partie vrai, mais l’entreprise ignore dans sa défense que regrouper les données expose leurs propriétaires à d’autres types de méfaits.

Comme l’écrit Comparitech, « même si les informations sont accessibles publiquement, la taille et l’ampleur de la base de données agrégée les rendent plus vulnérables aux attaques de masse que si elles étaient isolées ». Une telle base de données est une ressource idéale pour lancer des campagnes de phishing ou de spam publicitaire. Sans le travail de compilation de Social Data, les cibles de ces campagnes… ne seraient pas des cibles.

Social Data retourne la responsabilité aux victimes de la fuite

Et ce n’est pas tout : tous les profils de la base de données partagent un point commun. Ce sont des profils d’influenceurs, qui peuvent être particulièrement sensibles à certains types de phishing, comme les faux partenariats. Par exemple, les Youtubeurs français Heliox et Marty se sont fait pirater leur compte par ce biais. Les hackers ont profité de leurs communautés de dizaines de milliers d’abonnés pour promouvoir une arnaque au Bitcoin.

En conclusion de sa défense, Social Data retourne la responsabilité aux victimes : « les utilisateurs qui ne souhaitent pas donner leurs informations passent leurs profils en privé ». Ce raisonnement technique ne correspond pas à la réalité légale, notamment en Europe, où le RGPD protège les données personnelles des résidents contre leur traitement sans consentement préalable.

Le web-scrapping de réseaux sociaux, un problème récurrent

Les chercheurs de Comparitech relèvent que Social Data — créée en 2019 à Hong-kong – aurait repris des jeux de données appartenant à Deep Social. Cette entreprise propose un service similaire, mais avait été forcée d’arrêter l’aspiration de données en 2018. Et pour cause : Facebook et Instagram l’avaient menacé de poursuite légale s’il continuait à aspirer les données.

Le web-scrapping consiste à aspirer automatiquement les données d’un ou plusieurs sites web à l’aide de scripts. Interdit par les conditions d’utilisations de la plupart des sites concernés, il reste cependant compliqué à déjouer en amont. Les Pages Jaunes, par exemple, ont longuement peiné avant de contenir en partie le phénomène.

Au moins, Social Data a vite réagi

Au début de l’année 2020, l’entreprise Clearview AI est devenue un des exemples les plus marquants des dérives du web-scrapping. Cette entreprise affirme avoir aspiré plus de 3 milliards de photos publiques aux quatre coins du web (notamment sur les réseaux sociaux) pour alimenter son algorithme de reconnaissance faciale. Elle le commercialise ensuite aux forces de l’ordre, en théorie. Les entreprises dont les données ont été aspirées ont ouvert des procédures judiciaires, pour l’instant sans conséquence. Pire, Clearview n’est pas seule : PimEyes, et bien d’autres ont des pratiques similaires.

Dans cette catastrophe de données, Social Data a le mérite d’avoir réagi rapidement. Comparitech affirme qu’il ne s’est déroulé que 3 heures entre leur notification et la réparation par l’entreprise. En revanche, les chercheurs ne savent pas pendant combien de temps les données ont été exposées, et ne peuvent confirmer si la fuite a été exploitée ou non. Mais ils en ont une petite idée : dans une précédente expérience, ils démontraient que les malfaiteurs mettaient moins d’une demi-journée à trouver une fuite de données.

Toute l'actu tech en un clin d'œil

Ajoutez Numerama à votre écran d'accueil et restez connectés au futur !

Le futur n’attend pas : anticipez l’avenir des nouvelles technologies et de l’IA en lisant gratuitement ToujoursPlus, chaque jeudi dans votre boîte mail !