Le New York Times a identifié des envahisseurs du Capitole, mais ce n’est pas une bonne nouvelle

Grâce à une base de données envoyée par une ou un anonyme, le New York Times a pu identifier des centaines d’individus qui ont participé à l’assaut du Capitole, le 6 janvier 2021. Une bonne nouvelle ? Pas vraiment, au contraire même : l’article, publié le 5 février, est un terrible exposé des dérives connues, mais toujours aussi effrayantes, de l’industrie publicitaire. Car oui, la base de données consultée par le média américain se vendrait et s’échangerait parmi les entreprises du milieu. Issues de plusieurs apps pour smartphone, ces données permettent d’extraire de précieuses informations sur les habitudes des consommateurs américains, qui peuvent ensuite alimenter toutes sortes de programmes d’optimisation et de prédiction.

Au cœur du jeu de données : des coordonnées GPS régulières — plus de 100 000 localisations pour chacun des milliers de smartphones de la base –, qui permettent de retracer le déplacement des individus. Bien qu’imprécises aux plus petites échelles, ces données suffisent, par exemple, à identifier qu’un individu se trouvait à proximité du Capitole, à l’heure de son assaut. Ou encore, à retracer la route qu’il a suivie, de son quartier de résidence dans le Kentucky jusqu’à Washington D.C.

Grâce à une base de données marketing, le New York Times a pu identifier des assaillants du Capitole. // Source : Google Earth

Si le New York Times explique comment une telle base permettrait d’identifier les assaillants du Capitole, les enquêteurs n’ont probablement même pas eu à aller aussi loin pour trouver leurs informations. Et pour cause : des activistes ont déjà archivé l’intégralité du réseau social Parler, abondamment utilisé par les émeutiers le jour de l’attaque. Certains supporters de Trump s’affichaient sur les lieux en photo, d’autres y revendiquaient fièrement l’assaut d’un message. Les données sont tellement faciles d’accès qu’un étudiant a créé un site pour recenser les visages des personnes prétendument impliquées, qu’il a extraites des vidéos du réseau social.

Des bases de données trop complètes

L’existence de ce relevé précis des déplacements pose déjà problème, mais en plus, la base publicitaire contient des informations dites « identifiantes » qui permettent d’associer ces déplacements à une personne. Pourtant, en principe, les données GPS devraient être « anonymes ». Mais comme souvent, ce concept est loin d’être appliqué selon l’idéal.

Concrètement, la base agrège plusieurs jeux de données, qu’il est possible de croiser facilement, notamment grâce à une information présente de façon transversale : le « Mobile Ad ID », ou identifiant publicitaire mobile. Cet indicateur, régulièrement pointé du doigt, permet, à la manière d’un super cookie publicitaire, de tracer le comportement d’un consommateur à travers plusieurs applications. Chaque smartphone se voit attribuer un unique ID. En conséquence, si une entreprise publicitaire agrège plusieurs bases, elle pourra les relier à l’aide de cet identifiant. Imaginons que l’app A ne collecte que les coordonnées GPS et le Mobile Ad ID, et donc prétend respecter « l’anonymat » des utilisateurs, mais que l’app B collecte de son côté l’ID et les noms des utilisateurs, l’attribution des coordonnées GPS à une personne physique deviendra tout de même facile. Seule limite : il faut l’individu visé utilise l’app A et l’app B. Mais si une app C associe l’identifiant à un numéro de téléphone ou une adresse, il suffit de consulter un annuaire pour retrouver le nom de la personne. Justement, plusieurs entreprises proposent des outils pour effectuer facilement ce croisement des bases de données.

Pour couronner le tout, le secteur publicitaire n’est pas le seul à pouvoir in fine accéder à ces bases : la finance, le marketing ou encore les sociétés d’investissement parviennent aussi à mettre aussi la main dessus. Les forces de l’ordre, de leur côté, peuvent demander à les consulter, sous réserve de présenter une demande légale. Quant aux cybercriminels, ils lorgnent aussi ces trésors de données : avec de telles informations, ils pourraient affiner leurs campagnes de phishing, et lancer des attaques taillées sur mesure.

Mais que fait l’industrie ?

Avec son article, le New York Times expose une nouvelle fois les dérives d’un système peu contrôlé, et qui surtout paraît incontrôlable.

Plusieurs éléments ont de quoi choquer :

Qu’une personne seule puisse accéder à un tel puits de données, et le communiquer à d’autres personnes. Le NYT précise que sa source a une interdiction formelle de partager ces données, et qu’elle s’expose à de « lourdes pénalités » si elle est identifiée. Reste qu’elle a pu le faire, et qu’au lieu de se tourner vers des journalistes, elle aurait pu essayer de les revendre à des cybercriminels.
Que personne ne sache vraiment à quel point les données circulent. Le système d’agrégation et d’échange des données d’application est particulièrement complexe et obscur. Résultat : passé un certain point, personne ne sait vraiment à quel point elles sont diffusées. Par exemple, Motherboard a récemment enquêté sur Predicio, une entreprise qui achetait des données de géolocalisation à plusieurs sources, dont l’app de prière musulmane Salaat First. Predicio revendait elle-même ces données à Venntel, qui ensuite les fournissaient à l’ICE, l’autorité de l’immigration américaine, fortement critiquée pour son traitement des minorités sous l’administration Trump. Dans l’histoire, les utilisateurs Salaat First n’avaient aucun moyen de savoir où allaient leurs données. Et encore, cet exemple de chaîne de transmission est relativement court et linéaire par rapport à d’autres systèmes de diffusion bie plus sinueux.
Que les données soient collectées (quasi)systématiquement. Le New York Times tire deux constats : peu de gens désactivent la collecte de données quand ils le peuvent ; et les entreprises ne respectent pas toujours leur engagement de non-collecte des données. Les organisations intéressées par ces données trouveront toujours une app ou un angle d’attaque pour parvenir à leur fin. Dans cette situation, les dérives du système ne semblent pas menacées, malgré des régulations toujours plus fortes.

En Europe, le RGPD offre un premier rideau de protection

En Europe, le règlement européen sur la protection des données (RGPD) a posé de premières barrières contre ces pratiques, et il est de plus en plus imité par d’autres États, comme la Californie. Le texte exige un recueil du consentement explicite de l’utilisateur avant la collecte de ses données, et l’utilisateur doit pouvoir renouveler son consentement à chaque modification des conditions. Par exemple, si une app se met à commercialiser ses données, elle devra l’indiquer clairement, et l’utilisateur aura l’occasion de refuser. D’autre part, le RGPD introduit un droit à l’oubli, qui permet à un individu de demander à n’importe quelle entreprise de supprimer toutes les données personnelles qu’elle a sur lui. Pour finir, le règlement prévoit aussi de lourdes sanctions en cas de non-respect de ces droits.

Mais malheureusement, il n’est pas suffisant pour réguler l’industrie. Vous demandez à une app de supprimer vos données ? Beaucoup ne sont pas encore en conformité. Et quand bien même elles supprimeraient les données qu’elles possèdent sur vous, si elles les ont déjà vendues, les données continueront de s’échanger à votre insu, et sans que vous ne puissiez faire quelque chose contre le système. Reste que le RGPD permet au moins de pointer du doigt les entreprises dont la mauvaise gestion des données utilisateur transparait, comme l’app de rencontre gay Grindr.

Abonnez-vous gratuitement à Artificielles, notre newsletter sur l’IA, conçue par des IA, vérifiée par Numerama !

Des bases de données trop complètes

Mais que fait l’industrie ?

En Europe, le RGPD offre un premier rideau de protection

Nouveauté : Découvrez Numerama+

Nouveauté : Découvrez