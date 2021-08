Une étude a montré que TousAntiCovid récupère des statistiques d'utilisation de l'application, qui peuvent, dans certains cas hypothétiques très spécifiques, affaiblir la promesse d'anonymat complet brandie par l'outil. Les risques sont faibles, mais il n'en fallait pas plus pour générer de la méfiance sur l'application gouvernementale. Les équipes techniques sont toutefois déjà en train de réagir.

TousAntiCovid protège-t-il assez les données personnelles des Françaises et Français ? C’est la question que soulève un rapport, publié par trois chercheurs (Johan D., Nils L. et Gaëtan Leurent) le 19 août 2021, et qui détaille plusieurs types de risques qui pourraient exister dans la manière dont l’application gouvernementale traite les informations dont elle dispose.

Concrètement, ces risques et situations hypothétiques envisagées, sur lesquels nous revenons dans cet article, sont relativement faibles (surtout lorsqu’on les met en comparaison avec la manière dont d’autres applications traitent les données personnelles de leurs utilisateurs et utilisatrices). Il serait donc alarmiste d’affirmer que les données personnelles des Français et Françaises qui utilisent TousAntiCovid sont actuellement concrètement menacées.

En revanche, le travail méticuleux des trois Français souligne un décalage préoccupant entre ce que l’application officielle promet (une anonymisation complète et une sécurité à toute épreuve), et la réalité des faits. « C’est quand même assez grave », nous confie Gaëtan Leurent, « surtout parce qu’il y avait une promesse forte à la base ».

Les équipes en charge de TousAntiCovid semblent, de leur côté, être réactives et à l’écoute des critiques soulevées : « La volonté de l’Etat a été depuis le premier jour d’inscrire ce projet dans une démarche vertueuse et de tenir compte des retours pertinents au fil de son utilisation », a commenté auprès de Numerama le service du cabinet de Cédric O, secrétaire d’État chargé de la Transition numérique. « Ainsi, pour les points remontés permettant de renforcer la ‘privacy by design’ de la plateforme sans pour autant baisser son niveau de sécurité, nous sommes en train de travailler à des ajustements ».

Voici ce qu’il se passe.

De quoi parle-t-on ?

TousAntiCovid est à l’origine une application de traçage de contacts, qui s’appelait StopCovid : une fois activée sur deux smartphones, elle permet, via Bluetooth, aux téléphones de communiquer entre eux et « d’enregistrer » un potentiel contact entre deux personnes. La France avait, au printemps 2020, été un des rares pays à avoir recours à un système centralisé de gestion des données (via un protocole appelé ROBERT), ce qui l’avait isolée sur la scène européenne. Cet outil fonctionne peu et n’a jamais eu un effet notable sur la gestion de l’épidémie, mais il est plutôt sécurisé.

L’application s’est ensuite enrichie.

Or, certaines informations émanant de ROBERT et de Cléa pourraient hypothétiquement être croisées, ce qui pourrait permettre certains recoupements, qui contreviennent à la promesse d’origine de l’application : « Les données transmises sont complètement anonymes. Il n’est pas possible de connaître l’identité de l’utilisateur de l’application. Elle ne comporte pas de système d’authentification au moment de l’installation », peut-on par exemple lire sur le site du Service public.

Quelles statistiques sont collectées et envoyées ?

Un élément est au cœur de l’analyse des trois chercheurs : la collecte de statistiques d’utilisation de TousAntiCovid, en place depuis le mois de juin 2021, et activée automatiquement dans l’app. Dans les paramètres, on peut lire que ces infos sont recueillies « sur l’usage que vous faites de TousAntiCovid, à des fins de diagnostics, d’amélioration de performance et de l’expérience utilisateur », et précise qu’elles sont « conservées sur le serveur pendant 3 mois ». Elles sont censées être « anonymes », c’est-à-dire ne pas être reliées à l’identité précise d’un utilisateur.

TousAntiCovid envoie donc sur un serveur de nombreuses informations, comme, entre autres :

le modèle du téléphone utilisé ;

la version de l’application ;

le nombre de certificats ajoutés dans TousAntiCovid-Carnet ;

le nombre de QR Code scannés dans TousAntiCovid-Signal ;

Mais l’app envoie aussi quasiment toutes les actions qu’un utilisateur réalise dans l’application, horodatées à la milliseconde près (pour l’instant). Or, c’est cette capacité à dater très précisément de nombreuses actions qui est à l’origine de plusieurs potentielles dérives pointées par les chercheurs. Car si ces données ne sont pas reliées directement à l’identité réelle d’une personne, elles peuvent potentiellement l’être, en étant recoupées et croisées, dans certaines situations hypothétiques.

Quels dangers y a-t-il ?

X27B et P94F vont au restaurant

Les exemples exposés par les chercheurs dans leur rapport sont très précis.

Gaëtan Leurent a ainsi montré, sur son compte Twitter, que deux utilisateurs (Bob et Alice, dans leur mise en situation) qui ont scanné le même QR Code du même restaurant au même moment à plusieurs reprises, pourraient être identifiés comme ayant probablement déjeuné ensemble.

Toutefois, il faut bien noter que dans cet exemple, on peut relier deux utilisateurs avec les pseudonymes qui leur ont été attribués, mais pas à leur identité réelle. TousAntiCovid ne permettra donc pas de déduire que Bob et Alice ont déjeuné ensemble, mais uniquement, si on reprend cet exemple, que l’utilisateur « X27B » connaît peut-être l’utilisateur « P94F ».

Contacté, le cabinet de Cédric O estime que cet exemple ne pose « pas de difficulté significative s’agissant de la protection de la vie privée des utilisateurs », car l’identité des personnes est « inconnue du serveur central » : « Le serveur central ne sait pas si c’est le même établissement ou non (parmi les 300 000 établissements recevant du public), n’a pas le type d’établissement non plus (ces statistiques ne remontent pas les types d’établissements), donc encore moins si ces deux personnes se connaissent ou non », explique-t-on.

XDA8 et X27B sont la même personne

On retrouve une logique similaire dans un autre exemple, qui montre qu’il est possible de relier deux identifiants différents (celui de ROBERT et celui des statistiques d’utilisation de l’application) à la même personne. Toutefois, l’identité de cette personne n’est pas connue.

Exemple 4. En théorie, les différentes fonctionnalités sont cloisonnées, avec des pseudonymes distincts : ID pour le protocole ROBERT, UUID pour remonter les statistiques. Mais ils peuvent être reliés en croisant les log du serveur ROBERT et les données du serveur de statistiques. pic.twitter.com/o1mJ5wznqb — Gaëtan Leurent (@cryptosaurus6) August 19, 2021

Peut-on identifier précisément une personne ?

L’exemple suivant présente des risques plus importants dans l’identification potentielle d’un utilisateur ou une utilisatrice de TousAntiCovid, bien qu’il s’agisse d’une situation rare ; les planètes devraient vraiment être alignées au bon endroit pour obtenir un résultat « probant ».

Au début de la campagne vaccinale en France, les personnes vaccinées se sont vues remettre un document avec un code Datamatrix (via la norme 2D-DOC), une sorte de code-barre qui n’est pas très éloigné du QR Code. Ce code n’est désormais plus utilisé, car le certificat européen, désormais téléchargeable par tous les Français vaccinés, n’utilise pas la norme 2D-DOC.

TousAntiCovid permet de transformer un code 2D-DOC en format européen : ce processus dure moins d’une seconde, mais il peut être horodaté très précisément dans le serveur vers lequel il envoie cette requête. TousAntiCovid garde également la mémoire de l’utilisation de ce convertisseur. En croisant les deux, il est possible de relier l’identifiant pseudonymisé avec les informations du pass sanitaire (nom, prénom, date de naissance).

Ces deux serveurs ne sont pas, techniquement, censés pouvoir parler entre eux. Tout comme le serveur ROBERT n’est pas censé communiquer avec celui où les statistiques d’utilisation de TousAntiCovid sont collectées. Cependant, il n’existe pas de garantie qui prouve assurément que ces serveurs ne peuvent pas communiquer entre eux, et c’est ce qui permet de soulever ces petites failles, potentiellement exploitables dans certaines conditions.

Exemple 3. Le journal enregistre l'utilisation du convertisseur de certificat. Le serveur de statistiques reçoit donc les horaires d'utilisation de ce service.

S'il croise ces données avec les logs du convertisseur de certificat, il peux retrouver l'identité des utilisateurs. pic.twitter.com/Yr1r1eZdrF — Gaëtan Leurent (@cryptosaurus6) August 19, 2021

Changer l’horodatage pourrait améliorer la situation

Pour pallier certains de ces risques, le cabinet de Cédric O nous a confirmé « travailler à des ajustements » à la suite de la publication de l’étude des trois Français. Il est possible, comme nous l’a suggéré Gaëtan Leurent, que l’horodatage de la collecte des statistiques d’utilisation de TousAntiCovid soit notamment modifié : au lieu d’avoir des chiffres précis à la milliseconde près, les données pourraient n’être remontées que toutes les heures.

Si c’était le cas, alors un grand nombre des risques mentionnés ci-dessus seraient balayés, car il serait impossible de croiser des informations avec un horodatage si large.

Par rapport aux promesses, une question de communication et de transparence

Malgré ces modifications, il est certain que l’étude des trois chercheurs, ainsi que les articles de presse qui l’ont partagée, a nourri de nouveaux questionnements sur l’application TousAntiCovid. Celle-ci fait en effet désormais partie du paysage national, et se retrouve fréquemment scrutée : elle a été téléchargée au total plus de 30 millions de fois depuis son lancement l’an dernier (bien que le gouvernement ne communique pas son nombre d’utilisateurs actifs quotidiens réels, ce qui est regrettable).

Les dangers liés à la protection des données des utilisateurs, s’ils existent bien, sont pourtant relativement minimes. Il est possible que bon nombre d’utilisateurs et utilisatrices n’en saisissent d’ailleurs pas toutes les subtilités, à cause du degré de technicité des problématiques. Or, comme tous les sujets liés à la crise du coronavirus, la vaccination et le pass sanitaire, TousAntiCovid est une thématique sensible sur laquelle il est facile de s’emballer.

Une chose est certaine : au vu des tensions qui gravitent autour de ces questions, il est nécessaire que la communication autour de l’application soit irréprochable, et que les garanties techniques suivent les promesses de sécurité. Alors, même s’il s’agit de situations hypothétiques rares, il reste important de prendre cette étude au sérieux — ainsi que de se réjouir du fait que la société civile et ses experts s’emparent de ces sujets pour pousser ses institutions à faire toujours mieux.

Comment désactiver la collecte de données de TousAntiCovid

Dans le doute, il vous reste la possibilité de désactiver facilement la collecte de données statistiques dans l’application TousAntiCovid, très facilement.

Rendez-vous dans l’application ;

Descendez dans « Paramètres » ;

Descendez jusqu’à la case « Statistiques et mesure d’audience » ;

Décochez le bouton

Vous pouvez également en profiter pour demander la suppression des données qui ont déjà été enregistrées sur votre utilisation de l’application.

