Le coronavirus commençait à circuler quelques semaines avant que les premiers cas soient identifiés, et que l'on puisse mettre un nom sur la nouvelle maladie. Des scientifiques ont cherché des signaux faibles de cette émergence discrète, enquêtant sur Twitter.

Le coronavirus SARS-CoV-2 a émergé dans la nature plusieurs semaines avant d’être identifié, le plus probablement début décembre 2019. La maladie Covid-19 avait donc commencé à circuler avant qu’elle ne soit nommée, comprise, ou que les premiers cas ne soient identifiés. Dans cet entre-deux, des personnes en ont été atteintes sans connaître la nouveauté de la maladie. Des scientifiques italiens de la IMT School for Advanced Studies Lucca ont eu l’idée d’enquêter sur les signaux faibles déjà présents sur les réseaux sociaux en décembre 2019 et janvier-février 2020.

Dans leur papier de recherche, publié le 25 janvier 2021 dans Scientific Reports, ils relatent leur enquête sur les occurrences de termes liés à des symptômes du coronavirus, au sein des messages publiés sur Twitter.

L’accroissement est significatif

Les auteurs se sont d’abord intéressés au mot « pneumonie ». Ils ont créé une base de données rassemblant les centaines de milliers de messages contenant ce terme, et publiés en différentes langues (anglais, français, italien, espagnol, allemand, polonais, néerlandais). La base de données s’étend de décembre 2014 jusqu’à mars 2020, dans le but de déceler une évolution qui serait véritablement significative, et non pas reliée simplement à l’hiver. Tous les articles de presse et messages officiels, tout comme les retweets, ont été retirés des statistiques prises en compte par l’étude.

Les résultats montrent que les occurrences du mot « pneumonie » augmentent significativement dans la plupart des pays européens au fil de l’hiver 2019-2020, en comparaison de la même période lors des années précédentes. L’accroissement est notable bien avant le 21 janvier 2020 — date à laquelle la maladie a été officiellement identifiée et nommée.

« Nous montrons également que les signaux provenaient principalement des régions géographiques qui se sont avérées être les principaux foyers d’infection » au début de la pandémie, relèvent également les scientifiques. Par exemple, en France, les messages pointaient principalement en Île-de-France ; en Italie, dans la région de Lombardie ; en Espagne, à Madrid. Il y a un lien entre l’intensification des occurrences du mot pneumonie et les foyers épidémiques les plus importants.

Les chercheurs ont abouti aux mêmes schémas d’augmentation significative et de ciblage géographique pour d’autres symptômes provoqués par le coronavirus SARS-CoV-2, tels que « toux sèche ».

Les réseaux sociaux, un outil précieux ?

Cette étude publiée dans Scientific Reports ne prétend aucunement que ces signaux faibles auraient permis de détecter la maladie plus tôt. On ne peut pas trouver ce que l’on ne cherche pas. La maladie Covid-19 était nouvelle. En revanche, les résultats sont tout à fait pertinents sur le plan épidémiologique : ils montrent comment un pathogène peut commencer à se propager lentement dans la population avant d’être identifié et avant qu’une augmentation exponentielle attire l’attention.

« Notre étude vient s’ajouter aux preuves existantes que les réseaux sociaux peuvent être un outil utile de surveillance épidémiologique », estiment les chercheurs. Ils relèvent, en conclusion de leur étude, que ce type de d’enquêtes pourrait dorénavant permettre de repérer l’émergence de nouvelles vagues épidémiques liées au coronavirus.

L’idée vient avec ses limites : « Tout système de surveillance numérique destiné à surveiller le Covid-19, et au-delà de ce virus, doit être contrôlé par des autorités indépendantes de protection des données, et adhérer à un ensemble clair de principes de préservation de la vie privée et de partage des données qui ne compromettent pas les droits des citoyens et les autres libertés fondamentales. »

