La première et la deuxième vague sont-elles comparables ? En quoi la deuxième peut-elle être perçue comme plus forte ou plus faible ? Voici une analyse statistique de la situation pandémique, avec l'aide du « data scientist » Guillaume Rozier pour Numerama.

Il est désormais clair que nous connaissons actuellement, en cet automne 2020, une deuxième vague dans l’épidémie liée à la maladie Covid-19. La dernière fois que l’on parlait de « vague », c’était en mars, au moment du confinement. Le questionnement est récurrent, et plutôt légitime : qu’est-ce qui différencie ces deux vagues ? Le contexte et les stratégies mises en place n’ayant plus rien à voir, comparer les deux vagues ne relève pas d’une démarche aisée.

« On ne peut pas comparer les cas détectés en mars aux cas détectés actuellement »

Le premier changement majeur à prendre en compte est la stratégie de dépistage : le nombre de tests effectués a considérablement augmenté. On est passé de 5 000 tests par jour à 200 000. Ce n’est toutefois pas qu’une question d’augmentation, car le data scientist Guillaume Rozier, créateur de CovidTracker, attire notre attention sur le fait que toute la politique a changé. « En mars, on testait principalement les personnes admises à l’hôpital, et les cas contacts très rapprochés. Donc on avait un taux de positivité énorme. » Le taux de positivité correspond au nombre de cas positifs par rapport au total de tests effectués. Forcément, la façon de réaliser ces tests a aussi un impact sur ce taux. « On ne peut pas comparer les cas détectés en mars, par rapport aux cas détectés actuellement », pointe Guillaume Rozier.

Les cas détectés positifs au 19 octobre 2020 tels que présentés dans Google. // Source : Affichage dans les résultats Google à partir de Wikipédia

Autre obstacle structurel à la comparaison : la première vague est « terminée », là où la deuxième vague continue d’évoluer. Si, à l’heure actuelle, on est encore dans la phase purement épidémique de cette vague (résurgence de nombre de cas, sans saturation hospitalière), les conséquences sanitaires commencent à se profiler. Les taux d’occupation des lits de réanimation ne cessent d’augmenter, ce qui laisse présager une augmentation à venir du nombre décès. Or, il faut de toute façon éviter d’en arriver à une situation de saturation des hôpitaux avant d’agir. Une deuxième vague, quelle que soit sa forme, constitue un regain des risques pour les vies humaines et le personnel médical. Les armes, en la matière, ont évolué.

La dynamique de croissance

Pour Guillaume Rozier, deux chiffres sont pertinents pour analyser l’évolution de la situation épidémique entre la première et la deuxième vague : « D’une part, la valeur absolue des chiffres (plus on a de cas, plus c’est grave) ; d’autre part la croissance des données, en pourcentage, entre une semaine et la suivante par exemple (plus cela croît vite, plus la valeur absolue va exploser rapidement) ». La croissance des données est un point clé pour comprendre l’intensité d’une vague, mais l’interprétation des chiffres n’est pas forcément la plus intuitive. Comme le relève Guillaume Rozier, « si on a 30 000 cas et une croissance de 20 % d’une semaine à l’autre, c’est moins grave que 20 000 cas mais une croissance de 150 % ».

À l’heure actuelle, le nombre de cas chaque jour est élevé, et plusieurs records ont été dépassés. Concernant la valeur absolue, la deuxième vague est donc plus forte que la première. En revanche, en matière de croissance, la courbe est beaucoup plus faible que lors de la première vague — un constat qui peut être expliqué par le développement des gestes barrières, tels que le porte du masque généralisé.

Guillaume Rozier a compilé les données sous la forme de courbes afin de mettre en lumière les différences dans les vagues au regard, spécifiquement, de cette notion de croissance. Attention à ne pas interpréter ce graphiquement trop rapidement au premier regard : nous allons la décrypter, car ces courbes sont très parlantes avec une bonne analyse.

Source : Guillaume Rozier

Sur ce graphique, le data scientist fait une distinction importante, et souvent oubliée, entre les cas détectés (les personnes testées positives) et les cas estimés (le nombre réel de personnes contaminées, nombre qui relève d’une projection mathématique). Les cas détectés correspondent à la courbe rouge. Les cas réels estimés correspondent à la courbe noire (la partie ombrée relève de la marge d’erreur basse et haute).

Guillaume Rozier fait reposer l’estimation des cas réels sur le taux de mortalité, qui permet de faire ressortir, par une logique de proportion, cette estimation. Les décès hospitaliers relèvent de l’un des rares chiffres vraiment utiles pour comparer les vagues. « L’estimation est faite avec un taux de mortalité de 0.5 % (institut pasteur). Or ce taux est sûrement plus bas actuellement (car plus de jeunes sont touchés) », explique Guillaume Rozier. L’ombrage (ou « collier ») qui entoure la courbe noire sur le graphique sert à mettre en évidence l’hypothèse basse (0,2 %) ainsi que l’hypothèse haute (0,7 %) pour ce taux.

Alors, que tirer de ce graphique proposé par Guillaume Rozier ? «  Les médias communiquent au quotidien la courbe rouge », rappelle le data scientist, faisant effectivement référence aux cas testés positifs dont nous recevons les chiffres chaque jour. En lisant la courbe rouge, «  on voit que la deuxième vague est plus grande, on pourrait penser que l’épidémie est donc pire actuellement qu’en mars ». Car effectivement, le nombre de personnes détectées est actuellement supérieur à celui de mars. « Mais en fait il y a en réalité bien moins de cas réels qu’en mars (courbe noire), d’après mes estimations. Ça explique pourquoi la situation actuellement est meilleure qu’en mars : tout simplement car le virus circule moins qu’en mars. »

S’il fallait résumer : cette deuxième vague se caractérise à l’heure actuelle par plus de résultats positifs que lors des pics de la première vague, mais moins de personnes contaminées. Il faut encore une fois rappeler que la deuxième vague est en cours, ce qui rend l’analyse compliquée. D’autant plus que les données sont disponibles en décalé. Leur interprétation ne peut donc être pleinement réalisée qu’avec 10-15 jours de décalage par rapport au moment de l’analyse. C’est pour cette raison que les courbes expliquées ici par Guillaume Rozier s’arrêtent à début octobre, alors que nous sommes le 20 octobre 2020.

Partager sur les réseaux sociaux

La suite en vidéo