Des morts qui ne le sont pas vraiment. Par Marco Brambilla

Dan Brault

Dan Brault

La science, les statistiques et les approches modernes de la science des données ne tiennent pas leurs promesses. Laissez-moi vous expliquer : des années de recherches sur l'épidémiologie et les modèles de diffusion ont abouti à des résultats scientifiques pertinents et intéressants. Et pourtant, les gens ont l'impression qu'il n'y a pas de réponse réelle aux questions les plus pressantes. Pourquoi les modèles et les méthodes conçus jusqu'à présent ne fonctionnent-ils pas ? La raison est simple : les modèles ne sont pas erronés. Ce qui est faux, ce sont les données que nous leur fournissons. Avec toute l'expertise en matière de grandes données, d'analyse des données et de science des données qui a été présentée comme la révolution du 21e siècle, nous avons fini par passer à côté de l'essentiel.

L'Italie en est maintenant à son quarante-cinquième jour de confinement. Pas une semaine, pas dix jours, pas un mois. 45 jours. Et ça va durer plus longtemps. Dans la peur et l'incertitude qui caractérisent ces vacances de Pâques, une prise de conscience cruciale commence à se faire jour. Nous sommes en train de rater complètement le COVID-19. Dans cet éditorial (en italien), Francesco Costa, directeur adjoint d'ilPost.it, montre clairement que ce que l'homme de la rue commence à comprendre : la science, les statistiques et les approches modernes de la science des données ne tiennent pas leurs promesses. Laissez-moi vous expliquer : des années de recherches sur l'épidémiologie et les modèles de diffusion ont abouti à des résultats scientifiques pertinents et intéressants. Et pourtant, les gens ont l'impression qu'il n'y a pas de réponse réelle aux questions les plus pressantes : Quels sont les risques ? Quels sont les moyens de contracter (ou non) le virus ? Mais surtout : peut-on prédire comment les courbes de propagation vont évoluer ? Comment le nombre de personnes infectées, mortes, récupérées va-t-il évoluer dans les prochains jours ? En fin de compte : quand pouvons-nous espérer reprendre une vie normale ?

Jusqu'à présent, personne n'a été en mesure de fournir des réponses. La science est-elle impuissante ? Pourquoi les modèles et les méthodes conçus jusqu'à présent ne fonctionnent-ils pas ? La raison est simple : les modèles ne sont pas erronés. Ce qui est faux, ce sont les données que nous leur fournissons. Avec toute l'expertise en matière de grandes données, d'analyse des données et de science des données qui a été présentée comme la révolution du 21e siècle, nous avons fini par passer à côté de l'essentiel.

Les déchets entrent, les déchets sortent. Si vous fournissez un modèle avec des données erronées, inexactes ou sales, il fournira des réponses inutiles. Nous le savions depuis le début, et pourtant nous continuons à le faire. En Italie, comme dans de nombreux autres pays, les stratégies de test n'ont pas été à la hauteur. L'Italie est actuellement le pays qui compte le plus grand nombre de tests pour 1000 citoyens. Et pourtant, ce n'est pas suffisant. Les gens se demandent pourquoi, après 45 jours de confinement, nous ne voyons pas diminuer le nombre de nouveaux cas. Les modèles basés sur les cas détectés précocement ont prédit le pic des nouveaux cas il y a près d'un mois. Les nouveaux cas sont plutôt stables maintenant, avec des diminutions temporaires. Pourquoi ? La réponse peut être simple : le plateau peut-il être limité par la capacité de dépistage du pays ?

Graphique des nouveaux cas quotidiens en Italie tels que rapportés par les rapports officiels vs. prédiction d'un modèle très basique. Tiré de : ilpost.it et youtrend.it

Graphique des nouveaux cas quotidiens en Italie tels que rapportés par les rapports officiels vs. prédiction d'un modèle très basique. Tiré de : ilpost.it et youtrend.it

De nombreux scientifiques nous ont déjà mis en garde : quel que soit le nombre de cas signalés dans les rapports officiels quotidiens, c'est de la foutaise. Il ne décrit que la capacité d'un pays à évaluer la situation, pas la situation elle-même. C'est vrai pour l'Italie, où nous recevons chaque jour à 18 heures un rapport du directeur de la protection civile et du groupe de travail spécial chargé de la lutte contre le virus, et c'est vrai pour les États-Unis, où le président lui-même fait son apparition tous les jours. Voici les chiffres. Les nouveaux cas ne sont pas de nouveaux cas.

Quand on regarde la courbe quotidienne des nouveaux cas, on attend et on espère tous qu'elle atteindra un plateau, afin de s'aplatir puis de commencer à diminuer. Cependant, nous ne comprenons pas que ces chiffres montrent quelque chose de différent : ils représentent les cas évalués pendant la journée, conditionnés par les tests effectués pendant la journée. Donc : ils ne représentent pas les nouveaux cas, parce que les cas auraient pu commencer des jours avant et ne sont évalués que maintenant ; ils ne représentent pas les nouveaux cas, parce qu'ils ne montrent que la fraction des tests qui ont été positifs pendant la journée. À cela, il faut aussi ajouter : la probabilité d'erreur des tests (les faux positifs et les faux négatifs sont loin d'être nuls) ; la stratégie inégale et confuse de l'échantillonnage et de la collecte de données, qui est effectuée différemment selon les régions, les États, les provinces ou même les villes et les hôpitaux. Et d'autre part, un autre point aveugle invalide les données : le nombre énorme de cas qui ne sont jamais testés parce qu'ils ne présentent aucun symptôme, et un grand nombre de personnes qui se mettent en quarantaine sans déclarer leur état. Les patients ne sont pas aux soins intensifs.

Ce chiffre devrait être assez objectif et quantitatif. En effet, c'est probablement ce que nous pourrions le mieux évaluer. Cependant, le bruit blanc est également présent ici. Les médecins ont rapporté que dans certains cas, ils ont renoncé à mettre les patients dans des unités de soins intensifs, pour laisser de la place à d'autres. En outre, certaines institutions (notamment les maisons de retraite) n'envoyaient même pas leurs invités aux soins intensifs même s'ils en avaient besoin. Les patients récupérés ne se sont pas rétablis. Le nombre de personnes qui sont marquées comme récupérées n'est pas non plus une donnée propre. Certains hôpitaux comptent comme "récupérés" les patients qui sortent de l'hôpital, pour compléter la récupération à domicile. Certaines règles nationales et régionales appliquent plutôt la définition de la récupération comme un test COVID-19 négatif en deux étapes. Et même les morts ne sont pas les morts.

Enfin, l'horreur et l'angoisse entrent en jeu lorsqu'on regarde le nombre de morts, et les courbes quotidiennes respectives. Cependant, les chiffres sont trompeurs, même dans ce cas. De nombreux pays admettent que le nombre de morts est bien moins précis que ce à quoi on peut s'attendre. Dans les premières phases de la pandémie, de nombreux décès présentant des symptômes bénins n'ont pas été testés et n'ont donc pas été comptabilisés. Il ne s'agissait pas de petits nombres. Nous parlons de centaines ou de milliers de morts. Et puis, il faut compter d'autres aspects : certains pays et gouvernements ont clairement caché leurs chiffres, en particulier le nombre de décès. Et même dans les pays plus transparents et "libres", certaines institutions (en particulier les maisons de retraite) ont nié l'ampleur de la contagion, et même le nombre de décès.

Dans l'ensemble, j'espère que le message est clair. Nous avons beaucoup de données scientifiques, d'apprentissage machine, de modèles d'épidémie à utiliser. Nous pouvons réellement les utiliser. Mais tant que nous n'aurons pas de bonnes données, n'attendons pas d'eux qu'ils nous donnent des réponses correctes. Nous avons besoin de données propres et impartiales provenant de stratégies d'échantillonnage systématique et cohérent sur la population. C'est la statistique 101, tout simplement.

Marco Brambilla, le 14 avril 2020