Nous retrouvons ici avec plaisir la radicalité mathématique de Bernard Guennebaud autour d’une observation médicale doublement agaçante : d’abord parce qu’elle nous apprend que les patients cancéreux soumis à une chimiothérapie par 5-FU ont toutes les (mal)chances d’en mourir dès lors qu’ils sont porteurs d’un déficit enzymatique en DPD, que cette hypothèse est facile à lever par simple mesure de l’uracilémie, mais inexplicablement ce dosage n’est pas réalisé en routine. Et puis aussi parce que, pour convaincre du bien fondé de cette mesure, un certain nombre d’auteurs n’ont pas hésité à rédiger un article mathématiquement inepte … Bonne lecture.  

Introduction

En 2018, l’Institut National du Cancer (INCa) a publié un article à propos de la « Recherche de déficit en dihydropyrimidine déshydrogénase en vue de prévenir certaines toxicités sévères survenant sous traitement comportant des fluoropyrimidines. » [1]

Le résumé est le suivant :

  • « L’Institut national du cancer (INCa) et la Haute Autorité de santé (HAS) publient des recommandations sur les modalités de recherche du déficit en enzyme DPD dans le cadre de chimiothérapies comportant des fluoropyrimidines. L’objectif est d’éviter certaines toxicités très graves chez des patients déficitaires en enzyme DPD, enzyme qui contribue à l’élimination par l’organisme de ces médicaments.
    En février 2018, l’Agence nationale de sécurité du médicament et des produits de santé (ANSM) a préconisé la recherche d’un déficit en DPD pour tout patient concerné par une chimiothérapie intégrant des fluoropyrimidines. Pour détecter en pratique ce déficit, l’INCa et la HAS recommandent aujourd’hui la réalisation d’un examen : la mesure de l’uracilémie. »

Pour prendre une telle mesure qui a un coût et qui conduit à utiliser d’autres médicaments pour traiter les personnes concernées, il était important d’évaluer le nombre d’effets indésirables graves dont les décès pouvant être associés à l’usage des fluoropyrimidines. C’est ce qu’a tenté de faire une étude publiée en 2019 [2].

Les dix auteurs de cette publication dans une revue à comité de lecture (Elsevier) s’étaient donnés pour tâche d’estimer tout particulièrement le nombre de décès liés à la toxicité de ces produits (FP ou 5-FU en abrégé) utilisés contre des cancers. Leur premier et principal résultat s’exprime ainsi dans la publication (page 43) :

  • « The number of FP-related toxic deaths in France is estimated around 150 per year [95%CI 0 ; 820]. »

Traduction : « Le nombre de décès liés à la toxicité de FP en France est estimé à environ 150 par an [intervalle de confiance à 95% 0 ; 820]

On y trouve 3 nombres, 150, 0 et 820 qui, à eux seuls, pourraient interpeller le lecteur pour les 2 raisons suivantes :

1- La borne inférieure de l’intervalle de confiance est nulle. On peut aisément démontrer que sa borne inférieure est obligatoirement un nombre strictement positif.
 2- La valeur “moyenne“ 150 parait très décalée par rapport aux bornes de cet intervalle. La borne supérieure 820 est en effet très grande en comparaison de la borne inférieure 0 et de la valeur “moyenne“ estimée à 150. Certes, un intervalle de confiance n’est pas obligatoirement centré, contrairement à une croyance très répandue (annexe 4), mais là il s’agit d’une anomalie flagrante.

Pour répondre à ces interrogations qui interpellent tout œil un peu exercé, il est indispensable de comprendre comment cette estimation de 150 décès ainsi que le calcul de l’intervalle [0 ; 820] ont été effectués.
Les auteurs se sont appuyés sur une observation réalisée dans la région Centre Val de Loire en 2013-2014. Dans cette région, 513 malades atteints de cancers avaient été traités par des médicaments à base de 5-FU. Parmi eux un seul décès par toxicité médicamenteuse avait été constaté. A cette observation, les auteurs ont associé un intervalle de confiance à 95% qui, dans le texte publié, est présenté sous forme de pourcentage, soit une probabilité de 0,2% correspondant à l’unique décès auquel ils ont associé l’intervalle de confiance à 95% [0 ; 1%]. Comme 1/513=1,949/1000 les auteurs ont arrondi cette valeur à 0,2% plutôt qu’à 0,19%, du moins dans le texte mais pas forcément dans leurs calculs comme nous le verrons pour d’autres valeurs.

Qu’est-ce que l’intervalle de confiance ?

Tout le monde utilise cette notion popularisée par la fourchette aux élections. Tout le monde comprend que si la fourchette à 95% est [52% ; 58%] il y a 95 chances sur 100 pour que le nombre final de oui au référendum soit entre 52 et 58%. Tout le monde le comprend ainsi mais c’est faux !!!

L’intervalle de confiance à 95% signifie en réalité qu’il y a 95 chances sur 100 d’obtenir un échantillon qui fournira un intervalle de confiance contenant la vraie valeur.

Une fois l’intervalle obtenu, soit la vraie valeur s’y trouve, soit elle n’y est pas. Si la vraie valeur est 54% il apparaît ridicule d’affirmer qu’il y a 95% de chances pour que 54 soit entre 52 et 58 ! Dans l’ignorance de cette valeur, on pense pouvoir introduire une probabilité mais ce n’est pas notre ignorance qui crée la probabilité et heureusement !

J’ai calculé de manière “exacte“ les bornes de l’intervalle de confiance à 95% associé aux valeurs observées 513 et 1. Je vais les noter inf=4,94/100000 pour la borne inférieure et sup=0,0108 pour la borne supérieure. On peut facilement vérifier avec une calculatrice pour le bac (annexe 5) que ces valeurs sont pratiquement exactes quand on sait que :

1- La borne inférieure est caractérisée ainsi : si chacun des 513 malades traités a une probabilité de décès égale à inf, alors la probabilité d’avoir au moins 1 décès parmi les 513 malades sera égale à 2,5%. Avec la valeur 4,94/100000 elle vaut 2,5024% qui est donc une excellente approximation.

2- De même, la borne supérieure est caractérisée ainsi : si chacun des 513 malades traités a une probabilité de décès égale à sup, alors la probabilité d’avoir au plus 1 décès parmi les 513 malades sera égale à 2,5%. Avec la valeur 0,0108 pour sup elle vaut 2,514% qui est aussi une très bonne approximation.

Comment les auteurs ont-ils fait pour calculer ces bornes ?

Ils ont utilisé un calculateur en ligne proposé aux épidémiologistes (voir annexe 1). Ce calculateur propose 5 méthodes dont celle de Clopper-Pearson qui est qualifiée d’exacte. Tout indique que ce fut cette méthode que les auteurs ont utilisé. Elle donne, comme chacun pourra le vérifier, [0 ; 0,0108]. Bien que les auteurs publient [0 ; 0,01] pour ces bornes, ce seront ces valeurs qu’ils utiliseront par la suite dans leurs calculs.

Une borne inférieure nulle ? Impossible !

Il est aisé de démontrer que la borne inférieure d’un intervalle de confiance obtenu dans ces conditions a obligatoirement une borne inférieure strictement positive. Il suffit de reprendre la caractérisation que j’ai donnée pour inf en l’appliquant à inf=0 qui signifie que tous les malades traités ont une probabilité nulle de mourir du traitement. La probabilité d’avoir au moins 1 décès par toxicité du médicament sera donc nulle. Or il faudrait que cette probabilité soit égale à 2,5% pour être la borne inférieure de l’intervalle de confiance.

On peut penser que tous savent que cette borne ne saurait être négative car c’est une probabilité. Mais ils n’ont pas l’air de savoir qu’elle ne peut pas être nulle à moins qu’ils soient dans l’incapacité de lui substituer une valeur positive. C’est la première erreur lourde de conséquences et aussi très révélatrice des lacunes en connaissances théoriques partagées par l’épidémiologie et les épidémiologistes ainsi que par la biostatistique.

Une valeur positive, c’était pourtant très facile, il suffisait de demander une décimale de plus au calculateur !

En effet, celui-ci demande combien on veut de chiffres après la virgule, la valeur par défaut étant 4. C’est très certainement cette valeur avec laquelle les auteurs ont travaillé. Comme la vraie valeur est 0,0000494, si on ne demande que 4 décimales, le calculateur renverra 0 ! S’ils en avaient demandé 5, il aurait renvoyé 0,00005 ; avec 6 il aurait renvoyé 0,000049 ; avec 7 il donne 0,0000494 et avec 9 il renvoie 0,000049351 c’est aussi simple que cela ! Aucun des 10 auteurs n’y a rien vu. Allez sur l’annexe 1 et vous pourrez le faire.

Le Val de Loire c’est la France !

Dans le résumé on peut lire :
« Results: After extrapolation at national level, we estimated that 76 200 patients are currently treated annually with 5FU »

Traduction : « Résultats : après extrapolation au niveau national, nous avons estimé que 76 200 patients sont actuellement traités annuellement avec le 5FU »

Mais comment ont-ils trouvé ces 76 200 cas traités ? En faisant une première règle de trois en s’appuyant sur le nombre d’habitants dans la région Centre-Val de Loire rapporté au nombre d’habitants en France en 2014 (statistiques de l’Insee). Puis en enchainant avec une seconde règle de trois pour corriger entre 2014 et 2019 en tenant compte de l’augmentation de la population.
Pour soutenir de tels calculs, ils affirment que la probabilité de décès suite à une intoxication par ce médicament est homogène dans toute la France pour toutes les personnes traitées. Ils l’affirment en se rapportant au tableau 7 qui donne les rapports d’incidences de différents cancers (tête, colon, estomac …) entre la région référence et la France.

Cependant, les risques de décès médicamenteux ne sont pas uniquement liés aux nombres de cancers mais à la carence d’un certain enzyme chez le patient traité.Cette carence pourrait être plus grande, par supposition, dans les populations d’origine africaine ou autres. La répartition des populations d’origines diverses et vivant en France n’étant pas distribuée de façon homogène sur tout le territoire. Il faudrait conduire d’autres investigations pour soutenir ce que les auteurs affirment.

En fait, le plus sûr serait de connaître les nombres de décès dans d’autres régions de France en fonction du nombre de malades traités. Rien de tel dans la publication.

Cette cascade de règles de trois a conduit les auteurs à admettre que 76 200 patients avaient été traités par ce médicament en 2019.

Combien de décès en France par ce médicament ?

-« The number of FP-related toxic deaths in France is estimated around 150 per year »

Traduction : « Le nombre de décès liés à la toxicité du FP en France est estimé à environ 150 par an »

J’ai d’abord pensé qu’ils avaient formé là aussi une règle de trois en faisant 76200/513=148,54 qu’ils auraient arrondi à 150. Mais à y regarder de plus près, j’ai constaté qu’ils avaient fait un détour pour le moins inutile : ils avaient enregistré 8 effets indésirables graves (EIG) dont 1 décès soit 7 EIG non mortels. Ils appliquent alors la règle de trois à 8 en le multipliant par 148,54 pour obtenir 1188,32 qu’ils arrondissent à 1200. Puis ils font de même en partant de 7 pour obtenir 1039,78 qu’ils arrondissent à 1050. Il n’y a plus qu’à faire 1200-1050=150 et le tour est joué !

Qu’il soit utile et intéressant de savoir qu’il y a eu 8 EIG dans la région de référence, c’est un fait. Qu’ils en donnent une estimation nationale, même si leur calcul est très contestable, est dans la logique de leur publication. Mais à quoi cela sert-il de faire un tel détour par 8-1=7 pour l’évaluation des décès alors qu’on l’obtient directement ? Cela n’apporte rien mais ça fait du remplissage qui détourne l’attention, pouvant laisser croire que l’estimation par 150 résulterait de considérations plus complexes qu’une simple règle de trois s’appuyant sur le seul décès constaté.

Les données sont maigres, très maigres, alors il faut meubler comme disent les journalistes en direct à l’antenne quand il ne se passe rien.

Sans chercher à contester l’estimation par 76200 du nombre de cas traités en France, ce calcul est très aventureux car les 513 malades de la région retenue auraient pu avoir de la chance en n’ayant qu’un seul décès parmi eux. Cette observation est statistiquement compatible avec, par exemple, une moyenne de 3 décès pour 513 malades traités ce qui donnerait environ 450 décès parmi les 76200 malades. En effet, quand la proportion globale de décès est 3/513, la probabilité d’avoir au plus 1 décès dans un groupe donné de 513 malades vaut 19,8%.
Avec une moyenne nationale de 4 décès pour 513 malades traités, soit 600 au total, cette probabilité serait égale à 9% qui n’est pas négligeable.

Que ce soit clair, présenter cette estimation de 150 décès pour la totalité des malades traités comme étant une bonne estimation alors qu’en avoir 450 (et même plus) serait compatible avec l’observation faite sur une seule région est pour le moins cavalier vu l’importance de l’enjeu qui n’est pas un jeu. En amont de ces jeux numériques il y a des souffrances humaines qu’il ne faudrait pas oublier.

Avec les données publiées dans cette étude, il n’existe aucun moyen de réaliser valablement une telle estimation.

Il faudrait des données en provenance d’autres régions afin de s’assurer qu’elles sont comparables de ce point de vue. Imaginez ce qu’on trouverait si pour avril 2020 on estimait le nombre de cas hospitalisés pour Covid 19 en France à partir de l’Est de la France ou à partir de la Nouvelle Aquitaine.

Mais ces approximations méthodologiques ne sont rien à côté de celle qui va suivre pour attribuer à 150 un intervalle dit de confiance.

Intervalle de confiance ou de méfiance ?

  • « The number of FP-related toxic deaths in France is estimated around 150 per year [95%CI 0 ; 820]. » (page 43 col. 1)

Traduction : « Le nombre de décès liés à la toxicité du FP en France est estimé à environ 150 par an [95% CI 0 ; 820]. »

J’ai découvert avec cette publication que l’expertise médicale avait inventé une nouvelle notion : les intervalles de méfiance !

Ils se construisent ainsi : ayant obtenu 3 piles en lançant 10 fois une pièce, ce qui est tout à fait possible avec une pièce équilibrée (17,19% de chances d’avoir au plus 3 piles) et ayant obtenu un intervalle de confiance [1 ; 6] (ces valeurs sont imaginaires), les expérimentateurs se demandent s’ils pourraient estimer le nombre de piles qu’ils auraient pu obtenir s’ils l’avaient lancée 1000 fois. Une première estimation jaillit aussitôt : 300 ! Et comme une idée géniale n’arrive jamais seule, elle est aussitôt suivie d’une seconde avec l’intervalle de confiance [100 ; 600] pour encadrer la valeur 300 par d’autres valeurs qui seraient considérées comme étant compatibles avec l’observation qui pourtant se limite à 3 piles en 10 jets, ce qui est plutôt maigre. Mais là non, non, il faut dire les choses, il ne peut s’agir que d’un intervalle … de méfiance !!!

Je n’invente rien car, ayant obtenu cet intervalle [0 ; 0,0108] associé aux 513 malades traités dans une région de France, les auteurs n’hésitent pas à dilater cet intervalle aux 76 200 malades traités.

On a en effet 0,0108×76200=822,96 que les auteurs ont arrondi à 820. C’est là le secret de ce nombre mystérieux. Je n’ai aucun doute à ce sujet, il n’y a pas d’autres explications (annexe 1bis). Mais qu’en penser ? Pour les 76200 malades traités, l’intervalle de confiance à 95% associé à 150 est [127 ; 176] qui est pour le moins, très éloigné de [0 ; 820]. Chacun pourra le vérifier avec le logiciel de calculs (annexe 1).

Compte tenu des responsabilités immenses assumées par les experts médicaux, il y a vraiment là une ignorance particulièrement grave et inquiétante des fondements de la statistique. Il s’agit en effet du phénomène qui est à la base de toute l’analyse statistique de données, à savoir :

Quand la taille d’un échantillon est multipliée par 100, l’écart-type est multiplié par la racine carrée de 100, soit 10.

Notion d’écart-type

L’écart-type est un paramètre qui rend compte de la dispersion des données par rapport à la moyenne comme avoir 10 de moyenne au collège avec 10 dans chacune des matières ou 0 dans la moitié d’entre elles et 20 dans les autres. Ce fait a en particulier pour conséquence qu’il n’est pas possible de tester valablement sur des pourcentages car ils gomment la taille des échantillons. Ce phénomène est aussi à l’origine de la loi des grands nombres : quand la taille de l’échantillon croit, l’écart relatif entre la moyenne théorique et la moyenne observée aura tendance à se réduire (en probabilité), ce qui veut dire de façon simplifiée, que la moyenne observée aura de moins en moins de chances de s’écarter notablement de la moyenne théorique.

En probabilités-statistiques, l’unité n’est pas 1 mais l’écart-type qui est en particulier sous la dépendance de la taille de l’échantillon mais pas uniquement. Pour ces questions il est la racine carrée de np(1-p) où n est la taille de l’échantillon et p la probabilité de réalisation d’un événement pour chacune des n observations.

Par exemple, une pièce équilibrée lancée 100 fois a donné 50 piles. Avec p=0,5, l’écart-type vaut 5. L’intervalle de confiance à 95% est 50 ±2 écarts-type soit [40 ; 60] ou [40% ; 60%]. Si on l’avait lancée 10 000 fois les auteurs diraient qu’on obtiendrait 5000 piles avec un intervalle de confiance [4000 ; 6000] alors qu’en réalité il est [4900 ; 5100] car l’écart-type vaut 50 et que l’intervalle de confiance sera 5000±2 écarts-type soit 5000±100.
Bien que la largeur de l’intervalle de confiance passe de 20 à 200, sa largeur en nombre d’écarts-type ne change pas : c’est 4 écarts-type pour n=100 comme pour n=10 000 et, en proportions, il passe de [40% ; 60%] à [49% : 51%].

C’est le phénomène FONDAMENTAL et INCONTOURNABLE en probabilités-statistiques.

Et pour les effets indésirables graves, ça s’aggrave !

Il a été observé 8 EIG parmi les 513 patients observés. Les auteurs associent à cette observation l’intervalle de confiance à 95% [0,005 ; 0,026] simplification du résultat donné par le logiciel avec 4 décimales par défaut : [0,0049 ; 0,0263] qui correspond à la méthode par l’approximation normale plutôt que « Clopper-Pearson exact » qui donne [0,0068 ; 0,0305] qui est très différent. Cela aurait dû attirer l’attention des auteurs avant qu’ils fixent leur choix sur les plus mauvaises valeurs proposées par les 5 méthodes comme démontré dans l’annexe 3. Pourquoi ont-ils choisi l’approximation normale dans cette situation et une autre dans la première ? Mystère…
Une fois obtenu cet intervalle dit de confiance, ils déroulent en multipliant les bornes par 76 200 pour obtenir l’intervalle de double méfiance [380 ; 1980]. Le vrai intervalle de confiance en partant de 1200 pour 76 200 est [1135 ; 1273], ça change un peu !

Pour les effets indésirables généraux, on déroule !

Il a été dénombré 165 effets indésirables parmi les 513 :
« Among the 513 patients, 165 presented at least one FP- related SAE during the first 6 months of chemotherapy, giving an overall incidence of 32.2% [95%CI 28.1 ; 36.2]. »

Traduction : « Parmi les 513 patients, 165 ont présenté au moins un effet indésirable grave lié au traitement FP durant les 6 premiers mois de la chimiothérapie, donnant une incidence globale de 32.2% [95% CI 28.1 ; 36.2]. »

Obtenu par le logiciel (annexe 1), l’intervalle de confiance [28,1% ; 36,2%] est pratiquement commun aux 5 méthodes. On peut constater que lorsque la valeur observée, ici 165 sur 513, se rapproche de la moyenne, ici 513/2, les résultats donnés par les différentes méthodes se rapprochent aussi. C’est général. Puis les auteurs déroulent selon un scénario maintenant bien établi en multipliant les bornes par 76 200 pour obtenir les nombres qu’ils annoncent et qui ne définissent, en aucun cas, un intervalle de confiance :
« number of patients presenting a SAE in France is estimated at 24 500 per year [95%CI 21 400 27 600] »

Le vrai intervalle de confiance pour 24 500 observés parmi 76 200 est [24 247 ; 24 750] comme chacun pourra le vérifier avec le logiciel.
On peut préciser les calculs qu’ils ont pu faire car 165×76200/513=24509 alors que 165x76200x0,2%=25146 qu’ils n’auraient pu arrondir à 24500. On a ainsi la preuve qu’ils n’ont pas utilisé dans leurs calculs l’arrondi à 0,2% pour 1/513=0,1949%. L’écart peut paraître faible mais après multiplication par 165×76200 il ne le sera plus du tout ! Ces différences entre ce qu’ils affichent et ce qu’ils font compliquent la tâche pour vérifier leurs calculs. Cela signifie aussi que les auteurs écrivent pour être seulement lus et non pour que leur publication soit vérifiée.

FAUT-IL CONCLURE ?

On nous a enseigné à l’école qu’il fallait toujours une conclusion. Pourquoi ? Pour moi, c’est inutile voire nuisible. Chacun pourra en tirer les leçons qu’il voudra. Conclure c’est tenter de forcer la main ou la pensée au lecteur. Je termine par deux anecdotes.
Vers l’an 2000, j’ai eu l’opportunité d’échanger avec un statisticien. Je lui montrais certaines anomalies de l’expertise médicale. Il me dira :

« Il faudrait interdire aux médecins d’utiliser la statistique, ils font n’importe quoi avec ! ».

A la même époque, j’essaie d’en parler à un collègue. Il me répondra d’un ton assuré : « Y’a des gens sérieux qui s’en occupent ! »
Ces deux réponses délimitent le champ des réactions possibles. A vous de choisir, sachant que :

  • « L’expert dit l’état des connaissances. Sa fonction sociale est l’héritière de celle des mages de l’Antiquité. Il a longtemps bénéficié d’une autorité naturelle d’extraction quasi divine. Sa science était immaculée. L’avis de l’expert est consultatif… dans bien des cas, l’aspect hautement technique et pointu des expertises amène le décideur à suivre les conclusions de l’expertise pour prendre sa décision. Il est rare que la compétence de l’expert soit mise en cause. » [4]

Bernard GUENNEBAUD
Décembre 2021

ANNEXES :

Annexe 1 Calculs des intervalles de confiance
Cet exercice délicat est devenu très facile puisqu’il existe un outil de calculs en ligne destiné aux épidémiologistes.Version française : https://epitools.ausvet.com.au/ciproportion pour les calculs sur des proportions. Présentation du logiciel Epitools, “Outils de calculs épidémiologiques“ :

« Le site est destiné à être utilisé par des épidémiologistes et des chercheurs impliqués dans l’estimation de la prévalence de maladies ou la démonstration de l’absence de maladie par des enquêtes structurées, ou dans d’autres applications épidémiologiques. »

Pour effectuer les calculs il faut aller sur la version anglaise obtenue en cliquant en haut à droite sur le bon drapeau. En rentrant les données de la publication, soit 513 ; 1 ; 0.95 pour le niveau de confiance ; all pour avoir les résultats des 5 méthodes de calculs proposées par le logiciel et 4 pour le nombre de décimales (par défaut) on trouve ce que les auteurs ont très certainement obtenu :

Les bornes inférieures et supérieures sont des probabilités. La borne inférieure ne doit pas être nulle et la borne supérieure ne doit pas être égale à 1. On constate que 2 méthodes donnent des probabilités négatives pour la borne inférieure !!! On constate aussi que si 2 méthodes donnent des valeurs strictement positives, “Clopper-Pearson exact “ donne une probabilité nulle pour la borne inférieure ce qui ne doit pas être et pourrait faire remettre en cause le qualificatif exact.

Comme je l’ai expliqué, ce n’est pas une anomalie, ni une erreur, au contraire. La raison est qu’il n’y a pas suffisamment de décimales pour la borne inférieure. Si on demande avec 7 décimales, on obtient ceci :

Pour juger la qualité des calculs, il y a un verdict infaillible qui consiste à appliquer les critères qui caractérisent les bornes inférieures et supérieures de ces intervalles. Je connais bien la question car il y a 25 ans, j’avais passé beaucoup de temps pour réaliser des programmes de calculs pour ces intervalles de confiance. J’avais réalisé un programme sur ordinateur qui a disparu avec lui puis un autre sur une calculatrice Hewlett Packard dotée d’un langage extraordinaire. Malheureusement, le constructeur a abandonné le secteur calculatrices mais j’utilise toujours la mienne avec ce programme.

Le principe du calcul est simple, c’est le jeu du nombre mystérieux : une personne choisit un nombre entre 1 et 1000 qu’il faut découvrir. La bonne stratégie est de demander 500 ? Si elle répond “trop grand ! “ on demande 250. Si elle répond “trop petit“ on demande 375 ? Etc. A chaque fois on coupe en 2 l’intervalle dans lequel on a localisé le nombre cherché. On est certain qu’ainsi on trouvera le bon nombre au bout de 10 coups maximum car 2^10 est supérieur à 1000.
Cette méthode est classiquement utilisée en calcul numérique programmé pour rechercher un nombre qui ici doit correspondre à une probabilité de 2,5%. Ainsi, par une succession de “trop grand“, “trop petit“, on peut localiser le nombre avec une précision seulement limitée par les possibilités de calculs. C’est la méthode par dichotomie.
Avec ma calculatrice, j’ai calculé la probabilité associée à chacune des bornes proposées avec 4 décimales par les 5 méthodes du logiciel et j’y ai ajouté la mienne (dichotomie) :

Dans la version française, on peut lire ce commentaire sur les 5 méthodes proposées :

« L’intervalle de Wald (approximation normale) a souvent une couverture insuffisante, en particulier pour les n petits et des valeurs de p proches de 0 ou 1. Inversement, la méthode Clopper-Pearson Exact est très conservatrice et tend à produire des intervalles plus larges que nécessaire. Brown et al. recommande les méthodes Wilson ou Jeffreys pour n petit et Agresti-Coull, Wilson ou Jeffreys pour n plus large, offrant une couverture plus fiable que les alternatives. Notez également que l’estimation ponctuelle pour la méthode Agresti-Coull est légèrement plus grande que pour d’autres méthodes en raison du mode de calcul de cet intervalle. »

Le nombre 513 ne peut être classé dans les n petits. Pourtant on constate que les 3 méthodes censées offrir une couverture plus fiable que les autres sont désastreuses, même pour la borne supérieure.

En raison de ses résultats, la méthode Clopper-Pearson procède très certainement par dichotomie. C’est la SEULE façon d’avoir des résultats “exacts“ quelque soient les situations numériques, dans les limites du calculateur bien sûr ! Elle donne les mêmes résultats que ceux que j’obtiens avec mon programme.
Je peux donner un avis ferme et motivé, la seule méthode à utiliser est celle de Clopper-Pearson. Vous pouvez laisser tomber les autres sans regrets ni doutes. Je peux être très affirmatif sur ce point.
Mais il ne faut pas forcément s’arrêter à 4 décimales. On peut commencer ainsi puis essayer avec 6 pour observer les modifications car vous ne pourrez peut-être pas (probablement pas pour beaucoup de lecteurs ..) vérifier le résultat en calculant la probabilité associée. Il faut avoir en tête que l’intervalle de confiance donné sous forme de probabilités doit être entre 0 et 1 exclus.
Par exemple, on a 513 personnes traitées dont 512 qui ne sont pas décédées par toxicité médicamenteuse. Cherchons l’intervalle de confiance à 95% avec 4 décimales autour de 512 :
Clopper-Pearson donne [0.9892 ; 1.0000]. La valeur 1 n’est pas acceptable mais si on le demande avec 5 décimales on obtient 0.99995.

Annexe 1bis
Le 6/12/2021, j’ai pu recevoir une explication sur la façon dont ce nombre 820 avait été obtenu. Ce fut par l’un des auteurs, professeur de biostatistique dans un CHU :
« Le résultat que vous évoquez a été obtenu par extrapolation à la population française traitée par fluoropyrimidine de l’estimation du risque de décès calculée chez les 500 patients de la cohorte SIRCADE (Ingrand I et al, Br J Clin Pharmacol. 2020) qui était de 0,2% avec un intervalle de confiance de 0 à 1,1% (calculé par application de la loi binomiale). »

Dans la publication, la borne supérieure affichée était 1% soit 0,01 contre 0,011 ici et qui est l’arrondi à 3 décimales de 0,0108. Comme 76200×0,011=838,2 les auteurs n’auraient pu arrondir à 820 alors qu’avec 0,0108 on obtient 822,96 qui peut être arrondi à 820.
Mais le problème principal est qu’un intervalle de confiance se construit autour d’une valeur “observée“, qu’elle ait réellement été observée ou pas, cela ne concerne pas le calcul mais l’interprétation qu’on peut donner du résultat. Il ne semble pas avoir conscience de cela et il n’est pas le seul.
La valeur “observée“ qui donne 820 pour borne supérieure est 764. Chacun peut vérifier cela avec le logiciel : vous entrez 76200 et 764. Pour 95%, il renverra 0,0108 pour la borne supérieure, ce qui donnera 822,96. Il n’est pas possible de faire mieux avec des valeurs entières. Mais si les valeurs observables sont obligatoirement des valeurs entières, les bornes d’un intervalle de confiance peuvent ne pas l’être. 820 ne peut pas être la borne supérieure d’un intervalle de confiance à 95%. Par contre, 822,96 oui.

Annexe 2. Estimation du nombre total de cas traités
La publication décrit le processus suivi :

« Based on an annual total of 2940 cancer patients receiving FP-based chemotherapy in the Centre-Val de Loire area (890 capecitabine, 2050 5-FU), national extrapolation was based on year 2014 data from the French Institute for Statistics and Economic Studies (INSEE) showing 65,907,000 inhabitants for the whole country relative to 2,577,000 inhabitants in the Centre- Val de Loire region (i.e. 3.91%). Such an extrapolation is justified by the fact that cancer incidence is very similar between the Centre-Val de Loire region and the entire French nation (Table 7), but also by the homogeneity of French clinical practices via recommendations of clinical societies. It is thus estimated that 75,200 patients were treated with FP in France in 2014. Considering a French population growth rate of 1.29% between 2014 and 2019 (INSEE data), it is thus estimated that around 76,200 patients are currently treated annually in France. »

Les auteurs s’appuient sur un total de 2940 patients par an recevant une chimiothérapie par FP en Centre-Val de Loire. En 2014 la France comptait 65 907 000 habitants dont 2 577 000 en Centre-Val. L’incidence de ces cancers est considérée comme homogène dans toute la France. Aussi, une simple règle de trois donne 75 160 cancers traités par FP que les auteurs arrondissent à 75 200. Ils notent aussi un accroissement de la population de 1,29% entre 2014 et 2019 ce qui transforme 75 200 en 76 170 arrondi à 76 200.

Annexe 3. Intervalle de confiance pour 8 cas sur 513

On constate que l’approximation normale choisie par les auteurs est de loin la plus mauvaise des 5 alors que Pearson est la meilleure.

Annexe 4. Intervalles de confiance décentrés
Il est souvent accepté comme allant de soi que les intervalles de confiance doivent être centrés. C’est une croyance héritée des calculs par l’approximation normale simplifiée qui inaugure les cours sur l’intervalle de confiance. Mais il n’en est rien. Reprenons l’intervalle de confiance [0,0000494 ; 0,0108] pour le seul décès parmi 513. En multipliant par 513 on obtient l’intervalle de confiance pour les nombres absolus de décès : [0,0253 ; 5,54]. Cet intervalle est très décentré par rapport à 1, c’est clair.
Par contre, avec les 24 500 cas “observés“ parmi 76 200 l’intervalle [24 247 ; 24 750] est pratiquement centré sur 24 500.
Ce sont les conséquences du fait que 24 500 est très loin de 0 et de 76 200 alors que 1 est très proche de 0.

Annexe 5
Comment vérifier les valeurs de l’IC [0,0000494 ; 0,0108] avec une calculatrice pour le bac ? La borne inférieure est caractérisée par « probabilité d’avoir au moins 1 décès est 2,5% ». Ce qui équivaut à avoir « probabilité d’avoir 0 décès est 97,50% ». Or cette probabilité est (1-p)^513 avec p=0,0000494. 1-p est la probabilité pour un patient traité de ne pas décéder et cela doit se produire pour les 513 patients traités, d’où la formule. Une calculatrice pour le bac doit pouvoir calculer cela.

Notes et sources
[1] https://www.e-cancer.fr/Expertises-et-publications/Catalogue-des-publications/Recherche-de-deficit-en-dihydropyrimidine-deshydrogenase-en-vue-de-prevenir-certaines-toxicites-severes-survenant-sous-traitement-comportant-des-fluoropyrimidines
[2] https://www.ejcancer.com/article/S0959-8049(19)30756-7/fulltext
[3] Outil de calculs pour intervalles de confiance de proportions https://epitools.ausvet.com.au/ciproportion
[4] Marie-Dominique Furet Rapport sur l’indépendance et la valorisation de l’expertise venant à l’appui des décisions en santé publique Juin 2008 http://solidarites-sante.gouv.fr/IMG/pdf/Rapport_expertise_sante_publique_2008.pdf

Auteur de l'article :

Lire tous les articles de