Expression des rsultats via des tests statistiques S

  • Slides: 24
Download presentation
Expression des résultats… via des tests statistiques S. Lacroix 10. 2009 Validité statistique de

Expression des résultats… via des tests statistiques S. Lacroix 10. 2009 Validité statistique de l’étude ( « résultats statistiquement significatifs » ) • p < 0. 05 • IC à 95 % suffisamment étroit ≡ Mesures de l’incertitude liée au hasard (et uniquement à lui) alias incertitude statistique Pour que l’étude soit probante, il faut que le résultat soit – statistiquement significatif (p < 0. 05 càd moins de 5 chances sur 100 que le résultat soit le fait du hasard) et – transposable dans la réalité avec suffisamment de précision (IC 95% suffisamment étroit) Pertinence clinique d’un traitement ( « résultats cliniquement significatifs » ) ↔ morbidité, mortalité, qualité de vie • • RAR NNT Pour que l’efficacité d’un produit soit cliniquement pertinente, il faut juger de – la Réduction Absolue du Risque (RAR ou ARR Absolute Risk Reduction) – le nombre de patients à traiter (NNT Number Needed to Treat) L’information médicale Une jungle à défricher (1997) Ed Quorum Ottignies LLN, 93 -105

p ↔ α Le p mesure le risque α Risque α : risque, lié

p ↔ α Le p mesure le risque α Risque α : risque, lié au hasard, d’observer une différence entre deux interventions au sein d’un échantillon alors qu’en réalité, les résultats sont identiques entre les deux groupes dans la population complète risque d’avoir une étude « faussement positive » max 5% (convention dans le domaine des soins) Le médecin est plus concerné par le risque α càd le risque de donner un traitement en pensant qu’il est plus efficace qu’un autre (ou qu’un placebo) alors qu’il ne l’est pas ! L’information médicale Une jungle à défricher (1997) Ed Quorum Ottignies LLN, 93 -105 La valeur p résume-t-elle la pertinence d’une comparaison ? LRP 08. 2008 Tome 28 N° 298 p 621 -22

p Probabilité d’observer par hasard une différence entre deux interventions dans l’échantillon si ces

p Probabilité d’observer par hasard une différence entre deux interventions dans l’échantillon si ces deux interventions ont le même effet dans la population globale le résultat observé • une différence entre deux interventions (médicament testé et placebo ou médicament de référence) • une association entre une exposition et une maladie si p < 0. 05 • par convention, dans le domaine des soins, le résultat observé est statistiquement significatif • il y a moins de 5 chances sur 100 que le résultat observé le soit du fait du hasard • on accepte le résultat sachant qu’il y a une probabilité de se tromper, mais minime p = résultat d’un test mathématique qui ne prend en compte que ce qui est observé dans l’étude. D’autres évènements influencent aussi la probabilité que la différence observée soit réelle: • erreurs dans la mise en œuvre de l’étude (↗si taille échantillon ↘ p réel > p calculé) • résultats des études semblables précédentes • nombre des critères analysés ( p<0. 05 pour critière primaire, p<0. 01 pour critère secondaire) L’information médicale Une jungle à défricher (1997) Ed Quorum Ottignies LLN, 93 -105 La valeur p résume-t-elle la pertinence d’une comparaison ? LRP 08. 2008 Tome 28 N° 298 p 621 -22

IC – Intervalle de confiance Intervalle dans lequel se situe la valeur réelle de

IC – Intervalle de confiance Intervalle dans lequel se situe la valeur réelle de l’effet avec une probabilité donnée (généralement 95% ou +/- 2 DS), précédé d’une valeur repère L’IC permet donc aussi de savoir si une différence ou un rapport est « statistiquement significatif » • une différence est « statistiquement significative » si l’IC n’inclut pas le nombre zéro • un rapport est « statistiquement significatif » si l’IC n’inclut pas le nombre 1 L’IC, établi à l’aide d’un calcul mathématique, rend compte du degré d’incertitude statistique d’un résultat, lié au hasard. Mais, en dehors du hasard, d’autres sources d’incertitude contribuent à la marge d’erreur d’un résultat: • erreurs de mesure • défauts méthodologiques • extrapolation des résultats à une population plus large que celle définie par les critères d’inclusion augmentent la marge d’erreur au-delà de ce que mesure l’IC • à l’inverse, l’existence d’autres données, épidémiologiques ou expérimentales, réduit l’incertitude autour d’un résultat L’information médicale Une jungle à défricher (1997) Ed Quorum Ottignies LLN, 93 -105 L’intervalle de confiance: une fourchette qui rend compte de l’incertitude statistique. LRP 08. 2008 Tome 28 N° 298 p 630 -3

Puissance d’une étude ↔ β Capacité à mettre significativement en évidence une différence (entre

Puissance d’une étude ↔ β Capacité à mettre significativement en évidence une différence (entre deux interventions) à mettre en évidence une différence qui existe réellement à exclure l’hypothèse nulle (Ho) (pas de différence entre les 2 interventions) Puissance = 1 - β Variable choisie arbitrairement pour déterminer le nombre de sujets à inclure Risque β : risque de ne pas mettre en évidence une différence significative entre deux traitements, càd une différence qui existe réellement risque de ne pouvoir conclure, risque d’impuissance risque d’avoir une étude « faussement négative » max 20% L’information médicale Une jungle à défricher (1997) Ed Quorum Ottignies LLN, 93 -105 Puissance d’une étude comparative LRP 08. 2008 Tome 28 N° 298 p 634 -6

Puissance d’une étude ↔ β • C’est le nombre de sujets de l’étude qui

Puissance d’une étude ↔ β • C’est le nombre de sujets de l’étude qui lui garantit une certaine puissance • Plus la différence entre deux traitements est importante, moins il faudra inclure de sujets dans l’étude pour arriver à la mettre en évidence de façon significative, et inversement • C’est le risque β qui intéresse les firmes çàd le risque de ne pas mettre en évidence la différence d’efficacité que la firme veut prouver • Une différence minime détectée grâce à un essai très puissant n’est pas nécessairement cliniquement pertinente • Si une comparaison ne révèle pas de « différence SS » , cela ne signifie pas que les interventions ont un effet équivalent. Une vraie différence, cliniquement pertinente, existe peut-être, mais qui n’a pas été détectée faute de puissance • On ne devrait pas prendre en compte des études de moins de 80% de puissance L’information médicale Une jungle à défricher (1997) Ed Quorum Ottignies LLN, 93 -105 Puissance d’une étude comparative LRP 08. 2008 Tome 28 N° 298 p 634 -6

Risque relatif (risk ratio, hasard ratio) – RR Facteur par lequel le risque d’événement

Risque relatif (risk ratio, hasard ratio) – RR Facteur par lequel le risque d’événement critique est multiplié en présence de l’intervention (RCT) en présence de l’exposition (étude de cohorte) RR = R 1 / Ro R 1 = risque de survenue d’événement critique dans le groupe traité Ro = risque de survenue d’événement critique dans le groupe témoin (placebo ou traitement de référence) – – – Si RR = 1 : pas de différence entre les deux groupes Si RR < 1 : le traitement est jugé efficace si l’IC ne comprend pas la valeur 1 Si RR > 1 : le traitement aggrave la maladie Les personnes exposées à un facteur de risque (tabac) ont x fois plus de risque de développer une maladie (cancer du poumon) que les personnes non-exposées L’information médicale Une jungle à défricher (1997) Ed Quorum Ottignies LLN, 93 -105

Rapport de cotes (Odds ratio) – OR L’OR est l’équivalent approximatif du RR, si

Rapport de cotes (Odds ratio) – OR L’OR est l’équivalent approximatif du RR, si la fréquence de l’événement est relativement faible (seuil non-consensuel, 2%, 5%, ≤ 20%) Cote Rapport, pour un ensemble donné, entre le nombre de fois où un événement se produit et le nombre de fois où ce même événement ne se produit pas Rapport de cotes Compare deux ensembles différents (ex : deux groupes de patients), pour un événement donné Rapport entre le cote d’ensemble pour un événement donné et la cote d’un autre ensemble pour le même événement. Lorsque l’OR est interprété comme un RR, on parle de RR estimé ( « estimated relative risk » ) lien statistique possible mais pas preuve de causalité Rapport de cotes: une estimation du risque relatif, sous certaines conditions LRP 08. 2008 Tome 28 N° 298 p 626 -29

Réduction du risque relatif - RRR Mesure de l’efficacité (relative) de l’intervention RRR =

Réduction du risque relatif - RRR Mesure de l’efficacité (relative) de l’intervention RRR = 1 – RR La réduction du risque relatif est de 40% signifie que l’efficacité du traitement est de 40% le traitement réduit de 40% le risque de faire un évènement critique sur la durée de l’étude ! Elle est débrayée de la fréquence du risque de l’événement critique Si la fréquence d’évènements critiques est de 10%, le bénéfice réel est de 4% (RAR) Si la fréquence d’évènements critiques est de 1%, le bénéfice réel est de 0. 4% (RAR) Les études firmes expriment plus souvent leurs résultats en RRR parce qu’ils sont plus impresionnants, mais la pertinence clinique est fonction de la prévalence ! L’information médicale Une jungle à défricher (1997) Ed Quorum Ottignies LLN, 93 -105

Réduction absolue du risque - RAR Mesure de l’efficacité absolue de l’intervention (bénéfice réel

Réduction absolue du risque - RAR Mesure de l’efficacité absolue de l’intervention (bénéfice réel ou valeur ajoutée de l’intervention) RAR = Ro - R 1 Exprimée en % ou en différence d’incidence pour 1000 années-patients (A. P. ) La réduction absolue du risque est de 2% signifie que le traitement permet d’éviter 20 évènements en traitant 1000 patients pendant la durée de l’étude (ex 5 ans), soit 4 évènements/1000 A. P. L’information médicale Une jungle à défricher (1997) Ed Quorum Ottignies LLN, 93 -105

Nombre de sujets à traiter – NST - NNT Bénéfice réel exprimé autrement, rentabilité,

Nombre de sujets à traiter – NST - NNT Bénéfice réel exprimé autrement, rentabilité, impact potentiel de l’intervention Nombre de patients à traiter pendant la durée de l’étude pour éviter un événement pathologique NNT = 1 / RAR Un NNT = 6 signifie qu’il est nécessaire de traiter 6 patients pour éviter un événement pathologique durant la durée de l’étude Transposition à un patient particulier ssi patient comme population étudiée Comparaison des NNT de diverses études ? Oui ssi – Populations de même risque – Etudes de même durée – Même critère d’évaluation – Comparaison à même traitement (placebo ou référence) L’information médicale Une jungle à défricher (1997) Ed Quorum Ottignies LLN, 93 -105 Finlay A Mc. Alister The NNT turns 20 CAMJ 09. 2008

Exemple Ro = 9 / (9+21) = 0. 30 R 1 = 1 /

Exemple Ro = 9 / (9+21) = 0. 30 R 1 = 1 / (1+29) = 0. 033 M+ M- Intervention 1 29 30 Placebo 9 21 30 10 50 60 RR = 0. 033 / 0. 30 = 0. 11 le risque de développer la maladie dans le groupe traité est égal à 0. 11 fois le risque de développer dans le groupe placebo (traitement efficace) OR = 1 x 21 / 9 x 29 = 0. 08 RRR = 1 - 0. 11 = 0. 89 = 89% le traitement diminue de 89% le risque de maladie pendant la durée de l’étude RAR = 0. 30 – 0. 033 = 0. 267 = 26. 7% le traitement évite 26. 7 cas de maladie pour 100 personnes traitées durantla durée de l’étude NNT = 1 / 0. 267 = 3. 7 soit 4 il est nécessaire de traiter 4 patients pour éviter la maladie durant la durée de l’étude L’information médicale Une jungle à défricher (1997) Ed Quorum Ottignies LLN, 93 -105

SR & MA SR MA Question clinique précise PICO Recherche bibliographique systématique (Medline, Embase,

SR & MA SR MA Question clinique précise PICO Recherche bibliographique systématique (Medline, Embase, CCTR) Si CC: + littérature grise Sélection des études sur base de critères (inclusion, exclusion) prédéfinis par min deux reviewers indépendants Sans connaître ni l’auteur ni le journal Evaluation de la qualité méthodologique des études (checklist) par min deux reviewers indépendants Sans connaître ni l’auteur ni le journal Extraction objectives données par min deux reviewers indépendants Combiner les résultats Analyses en sous-groupes Analyse de sensibilité Publication structurée Basé sur le cour de B Boland – Cebam - 10. 2007

MA - Objectifs Combiner les résultats § § synthèse quantifiée nouvelle estimation de l’effet

MA - Objectifs Combiner les résultats § § synthèse quantifiée nouvelle estimation de l’effet du traitement ( « effet commun moyen » ) plus d’info puissance↗ précision de l’estimation de la taille de l’effet ↗ Analyser par sous-groupes § § a priori cliniquement pertinent Analyse de sensibilité = inclure / exclure tour à tour certaines études (en fonction de la qualité méthodologique, du nombre de sujets, des caractéristiques de la population) afin de débusquer celle qui influencerait le résultat final de façon disproportionnée ou erronée Basé sur le cour de P Haentjes – Cebam 10. 2007

MA – Calculs d’efficacité Pour chaque étude, sont calculés • un indice d’efficacité •

MA – Calculs d’efficacité Pour chaque étude, sont calculés • un indice d’efficacité • la précision de l’indice d’efficacité Mesure de l’effet ou Indice d’efficacité + Précision de la mesure de l’effet Effect size ou Point estimate Pour une variable dichotomique RR, OR, RAR IC 95% Pour une variable continue Différence moyenne standardisée ou standardised mean difference (SMD) Ensuite les indices sont combinés entre eux afin de produire un seul indice = indice global = indice d’efficacité commun Ex: Différence moyenne pondérée ou weighted mean difference (WMD) Basé sur le cour de P Haentjes – Cebam 10. 2007 Glossaire Minerva 2008

MA – Homo/Hétérogénéité Les études sont homogènes quand elles concordent pour • • •

MA – Homo/Hétérogénéité Les études sont homogènes quand elles concordent pour • • • la population étudiée le protocole d’investigation la méthode d’analyse Hétérogénéité statistique, mise en évidence par • • • analyse des méthodologies graphiques (plots) tests statistiques (Q-Test, Test I² de Higgins) Si pas d’hétérogénéité statistique démontrée méta-analyse selon le modèle d’effets fixes ou méthode à effets fixes ou fixed effect model Si hétérogénéité statistique démontrée soit c’est trop hétérogène pas de méta-analyse (pas de « pool » ) soit c’est hétérogène mais pas trop on fait comme si c’était homogène, on refuse donc l’hétérogénéité et on applique le fixed effect model (pas conseillé) soit il faut corriger les hétérogénéités méta-analyse selon le modèle d’effets aléatoires ou méthode à effets aléatoires ou random effect model (moins bon) Basé sur le cours de Michel Roland – 02. 2007 & P. Haentjens Cebam 10/2007

MA – Homo/Hétérogénéité clinique relative aux divergences entre les populations étudiées. une analyse en

MA – Homo/Hétérogénéité clinique relative aux divergences entre les populations étudiées. une analyse en modèle d’effets aléatoires n’apportera pas de renseignements cliniques suffisamment précis pour les différents sous-groupes il faut une méthode d’analyse qui ne considère pas l’hétérogénéité comme une nuisance à corriger, mais bien comme une source d’informations qui peut être utile au clinicien ; une méta-analyse sur base des données individuelles est un bon exemple. Minerva Glossaire

MA - Présentation des résultats Table Scholten M+ M- Intervention 0 276 Non intervention

MA - Présentation des résultats Table Scholten M+ M- Intervention 0 276 Non intervention 4 822 826 Ro = 4 / 826 R 1 = 0 / 276 RR = (0 / 276) / (4 / 826) = 0 (0. 33 résultat corrigé via logiciel de calcul pour les petits échantillons) RAR = (0 / 276) - (4 / 826) = -0. 0048 le traitement évite 48 cas de maladie pour 10000 personnes traitées durant le temps de l’étude Basé sur le cour de Michel Roland – 02. 2007

MA - Présentation des résultats Forest Plot Graphe pour illustrer • les indices d’efficacité

MA - Présentation des résultats Forest Plot Graphe pour illustrer • les indices d’efficacité et leurs précisions • une analyse en sous-groupes • une analyse de sensibilité Axe des x : échelle de l’effet de traitement centrée sur la valeur correspondant à l’absence d’effet du traitement la ligne en discontinu est centrée sur la valeur de x correspondant à l’effet combiné Axe des y : ordre chronologique Basé sur le cours de Michel Roland – 02. 2007 & P. Haentjens Cebam 10/2007

MA - Présentation des résultats Chaque étude est représentée par un carré • la

MA - Présentation des résultats Chaque étude est représentée par un carré • la surface du carré est proportionnelle à la taille de l’échantillon • la largeur de la moustache représente l’intervalle de confiance L’effet global (ou combiné) est représenté par un losange (ou diamant) RR poolé = 0. 11 Si le risque de faire une méningite au contact (cfr études) d’un cas est de X, le risque de faire la méningite si l’on reçoit une prophylaxie est de 11% de X. Le poids est fonction de • l’IC, fonction du nombre de sujets dans l’étude, et de la variance (indicateur de la dispersion des différentes mesures dans une étude (elle-même fonction de la taille de l’étude)) • la méthodologie Basé sur le cours de Michel Roland – 02. 2007 & P. Haentjens Cebam 10/2007

MA - Présentation des résultats Funnel Plot Permet de détecter les biais de publication,

MA - Présentation des résultats Funnel Plot Permet de détecter les biais de publication, une recherche incomplète & le « small study effect » Biais de publication ↔ les études « non-nulles » ont plus de chance d’être publiées les études « nulles » ne sont pas publiées ou publiées dans des journaux de moindre importance « Small study effect » ↔ les études sur un petit nombre de sujets ont plus de chance de montrer un effet important et donc d’être publiées Basé sur le cours de Michel Roland – 02. 2007 & P. Haentjens Cebam 10/2007

MA - Présentation des résultats Funnel Plot • • Axe des x : effet

MA - Présentation des résultats Funnel Plot • • Axe des x : effet commun Axe des y : précision (n, . . . ) Pour chaque étude, l’effet est mis en relation avec la taille de l’échantillon Au plus l’étude est « précise » , au plus son résultat est proche de l’effet poolé Au plus l’étude est petite, au plus son résultat s’éloigne de l’effet poolé Les petites études doivent se répartir uniformément de part et d’autres du résultat poolé Min 10 études sont nécessaires pour interpréter un funnel plot Basé sur le cours de Michel Roland – 02. 2007 & P. Haentjens Cebam 10/2007

Sensibilité – Spécificité M+ M- Test + a b a+b Test - c d

Sensibilité – Spécificité M+ M- Test + a b a+b Test - c d c+d a+c b+d a+b+c+d Mesures de performance d’une méthode diagnostique Sensibilité – Sn proportion de malades ayant un test positif fréquence des résultats positifs chez les malades = a / a + c Un test sensible est surtout utile quand le résultat est négatif car il permet d’affirmer que le sujet testé est sain - Sn. NOut Spécificité – Sp proportion de sujets sains ayant un test négatif fréquence des résultats négatifs chez des non-malades = d / b + d Un test spécifique est surtout utile quand le résultat est positif car il permet d’affirmer que le sujet est malade - Sp. PIn L’information médicale Une jungle à défricher (1997) Ed Quorum Ottignies LLN, 93 -105

Valeurs prédictives M+ M- Test + a b a+b Test - c d c+d

Valeurs prédictives M+ M- Test + a b a+b Test - c d c+d a+c b+d a+b+c+d = Mesures d’interprétation clinique Valeur prédictive positive probabilité d’avoir la maladie en présence d’un test positif = a / a + b si la prévalence de la maladie augmente, la VPP augmente Valeur prédictive négative probabilité de ne pas avoir la maladie en présence d’un test négatif = d / c + d si la prévalence de la maladie augmente, la VPN diminue Intérêt de cibler les groupes à risque (prévalence accrue) pour un dépistage L’information médicale Une jungle à défricher (1997) Ed Quorum Ottignies LLN, 93 -105