Statistiques 2018 2019 1 Echauffement l 2 l

  • Slides: 45
Download presentation
Statistiques 2018 -2019 1

Statistiques 2018 -2019 1

Echauffement l 2 l Une étude de reproductibilité a été menée pour étudier les

Echauffement l 2 l Une étude de reproductibilité a été menée pour étudier les performances de trois laboratoires relativement à la détermination de la quantité de sodium de lasalocide dans de la nourriture pour de la volaille. Une portion de nourriture contenant la dose nominale de 85 mg/kg de sodium de lasalocide a été envoyée à chacun des laboratoires à qui il a été demandé de procéder à 10 réplications de l’analyse. Les mesures de sodium de lasalocide obtenues sont exprimées en mg/kg. Elles ont été reproduites sur le tableau suivant. Quel test utiliser ?

Solution l Quel test choisir ? – Variable indépendante : laboratoire l – Variable

Solution l Quel test choisir ? – Variable indépendante : laboratoire l – Variable dépendante : mg/kg l – quantitative test paramétrique ( conditions) Échantillons l l 3 qualitative test de « comparaison » indépendants (même mesure effectuée sur les 3 groupes) 3 échantillons Anova 1 facteur (échantillons indépendants)

Plan l Facteurs de variabilité – – – l l 4 Facteur fixe ou

Plan l Facteurs de variabilité – – – l l 4 Facteur fixe ou aléatoire ? Facteurs emboîtés Appariement selon un facteur Anova 2 facteurs Régression multiple Transformation des variables Le langage « R »

Facteur de variabilité l On veut analyser l’influence du temps et de trois traitements

Facteur de variabilité l On veut analyser l’influence du temps et de trois traitements sur le taux de cholestérol. Pour ce faire, 24 sujets on été sélectionnés. Puis une première série de 8 sujets, choisis au hasard, a reçu le traitement A, une deuxième le traitement B, et la troisième le traitement C. Après 2, 7, 10 et 16 semaines respectivement, deux sujets sont choisis au hasard au sein de chaque groupe et le cholestérol est déterminé pour chacun d’eux. l Nous observons trois variables : Deux d’entre elles sont des variables indépendantes (contrôlées), le « traitement » (facteur A), qualitative à trois modalités, et la « semaine » (facteur B) qui peut être considérée comme qualitative à quatre modalités. La troisième variable est une variable quantitative dépendante. l l 5

Facteurs croisés (fixes) l l l 6 L’influence d’un traitement grossissant, à base de

Facteurs croisés (fixes) l l l 6 L’influence d’un traitement grossissant, à base de vitamines, est étudiée sur des animaux de races différentes. Pour cela nous disposons d’animaux de trois races R (facteur A, fixe) et nous avons effectué trois traitements D (facteur B, fixe). Le gain moyen de poids par jour est mesuré, à l’issue d’un traitement de 50 jours dans chaque cas. (Dans l’exemple, un seul animal est utilisé pour chaque couple « race-traitement » . ) l Les modalités d’un facteur fixe sont choisies par l’expérimentateur

Facteurs croisés (aléatoires) l Cinq échantillons de grains de blé ont été prélevés au

Facteurs croisés (aléatoires) l Cinq échantillons de grains de blé ont été prélevés au hasard dans un arrivage relativement important, et divisés chacun en six sous-échantillons. Pour chacun des échantillons, les sous-échantillons ont ensuite été affectés au hasard à trois moulins qui eux-mêmes ont été choisis au hasard dans une production de moulins. Pour terminer, une analyse chimique a été effectuée dans chaque cas. Le tableau ci-dessous présente les résultats, à savoir les mesures des teneurs en protéines, exprimées en pourcentage de la matière sèche. l Le facteur A « échantillon » et le facteur B « moulin » sont aléatoires. l Les modalités d’un facteur aléatoire sont choisies au hasard – 7 éventuellement par manque de connaissance à priori sur le sujet étudié (par exemple, prise de mesure aux temps t = 15 min, t = 30 min et t = 1 h choisis au pif).

Facteurs croisés (mixtes) l l 8 Une étude est consacrée à la rétention de

Facteurs croisés (mixtes) l l 8 Une étude est consacrée à la rétention de matériel verbal en fonction du niveau de traitement. Elle fait varier aussi bien l’âge (facteur A, fixe) que la condition de rétention (facteur B, aléatoire). L’étude inclut 50 participants âgés entre 18 et 30 ans, ainsi que 50 participants de 55 -65 ans. Nous avons regroupé les 50 participants âgés entre 18 et 30 ans dans une classe « sujets jeunes » et les 50 participants entre 55 et 65 ans dans une classe « sujets âgés » . Les 50 sujets âgés de 55 à 65 ans sont aléatoirement répartis dans cinq groupes ; les quatre premiers implique un apprentissage involontaire (addition des lettres, trouver des rimes avec les mots, …) et le dernier un apprentissage intentionnel (l’apprentissage involontaire se caractérise par le fait que le sujet ne sait pas qu’il devra plus tard se rappeler le matériel appris). A l’identique, les 50 sujets jeunes sont aléatoirement répartis dans 5 groupes. Le facteur A « âge » est fixe et le facteur B « condition de rétention » est aléatoire.

Facteur fixe ou aléatoire ? 9 l Les facteurs A et B peuvent être

Facteur fixe ou aléatoire ? 9 l Les facteurs A et B peuvent être fixes ou aléatoires. En général, si la personne chargée des recherches contrôle les niveaux d'un facteur, celui-ci est fixe. Sinon il est aléatoire. l Par exemple, vous ayez un facteur appelé « instant de la mesure » et qu'il comporte trois niveaux ( « t 1 » , « t 2 » , « t 3 » ). Si vous sélectionnez intentionnellement ces trois moments et que vous souhaitez que vos résultats ne s'appliquent qu'à ces moments, le facteur est fixe. En revanche, si les trois moments ont été échantillonnés ou choisis aléatoirement parmi un grand nombre de possibilités et que vous souhaitez que les résultats s'appliquent à toutes ces possibilités, le facteur est aléatoire.

Facteurs emboîtés (fixes) l l l 10 L’expérience consiste à évaluer le gain de

Facteurs emboîtés (fixes) l l l 10 L’expérience consiste à évaluer le gain de masse, en grammes, entre la dixième et la vingtième semaine de poulets soumis à quatre régimes alimentaires obtenus en combinant des niveaux faibles ou élevés de Calcium et de Lysine. Deux enclos de six poulets ont été utilisés pour chacun des quatre traitements étudiés (48 poulets au total). Les deux facteurs, « régime » (facteur A) et « enclos » (facteur B), sont fixes (contrôlés par l’expérimentateur). Mais l’enclos B est emboité dans le régime A car les niveaux du facteur B sont similaires mais pas identiques (pas de différence fondamentale entre l’enclos 1 et l’enclos 2), et que chacun est combiné avec les différents niveaux de l'autre facteur. l l les niveaux d'un facteur sont similaires mais pas identiques, et chacun est combiné avec les différents niveaux de l'autre facteur. Nous sommes dans la situation particulière où les effets des niveaux du facteur B n’ont pas de signification concrète, par exemple ces niveaux dépendent du niveau du facteur A considéré et une étude des effets principaux du facteur B n’a pas de pertinence.

Facteurs emboîtés (aléatoires) l l l 11 Une expérience conçue pour estimer la moisissure

Facteurs emboîtés (aléatoires) l l l 11 Une expérience conçue pour estimer la moisissure contenue dans une pâte de piment est produite par une entreprise agroalimentaire. Pour ce faire, 15 lots de pâte de piment ont été sélectionnés au hasard dans la production de l’entreprise et dans chacun de ces lots, deux pots de pâte ont été à nouveau sélectionnés au hasard. Deux prélèvements distincts de pâte ont été analysés pour chacun de ces pots. Les deux facteurs, « Lot » A et « Échantillon » B, sont tous deux considérés comme des facteurs à effets aléatoires. Mais l’échantillon B est emboité dans le lot A car les niveaux du facteur B sont similaires mais pas identiques (pas de différence fondamentale entre l’échantillon 1 et l’échantillon 2), et que chacun est combiné avec les différents niveaux de l'autre facteur. l l niveaux facteur B similaires mais pas identiques, et chacun combiné avec les différents niveaux du facteur A. situation où les effets des niveaux du facteur B n’ont pas de signification concrète, niveaux de B dépendent du niveau de A considéré étude des effets principaux de B n’a pas de pertinence.

Facteurs emboîtés (mixtes) l l l 12 L’expérience porte sur la prise de poids

Facteurs emboîtés (mixtes) l l l 12 L’expérience porte sur la prise de poids quotidienne de jeunes cochons au cours de leur phase de croissance. L’objectif de l’expérience est de déterminer l’influence du patrimoine génétique de cinq pères sur leurs descendants. Pour ce faire, ces cinq mâles ont eu une portée avec deux mères différentes et choisies au hasard. Dans chacune de ces portées, deux animaux ont été sélectionnés et leur masse mesurée en grammes. Le facteur, « père » A est fixe et le facteur « mère » B est aléatoire. Mais la mère B est emboitée dans … heuu … bref les niveaux du facteur B sont similaires mais pas identiques (pas de différence fondamentale entre la mère 1 et la mère 2), et que chacun est combiné avec les différents niveaux de l'autre facteur l l niveaux de B similaires mais pas identiques, et chacun combiné avec différents niveaux de A. effets des niveaux de B n’ont pas de signification concrète et niveaux de B dépendent du niveau de A considéré étude effets principaux de B pas pertinente

Appariement selon l’un des facteurs l l l 13 l Une grande chaîne de

Appariement selon l’un des facteurs l l l 13 l Une grande chaîne de distribution nationale souhaite étudier l’effet de deux campagnes publicitaires (facteur A) sur l’évolution au cours du temps (facteur B) du volume des ventes de paires de chaussures d’athlétisme. 10 supermarchés tests (sujet S) ayant des caractéristiques semblables ont été choisis au hasard pour être inclus dans cette étude. L’expérience a été menée pendant une période de 6 semaines lors de laquelle le volume des ventes des paires de chaussures d’athlétisme est considéré comme stable. Il ne semble pas y avoir besoin d’inclure d’interaction entre les supermarchés tests et les périodes de vente (par exemple, étude menée hors période de Noël). Les données sont reproduites dans le tableau ci-contre. l l l Les facteurs A et B sont fixes mais, en plus, des supermarchés identiques sont évalués au sein du facteur B Si le facteur A est « maintenu constant » , les échantillons selon le facteur B sont appariés ( « avant » , « pendant » , « après » ) Le facteur A ne peut pas être aléatoire (enfin … je crois …)

Appariement selon les deux facteurs l Un clinicien étudie les effets de deux médicaments

Appariement selon les deux facteurs l Un clinicien étudie les effets de deux médicaments utilisés indépendamment ou simultanément sur la circulation sanguine chez des sujets humains. 12 sujets masculins en bonne santé et à l’âge adulte ont été choisis au hasard pour participer à cette étude. Les 4 traitements utilisés dans cette étude sont définis de la façon suivante : – – l 14 A 1 B 1 un placebo (aucun médicament) A 1 B 2 uniquement le médicament B A 2 B 1 uniquement le médicament A A 2 B 2 les 2 médicaments simultanément. Les 12 sujets reçoivent chacun les 4 traitements dans des ordres indépendamment aléatoires. La variable réponse est l’augmentation dans la circulation sanguine entre avant et juste après l’administration du traitement. Les traitements sont administrés jours après jours. l l Les facteurs A et B sont fixes mais, en plus, des patients identiques sont évalués au sein du facteur A et du facteur B Si le facteur A est « maintenu constant » , les échantillons selon le facteur B sont appariés ( « B 1 » , « B 2 » ) Si le facteur B est « maintenu constant » , les échantillons selon le facteur A sont également appariés ( « A 1 » , « A 2 » ) Les facteurs A et B ne peuvent pas être aléatoires (enfin … je crois …)

Plan l l Facteurs de variabilité Anova 2 facteurs – – – l l

Plan l l Facteurs de variabilité Anova 2 facteurs – – – l l l 15 Sans répétitions Avec répétitions Test de Sheirer-Ray-Hare Régression multiple Transformation des variables Le langage « R »

Anova 2 facteurs sans répétitions l Beaucoup plus simple que l’anova avec répétitions l

Anova 2 facteurs sans répétitions l Beaucoup plus simple que l’anova avec répétitions l Pas d’informations concernant une éventuelle interaction entre les 2 facteurs l Revient à une anova 1 facteur sur mesures répétées – – 16 pval. A influence facteur A pval. B influence facteur B

Anova 2 facteurs avec répétitions l Entre 2 et 6 p-valeurs l Facteurs croisés,

Anova 2 facteurs avec répétitions l Entre 2 et 6 p-valeurs l Facteurs croisés, 3 p-valeurs – – – Influence facteur A Influence facteur B Influence interaction entre A et B l l l Facteurs emboîtés, 2 p-valeurs – – Influence facteur A Influence facteur B dans le facteur A l 17 par ex, « synergie » ou influence d’un facteur sur l’autre Si significatif, compliqué d’étudier les 2 facteurs séparément Pas toujours utile à interpréter (pas toujours simple non plus)

Anova 2 facteurs avec répétitions l Appariement selon 1 facteur, 4 p-valeurs – –

Anova 2 facteurs avec répétitions l Appariement selon 1 facteur, 4 p-valeurs – – Influence facteur A Influence des sujets dans le facteur A l l – – Influence facteur B Influence interaction entre A et B l l 18 Par exemple, si l’on évalue 2 groupes distincts à 3 moments différents, si l’une des personne d’un groupe a systématiquement des résultats très supérieurs lors des 3 prises de mesures, son influence sera très importante dans le facteur A mais n’a rien à voir avec l’influence du facteur A à proprement dit Pas toujours utile à interpréter (pas toujours simple non plus) par ex, « synergie » ou influence d’un facteur sur l’autre Si significatif, compliqué d’étudier les 2 facteurs séparément

Anova 2 facteurs avec répétitions l Appariement selon les 2 facteurs, 6 p-valeurs –

Anova 2 facteurs avec répétitions l Appariement selon les 2 facteurs, 6 p-valeurs – Influence facteur A Influence facteur B Influence des sujets dans le facteur A … – Revient à Anova 3 facteurs ? Non car pas d’interaction A*B*S – – – 19

Test de Sheirer-Ray-Hare l Conditions de l’anova non remplies – – – l Normalité

Test de Sheirer-Ray-Hare l Conditions de l’anova non remplies – – – l Normalité Égalité des variances cf. Transformation des variables Test de Sheirer-Ray-Hare – – Équivalent anova 2 facteurs Basé sur les rangs (comparaisons de médianes) Si les échantillons ne sont pas aléatoires (cf notes concernant l’échantillonnage), les statistiques descriptives sont vivement conseillées. 20

Plan l l l Facteurs de variabilité Anova 2 facteurs Régression multiple – –

Plan l l l Facteurs de variabilité Anova 2 facteurs Régression multiple – – l l 21 Régression linéaire multiple Régression logistique Transformation des variables Le langage « R »

Régression multiple 22 l Dans le cas où nous souhaitons étudier plusieurs variables explicatives

Régression multiple 22 l Dans le cas où nous souhaitons étudier plusieurs variables explicatives Xi et connaître le « poids » respectif de chacune de ces variables indépendantes dans une variable dépendante Y = f(X 1, X 2, X 3, …), un ajustement est alors nécessaire. l La régression logistique et linéaire multiple sont des méthodes permettant de réaliser un tel ajustement. Cet ajustement consiste à individualiser « l’effet propre » de la variable explicative Xi des « effets parasites » induits par d’autres variables influençant aussi la variable à expliquer (Y). l Cela permet ainsi de contrôler l’effet de possibles facteurs de confusion.

Régression linéaire multiple l Le modèle associé à la régression linéaire s’exprime au travers

Régression linéaire multiple l Le modèle associé à la régression linéaire s’exprime au travers de la formule suivante (Y dépendante quantitative, X indépendantes quantitatives ou catégorielles), Y = β 0 + β 1 X 1 +. . . + βP X P + ε La plus populaire de toutes les méthodes d'estimation des coefficients β demeure celle des moindres carrés. Le R 2 (ou coefficient de détermination) offre un indicateur statistique de la modélisation du modèle et notamment de sa capacité à coller aux données réelles utilisées pour le construire. Le R 2 varie entre [0, 1] et plus il s’approche de sa borne supérieure, meilleur est le modèle. l l l 23 Un test sur la valeur R 2 permet de tester la validité du modèle dans sa globalité (le modèle est-il meilleur si l'on ne prend en compte aucune des variables Xi ? ). L’analyse de la régression permet, en outre, de vérifier l'incidence de telle ou telle variable sur le modèle (le modèle est-il meilleur si l'on ne prend pas en compte la variable Xi ? ) L’analyse de la corrélation permet de comparer les différentes relations de dépendance entre les variables, prises 2 à 2 (Y vs X 1, Y vs X 2, X 1 vs X 2, . . . ), les autres étant considérées comme constantes.

Régression logistique l Dans le cas de la régression logistique, la variable dépendante Y

Régression logistique l Dans le cas de la régression logistique, la variable dépendante Y est une variable qualitative tandis que les variables indépendantes Xi peuvent être continues ou catégorielles. l À la différence de la régression linéaire (où la variable à expliquer est une variable quantitative), la régression logistique s’applique lorsque la variable à expliquer (Y) est qualitative. Dans la recherche biomédicale, il est très fréquent de rencontrer de telles variables, le plus souvent de type binaire comme par exemple la présence (ou l’absence) d’une maladie, d’une récidive ou d’une complication. Les variables explicatives (Xi) peuvent être, quant à elles, qualitatives ou quantitatives (âge, taux de cholestérol, signe astrologique, antécédents familiaux, . . . ). Ces variables indépendantes sont susceptibles d’influencer la survenue ou non de la maladie, de la récidive ou de la complication. l 24

Régression logistique l 25

Régression logistique l 25

Régression logistique : odds ratio l 26

Régression logistique : odds ratio l 26

Régression logistique : table de contingence l Table de contingence – – – –

Régression logistique : table de contingence l Table de contingence – – – – – 27 a, le nombre de personnes malades et exposées; b, le nombre de personnes non-malades et exposées; c, le nombre de personnes malades et non-exposées; d, le nombre de personnes non-malades et non-exposées; e 1, l'ensemble des personnes exposées; e 0, l'ensemble des personnes non-exposées; m 1, l'ensemble des personnes malades; m 0, l'ensemble des personnes non-malades; N, l'ensemble de toutes les personnes de l'étude. Malade Non-malade Exposé a b e 1 Non-exposé c d e 0 m 1 m 0 N

Régression logistique : table de contingence l Risque absolu chez les exposés (R 1)

Régression logistique : table de contingence l Risque absolu chez les exposés (R 1) – – l R 1 = a/e 1 = a/(a+b) l Risque absolu chez les non-exposés (R 0) – – l 28 probabilité qu'une personne soit malade sachant qu'elle est exposée au facteur de risque. Correspond au rapport entre nombre de personnes malades et exposées et l'ensemble des personnes exposées au facteur de risque. probabilité qu'une personne soit malade sachant qu'elle n'est pas exposée au facteur de risque. Correspond au rapport entre nombre de personnes malades et nonexposées et l'ensemble des personnes non-exposées au facteur de risque. R 0 = c/e 0 = c/(c+d) Malade Non-malade Exposé a b e 1 Non-exposé c d e 0 m 1 m 0 N

Régression logistique : risque relatif l Risque relatif – l Peut être calculé afin

Régression logistique : risque relatif l Risque relatif – l Peut être calculé afin de mettre en évidence une association entre facteur de risque et maladie étudiée. Correspond au rapport des incidences de la maladie chez les personnes exposées (R 1) et chez les personnes non-exposées (R 0). RR = R 1/R 0 = ae 0/ce 1 – Si > 1, on suppose une association entre facteur de risque et maladie. l l Odds ratio – l Correspond au rapport des cotes des risques absolus. OR = (R 1/(1 -R 1))/(R 0/(1 -R 0)) = ad/bc l 29 (test d’hypothèse (chi²) nécessaire pour vérifier si l’association est significative). Si association entre facteur de risque et maladie, odds ratio toujours plus élevé que risque relatif. Malade Non-malade Exposé a b e 1 Non-exposé c d e 0 m 1 m 0 N

Régression logistique : odds ratio l 30

Régression logistique : odds ratio l 30

Régression logistique : odds ratio l 31

Régression logistique : odds ratio l 31

Régression logistique : odds ratio l Cas de plusieurs variables indépendantes – – –

Régression logistique : odds ratio l Cas de plusieurs variables indépendantes – – – l P(Y) = β 0 + β 1 âge + β 2 fume – l – 32 Si l’âge augmente d’une unité, le risque de contracter la maladie augmente exp(0, 6708) = 1, 9558 > 1 – l β 0 =1, 3982 ; β 1 = 0, 4118 ; β 2 = 0, 6708 exp(0, 4118) = 1, 5068 > 1 – l Xi = variable i Y=0: la maladie est absente Y=1: la maladie est présente Si l’âge augmente d’une unité, le risque de contracter la maladie augmente Le risque est plus élevé (2 contre 1) Interprétation de β 0 n’a pas de sens

Régression logistique : odds ratio l Dans le cas d’une variable explicative qualitative, une

Régression logistique : odds ratio l Dans le cas d’une variable explicative qualitative, une propriété très intéressante de la régression logistique est qu’elle permet d’estimer un odds ratio (OR) qui fournit une information sur la force et le sens de l’association entre la variable explicative (Xi) et la variable à expliquer (Y). – l Lorsqu’il vaut 1, les deux variables sont indépendantes. Au contraire, plus l’OR est proche de 0 ou de +∞, plus les variables sont liées entre elles. Si l’OR n’est pas un résultat aussi intuitif que le risque relatif, il présente l’avantage d’être utilisable quel que soit le design expérimental (étude en cohorte ou cas témoin). l Qui plus est, si la maladie étudiée est rare (prévalence inférieure à 5 -10 %), l’OR devient une bonne approximation du risque relatif. – – 33 L’OR (ou rapport des cotes), est une mesure de dépendance entre deux variables, il est toujours positif et compris entre 0 et +∞. En pratique, si l’OR est supérieur à 1, on parle de facteur de risque, et si l’OR est inférieur à 1, on parle de facteur protecteur. Par exemple en pratique, vis-à-vis d'une variable dépendante Y (malade/pas malade), l'OR d'une variable indépendante X représente le nombre de chances (en plus ou en moins) de tomber malade si X augmente d'une unité.

Régression logistique l La régression logistique permet de modéliser une variable réponse Y binaire

Régression logistique l La régression logistique permet de modéliser une variable réponse Y binaire ou polychotomique (K ≥ 2 classes) à partir d’une matrice de P variables explicatives X 1, X 2, . . . XP quantitatives ou qualitatives. La force de la régression logistique réside en la forme de la fonction lien utilisée (le logit ou le probit) et qui permet une modélisation de forme sigmoïdale incluant ainsi la notion de pente influencée par la fréquence des observations, sous forme de pondérations par secteur, lorsque nous passons d’un secteur à l’autre en fonction de la classe décrite par la réponse Y. A ce titre, elle demeure très prisée du fait des nombreux indicateurs permettant de qualifier le modèle construit. Parmi ces indicateurs, les odds ratios ou rapports de côte en sont les plus populaires et restent très souvent utilisés en recherche clinique par exemple. 34

Régression logistique l Le modèle associé à la régression logistique s’exprime au travers de

Régression logistique l Le modèle associé à la régression logistique s’exprime au travers de la formule suivante, P(Y) = β 0 + β 1 X 1 +. . . + βP X P + ε La plus populaire de toutes les méthodes d'estimation des coefficients β demeure celle du maximum de vraisemblance. Le pseudo R 2 (ou coefficient de détermination) offre un indicateur statistique de la modélisation du modèle et notamment de sa capacité à coller aux données réelles utilisées pour le construire. Le R 2 varie entre [0, 1] et plus il s’approche de sa borne supérieure, meilleur est le modèle. l l l 35 Un test sur la valeur R 2 permet de tester la validité du modèle dans sa globalité (le modèle est-il meilleur si l'on ne prend en compte aucune des variables Xi ? ). L’analyse de la régression permet, en outre, de vérifier l'incidence de telle ou telle variable sur le modèle (le modèle est-il meilleur si l'on ne prend pas en compte la variable Xi ? ) L’analyse de la corrélation permet de comparer les différentes relations de dépendance entre les variables, prises 2 à 2 (Y vs X 1, Y vs X 2, X 1 vs X 2, . . . ), les autres étant considérées comme constantes.

Régression logistique binaire et multinomiale l Le test régression logistique binaire permet de tester

Régression logistique binaire et multinomiale l Le test régression logistique binaire permet de tester la validité du modèle dans sa globalité. Ce test permet, en outre, de vérifier l'incidence de telle ou telle variable sur le modèle (le modèle est-il meilleur si l'on ne prend pas en compte la variable Xi ? comme pour le test de régression linéaire multiple). Le test régression logistique multinomiale permet, comme dans le cas binaire, de tester la validité du modèle dans sa globalité. Cependant, il permet également de vérifier la validité du modèle utilisé pour chacune des modalités Y. 36

Régression logistique, exemple l Comme nous pouvons le voir sur l’image ci-dessus, la régression

Régression logistique, exemple l Comme nous pouvons le voir sur l’image ci-dessus, la régression logistique appliquée à une variable nominale non binaire conduit à autant de régressions dichotomiques que cette variable présente de modalités (4 dans l’exemple), la modalité Y de valeur la plus basse (y = 1) étant prise comme référence. l Imaginons que les modalités Y soient des partis politiques (1 = rose, 2 = violet, 3 = jaune, 4 = lavande). Y=1 est le parti rose majoritaire (la référence). la variable X 2 est l'âge (ou la tranche d'âge). L'odd-ratio de la variable X 2 (âge) sur la modalité Y = 3 (parti jaune) conduit à OR = 0, 134 = e-2. 0109942, ce qui peut s'interpréter comme "pour une augmentation de 1 du facteur X 2 (cad pour chaque année en plus), les chances de rester dans la modalité Y = 1 (parti majoritaire) sont de 7, 5 (1/0, 134) contre 1 de passer dans la modalité Y = 3 (parti jaune)". L'interprétation de ce genre de résultats est toujours délicate. Dans cet exemple fictif, ou bien l'âge est apparemment un facteur favorisant le statu quo ou bien le parti jaune attire surtout les jeunes. l 37

Régression logistique : cutoff l l l 38 P(Y) = β 0 + β

Régression logistique : cutoff l l l 38 P(Y) = β 0 + β 1 x A partir de quel valeur seuil de x (cutoff) peuton considérer la personne comme « à risque » ? choix du seuil maximisant l’aire sous la courbe de ROC

Plan l l l 39 Facteurs de variabilité Anova 2 facteurs Régression multiple Transformation

Plan l l l 39 Facteurs de variabilité Anova 2 facteurs Régression multiple Transformation des variables Le langage « R »

Transformation des variables l Si conditions (normalité ou égalité des variances) non vérifiées l

Transformation des variables l Si conditions (normalité ou égalité des variances) non vérifiées l Valeur extrême ou aberrante ? Test du tau de Thompson, Grubbs, Dixon, … l Non ? Réflexion profonde sur la nature des données à analyser et sur le modèle statistique à utiliser l Mmmh … Non ? changement de variable – – l 40 x arcsin(√x) x log(x+C) x xk … Toujours pas ? Tests non-paramétriques

Plan l l l 41 Facteurs de variabilité Anova 2 facteurs Régression multiple Transformation

Plan l l l 41 Facteurs de variabilité Anova 2 facteurs Régression multiple Transformation des variables Le langage « R »

Initiation à « R » 42 l Va falloir se mettre à l’anglais l

Initiation à « R » 42 l Va falloir se mettre à l’anglais l Use the first row as column headers (or column names). Generally, columns represent variables. l Use the first column as row names. Generally rows represent observations. l Each row name should be unique, so remove duplicated names. l Column names should be compatible with R naming conventions. As illustrated below, our data contains some issues that should be fixed before importing :

Initiation à « R » l l l l l 43 Avoid names with

Initiation à « R » l l l l l 43 Avoid names with blank spaces. Good column names: Long_jump or Long. jump. Bad column name: Long jump. Avoid names with special symbols: ? , $, *, +, #, (, ), -, /, }, {, |, >, < etc. Only underscore can be used. Avoid beginning variable names with a number. Use letter instead. Good column names: sport_100 m or x 100 m. Bad column name: 100 m Column names must be unique. Duplicated names are not allowed. R is case sensitive. This means that Name is different from Name or NAME. Avoid blank rows in your data Delete any comments in your file Replace missing values by NA (for not available) If you have a column containing date, use the four digit format. Good format: 01/01/2016. Bad format: 01/01/16

Initiation à « R » l We recommend to save your file into .

Initiation à « R » l We recommend to save your file into . txt (tab-delimited text file) or. csv (comma separated value file) format. l Next Step l Installing R ? Easy – – 44 http: //www. sthda. com/english/wiki/insta lling-r-and-rstudio-easy-r-programming http: //larmarange. github. io/analyse. R/installation-de-R-et-RStudio. html

Initiation à « R » l Anova ? – 45 http: //www. sthda. com/english/wiki/two-way-anova-test-in-r

Initiation à « R » l Anova ? – 45 http: //www. sthda. com/english/wiki/two-way-anova-test-in-r l Import data l Check data l Compute anova test l Check normality and homogeneity