Rgression linaire multiple Eugnie DostieGoulet Plan de la

  • Slides: 18
Download presentation
+ Régression linéaire multiple Eugénie Dostie-Goulet Plan de la présentation Retour sur l’hypothèse La

+ Régression linéaire multiple Eugénie Dostie-Goulet Plan de la présentation Retour sur l’hypothèse La régression linéaire multiple Problèmes statistiques possibles Quelques mots sur le travail final

+ Construction du cadre opératoire u Problématique: Est-ce qu’il y a un lien entre

+ Construction du cadre opératoire u Problématique: Est-ce qu’il y a un lien entre l’âge et l’opinion sur l’euthanasie? u Hypothèse: Plus on vieillit, moins on perçoit l’euthanasie comme une option qui se justifie u Variable dépendante: opinion sur l’euthanasie (à quel point celle-ci se justifie ou non). Variable continue, sur une échelle de 1 à 10 où 1 signifie que ce n’est jamais justifiable et 10 que c’est toujours justifiable u Variable indépendante: l’âge. Variable continue allant de 18 à 94.

+ Schéma conceptuel (1) ge Opinion sur l’euthanasie

+ Schéma conceptuel (1) ge Opinion sur l’euthanasie

+ Variables contrôle u Variables indépendantes qui ne font pas partie de l’hypothèse u

+ Variables contrôle u Variables indépendantes qui ne font pas partie de l’hypothèse u Servent à contrôler pour les autres facteurs potentiellement perturbateurs: ces variables servent à s’assurer qu’on prend bien en compte les autres facteurs susceptibles d’influencer notre variable dépendante. u On choisit nos variables contrôle selon la relation qui peut exister entre celles-ci et la variable dépendante. u En « contrôlant » pour un facteur particulier, on est en mesure de savoir que la relation qu’on trouve entre notre variable indépendante principale et notre variable dépendante est « authentique » , et non pas influencée par ce facteur.

+ Description des variables contrôle u Sexe: être un homme ou une femme u

+ Description des variables contrôle u Sexe: être un homme ou une femme u Province: habiter au Québec ou non u Relation avec l’Église : avoir confiance en l’Église. Variable polytomique ordonnée : pas du tout (0), peu (1), assez (2), beaucoup (3). - variables Attention: il est essentiel de justifier le choix de nos contrôle

+ Schéma conceptuel (2) Province Sexe ge Opinion sur l’euthanasie Relation avec l’Église En

+ Schéma conceptuel (2) Province Sexe ge Opinion sur l’euthanasie Relation avec l’Église En mettant les flèches entre les variables, ça vous permet de vous questionner sur la relation qu’il y a entre elles. . .

+ Relation fallacieuse u Lorsque la corrélation trouvée entre deux variables est due à

+ Relation fallacieuse u Lorsque la corrélation trouvée entre deux variables est due à un troisième phénomène, qui est lié à ces deux variables u Exemples: u Les villes ayant le plus grand nombre d’églises sont aussi celles avec le plus grand nombre de bars. . . u Il y a une corrélation négative entre les augmentations annuelles moyennes des salaires et la satisfaction du public envers les politiques économiques de leur gouvernement. Doit-on en conclure que plus les salaires augmentent, moins les citoyens sont satisfaits des politiques économiques? -

+ Relation indirecte u Cette relation entre deux variables ne peut se manifester que

+ Relation indirecte u Cette relation entre deux variables ne peut se manifester que si un troisième phénomène vient s’interposer entre les deux premiers. En d’autres termes, A cause C, mais seulement parce que A est une cause directe de B, qui lui-même cause C. u Exemples: u Si vous mangez un sandwich et qu’après vous touchez votre nombril, il y a de fortes chances que votre nombril sente votre sandwich. . . u Si nos parents s’intéressent à la politique, on a plus de chance de voter. -

+ Questions à se poser u Quel test devrions-nous effectuer? u La régression linéaire

+ Questions à se poser u Quel test devrions-nous effectuer? u La régression linéaire (MCO) s’applique dans le cas d’une variable dépendante continue u Quelles variables indépendantes choisir? u On cherche à obtenir un modèle le plus parcimonieux possible, comprenant peu de variables, mais dont les variables expliquent bien la variation dans notre variable dépendante. u S’assurer du sens de la relation u Il arrive que la relation je soit pas seulement de X vers Y, mais aussi de Y vers X. C’est un problème d’endogénéité. u Parfois, la question ne se pose pas (notamment pour les variables sociodémographiques) u Trois étapes: 1. On se pose la question: un risque d’endogénéité est-il possible entre mes deux variables? 2. On décide si cette variable est assez importante pour qu’on vive avec ce risque 3. On explique notre choix lorsqu’on présente nos variables

+ La régression linéaire simple u Rappel: la régression linéaire simple est une droite

+ La régression linéaire simple u Rappel: la régression linéaire simple est une droite de tendance entre deux variables u La corrélation permet de voir la force de la relation entre ces deux variables u L’équation de régression permet de connaître l’impact de l’augmentation (ou la diminution) de X sur Y. u Forme fonctionnelle: y = a + bx u Prise en compte de l’erreur: y = a + bx + e u C’est de l’erreur que vient notre 95% de confiance. Parce que cette droite n’est jamais parfaite.

+ La relation entre l’âge et l’opinion sur l’euthanasie > mco 1=lm(eut ~ age)

+ La relation entre l’âge et l’opinion sur l’euthanasie > mco 1=lm(eut ~ age) > summary(mco 1) R

+ La relation entre l’âge et l’opinion sur l’euthanasie > mco 1=lm(eut ~ age

+ La relation entre l’âge et l’opinion sur l’euthanasie > mco 1=lm(eut ~ age + homme + qc + conf_eglise) > summary(mco 1) R

+ Multicolinéarité u On parle de multicolinéarité lorsqu’il y a une forte corrélation entre

+ Multicolinéarité u On parle de multicolinéarité lorsqu’il y a une forte corrélation entre deux ou plusieurs variables indépendantes. u Forme fonctionnelle de la régression linéaire multiple: y = a + bx 1 + bx 2 + bx 3. . . + bxj + e u Conséquences de la multicolinéarité u Le modèle lui-même est assez performant (R 2 peut être élevé, test F significatif) u Mais problème d’information (et donc de précision) dans les effets individuels: l’erreur est assez élevée pour les variables en cause u Les coefficients peuvent aussi être assez faibles -

+ La relation entre l’âge et l’opinion sur l’euthanasie: multicolinéarité > mco 1=lm(eut ~

+ La relation entre l’âge et l’opinion sur l’euthanasie: multicolinéarité > mco 1=lm(eut ~ age + homme + qc + francais + conf_eglise) > summary(mco 1) R

+ Que faire avec la multicolinéarité? u On peut faire une corrélation de Pearson

+ Que faire avec la multicolinéarité? u On peut faire une corrélation de Pearson entre les variables indépendantes concernées (celles qui sont conceptuellement proches): plus la corrélation est élevée, plus le risque de multicolinéarité est élevé. > cor. test(qc, francais, use="complete. obs") R

+ Que faire avec la multicolinéarité? u Si la corrélation est au moins moyennement

+ Que faire avec la multicolinéarité? u Si la corrélation est au moins moyennement élevée, on peut relancer le modèle en excluant chaque fois une des deux variables, pour voir la différence. u On peut garder la variable qui « parle » le plus, ou celle qui, théoriquement, a le plus de raison d’être dans cette régression u S’il s’agit de variables avec lesquelles on peut construire un indice (information, conservatisme social, corruption, cynisme. . . ), ne pas hésiter à le faire, après avoir vérifié qu’il y a bien corrélation entre ces variables.

+ La relation entre l’âge et l’opinion sur l’euthanasie: multicolinéarité? Estimate Std. Error t

+ La relation entre l’âge et l’opinion sur l’euthanasie: multicolinéarité? Estimate Std. Error t value (Intercept) 7. 004824 0. 232962 30. 068 < 2 e-16 *** age -0. 014016 0. 003893 -3. 600 0. 000326 *** homme 0. 274582 0. 136969 2. 005 0. 045140 * qc 0. 590840 0. 286128 2. 065 0. 039066 * francais 0. 477502 0. 284353 1. 679 0. 093270. conf_eglise -0. 809760 0. 077749 -10. 415 < 2 e-16 *** Pr(>|t|) Multiple R-squared: 0. 1007, Adjusted R-squared: 0. 0983 Estimate Std. Error t value Pr(>|t|) (Intercept) 7. 065437 0. 231309 30. 545 < 2 e-16 *** age -0. 014230 0. 003895 -3. 653 0. 000266 *** homme 0. 275680 0. 137088 2. 011 0. 044474 * francais 0. 974003 0. 151937 6. 411 1. 83 e-10 *** conf_eglise -0. 825590 0. 077438 -10. 661 < 2 e-16 *** Multiple R-squared: 0. 09865, Adjusted R-squared: 0. 09671 Estimate Std. Error t value Pr(>|t|) (Intercept) 7. 005482 0. 233076 30. 057 < 2 e-16 *** age -0. 013851 0. 003894 -3. 557 0. 000384 *** homme 0. 266481 0. 136951 1. 946 0. 051829. qc 0. 997125 0. 152826 6. 525 8. 77 e-11 *** conf_eglise -0. 801163 0. 077618 -10. 322 < 2 e-16 *** Multiple R-squared: 0. 09936, Adjusted R-squared: 0. 09741 R

+ La relation entre l’âge et l’opinion sur l’euthanasie: non-linéarité > mco 1=lm(eut ~

+ La relation entre l’âge et l’opinion sur l’euthanasie: non-linéarité > mco 1=lm(eut ~ age 3655 + age 5694 + homme + qc + conf_eglise) > summary(mco 1) R