Rgression linaire STT2400 Section 3 Tests dhypothses et

  • Slides: 24
Download presentation
Régression linéaire (STT-2400) Section 3 Tests d’hypothèses et l’hypothèse linéaire générale Version: 26 janvier

Régression linéaire (STT-2400) Section 3 Tests d’hypothèses et l’hypothèse linéaire générale Version: 26 janvier 2007 STT-2400; Régression linéaire

Tests d’hypothèses l On dispose d’un jeux de données portant sur le prix des

Tests d’hypothèses l On dispose d’un jeux de données portant sur le prix des maisons dans une certaine région. Exemples de variables: – – – – 2 – PRICE, prix en milliers de dollars US: variable réponse. FLR, surface du plancher en pieds carrés: préviseur. RMS, nombre de pièces: préviseur. BDR, nombre de chambres à coucher: préviseur. BTH, nombre de salles de bain: préviseur. GAR, présence ou non d’un garage (0: aucun garage, 1: garage simple, 1. 5: garage pour un véhicule mais plus grand que le simple, 2: garage pour deux véhicules): préviseur. LOT, largeur de la façade du terrain en pieds: préviseur. FP, nombre de foyers: préviseur. ST, présence de contre-fenêtre (storm window): préviseur. STT-2400; Régression linéaire

Ajustement dans l’exemple du prix des maisons l Un ajustement donne la fonction moyenne

Ajustement dans l’exemple du prix des maisons l Un ajustement donne la fonction moyenne suivante: l Au niveau de l’interprétation, il semble y avoir une association positive entre l’ajout d’un garage et le prix de la maison de l’ordre de 1770$ US, les autres choses étant égales. On note que l’augmentation d’une chambre, toutes les autres choses étant égales, semble associée à une diminution du prix! (mais le coefficient porte sur l’augmentation d’une chambre, sans faire augmenter par exemple la superficie ou le nombre total de pièces). Quand un grand nombre de préviseurs sont reliés, il peut arriver que les signes soient contre intuitifs et plus difficiles à interpréter. l l 3 STT-2400; Régression linéaire

D’autres questions d’intérêt pourraient être… l l l 4 (a) Est-ce que le prix

D’autres questions d’intérêt pourraient être… l l l 4 (a) Est-ce que le prix de vente semble affecté par le nombre de chambres dans la maison (tous les autres préviseurs restant fixés)? (b) Est-ce que l’ajout d’un garage semble associé à l’augmentation du prix de vente de $5000 US? (c) Est-ce que le nombre de chambres et de pièces semble affecter le prix de la même manière? (d) Est-ce que le nombre de salles de bains ou de garages semblent affecter le prix d’une maison? (e) Est-ce qu’au moins un des préviseurs semble utile afin d’expliquer le prix de la maison? STT-2400; Régression linéaire

Formulation des questions de façon statistique… tests déjà vus! 5 l (a) Est-ce que

Formulation des questions de façon statistique… tests déjà vus! 5 l (a) Est-ce que le prix de vente semble affecté par le nombre de chambres dans la maison (tous les autres préviseurs restant fixés)? l (b) Est-ce que l’ajout d’un garage semble associé à l’augmentation du prix de vente de $5000 US? STT-2400; Régression linéaire

Formulation des questions de façon statistique… nouveaux tests! 6 l (c) Est-ce que le

Formulation des questions de façon statistique… nouveaux tests! 6 l (c) Est-ce que le nombre de chambres et de pièces semble affecter le prix de la même manière? l (d) Est-ce que le nombre de salles de bains ou de garages semblent affecter le prix d’une maison? STT-2400; Régression linéaire

Formulation des questions de façon statistique (suite) 7 l (e) Est-ce qu’au moins un

Formulation des questions de façon statistique (suite) 7 l (e) Est-ce qu’au moins un des préviseurs semble utile afin d’expliquer le prix de la maison? l Ce test correspond bien entendu au test F global dans une table d’ANOVA. STT-2400; Régression linéaire

Hypothèse linéaire générale 8 l Un examen attentif de tous ces tests montre qu’en

Hypothèse linéaire générale 8 l Un examen attentif de tous ces tests montre qu’en fait toutes ces questions impliquent des contraintes linéaires sur les paramètres: l En fait toutes ces hypothèses peuvent s’exprimer comme un cas particulier de l’hypothèse linéaire générale. STT-2400; Régression linéaire

Formulation de l’hypothèse linéaire générale l l l 9 Considérons le modèle de régression

Formulation de l’hypothèse linéaire générale l l l 9 Considérons le modèle de régression linéaire multiple: L’hypothèse linéaire générale est: La matrice C est de dimension et elle est de rang m. Les vecteurs b et g sont de dimension. STT-2400; Régression linéaire

Exemple (a) 10 l Pour (a), il suffit de poser: l On a m

Exemple (a) 10 l Pour (a), il suffit de poser: l On a m = 1. L’hypothèse linéaire générale est: l Elle se réduit donc à: STT-2400; Régression linéaire

Exemple (b) 11 l Pour (b), il suffit de poser: l On a m

Exemple (b) 11 l Pour (b), il suffit de poser: l On a m = 1. L’hypothèse linéaire générale est: l Elle se réduit donc à: STT-2400; Régression linéaire

Exemple (c) 12 l Pour (c), il suffit de poser: l On a m

Exemple (c) 12 l Pour (c), il suffit de poser: l On a m = 1. L’hypothèse linéaire générale est: l Elle se réduit donc à: STT-2400; Régression linéaire

Exemple (d) 13 l Pour (d), il suffit de poser: l On a m

Exemple (d) 13 l Pour (d), il suffit de poser: l On a m = 2. L’hypothèse linéaire générale est: l Elle se réduit donc à: STT-2400; Régression linéaire

Exemple (e) 14 l Pour (e), il suffit de considérer la matrice l On

Exemple (e) 14 l Pour (e), il suffit de considérer la matrice l On a donc m = 8. L’hypothèse linéaire générale est: l Elle se réduit donc à: STT-2400; Régression linéaire :

Statistique de test pour l’hypothèse linéaire générale l Supposons que les erreurs sont iid

Statistique de test pour l’hypothèse linéaire générale l Supposons que les erreurs sont iid normales Confrontons les hypothèses: l C est de dimension Posons: l 15 STT-2400; Régression linéaire et de rang . .

Statistique F pour l’hypothèse linéaire générale l On pose encore: l Hypothèses à confronter:

Statistique F pour l’hypothèse linéaire générale l On pose encore: l Hypothèses à confronter: l Règle de décision: rejeter H 0 si 16 STT-2400; Régression linéaire

Quelques faits concernant le test F l Ce test en fait le test du

Quelques faits concernant le test F l Ce test en fait le test du rapport de vraisemblance pour les hypothèses considérées. l Pour obtenir la distribution, on a utilisé la normalité et donc il repose sur l’estimation des paramètres du modèle par la méthode de vraisemblance maximale. Même si les erreurs ne sont pas normales, ce test généralement robuste aux écarts à la normalité des erreurs. Qu’est-ce que cela veut dire? Si des écarts relativement peu importants de l’hypothèse de normalité surviennent, alors les estimateurs, tests d’hypothèses et intervalles de confiance se trouvent souvent peu affectés. l l 17 STT-2400; Régression linéaire

Test-F dans la situation « modèle plein – modèle réduit » l l 18

Test-F dans la situation « modèle plein – modèle réduit » l l 18 Reconsidérons l’exemple (d): (d) Est-ce que le nombre de salles de bains ou de garages semblent affecter le prix d’une maison? STT-2400; Régression linéaire

Formalisation de l’exemple (d) l l 19 Considérons , où les matrices composants X

Formalisation de l’exemple (d) l l 19 Considérons , où les matrices composants X sont de dimensions: On considère la partition suivante du vecteur b: STT-2400; Régression linéaire

Confrontation du modèle plein et du modèle réduit 20 l On désire confronter: l

Confrontation du modèle plein et du modèle réduit 20 l On désire confronter: l Autrement formulé, on désire tester l’hypothèse nulle: STT-2400; Régression linéaire

Test F pour tester « modèle plein – modèle réduit » 21 l Il

Test F pour tester « modèle plein – modèle réduit » 21 l Il est possible de montrer que le test F du rapport de vraisemblance se réduit à calculer la statistique suivante: l On compare avec la distribution F suivante: STT-2400; Régression linéaire

Mise en œuvre pratique du test pour l’hypothèse « modèle pleinmodèle réduit » l

Mise en œuvre pratique du test pour l’hypothèse « modèle pleinmodèle réduit » l l l 22 l Ainsi afin de mettre en œuvre ce test il suffit d’effectuer deux régression. On fait la régression incluant tous les préviseurs et on récupère la somme des carrés résiduelle RSSMP et son nombre de dl associé. On fait la régression incluant les préviseurs formant le modèle réduit et on récupère la somme des carrés résiduelle RSSMR et ses dl. On calcule la statistique F. STT-2400; Régression linéaire

Hypothèse linéaire avec SAS dans la procédure PROC REG l l l 23 proc

Hypothèse linéaire avec SAS dans la procédure PROC REG l l l 23 proc reg data=maison; model price = flr rms bdr bth gar lot fp st; Hyp. A: test bdr = 0; Hyp. B: test gar = 5; Hyp. C: test bdr = bth; Hyp. D: test bth = 0, gar = 0; Hyp. E: test flr, rms, bdr, bth, gar, lot, fp, st; run; proc reg data=maison; model price = flr rms bdr lot fp st; run; STT-2400; Régression linéaire

Quelques commentaires sur les tests l l l 24 Pour Hyp. A: on avait

Quelques commentaires sur les tests l l l 24 Pour Hyp. A: on avait déjà ce test en regardant la statistique-t pour la variable BDR: (-4. 21)2 = 17. 70 avec valeur-p de 0. 0006. Pour Hyp. E: on retrouve le résultat du test global, avec une statistique F de 20. 11. Pour Hyp. D: La statistique-F est de 1. 32. On peut obtenir cette statistique de l’ajustement des deux régressions, l’une incluant tous les préviseurs (RSS=378. 21240, dl=17), l’autre excluant BTH et GAR (RSS=436. 92812). On vérifie que: l (436. 92812 -378. 21240)/(2*22. 24779) = 1. 32 STT-2400; Régression linéaire