Rgression linaire STT2400 Section 7 Diagnostiques de rgression

  • Slides: 15
Download presentation
Régression linéaire (STT-2400) Section 7 Diagnostiques de régression: les résidus Version: 28 décembre 2007

Régression linéaire (STT-2400) Section 7 Diagnostiques de régression: les résidus Version: 28 décembre 2007 STT-2400; Régression linéaire

Introduction l l 2 Les graphiques peuvent être utiles au tout début d’une analyse

Introduction l l 2 Les graphiques peuvent être utiles au tout début d’une analyse afin de nous orienter dans l’ajustement d’un modèle de régression. Les diagnostiques de régression sont des outils qui sont utilisés après un ajustement, afin de cerner s’il semble vraisemblable que la fonction moyenne et les hypothèses de Gauss-Markov sont compatibles avec les données. Les outils de base sont les résidus, que l’on a déjà définis. Il existe d’autres types de résidus (ex: les résidus standardisés, les résidus studentizés). STT-2400; Régression linéaire

Observations influentes l l 3 Une question d’importance concerne l’influence d’une observation particulière sur

Observations influentes l l 3 Une question d’importance concerne l’influence d’une observation particulière sur l’ajustement (ex: estimateurs des coefficients, tests d’hypothèses). Si une observation particulière peut changer significativement les conclusions d’une analyse, on dira que cette observation est influente. Nous introduirons des mesures de distances et des mesures de levier afin de quantifier l’influence d’une observation. Une question reliée est la recherche de valeurs aberrantes. STT-2400; Régression linéaire

Matrice « chapeau » 4 l On considère le modèle (avec b 0): l

Matrice « chapeau » 4 l On considère le modèle (avec b 0): l l L’estimateur OLS est: On peut écrire: l La matrice « chapeau » : STT-2400; Régression linéaire

Matrice « chapeau » (suite) l l 5 La matrice « chapeau » transforme

Matrice « chapeau » (suite) l l 5 La matrice « chapeau » transforme le vecteur correspondant à la variable réponse en le vecteur des valeurs prédites: . On a déjà vu: STT-2400; Régression linéaire

Quelques propriétés de la matrice « chapeau » 6 l La matrice « chapeau

Quelques propriétés de la matrice « chapeau » 6 l La matrice « chapeau » est symétrique, idempotente et satisfait les propriétés suivantes: l On rappelle que la matrice « chapeau » est une matrice de projection dans l’espace colonne de la matrice de design. STT-2400; Régression linéaire

Autres propriétés de la matrice « chapeau » 7 l Rappel: l La matrice

Autres propriétés de la matrice « chapeau » 7 l Rappel: l La matrice de design: l Ainsi: l Prenant la trace de H: STT-2400; Régression linéaire

Matrice « chapeau » et leviers l On rappelle les deux relations suivantes: l

Matrice « chapeau » et leviers l On rappelle les deux relations suivantes: l On déduit que les hii satisfont les relations: Remarque: Ce ne sont pas les meilleures bornes. Il peut être montré que: l l 8 Le nombre r dans la relation précédente est le nombre de lignes de la matrice de design identiques à xi. STT-2400; Régression linéaire

Interprétation des hii l l 9 Si un hii est grand et proche de

Interprétation des hii l l 9 Si un hii est grand et proche de un, il en ressort que la variance du ième résidu sera proche de zéro. Si il ressort que le ième résidu est une v. a. dégénérée, essentiellement une constante. Or Ainsi si hii approche un, le ième résidu sera proche de zéro, quelque soit la valeur de la variable réponse pour l’observation i. On dit que hii est un levier de l’observation i. STT-2400; Régression linéaire

Les leviers comme des mesures de distance l Il faut retenir qu’habituellement, si une

Les leviers comme des mesures de distance l Il faut retenir qu’habituellement, si une observation possède un grand hii, alors le préviseur xi sera inhabituel. Dans un modèle avec ordonnée à l’origine, il peut être montré que: l La matrice Z est celle du modèle centré, et Le second terme du membre de droite de la relation précédente est l’équation d’un ellipsoïde centré à l 10 STT-2400; Régression linéaire

Seuils recommandés pour les leviers 11 l On rappelle la relation: l Compte tenu

Seuils recommandés pour les leviers 11 l On rappelle la relation: l Compte tenu du résultat précédent, Belsey, Kuh et Welsch (1980, p. 17), suggèrent que chaque observation ayant un levier supérieur à 2(p+1)/n devrait être déclarée influente et examinée attentivement. STT-2400; Régression linéaire

Comportement des résidus lorsque le modèle est correct l l l 12 Graphique des

Comportement des résidus lorsque le modèle est correct l l l 12 Graphique des résidus versus les valeurs prédites: on devrait retrouver un « graphique nul » (moyenne constante de zéro, variance constante, pas de points isolés). Graphique des résidus versus les préviseurs (ou des combinaisons linéaires des préviseurs): on devrait retrouver des « graphiques nuls » . Remarques: Puisque même lorsque le modèle est correct, la fonction variance basée sur les résidus n’est jamais parfaitement constante. De plus, les résidus sont corrélés, mais cette corrélation est habituellement non importante et non visible dans les graphiques de résidus. STT-2400; Régression linéaire

Comportement des résidus lorsque le modèle n’est pas correct l l l 13 De

Comportement des résidus lorsque le modèle n’est pas correct l l l 13 De manière générale, si le modèle ajusté repose sur des hypothèses qui ne sont pas justes, on s’attend à retrouver des graphiques qui ne seront pas des « graphiques nuls » . En régression linéaire simple, il est facile de distinguer les situations où la variance n’est pas constante des situations où la fonction moyenne est mal spécifiée. Il faut rester prudent en régression linéaire multiple, car un motif dans le graphique des résidus ne correspond pas nécessairement à un problème particulier dans les hypothèses. Un « graphique non nul » indique qu’il y a un problème, mais ne dit pas nécessairement la source du problème. STT-2400; Régression linéaire

Graphique des résidus en régression linéaire simple et multiple l Les graphiques des résidus

Graphique des résidus en régression linéaire simple et multiple l Les graphiques des résidus dans un contexte de régression linéaire multiple peuvent s’interpréter comme en régression linéaire simple si deux conditions sont satisfaites: – – 14 Les préviseurs doivent être reliés de manière linéaire, au moins approximativement; Pour une certaine fonction g, la fonction moyenne doit être de la forme: STT-2400; Régression linéaire

Diagnostics de régression avec SAS l l l 15 Avec la procédure PROC REG,

Diagnostics de régression avec SAS l l l 15 Avec la procédure PROC REG, la ligne de commande: MODEL Y = X 1 X 2 … Xp / R P INFLUENCE; L’option « / R » demande une analyse des résidus. L’option « / P » demande le calcul des valeurs prédites. L’option « / INFLUENCE » calcule (entre autres) les leviers. STT-2400; Régression linéaire