Cursus Regressieanalyse Rijkswaterstaat 13 februari ASSUMPTIES 1 Transparanten
Cursus Regressie-analyse Rijkswaterstaat, 13 februari ASSUMPTIES (1) Transparanten beschikbaar gesteld door Dr. B. Pelzer
Regressie-analyse Residuen analyse, deel 1 ● vier assumpties ● doelstelling residuen analyse ● fit en invloed van 1 individu
Assumptie 1 residuen Gemiddeld 0 voor elke (combinatie van) X waarde(n): E(e | X ) = 0 gemiddelde van Y in populatie = voorspelde Y door model !! Assumptie geschonden als relatie niet lineair of als predictor ontbreekt Y Y X 3 ok X 3 niet ok 3
Assumptie 2 residuen Hangen onderling niet samen: autocorrelatie(ei, ej) = 0 onveiligheid Assumptie geschonden als predictor ontbreekt of als relatie niet lineair Y wijk 0 wijk 1 X leeftijd onveiligheid = b 0 + b 1 leeftijd residuen van 2 personen uit zelfde wijk correleren positief niet ok Y = b 0 + b 1 X residuen van 2 personen met zelfde X correleren positief niet ok 4
Assumptie 3 residuen Variantie even groot bij elke (combinatie van) X waarde(n): var (e | X) = σ2 Assumptie geschonden als variantie in Y samenhangt met X heteroscedasticiteit inkomen conservatisme homoscedasticiteit opleiding ok opleiding niet ok WLS in plaats van OLS 5
Assumptie 4 residuen Normaal verdeeld bij elke (combinatie van) X waarde(n): e | X ~ N (0, σ2 ) σ 6
Assumptie 4 residuen, vervolg Assumptie e | X ~ N (0, σ2) geschonden als • Y scheef verdeeld, bijv. inkomen op dia 3 rechts • predictor ontbreekt, zie hieronder Interesse = b 0 + b 1 Salaris + e Histogram residuen bij salaris=10 7
Doel residuen analyse 1 Globale evaluatie model • belangrijke variabelen niet in model? • relatie Y met X lineair? 2 Rol individuele cases achterhalen • cases die slecht 'passen'? • cases die de - schattingen sterk bepalen? Zinvol als N niet groot: vuistregel N < 500 3 Geloofwaardigheid toetsresultaten controleren • heteroscedasticiteit? • residuen normaal verdeeld? 8
Ad doel 2: residuen en daaruit afgeleide maten Naam Spss Doel residual resid absolute grootte van ei standardized residual zresid relatieve grootte van ei studentized residual sresid relatieve grootte van ei studentized deleted residual sdresid past individu i goed bij de overige individuen? Cook's distance cook - ligging in X ruimte - invloed op eigen fit - invloed op ‘s centered leverage lever - ligging in X ruimte - invloed op eigen fit leverage Mahalanobis distance - zie centered leverage mahal zie centered leverage fit invloed 9
Centered Leverage, Spss: Lever Cent. Leverage van persoon i: - ligging van persoon i in X ruimte - invloed op eigen fit Y-score persoon i irrelevant voor cent. leverage! Ondergrens = 0 als Bovengrens = (n-1) / n als voor alle predictoren extreem voor alle predictoren X C. lever 10 1 9 2 8 3 7 4 6 5 . 245. 148. 076. 027. 003 X C. lever 15. 540 1. 167 2. 107 9. 060 3. 060 8. 027 4. 027 7. 007 5. 007 6. 000 X C. lever 50. 871 1. 038 2. 030 3. 022 4. 016 5. 011 6. 007 7. 003 8. 001 9. 000 1
Centered Leverage (vervolg) en Leverage Als Centered Leverage van persoon i “groot” vuistregel > (2 p+1)/n dan • waarde(n) X extreem groot en/of klein en als gevolg hiervan • • dicht bij nul, vaak: andere Leverage = dicht bij dus grote invloed eigen fit 's na verwijderen van individu i h = centered leverage + 1/n Ondergrens = 1/n “Groot” als > (2 p+2)/n Bovengrens = 1 1
Waarde van X’en en variantie van |X Stel populatie-data: Steekproef y (A) Trek 10 cases, 1 per X waarde 20 10 V V V V V 0 x 1 2 3 4 5 (B) Bepaalx Herhaal (A) en (B) 1000 maal en bereken var( ) t/m var( 6 7 8 9 10 x t/m ) var(ê) Conclusie: hoe extremer X des te kleiner de variantie van de 1000 x 's, des te beter de 'fit' 12
Standardised en Studentised Residual 50 conserva ei = 11. 2 = 1. 6 σ σ=7 absoluut 0 relatief leeftijd 13
Gebruik van Studentised Residual in een steekproef Steekproef: Gebruik sresid voor: • vergelijken fouten van individuen met verschillende X • controleren normaal verdeeld zijn residuen als ware e 's in populatie normaal verdeeld dan sresid in steekproef t-verdeeld (bijna normaal bij grote N!) • controleren homoscedasticiteit 14
Voorbeeld met resid, zresid en sresid regression /dependent Y /enter X /residuals outliers(resid zresid sresid) id(X). zresid sresid 15
Past case i in het plaatje c. q. past case i bij de andere cases? residual deleted residual van case i spss: dresid i sdresid Als ware e 's normaal verdeeld dan sdresid t-verdeeld Toets H 0: case i is geen "outlier" Kritieke waarden in bijlage 4. 1 dictaat 16
Heeft case i te veel invloed op de b's? Cook's Distance gebaseerd op verschil: C A B regression /dependent y /enter x /residuals outliers(cook) id(x). (output hoort bij data in plotje dia 15) 17
- Slides: 17