Cursus Regressieanalyse Rijkswaterstaat 13 februari Enkelvoudige regressieanalyse Transparanten

Cursus Regressie-analyse Rijkswaterstaat, 13 februari Enkelvoudige regressie-analyse Transparanten beschikbaar gesteld door Dr. B. Pelzer

• geographer, meteorologist, tropical explorer, founder of differential psychology, inventor of fingerprint identification, convinced hereditarian, eugenicist, proto-geneticist, half-cousin of Charles Darwin and best-selling author, friend of Karl Pearson, pioneer of statistical correlation and regression • Stichtte Eugenics Education Society in 1907 • Uitvinder van woord "regression" toen: "regression to mediocrity" = "terugval naar de middenmoot" 1822 - 1911 nu: "regression" = "terugvoeren op", "herleiden tot" 2

Regressie van een kenmerk Y op een of meer andere kenmerken X Y afhankelijke variabele, dependent variable X onafhankelijke variabele, independent variable, verklarende variabele, predictor Sterk punt: Y terugvoeren op meer dan één kenmerk X • • inkomenshoogte terugvoeren op opleiding en geslacht sociaal kapitaal terugvoeren op leeftijd en internetgebruik Interpretatie: invloed van X 1 op Y onder controle van X 2 invloed van X 1=internetgebruik op Y=sociaal kapitaal Y onder controle van X 2=leeftijd d. w. z. voor mensen van gelijke leeftijd Causaliteit 3

Varianten regressie analyse in deze cursus Y interval, één X interval • Y = onveiligheidsgevoelens X 1 = leeftijd simpele regressie Y interval, meerdere X interval • Y = onveiligheidsgevoelens X 1 = leeftijd X 2 = uren misdaad kijken tv Y interval, één of meer X nominaal • Y = onveiligheidsgevoelens X 1 = krant die men leest X 2 = favoriete tv programma multipele regressie Y interval, sommige X nominaal, andere X interval • Y = onveiligheidsgevoelens X 1 = krant die men leest X 2 = leeftijd Y dichotoom, sommige X nominaal, andere X interval • Y = wel / niet veilig = 0 of 1 X 1 = krant die men leest X 2 = leeftijd logistische regressie 4

Perfecte lineaire samenhang van Y met X: deterministisch model Y = afgelegde afstand Y = hartslag 40 30 20 150 10 70 0 1 2 3 4 5 6 7 8 X=uren bij 5 km/u wandelsnelheid geldt: Y = b 1 X = 5 X 0 10 15 20 X=loopsnelheid hartslag = b 0 + b 1 loopsnelheid als loopsnelheid=20 dan hartslag = 70 + 4 * 20 = 150 Algemene gedaante deterministisch lineaire regressie model: intercept regressie coëfficiënt, effect, slope 5

Interpretatie van de parameters b 0 en b 1 Y b 0 = waarde van Y als X = 0 b 1 1 b 1 = verandering in Y als X één eenheid stijgt b 0 0 1 2 3 4 X Relatie Y = b 0 + b 1 X is deterministisch: alle observaties exact op lijn Deterministisch model (meestal) niet plausibel in sociale wetenschappen 6

Lineaire niet perfecte samenhang van Y met X: probabilistisch model Y= onveilig 0 1 2 3 4 5 6 7 8 9 X = uren tv Regressiemodel: structurele deel = toevallige deel, fout, error, residu gemiddelde Y waarde bij specifieke X waarde verzamelbak van onbekende en/of onmeetbare invloeden op Y 7

Voorwaarden waaraan de toevallige fouten ei moeten voldoen 1. gemiddeld 0 voor elke waarde van X 2. onafhankelijk voor verschillende personen 3. zelfde standaardafwijking bij elke X waarde: s (sigma) 4. normaal verdeeld bij elke X waarde onveilig uren tv 3 8 uren tv 8

Waarom voorwaarde “ei gemiddeld 0 voor elke X-waarde”? Dan is relatie tussen Y en X Voorbeeld waarbij dat niet het geval is. lineair inkomen Bij leeftijd=18: alle punten onder de lijn dus alle leeftijd 18 Bij leeftijd=35: 35 alle punten boven de lijn dus alle Aan voorwaarde 1 is boven niet voldaan want relatie is niet lineair Aan voorwaarde 2 is boven niet voldaan want … 9

Waarom kiest men vaak voor een lineair model? • interpretatie eenvoudig • robuust: andere steekproef, bijna zelfde resultaten • in sociale wetenschappen vooral globale conlusies • handige basis voor allerlei niet lineaire modellen 10

Schatten van b 0 en b 1 via "kleinste kwadraten" (OLS=ordinary least squares) Regressielijn zo kiezen dat zo dicht mogelijk bij 0 ligt verwachte / voorspelde Y waarde van persoon i • maat voor spreiding van punten rond regressielijn • “gemiddelde” fout van model (spss: std. error of the estimate) • “gemiddelde” afstand van punten tot de regressielijn "hoe kleiner hoe fijner" 11

Hoe goed past het model bij de data? observatie voorspelling gemiddelde Totale variatie van Y (total sum of squares, SSY) bestaat uit: • onverklaard deel (residual sum of squares, RSS) • door model verklaard deel (sum of squares regression, SSR) Verhouding SSR / SSY noemt men "proportie verklaarde variantie“ of "determinatie coëfficiënt" 12

Minimale en maximale waarde van proportie verklaarde variantie geen invloed van X op Y proportie = 0 want perfecte relatie van X op Y proportie = 1 want Proportie verklaarde variantie heet ook R-kwadraat, R-square, R 2 13

Familie van de proportie verklaarde variantie: (Pearson) correlatie r Maat voor lineaire samenhang tussen 2 variabelen r=0 r = 0. 7 r=1 r = -0. 7 r = 0. 9 r=0 r = -0. 9 r = 0. 9 r 2 (X, Y) = proportie verklaarde variantie = R 2 belangrijke eigenschap van r en dus ook van R 2 r (X, Y) = r ( X+7, Y-8 ) = r ( 3 X+7, 0. 2 Y-8 ) 14

Is er echt invloed van X op Y of is dit steekproeftoeval? leeftijd 20 25 30 35 40 45 50 55 60 onveilig 20 15 60 55 25 40 80 60 70 We doen alsof er in werkelijk geen invloed van leeftijd is: Als dat klopt volgt een t verdeling met n-2 vrijheidsgraden (df) standaard error van geschatte variatie in : waarden van oneindig veel steekproeven 15

Gebruik van de t verdeling om te toetsen H 0 : b 1 = 0 t verdeling met df = 7 populatie volgens H 0 : b 1 = 0 t - trek oneindig veel steekproeven (n=9) - bereken voor elke steekproef - maak histogram van alle t waarden Toets recept Stel voor jouw steekproef is t = 1. 5 Bereken met spss de Sig(nificantie) van t: kans dat t > 1. 5 + kans dat t < -1. 5 Als Significantie < 0. 05 dan verwerp H 0 ten gunste van H 1 : b 1 ≠ 0 16

regression dependent onveilig / enter leeftijd proportie verklaarde variantie - “gemiddelde” fout van model - “gemiddelde” afstand tot regr. lijn RSS SSR SSY = RSS + SSR R-square = RSS / SSY std. error van significantie (2 -zijdig!) 17