Anvendt Statistik Lektion 9 Variansanalyse ANOVA 1 Undersge

  • Slides: 38
Download presentation
Anvendt Statistik Lektion 9 Variansanalyse (ANOVA) 1

Anvendt Statistik Lektion 9 Variansanalyse (ANOVA) 1

Undersøge sammenhæng n n n Undersøge sammenhænge mellem kategoriske variable: q c 2 -test

Undersøge sammenhæng n n n Undersøge sammenhænge mellem kategoriske variable: q c 2 -test i kontingenstabeller Undersøge sammenhæng mellem kontinuerte variable: q Multipel eller simpel lineær regression. Undersøge forskellen i middelværdi for to grupper Denne gang: Sammenligne middelværdier i mere end to grupper q Metode: Variansanalyse (ANalysis Of VAriance) q Eksempel: Er der forskel i middelløn for tre grupper 2

ANOVA: Setup n n n Vi har q g grupper q Dvs. hvis vi

ANOVA: Setup n n n Vi har q g grupper q Dvs. hvis vi vil sammenligne tre grupper, så er g = 3 De g grupper har middelværdierne q m 1, m 2, …, mg q Dvs. m 1 er middelværdi for gruppe 1, osv. Variansanalyse er et F-test af q H 0: m 1 = m 2 = mg (ens middelværdier) q Ha: Mindst en middelværdi skiller sig ud 3

Antagelser n Antagelser for at F-testet i ANOVA er gyldigt: q Hver af de

Antagelser n Antagelser for at F-testet i ANOVA er gyldigt: q Hver af de g grupper er normalfordelte q Standardafvigelsen, s, er den samme for alle grupper q De g stikprøver er uafhængige s m 1 m 2 m 3 4

Hypotese og Fortolkning n Variansanalyse er et F-test af q H 0: m 1

Hypotese og Fortolkning n Variansanalyse er et F-test af q H 0: m 1 = m 2 = mg (ens middelværdier) q Ha: Mindst en middelværdi skiller sig ud n Fortolkning: Hypoteserne har følgende fortolkning q H 0: Ingen effekt af den forklarende variabel q Ha: Den forklarende variabel har en effekt n Hvis vi afviser H 0, så kan årsagen fx være at n Én gruppe skiller sig ud n Alle grupper har forskellige middelværdier 5

Eksempel: Politisk Ideologi n n Hver af 943 personer har angivet: Parti q Demokrat,

Eksempel: Politisk Ideologi n n Hver af 943 personer har angivet: Parti q Demokrat, Uafh. , Republikaner Politisk ideologi q Heltal fra 1 til 7 Opsummering af data: SPSS: Analyze → Compare Means → Means SPSS: Chart builder: Histogram + Groups/Point ID → Rows panel variable 6

Mærkeligt navn… n n n Hvorfor hedder det variansanalyse, når det handler om at

Mærkeligt navn… n n n Hvorfor hedder det variansanalyse, når det handler om at sammenligne middelværdier? ? ? Case 1 Case 2 Case 1: Tydelig forskel i middelværdi! Case 2: Ikke så tydeligt… n De tre middelværdier er de samme i begge cases!! n Forskellen: Vi sammenligner variationen af middelværdien med variationen i hver af de tre grupper. Derfor hedder det variansanalyse 7

F-testet: Forhold af variansestimater Notation: n gennemsnittet i i’te gruppe q gennemsnittet af alle

F-testet: Forhold af variansestimater Notation: n gennemsnittet i i’te gruppe q gennemsnittet af alle data F-teststørrelsen er q n n n Variansestimater: Between-groups: Baseret på variationen i ’erne (omkr. q Er et unbiased estimat af s 2, hvis H 0 er sand. Within-groups: Baseret på variationen i grupperne. q Er altid et unbiased estimat af s 2! Hvis H 0 er falsk, har F tendens til at være stor. ). 8

Eksempel n n SPSS: Analyze → Comapre Means → One. Way ANOVA H 0

Eksempel n n SPSS: Analyze → Comapre Means → One. Way ANOVA H 0 afvises – der er en forskel i middelværdierne. Between-Groups variansestimat P-værdi Within-Groups variansestimat F = 25, 547 9

Sammenligninger af mange middelværdier n Antag vi har afvist H , dvs. middelværdierne er

Sammenligninger af mange middelværdier n Antag vi har afvist H , dvs. middelværdierne er forskellige. 0 n Spørgsmål: Hvilken middelværdi skiller sig ud? Ide: Udregn konfidensintervaller forskellen i middelværdi for alle par af middelværdier: n Et konfidensinterval for mi – mj er n t har df = N – g frihedsgrader. n 10

Eksempel n Find et 95% konfidensinterval forskellen i middel ideologi for demokrater og republikanere:

Eksempel n Find et 95% konfidensinterval forskellen i middel ideologi for demokrater og republikanere: Demokrater: , n 1 = 340. Republikanere: , n 3 = 290. n 95% konfidensinterval for m 3 - m 1: n Dvs. vi er 95% sikre på at forskellen er mellem 0. 51 og 1. 12. n n 11

Mange sammenligninger n n Har vi g = 10 grupper laver vi g(1 -g)/2

Mange sammenligninger n n Har vi g = 10 grupper laver vi g(1 -g)/2 = 45 parvise sammenligninger fx vha. 95% konfidensintervaller. Hvert konfidensinterval vil isoleret set indeholde den sande forskel med 95% sikkerhed. Derimod vil de 45 intervaller typisk ikke alle samtidigt indeholde den sande værdi med 95% sikkerhed! Løsning: Bonferroni sammenligning q Antag vi har g = 4 grupper, dvs. 6 sammenligninger. q I stedet for (1 - a)100% = 95% konfidensintervaller (a = 5%), så bruger vi (1 - a/6)100% = 99. 2% konfidensintervaller. q Dette sikre at konfidensniveauet er mindst 95%. 12

Eksempel: Bonferroni n Forskellen mellem demokrater og republikanere: g = 3, dvs. 3(3 -1)/2

Eksempel: Bonferroni n Forskellen mellem demokrater og republikanere: g = 3, dvs. 3(3 -1)/2 = 3 sammenligninger. Så vi skal bruge a = 0, 05/3 = 0, 017. n I SPSS vælger man Bonferroni under ’Post-hoc’ n n 13

Variansanalyse og Regression n Vi kan formulere en variansanalyse som en multipel lineær regression!

Variansanalyse og Regression n Vi kan formulere en variansanalyse som en multipel lineær regression! Det kræver vi indfører såkaldte dummy-variable. Eksempel: Vi har g = 3 grupper q Vi indfører to dummy variable z 1 og z 2, der indikerer om en observation tilhører hhv. gruppe 1 eller 2. q Obs. grp. z 1 = z 2 = 1 1 0 2 0 1 3 0 0 Dvs. for en observation fra gruppe 2 har vi z 1 = 0 og z 2 = 1. 14

Regressionsmodel n Vi kan nu formulere en multipel lineær regressionsmodel: E[y] = a +

Regressionsmodel n Vi kan nu formulere en multipel lineær regressionsmodel: E[y] = a + b 1 z 1 + b 2 z 2 n For gruppe 1 har vi z 1 = 1 og z 2 = 0 dvs. E[y] = a + b 1· 1 + b 2· 0 = a + b 1 = m 1 n For gruppe 2 har vi z 1 = 0 og z 2 = 1 dvs. E[y] = a + b 1· 0 + b 2· 1 = a + b 2 = m 2 n For gruppe 3 har vi z 1 = 0 og z 2 = 0 dvs. E[y] = a + b 1· 0 + b 2· 0 = a = m 3 15

Fortolkning n Vi kan nu formulere en multipel lineær regressionsmodel: E[y] = a +

Fortolkning n Vi kan nu formulere en multipel lineær regressionsmodel: E[y] = a + b 1 z 1 + b 2 z 2 Gruppe z 1= z 2= Middelv. for y Fortolkning af b 1 1 0 m 1 = a + b 1 = m 1 - m 3 2 0 1 m 2 = a + b 2 = m 2 - m 3 3 0 0 m 3 = a n a kan fortolkes som middelværdien for gruppe 3 n (referencegruppen) b 1 og b 2 kan fortolkes som forskelle i middelværdien for hhv. gruppe 1 og 2 i forhold til referencegruppen (gruppe 3) 16

Estimation n SPSS: Analyze → General Linear Model → Univariate Under options vælg ’Parameter

Estimation n SPSS: Analyze → General Linear Model → Univariate Under options vælg ’Parameter estimates’ Output: a b 1 b 2 n Estimerede model: n Dvs. den estimerede middelværdi for gruppe 1 er: 17

Hypotesetest i Regressionsmodel n n I multipel lineær regression udførte vi et F-test af

Hypotesetest i Regressionsmodel n n I multipel lineær regression udførte vi et F-test af hypotesen: q H 0: b 1 = b 2 = 0 q Ha: mindst et b j 0 Fortolkningen af H 0: Alle grupper har samme middelværdi. n Det svarer præcist til F-testet i ANOVA q H 0: m 1 = m 2 = m 3 q Ha: Mindst et mj skiller sig ud. n Dvs. der er intet tabt ved at bruge regressionsformuleringen. 18

Hypotesetest i SPSS n SPSS: Analyze → General Linear Model → Univariate n Bemærk:

Hypotesetest i SPSS n SPSS: Analyze → General Linear Model → Univariate n Bemærk: Resultat er præcist som når vi bruger One-Way ANOVA funktionen i SPSS. 19

To-sidet Variansanalyse (Two-Way ANOVA) n Indtil nu: Hvordan middelværdien for én kontinuert variabel (Ideologi)

To-sidet Variansanalyse (Two-Way ANOVA) n Indtil nu: Hvordan middelværdien for én kontinuert variabel (Ideologi) afhænger af én kategorisk variabel (Parti ID): Ensidet variansanalyse. n Vi vil nu se på, hvordan én kontinuert variabel afhænger af to kategorisk variabel Eksempel: Ideologi forklaret ved Parti ID og køn n n SPSS: Compare Means → Means… Tilføj Party. ID og Gender i hvert sit ”Layer” 20

Mange middelværdier i spil n I eksemplet er der 2· 3 = 6 celler

Mange middelværdier i spil n I eksemplet er der 2· 3 = 6 celler i spil, med hver deres middelværdi: Party ID Gender n n Democrat Independent Republican Female m. FD m. FI m. FR Male m. MD m. MI m. MD En to-sidet variansanalyse handler om at undersøge, hvordan de to forklarende variable (Party ID og Gender) påvirker disse middelværdier. Der er to slags effekter: q Hovedeffekter: Isoleret effekten af en forklarende variabel q Vekselvirkningseffekt: Effekten af en variabel påvirkes af en anden variabel. 21

ANOVA model uden vekselvirkning Ideologi Fortolkninger: 1. Effekten af køn er den samme for

ANOVA model uden vekselvirkning Ideologi Fortolkninger: 1. Effekten af køn er den samme for alle Parti ID 2. Effekten af Parti ID er den samme for begge køn. Mand Kvinde Parti ID Demokrat Uafh. Republikaner

ANOVA kun med hovedeffekt A Ideologi Fortolkning: Kun hovedeffekt A (Parti ID) har en

ANOVA kun med hovedeffekt A Ideologi Fortolkning: Kun hovedeffekt A (Parti ID) har en betydning for Ideologi. Mand/ Kvinde Parti ID Demokrat Uafh. Republikaner

ANOVA kun med hovedeffekt B Ideologi Fortolkning: Kun hovedeffekt B (Køn) har en betydning

ANOVA kun med hovedeffekt B Ideologi Fortolkning: Kun hovedeffekt B (Køn) har en betydning for Ideologi. Mand Kvinde Parti ID Demokrat Uafh. Republikaner

ANOVA model med vekselvirkning Ideologi Fortolkning: Effekten af Parti ID afhænger af køn (og

ANOVA model med vekselvirkning Ideologi Fortolkning: Effekten af Parti ID afhænger af køn (og omvendt) Kvinde Mand Parti ID Demokrat Uafh. Republikaner

For data ser det sådan ud n n n Ikke meget tegn på vekselvirkning

For data ser det sådan ud n n n Ikke meget tegn på vekselvirkning Ikke meget tegn på effekt af køn En svag effekt af Party ID 26

Hypoteser og Antagelser n Antagelser: q Observationerne i hver celle er normalfordelte q Standardafvigelsen

Hypoteser og Antagelser n Antagelser: q Observationerne i hver celle er normalfordelte q Standardafvigelsen er konstant på tværs af celler n Vi tester hypoteser på formen q H 0: Ingen effekt af prediktor (=forklarene variabel) q Ha: Der er en effekt af prediktor n Generelt: Antag vi har to prediktore, A og B: Vi vil teste q Hovedeffekten af prediktor A q Hovedeffekten af prediktor B q Vekselvirkningseffekten ml. A og B. 27

Analyse-Strategi n Slagplanen minder om den for multipel lineær regression: n Først tester vi

Analyse-Strategi n Slagplanen minder om den for multipel lineær regression: n Først tester vi effekten af vekselvirkningen. n Er vekselvirkningen signifikant, så tester vi ikke mere. Det giver ikke mening at teste hovedeffekter, hvis der er en vekselvirkning. n Er vekselvirkningen ikke signifikant, så fjerner vi den fra modellen og tester de to tilbageværende hovedeffekter. 28

Hypoteser og Antagelser n Vi tester altså hypoteser på formen q H 0: Ingen

Hypoteser og Antagelser n Vi tester altså hypoteser på formen q H 0: Ingen effekt af prediktor q Ha: Der er en effekt af prediktor n Teststørrelsen er generelt på formen n Generelt gælder at n SPSS finder Sum of Squares og antal frihedsgrader (df). 29

Eksempel: Model uden I SPSS er vekselvirkning Vekselvirkning n taget med pr. default, så

Eksempel: Model uden I SPSS er vekselvirkning Vekselvirkning n taget med pr. default, så det skal der gøres noget ved. n n n Vælg ’Custom’ model. Vælg ’Main effects’ Overfør de to ’factors’ 30

SPSS: Resultat n n n H 0: Ingen effekt af køn Teststørrelse vs Ha:

SPSS: Resultat n n n H 0: Ingen effekt af køn Teststørrelse vs Ha: Der er en effekt af køn Konklusion: Da P-værdien > 0. 05 kan vi ikke afvise H 0. Igen effekt af køn. P-værdi F = 0. 784 31

Test af vekselvirkning n n n Vi spoler lige et trin tilbage. Antag at

Test af vekselvirkning n n n Vi spoler lige et trin tilbage. Antag at vi også inkluderer vekselvirkning i modellen: Enten skal man sikre sig at ’Full factorial’ er valgt: Alternativt kan man selv angive modellen med vekselvirkning: Marker både partyid og gender, vælg Interaction og før over. Vigtigt: Det er vigtig at man først overfører hovedeffekterne og derefter vekselvirkningseffketer: 32

SPSS: Resultat n n n H 0: Ingen effekt af vekselvirkning Teststørrelse P-værdi Konklusion:

SPSS: Resultat n n n H 0: Ingen effekt af vekselvirkning Teststørrelse P-værdi Konklusion: Da P-værdien > 0. 05 kan F = 1. 089 vi ikke afvise H 0. Igen effekt af vekselvirkning. 33

To-sidet variansanalyse og Regression Først skal vi definere to sæt dummy-variable: n q q

To-sidet variansanalyse og Regression Først skal vi definere to sæt dummy-variable: n q q n For Parti ID har vi to: p 1 og p 2 For Køn har vi en: s Party ID p 1 = p 2 = Gender s= Democrat 1 0 Female 1 Independent 0 1 Male 0 Republican 0 0 To-sidet variansanalysemodel uden vekselvirkning: 34

Fortolkning n Fortolkning af modellen: n Tabel over middelværdier ifølge modellen: E[y]=… Kvinde s

Fortolkning n Fortolkning af modellen: n Tabel over middelværdier ifølge modellen: E[y]=… Kvinde s = 1 Mand s = 0 n Demokrat p 1=1 p 2=0 Uafh. p 1=0 p 2=1 Republikaner p 1=0 p 2=0 a+b 1 +b 3 a+b 2 +b 3 a+b 1 a+b 2 a Bemærk: q b 1 og b 2 angiver effekten af at være hhv. Demokrat og Uafh. i forhold til at være Republikaner (referencen). q Effekten af Parti ID den samme for begge køn. q b 3 angiver effekt af Kvinde i forhold til Mand. 35

Estimation n Fra SPSS får vi: n Estimerede model: n Effekten af at være

Estimation n Fra SPSS får vi: n Estimerede model: n Effekten af at være Demokrat eller Uafh. i forhold til at være Republikaner er negativ. Effekten af Kvinde er negativ (i forhold til Mand). n 36

Model med vekselvirkning n To-sidet variansanalyse med vekselvirkning: n Som i multipel lineær regression

Model med vekselvirkning n To-sidet variansanalyse med vekselvirkning: n Som i multipel lineær regression er vekselvirkning opnået ved at gange de to variable sammen. E[y]=… Demokrat p 1=1 p 2=0 Uafh. p 1=0 p 2=1 Republikaner p 1=0 p 2=0 Kvinde s = 1 a+b 1 +b 3 +b 4 a+b 2 +b 3 +b 5 a+b 3 a+b 1 a+b 2 a Mand s = 0 n n n Bemærk at vi har 6 parametre og 6 celler. Det er muligt med denne model frit at tildele hver celle en middelværdi uafhængigt af de andre celler. Man kalder sådan en model mættet – det er ikke muligt at gøre den mere kompliceret. 37

Estimation n Den estimerede model: 38

Estimation n Den estimerede model: 38