Repetition likelihood ratio test Test af hvorvidt faktorer

  • Slides: 18
Download presentation
Repetition: likelihood ratio test • Test af hvorvidt faktorer med flere end 2 niveauer

Repetition: likelihood ratio test • Test af hvorvidt faktorer med flere end 2 niveauer (mere end 1 parameter) kan udelades fra model: likelihood ratio test. • Likelihood: sandsynlighed for at observere data anskuet som en funktion af de ukendte parametre. • Maximum likelihood estimater: de parameterværdier, som maximerer likelihood-funktionen. • Jo større likelihood des bedre passer model til data.

 • sammenlign maximal likelihood L 0 for model uden faktor med maximal likelihood

• sammenlign maximal likelihood L 0 for model uden faktor med maximal likelihood L 1 for model indeholdende faktoren. • Likelihood ratio L 0/L 1 mindre end 1 og L 0/L 1 lille det samme som -2 (log L 0 - log L 1) stor. • Dvs. store værdier af -2 (log L 0 - log L 1) kritiske for H 0.

Eksempel: coronary heart disease Tilpasser logistisk regression med separat sandsynlighed for chd i hver

Eksempel: coronary heart disease Tilpasser logistisk regression med separat sandsynlighed for chd i hver aldersgruppe. NB: -2 log likelihood for null model og aktuelle model NB: agrp signifikant

Goodness of fit • Goodness of fit test: H 0: “aktuel model passer”. •

Goodness of fit • Goodness of fit test: H 0: “aktuel model passer”. • Deviance -2 (log L 0 -log L 1) : sammenligner L 0: maximal likelihood under aktuelle model med L 1: maximal likelihood for “mættet” model. NB: i dette tilfælde er mættet model=aktuel model dvs. Pearson og Deviance er begge nul.

Model med age som covariate ? Husk: parameterestimater giver logit(p) ! Ex (agrp=5): logit(p

Model med age som covariate ? Husk: parameterestimater giver logit(p) ! Ex (agrp=5): logit(p 5)=1. 946 -2. 1=-0. 154 dvs. p 5=0. 462 Jvf. plots sidste gang kunne det se ud som logit(p) lineær funktion af alder.

Age som covariate NB: odds ratio når alder øges 1 år: exp(0. 11)=1. 117

Age som covariate NB: odds ratio når alder øges 1 år: exp(0. 11)=1. 117 NB: her stemmer wald og likelihood ratio overens.

Goodness of fit test ikke signifikant – ikke evidens mod aktuelle model. Pas på:

Goodness of fit test ikke signifikant – ikke evidens mod aktuelle model. Pas på: mange grupper med kun 1 observation… kan gøre goodness of fit testet upålideligt.

Model med agrp eller age bedst ? • - 2 log likelihood med agrp:

Model med agrp eller age bedst ? • - 2 log likelihood med agrp: 20. 83 • - 2 log likelihood med age: 58. 72 • Men forskellig gruppering (finere gruppering med age!) • - 2 loglikelihood med agrp og samme gruppering som for age: 57. 985

Akaikes Informations Kriterie (AIC) • • AIC= - 2 log likelihood + 2 *

Akaikes Informations Kriterie (AIC) • • AIC= - 2 log likelihood + 2 * antal parametre Antal parametre: modellens kompleksitet - 2 log likelihood: modellens fit Jo mindre AIC des bedre (godt fit og lille kompleksitet) • AIC for agrp model: 57. 985+2*8 • AIC for age model: 58. 72+2*2 • Dvs model med age som covariate er at foretrække !

Regressions-modeller: opsummering • • Typer af variable Lineær/multipel regression Logistisk regression Eksempel

Regressions-modeller: opsummering • • Typer af variable Lineær/multipel regression Logistisk regression Eksempel

Respons/afhængig variabel • Kontinuert/kvantitativ: lineær/multipel regression. • Kategorisk/binær: logistisk regression Valg af model afhænger

Respons/afhængig variabel • Kontinuert/kvantitativ: lineær/multipel regression. • Kategorisk/binær: logistisk regression Valg af model afhænger af responsvariablen !

Multipel regression • Modellerer den forventede værdi af observationerne: NB: forklarende variable kan både

Multipel regression • Modellerer den forventede værdi af observationerne: NB: forklarende variable kan både være kategoriske (faktorer) og kontinuerte (kovariater) NB: likelihood ratio tests kaldes F-tests !

Logistisk regression • Respons y er binomial fordelt. Modellerer logit til sandsynlighedsparameteren: NB: forklarende

Logistisk regression • Respons y er binomial fordelt. Modellerer logit til sandsynlighedsparameteren: NB: forklarende variable kan både være kategoriske (faktorer) og kontinuerte (kovariater)

Eksempel: prestige score for arbejde • Sociologisk studie fra USA • Undersøge respondents arbejdsprestige

Eksempel: prestige score for arbejde • Sociologisk studie fra USA • Undersøge respondents arbejdsprestige scores afhængighed af alder og race og køn.

Nogle plots

Nogle plots

Model med age som kategorisk • Danner kategorisk age-variabel: <=40, 40< og <=60, >60

Model med age som kategorisk • Danner kategorisk age-variabel: <=40, 40< og <=60, >60 • Slutmodel (efter trinvis modelselektion): sex+race*sex

Profil plot

Profil plot

Residual plot Checker om fejl er normalfordelte: Normalfordeling rimelig approximation.

Residual plot Checker om fejl er normalfordelte: Normalfordeling rimelig approximation.