Goodness of fit za generalizirani linearni model GLM

Generalizirani linearni modeli • Veličina za koju želimo ustanoviti ovisi li o drugim veličinima

Motivacija za GLM • npr. jednostavna linearna regresija zahtijeva ovisnost gdje su greške normalne

Komponente generaliziranih linearnih modela • Umjesto linearne veze između očekivanja odziva i kovarijata (kao

Komponente generaliziranih linearnih modela Pri tome je Drugim riječima, GLM se sastoji od 3

Procedura glm u R-u • Uz varijable odziva iz određenih distribucija obično dolaze za

Poziv procedure glm - primjer • Neka su dani podaci o pacijentima: imaju li

glm - summary Model je konvergirao (za maksimizaciju funkcije vjerodostojnosti koristi se numerička metoda)

Tumačenje podataka L – maksimalna vrijednost funkcije vjerodostojnosti

Tumačenje podataka • Saturirani (zasićeni) model – model s proizvoljno parametara koji bi mogao

Predikcija • Budući da su i kovarijate i odziv binomne varijable, ne možemo nacrtati

Goodness of fit • Opisuje koliko dobro statistički model odgovara skupu opažanja • Kod

Goodness of fit – prijedlog 1 • Zato ima smisla postupiti na sljedeći način

Goodness of fit – prijedlog 2 • Akaike information criterion (AIC) – mjera relativne

Goodness of fit – prijedlog 2 • Funkcija drop 1 analizira model pri izbacivanju

Drugi mogući oblici odziva i kovarijata • Primjer 2 (kod u R-u): Kad pretpostavimo

Slides: 18

Download presentation

Goodness of fit za generalizirani linearni model (GLM) Matea Galović

Generalizirani linearni modeli • Veličina za koju želimo ustanoviti ovisi li o drugim veličinima modelira se kao slučajna varijabla i zove se odziv (response) • Sve ostale veličine zovu se predviditelji ili kovarijate (predictors) • Kovarijate mogu biti numeričke (težina, visina) ili kategorijalne vrijednosti (spol, kategorija vozila) i proizvoljno velike dimenzije • Podatke koje želimo opisati tipično reprezentiramo kao niz parova gdje je realizacija sl. varijable , čija razdioba ovisi o kovarijatama

Motivacija za GLM • npr. jednostavna linearna regresija zahtijeva ovisnost gdje su greške normalne n. j. d. s očekivanjem 0 i varijancom , odnosno ekvivalentno • Ponekad želimo modelirati podatke s cjelobrojnim ili kategoričkim vrijednostima • Greške nisu uvijek normalno distribuirane

Komponente generaliziranih linearnih modela • Umjesto linearne veze između očekivanja odziva i kovarijata (kao u jed. lin. modelu): pretpostavljamo sljedeću vezu:

Komponente generaliziranih linearnih modela Pri tome je Drugim riječima, GLM se sastoji od 3 elementa:

Eksponencijalna familija

Procedura glm u R-u • Uz varijable odziva iz određenih distribucija obično dolaze za njih tipične i određene link funkcije (pritom u pozivu funkcije u R-u možemo birati između više mogućnosti)

Poziv procedure glm - primjer • Neka su dani podaci o pacijentima: imaju li hipertenziju ili ne, u ovisnosti o tome puše li, hrču li i jesu li pretili. • Varijabla odziva dolazi iz binomne razdiobe, što moramo naznačiti u pozivu • Dvostupčana matrica s podacima u ovisnosti o pripadnosti jednoj od 8 grupa (2*2*2 mogućnosti u ovisnosti o svakoj od 3 kovarijate) spremljena je u response • Poziv procedure: model=glm(response~pus+pret+hrk, family=binomial("logit"))

glm - summary Model je konvergirao (za maksimizaciju funkcije vjerodostojnosti koristi se numerička metoda)

Tumačenje podataka L – maksimalna vrijednost funkcije vjerodostojnosti

Tumačenje podataka • Saturirani (zasićeni) model – model s proizvoljno parametara koji bi mogao postići savršenu predikciju, tj. riješiti sustav Ipak, ne želimo “overfitting” – pretjerano prilagođavanje uzorku • Proposed model – model koji predlaže procedura glm • Null model – uzimamo slobodni član (tzv. “grand mean”)

Pouzdani intervali za koeficijente

Predikcija • Budući da su i kovarijate i odziv binomne varijable, ne možemo nacrtati lijep graf, no možemo izračunati predviđanja za dane vrijednosti kovarijata • Npr. vjerojatnost da osoba koja ne puši, nije pretila, ali hrče ima hipertenziju dana je sa: • Odnosno sažeto za sve kombinacije vrijednosti kovarijata:

Goodness of fit • Opisuje koliko dobro statistički model odgovara skupu opažanja • Kod jednostavne metode najmanjih kvadrata imamo Stvarni R^2 statistiku: odzivi Vrijednost koju predlaže model Aritmetička sredina odziva • Zato i kod GLM-a pokušavamo pronaći nešto slično. • Tumačenje: R^2=0. 7 znači da se 70% varijance u varijabli odziva može objasniti kovarijatama

Goodness of fit – prijedlog 1 • Zato ima smisla postupiti na sljedeći način i izračunati sljedeću veličinu: ØMc. Faddenov pseudo-R^2 • Naravno, možemo kao pokazatelj kvalitete modela promatrati i samu devijancu (residual deviance)

Goodness of fit – prijedlog 2 • Akaike information criterion (AIC) – mjera relativne kvalitete statističkog modela za dani skup podataka • Predstavlja način za usporedbu i odabir modela između više mogućih – ne govori ništa o kvaliteti modela u apsolutnom smislu • Preferirani model je onaj s manjom vrijednošću AIC • Nagrađuje “goodness of fit” (preko funkcije vjerodostojnosti), a penalizira povećanje broja procijenjenih parametara (varijabla k), čime se

Goodness of fit – prijedlog 2 • Funkcija drop 1 analizira model pri izbacivanju jedne po jedne varijable • Vidimo da je prema vrijednosti AIC najbolji model u kojem smo kao kovarijatu izbacili varijablu pus, iako je devijanca manja u modelu sa svim varijablama

Drugi mogući oblici odziva i kovarijata • Primjer 2 (kod u R-u): Kad pretpostavimo da je odziv iz Poissonove razdiobe, a kovarijate su faktori (pripadnosti grupama). • Primjer 3 (kod u R-u): Odziv je ponovno iz binomne razdiobe, ali imamo dvije kovarijate koje mogu imati međusobne utjecaje jedna na drugu.