Goodness of fit za generalizirani linearni model GLM
- Slides: 18
Goodness of fit za generalizirani linearni model (GLM) Matea Galović
Generalizirani linearni modeli • Veličina za koju želimo ustanoviti ovisi li o drugim veličinima modelira se kao slučajna varijabla i zove se odziv (response) • Sve ostale veličine zovu se predviditelji ili kovarijate (predictors) • Kovarijate mogu biti numeričke (težina, visina) ili kategorijalne vrijednosti (spol, kategorija vozila) i proizvoljno velike dimenzije • Podatke koje želimo opisati tipično reprezentiramo kao niz parova gdje je realizacija sl. varijable , čija razdioba ovisi o kovarijatama
Motivacija za GLM • npr. jednostavna linearna regresija zahtijeva ovisnost gdje su greške normalne n. j. d. s očekivanjem 0 i varijancom , odnosno ekvivalentno • Ponekad želimo modelirati podatke s cjelobrojnim ili kategoričkim vrijednostima • Greške nisu uvijek normalno distribuirane
Komponente generaliziranih linearnih modela • Umjesto linearne veze između očekivanja odziva i kovarijata (kao u jed. lin. modelu): pretpostavljamo sljedeću vezu:
Komponente generaliziranih linearnih modela Pri tome je Drugim riječima, GLM se sastoji od 3 elementa:
Eksponencijalna familija
Procedura glm u R-u • Uz varijable odziva iz određenih distribucija obično dolaze za njih tipične i određene link funkcije (pritom u pozivu funkcije u R-u možemo birati između više mogućnosti)
Poziv procedure glm - primjer • Neka su dani podaci o pacijentima: imaju li hipertenziju ili ne, u ovisnosti o tome puše li, hrču li i jesu li pretili. • Varijabla odziva dolazi iz binomne razdiobe, što moramo naznačiti u pozivu • Dvostupčana matrica s podacima u ovisnosti o pripadnosti jednoj od 8 grupa (2*2*2 mogućnosti u ovisnosti o svakoj od 3 kovarijate) spremljena je u response • Poziv procedure: model=glm(response~pus+pret+hrk, family=binomial("logit"))
glm - summary Model je konvergirao (za maksimizaciju funkcije vjerodostojnosti koristi se numerička metoda)
Tumačenje podataka L – maksimalna vrijednost funkcije vjerodostojnosti
Tumačenje podataka • Saturirani (zasićeni) model – model s proizvoljno parametara koji bi mogao postići savršenu predikciju, tj. riješiti sustav Ipak, ne želimo “overfitting” – pretjerano prilagođavanje uzorku • Proposed model – model koji predlaže procedura glm • Null model – uzimamo slobodni član (tzv. “grand mean”)
Pouzdani intervali za koeficijente
Predikcija • Budući da su i kovarijate i odziv binomne varijable, ne možemo nacrtati lijep graf, no možemo izračunati predviđanja za dane vrijednosti kovarijata • Npr. vjerojatnost da osoba koja ne puši, nije pretila, ali hrče ima hipertenziju dana je sa: • Odnosno sažeto za sve kombinacije vrijednosti kovarijata:
Goodness of fit • Opisuje koliko dobro statistički model odgovara skupu opažanja • Kod jednostavne metode najmanjih kvadrata imamo Stvarni R^2 statistiku: odzivi Vrijednost koju predlaže model Aritmetička sredina odziva • Zato i kod GLM-a pokušavamo pronaći nešto slično. • Tumačenje: R^2=0. 7 znači da se 70% varijance u varijabli odziva može objasniti kovarijatama
Goodness of fit – prijedlog 1 • Zato ima smisla postupiti na sljedeći način i izračunati sljedeću veličinu: ØMc. Faddenov pseudo-R^2 • Naravno, možemo kao pokazatelj kvalitete modela promatrati i samu devijancu (residual deviance)
Goodness of fit – prijedlog 2 • Akaike information criterion (AIC) – mjera relativne kvalitete statističkog modela za dani skup podataka • Predstavlja način za usporedbu i odabir modela između više mogućih – ne govori ništa o kvaliteti modela u apsolutnom smislu • Preferirani model je onaj s manjom vrijednošću AIC • Nagrađuje “goodness of fit” (preko funkcije vjerodostojnosti), a penalizira povećanje broja procijenjenih parametara (varijabla k), čime se
Goodness of fit – prijedlog 2 • Funkcija drop 1 analizira model pri izbacivanju jedne po jedne varijable • Vidimo da je prema vrijednosti AIC najbolji model u kojem smo kao kovarijatu izbacili varijablu pus, iako je devijanca manja u modelu sa svim varijablama
Drugi mogući oblici odziva i kovarijata • Primjer 2 (kod u R-u): Kad pretpostavimo da je odziv iz Poissonove razdiobe, a kovarijate su faktori (pripadnosti grupama). • Primjer 3 (kod u R-u): Odziv je ponovno iz binomne razdiobe, ali imamo dvije kovarijate koje mogu imati međusobne utjecaje jedna na drugu.
- First fit next fit best fit worst fit
- Memory allocation policy
- Chi square test goodness of fit
- Casinos are required to verify that their games
- Chi square goodness of fit p value
- Null
- Chi-square test of homogeneity
- F-test formula
- Uji goodness of fit adalah
- Multinomial goodness of fit
- Goodness of fit adalah
- Goodness of fit test ti 83
- Goodness of fit
- Linearni model
- Limit fit tolerance
- Person-job fit and person-organization fit
- Glm time
- Glm mat3 constructor
- Glm repeated measures