Univerzitet u Beogradu Filozofski fakultet STATISTIKA U PSIHOLOGIJI

Univerzitet u Beogradu Filozofski fakultet STATISTIKA U PSIHOLOGIJI 2 ANALIZA VIŠEDIMENZIONALNIH TABELA KONTIGENCIJE – LOGLINEARNI MODELI Oliver Tošković

Parametri i statistici • Parametar - statistička mera numeričke karakteristike populacije • Statistik - statistička mera numeričke karakteristike uzorka

Simpsonov paradoks (Appleton et al. 1996) Pušila Posle Umrla 20 god Živa 139 (23. 9%) 443 (76. 1%) Ukupno 582 (100%) Nije pušila 230 (31. 4%) 502 (68. 6%) 732 (100%) Ukupno 369 945 1314 χ2 = 9. 12, df = 1, p = 0. 003, Kramerov koeficijent V = 0. 08 Količnik šansi preživljavanja puše/ne puše = 1. 46!

Uzrast u vreme prvog ispitivanja? Uzrast u prvom ispitivanju % živih do 34 god. P: 97. 2% N: 97. 3% 35 do 44 god. P: 87. 2% N: 94. 2% 0. 42 45 do 64 god. P: 68. 2% N: 73. 9% P: 14. 3% N: 14. 5% 0. 76 preko 64 god. KŠ preživljavanja (puši / ne puši) 0. 98 0. 99 U svim uzrasnim kategorijama šanse preživljavanja pušača su manje nego za nepušače!

Simpsonov paradoks • Asocija 2 varijable ima drugačiji smer – ako se podaci grupišu neuzimanjem u obzir kategorija treće (skrivene) varijable ili – asocija se posmatra po pojedinim kategorijama treće varijable • Obazrivost pri spajanju tabela kontingencije po pojedinim kategorijama treće varijable, posebno kada su marginalne učestalosti bitno različite.

Dvodimenzionalne tabele – f su frekvence, a p ocene verovatnoća Q 2 Ukupno f 12 (p 11) f 13 (p 11) f 1+ (p 1+) Q 1 f 11 (p 11) f 22 (p 22) f 32 (p 32) f+2 (p+2) f 23 (p 23) fjk (pjk) f+k (p+k) f 2+ (p 2+) Ukupno f 21 (p 21) f 31 (p 31) f+1 (p+1) fj+ (pj+) n = f++ znak + umesto indeksa označava da se frekvence sabiraju po tom indeksu dok je drugi indeks fiksan. Npr: f+1 znači zbir frekvenci po redovima u koloni 1, a f 2+ znači zbir frekvenci u redu 2 po svim kolonama.

Trodimenzionalne tabele sloj 1 q 31 sloj 2 q 21 q 22 Total q 11 f 121 f 1+1 q 12 f 211 f 221 Total f+11 f+21 q 32 q 21 q 22 Total q 11 f 112 f 122 f 1+2 f 2+1 q 12 f 212 fjks fj+s f++1 Total f+12 f+ks f++s znak + umesto indeksa označava da se frekvence sabiraju po tom indeksu dok je drugi indeks fiksan. Npr: f+1 znači zbir frekvenci po redovima u koloni 1, a f 2+ znači zbir frekvenci u redu 2 po svim kolonama.

Trodimenzionalne tabele ozdravljenje terapija o 1 p 1 o 1 p 2 o 1 o 2 p 2 o 2 p 1 p 2 o 1 t 2 o 1 o 2 t 2 o 2 t 1 t 2 terapija pol ozdravljenje pol o 1 t 1 p 1 t 2 p 1 p 2 t 2 p 2 t 1 t 2

Statistička nezavisnost tri kategoričke varijable Ako je: pjks = pj++* p+k+ *p++s (j = 1, . . . , r; k = 1, . . . , c; s = 1, . . . , t) tada su varijable Q 1, Q 2 i Q 3 uzajamno statistički nezavisne – Verovatnoća kategorije (ćelije) jednaka proizvodu verovatnoća te kategorije na prvoj, drugoj i trećoj varijabli Uopštenje nezavisnosti dveju kategoričkih na slučaj sa tri varijable

Statistička nezavisnost tri kategoričke varijable: primer sloj 1 q 31 sloj 2 q 21 q 22 Tot. q 11 6 18 24 q 12 4 12 Tot. 10 30 q 32 q 21 q 22 Tot. q 11 9 27 36 16 q 12 6 18 24 40 Tot. 15 45 60 111 = n*p 1++*p+1+*p++1 = 100*0. 6*0. 25*0. 4=6; p 1++ = (24+36)/100 = 0. 6); p+1+ = (10+15)/100; p++1 = 40/100

Uslovna nezavisnost dveju kategoričkih varijabli po kategorijama treće varijable Ako je pjks = (pj+s* p+ks)/ p++s (j = 1, . . . , r; k = 1, . . . , c; s = 1, . . . , t) • tada su varijable Q 1 i Q 2 uslovno nezavisne po kategorijama varijable Q 3. • Verovatnoća kategorije (ćelije) jednaka proizvodu verovatnoća te ćelije na prvoj i trećoj sa verovatnoćom na drugoj i trećoj, podeljeno sa verovatnoćom na trećoj – Q 1 i Q 2 su statistički nezavisne za svaku kategoriju Q 3.

Uslovna nezavisnost dveju kategoričkih varijabli: primer sloj 1 q 31 sloj 2 q 21 q 22 Tot. q 11 15 5 20 q 12 15 5 Tot. 30 10 q 32 q 21 q 22 Tot. q 11 28 12 40 20 q 12 42 18 60 40 Tot. 70 30 100 121 = n*(p 1+1*p+21)*p++1 = 140*(0. 14*0. 07)/0. 29 5; p 1+1 = 20/140 = 0. 14; p+21 = 10/140=0. 07; p++1 = 40/140= 0. 29

Parcijalna nezavisnost Ako je pjks = pjk+* p++s (j = 1, . . . , r; k = 1, . . . , c; s = 1, . . . , t) tada između varijabli Q 1 i Q 2 postoji asocija, ali je svaka od njih nezavisna u odnosu na varijablu Q 3. – Verovatnoća kategorije (ćelije) jednaka proizvodu verovatnoća te ćelije na prvoj i drugoj sa verovatnoćom kategorije na trećoj varijabli – varijabla Q 3 ne utiče na postojeću asocijaciju varijabli Q 1 i Q 2. – asocija Q 1 i Q 2 ista je za sve kategorije Q 3.

Parcijalna nezavisnost: primer sloj 1 q 31 sloj 2 q 21 q 22 Tot. q 11 12 20 32 q 12 8 40 Tot. 20 60 q 32 q 21 q 22 Tot. q 11 18 30 48 48 q 12 12 60 72 80 Tot. 30 90 120 111 = n*p 11+*p++1 = 200*[(12+18)/200]*(80/200) = 200*0. 15*0. 4 = 12

Marginalna nezavisnost Ako je, kada zanemarimo varijablu Q 3 pjk = pj+* p+k (j = 1, . . . , r; k = 1) tada među varijablama Q 1 i Q 2 postoji marginalna nezavisnost. – Verovatnoća kategorije (ćelije) jednaka proizvodu verovatnoća te kategorije na prvoj i drugoj varijabli – varijable Q 1 i Q 2 su statistički nezavisne kada ne uzimamo u obzir varijablu Q 3.

Testiranje tipa veza između tri kategoričke varijable • U 3 D tabeli - na osnovu datih definicija izračunati očekivane frekvence u svakoj ćeliji i • slaganje očekivanih i empirijskih frekvenci: Pirsonovim Hi -kvadrat ili testom zasnovanom na količniku verodostojnosti: • fjks su empirijske, opažene frekvence, jks su očekivane frekvence, a ln je prirodni logaritam. • Najčešće se izvodi korišćenjem loglinearnih modela.

Loglinearni modeli • Opšti oblik loglinearnog modela: – p -očekivana frekvenca u ćeliji p tabele, – j - parametar koji odgovara efektu (povezan sa šansama bivanja u određenoj ćeliji definisanoj kategoričkom varijablom ili kombinacijom više varijabli) – xpj - eksplanatorni član modela (određena varijabla) • Frekvence u ćelijama objašnjavamo efektima pojedinih kategoričkih varijabli (tj. marginalnim raspodelama) i vezama, tj. asocijama kategoričkih varijabli.

Loglinearni modeli: osnovni cilj • Naći što jednostavniji loglinearni model koji – obuhvata pojedine kategoričke varijable i njihove asocijacije, – a koji je u skladu sa rasporedom frekvenci u višedimenzionalnim kontingencijskim tabelama.

Loglinearni model dvodimenzionalne tabele kontigencije • Nezavisnost dveju kategoričkih varijabli podrazumeva da je: jk = n* pj+* p+k • U obliku loglinearnog modela: ln jk = ln(n) + ln(pj+) + ln(p+k) ili ln jk = + j. Q 1 + k Q 2 – kao u regresiji – intercept ( ), efekat jednog ( j. Q 1) i drugog ( k Q 2) prediktora! • Ovaj model pretpostavlja nezavisnost varijabli Q 1 i Q 2 jer ne obuhvata njihovu interakciju

• Ako znamo da više vas čita stripove nego što ne čita! • j. Q 1 • Ako znamo da više vas igra video igrice nego što ne igra • k Q 2 • Ako znamo da je čitanje stripova povezano sa igranjem video igrica • jk Q 1 Q 2 • Koliko očekujemo Šeldona među vama? j+ k + jk +

Loglinearni model dvodimenzionalne tabele kontigencije • Ako dve kategoričke varijable nisu nezavisne odgovarajući loglinearni model bio bi: ln jk = + j. Q 1 + k Q 2 + jk Q 1 Q 2 • Član jk Q 1 Q 2 predstavlja efekat interakcije (asocijacije) varijabli Q 1 i Q 2 • Ovaj model predstavlja tzv. zasićeni (eng. saturated) loglinearni model dvodimenzionalne tabele kontingencije. – Varijable povezane na sve moguće načine

Zasićeni (saturated) ili neograničeni (unrestricted) loglinearni model • Zasićeni model obuhvata sve moguće efekte – razlike između očekivanih frekvenci na osnovu modela i empirijskih 0 za sve ćelije u tabeli. • Cilj: naći jednostavniji hijerarhijski model od zasićenog koji skoro isto tako dobro predviđa empirijske frekvence u višedimenzionalnoj tabeli kontingencije • Bavimo se samo hijerarhijskim loglinearnim modelima: svaki sledeći model u hijerarhiji obuhvata sve parametre modela nižeg u hijerarhiji

Mogući hijerarhijski loglinearni modeli trodimenzionalne tabele kontingencije 1. ln jks = 2. ln jks = + j. Q 1 3. ln jks = + j. Q 1 + k. Q 2 4. ln jks = + j. Q 1 + k. Q 2 + s. Q 3 5. ln jks = + j. Q 1 + k. Q 2 + s. Q 3 + jk. Q 1* Q 2 6. ln jks = + j. Q 1 + k. Q 2 + s. Q 3 + jk. Q 1* Q 2 + js. Q 1* Q 3 7. ln jks = + j. Q 1 + k. Q 2 + s. Q 3 + jk. Q 1* Q 2 + js. Q 1* Q 3 + ks. Q 2* Q 3 8. ln jks = + j. Q 1 + k. Q 2 + s. Q 3 + jk. Q 1* Q 2 + js. Q 1* Q 3 + ks. Q 2* Q 3 + jks. Q 1* Q 2* Q 3

Odabir modela: pokazatelji podesnosti modela • Pirsonov statistik: • Statistik zasnovan na količniku verodostojnosti: • Ukoliko statistici nisu značajni model odgovara podacima, tj. podesan je model za objašnjenje rasporeda frekvenci u tabeli. • Ali, ovi pokazatelji podesnosti modela osetljivi su na veličinu uzorka!

Podesnost modela: standardizovani reziduali • Standardizovani rezidual u ćeliji p: • Ako je model tačan standardizovani reziduali imaju standardizovanu normalnu raspodelu • Znatan broj standardizovanih reziduala većih od 1. 96 govori o nepodesnosti modela.

Poređenje jednostavnijeg (JM) i složenijeg modela (SM): • Normirani indeks podesnosti složenijeg modela: • Pokazuje proporcionalno poboljšanje saglasnosti složenijeg modela sa podacima u odnosu na jednostavniji model. • Kreće se od 0 do 1; koliko složeniji model bolje odgovara podacima.

Poređenje jednostavnijeg (JM) i složenijeg modela (SM): • Nenormirani indeks podesnosti složenijeg modela: • Uzima u obzir složenost modela (broj stepeni slobode). Najveća vrednost do 1 ali može biti i negativan.

Kako odabrati pravi model? • Napraviti nekoliko modela u skladu sa teorijom. • Odabrati najjednostavniji model koji dobro odgovara podacima. • Složeniji model odabrati samo ako znatno i bitno poboljšava saglasnost očekivanih i empirijskih frekvenci u odnosu na jednostavniji model.

Primer: Testosteron, učešće u delinkventnim radnjama i socioekonomski status muškaraca Dabbs & Morris (Psychological Science, 1990) Analyze/Loglinear/Model Selection:

Primer: Testosteron, učešće u delinkventnim radnjama i socioekonomski status muškaraca Model 1: • Uključeni glavni efekti ses, delinkve, testost i asocija testost-delinkve.

Primer: Testosteron, učešće u delinkventnim radnjama i socioekonomski status muškaraca

Primer: Testosteron, učešće u delinkventnim radnjama i socioekonomski status muškaraca Model 2: • Uključeni glavni efekti ses, delinkve, testost i asocijacije testost-delinkve i ses-delinkve. •

Primer: Testosteron, učešće u delinkventnim radnjama i socioekonomski status muškaraca

Primer: Testosteron, učešće u delinkventnim radnjama i socioekonomski status muškaraca Model 3: • Uključeni glavni efekti ses, delinkve, testost i asocijacije testost-delinkve, ses-delinkve i ses-testost.

Primer: Testosteron, učešće u delinkventnim radnjama i socioekonomski status muškaraca

Primer: Testosteron, učešće u delinkventnim radnjama i socioekonomski status muškaraca Procedura Crosstabs:

Primer: Testosteron, učešće u delinkventnim radnjama i socioekonomski status muškaraca

Primer: Testosteron, učešće u delinkventnim radnjama i socioekonomski status muškaraca • Socioekonomski status - moderator veze između nivoa testosterona kod muškaraca i učešća u delinkventnim radnjama. • Povezanost između nivoa testosterona i učešća u delinkventnim radnjama postoji samo kod muškaraca niskog socioekonomskog statusa.