Univerzitet u Beogradu Filozofski fakultet STATISTIKA U PSIHOLOGIJI
Univerzitet u Beogradu Filozofski fakultet STATISTIKA U PSIHOLOGIJI 2 HI KVADRAT TEST Oliver Tošković
Parametri i statistici • Parametar - statistička mera numeričke karakteristike populacije • Statistik - statistička mera numeričke karakteristike uzorka
Sarajevo -- Iznenadnim testom utvrđeno je da 66 odsto testiranih policajaca u Sarajevu bilo pozitivo na drogu. • "Pre nekoliko godina testirali smo tri policajca na drogu. Jedan je bio pozitivan na heroin i marihuanu, drugi samo na marihuanu, a treći je bio čist", kaže Inspektor Odeljenja za borbu protiv narkomanije MUP-a Sarajevskog kantona Džemal Murga za Dnevni avaz. • On je rekao da ne treba da čudi to što je pre manje od mesec dana jedan od pripadnika policije Federacije Bi. H ubio devojku, jer policija ne radi psiho testove, i dodao da je u policiji bilo i nekoliko slučajeva samoubistava, o čemu, kako je naveo, svi ćute. Izvor: B 92. net zamenjeno naslovom – “Bi. H: Testirali 3 policajca, 2 pala”
OBRADA FREKVENCIJSKIH NACRTA • Sve varijable kategoričke • Frekvencijski univarijantni nacrti • Jedna kategorička varijabla, sa 2 ili više nivoa • Test distribucije (raspodele) • Hi kvadrat test (χ2)
KATEGORIČKA VARIJABLA • Q = { qk; k =1, 2, . . . , g}, g ≥ 2 – varijabla sa dve i više kategorija (pol, boja kose. . . ) • Q je kategorička varijabla akko – kategorička varijabla je unija svih svojih kategorija) – qr qs = , ako je r s (kategorije moraju biti uzajamno isključive) – Za svako ei moguće: ei qk ili ei qk (iscrpnost – svi moraju negde pripadati)
PRETPOSTAVKA RASPODELE VEROVATNOĆA • Empirijska raspodela kategoričke varijable - učestalost pojedinih kategorija varijable na uzorku. • Raspodela verovatnoća kategoričke varijable - verovatnoće pojedinih kategorija varijable u populaciji. • Verovatnoće kategorija u populaciji ( ) -ocenjene proporcijom (p) date kategorije na slučajnom uzorku.
TEST RASPODELE – χ2 • Nulta hipoteza: Raspodela verovatnoća kategoričke varijable u populaciji ima određenu strukturu. – Struktura verovatnoća može biti različita: uniformna (podjednaka verovatnoća svih kategorija) ili neka druga. • Nulta hipoteza, ako se pretpostavlja da je raspodela verovatnoća uniformna: 1 = 2 = ··· g • Nulta hipoteza za varijablu sa tri kategorije bi mogla glasiti i: 1 = 0. 2; 2 = 0. 6; 3 = 0. 2.
TEST RASPODELE – χ2 • Karl Pirson • fk je emirijska učestalost u kategoriji k, a k je očekivana učestalost za kategoriju k (na osnovu nulte hipoteze) • χ2 uključuje neslaganja (reziduale) empirijski dobijenih učestalosti i učestalosti koje se očekuju
• Uniformna distribucija – jednaka raspodela frekvenci po grupama • Da li u svakoj grupi ima podjednak broj ispitanika? – Da li je svaka stranka podjednako zastupljena u medijima? Grupa/stranka Frekvenca DSS 220 DS 210 SRS 200
Grupa Frekvenca Fo /stran opažena ka (empirijska) DSS 220 DS 210 SRS 200
Grupa Frekvenca Fo Frekvenca Ft /stran opažena očekivana ka (empirijska) (teorijska) DSS 220 210 DS 210 SRS 200 210
Grupa Frekvenca Fo Frekvenca Ft /stran opažena očekivana ka (empirijska) (teorijska) Fo – Ft DSS 220 210 10 DS 210 0 SRS 200 210 -10
Grupa Frekvenca Fo Frekvenca Ft /stran opažena očekivana ka (empirijska) (teorijska) Fo – Ft (Fo-Ft)2 DSS 220 210 10 100 DS 210 0 0 SRS 200 210 -10 100
Grupa Frekvenca Fo Frekvenca Ft /stran opažena očekivana ka (empirijska) (teorijska) Fo – Ft (Fo-Ft)2/Ft DSS 220 210 10 100 0. 48 DS 210 0 0 0 SRS 200 210 -10 100 0. 48 χ2 = Σ (Fo-Ft)2/Ft χ2 = 0. 96 Σ (Fo-Ft)2/Ft = 0. 96
DISTRIBUCIJA UZORKOVANJA χ2 -TESTA • Ako je nulta hipoteza tačna statistik χ2 ima Hi-kvadrat raspodelu sa g– 1 stepeni slobode. • Hi-kvadrat funkcija gustine • Pri tome, je parametar hi-kvadrat funkcije gustine – stepeni slobode (df), a ( ) je gama funkcija • Očekivana vrednost, tj. aritmetička sredina hi-kvadrat funkcije gustine jednaka je , a varijansa ove funkcije jednaka je 2.
DISTRIBUCIJA 2 UZORKOVANJA χ -TESTA • Gama funkcija ( ) – proširenje faktorijela na relane i kompleksne brojeve – (n) = (n-1)! (na konitunualnim merama) – Faktorijel za kontinuirane mere (nediskretne)
DISTRIBUCIJA UZORKOVANJA χ2 -TESTA df = 4 df = 10
DISTRIBUCIJA UZORKOVANJA χ2 -TESTA Ukoliko nema razlika između empirijskih i teorijskih frekvenci p Neka je u izvedenom istraživanju χ2 = 2. 3 • p – verovatnoća da se, ukoliko u populaciji ne postoje razlike između empirijskih i teorijskih frekvenci, na uzorku dobiju vrednosti za χ2, jednake ili veće od 2. 3
NULTA HIPOTEZA i STATISTIČKA ZNAČAJNOST • Ho: nema razlika između empirijskih i teorijskih frekvenci • Ako teorijske frekvence = uniformna distribucija – Ho: distribucija empirijskih frekvenci je uniformna • Ako p>0. 05 – ne odbacujemo Ho – Distibucija empirijskih frekvenci jeste uniformna – Sve stranke podjednako zastupljene! • NE MORA DISTIBUCIJA BITI UNIFORMNA! • χ2 – test bilo koje distribucije – Npr. normalne!
NORMALNOST DISTRIBUCIJE • Hi kvadrat test (χ2) • Kolmogorov Smirnov test – ne moramo da poznajemo teorijsku distribuciju
USLOVI ZA PRIMENU χ2 • Nezavisnost opservacija: svaka frekvenca unutar date kategorije mora poticati od različite jedinice posmatranja. • Varijabla dihotomna – sve očekivane frekvence ≥ 5 • Varijabla politomna - sve očekivane frekvence ≥ 1 i očekivane frekvence ≥ 5 u više od 20% kategorija.
2 χ KAO KOLIČNIK VERODOSTOJNOSTI • Količnik verovatnoće pod pretpostavkom da je Ho tačna i verovatnoće da je tačna određena alternativna hipoteza. – Likelihood Ratio (količnik verodostojnosti). • Postupak (ne)odbacivanja nulte hipoteze je isti kao u Pirsonovom postupku. • Za velike uzorke oba testa imaju iste ishode, a na malim uzorcima je bolje koristiti Pirsonov postupak.
Maksimalna verodostojnost • Princip maksimalne verodostojnosti: naći vrednost(i) parametara koje čine dobijene podatke najverovatnijim. – Već dobijeni podaci na uzorku su fiksirani pa njihova verovatnoća nije pitanje. – Onda nas zanima verodostojnost parametra koji stoji u osnovi dobijenih podataka.
Ilustracija principa maksimalne verodostojnosti • Npr: u 100 bacanja novčića 56 puta je palo “pismo”. • Oceniti parametar binomne raspodele, verovatnoću “padanja pisma” ( ), na osnovu podataka. • Dakle, teorijski model za koji pretpostavljamo da je adekvatan za date podatke: binomna raspodela.
Ilustracija principa maksimalne verodostojnosti Binomna raspodela (parametri modela n i ): . . . pri čemu x = 0, 1, . . . , n. Daje verovatnoću da se desi x “povoljnih” ishoda (“pismo”) u n pokušaja dva moguća ishoda u svakom pokušaju; verovatnoća “povoljnog” ishoda u svakom pokušaju jednaka
Ilustracija principa maksimalne verodostojnosti • Neka je ocena parametra za binomnu raspodelu koja je model dobijenih podataka (u 100 bacanja novčića 56 puta palo “pismo”) = 0. 5. • Verodostojnost je tada:
Ilustracija principa maksimalne verodostojnosti • Ili neka je ocena parametra za binomnu raspodelu koja predstavlja model podataka (u 100 bacanja novčića 56 puta palo “pismo”) = 0. 52. • Verodostojnost je tada:
Ilustracija principa maksimalne verodostojnosti • Najveća vrednost za L dobija se kada se kao ocena za uzme 0. 56. A to je u primeru p, proporcija pisama u sto bacanja novčića! • Dakle, proporcija 0. 56 je ocena za dobijena po principu maksimalne verodostojnosti. • Uopšte, važi da je proporcija p bilo kojeg uzorka ocenitelj za po principu maksimalne verodostojnosti.
2 χ KAO KOLIČNIK VERODOSTOJNOSTI • Količnik verovatnoće pod pretpostavkom da je Ho tačna i verovatnoće da je tačna određena alternativna hipoteza. – Likelihood Ratio (količnik verodostojnosti). • Postupak (ne)odbacivanja nulte hipoteze je isti kao u Pirsonovom postupku. • Za velike uzorke oba testa imaju iste ishode, a na malim uzorcima je bolje koristiti Pirsonov postupak.
FREKVENCIJSKI BIVARIJANTNI NACRTI • Dve kategoričke varijable, sa po 2 ili više nivoa • Povezanost kategoričkih varijabli • Hi kvadrat test (χ2) • Da li lek pomaže u lečenju bolesti? – (1) bolestan/zdrav i (2) uzima/ne uzima lek
STATISTIČKA NEZAVISNOST DVEJU VARIJABLI • Tabela kontingencije, tj. tabela unakrsnog razvrstavanja. • Ako jedna varijabla ima 5 kategorija, a druga varijabla ima 3 kategorije – 5 x 3 • Ukrštanje reda i kolone – ćelija. terapija ozdravljenje – U ćelijama su zajedničke frekvence, – zbirovi frekvenci u redovima i kolonama tabele daju marginalne frekvence. o 1 t 1 o 1 t 2 o 1 o 2 t 2 o 2 t 1 t 2 ot prosta marginalne totalna
STATISTIČKA NEZAVISNOST DVEJU VARIJABLI • H 0: Q 1 Q 2 - Q 1 i Q 2 su statistički nezavisne – indeks za kategorije Q 1 - j, (od 1 do r), a za kategorije varijable Q 2 - k, (od 1 do c). • H 0: jk = j * k (zajedničke verovatnoće jednake su proizvodu marginalnih). – Množenjem ocena marginalnih verovatnoća, pj i pk dobijaju se ocene zajedničkih verovatnoća pjk. – Množenjem verovatnoća veličinom uzorka dobijaju se očekivane frekvence za ćeliju jk.
• Da li lek pomaže u lečenju bolesti? zdrav bolest uzima 10 50 uzima 30 30 ne 50 10 ne 30 30 Fo – da li ima povezanosti? Ft - nema povezanosti • Ho: nema razlika između empirijskih i teorijskih frekvenci • Ako teorijske frekvence = nema povezanosti – Ho: između empirijskih frekvenci nema povezanosti • Ako p<0. 05 – odbacujemo Ho – Postoji povezanost dve varijable – zdravlja i uzimanja leka!
• Da li žene voze lošije od muškaraca? muško žensko nesreće 23 27 nesreće 30 20 bez 49 21 bez 42 28 Fo – da li ima povezanosti? Ft - nema povezanosti • Ho: nema razlika između empirijskih i teorijskih frekvenci • Ako teorijske frekvence = nema povezanosti – Ho: između empirijskih frekvenci nema povezanosti • Ako p>0. 05 – ne odbacujemo Ho – Ne postoji povezanost dve varijable – pola i kvaliteta vožnje
ODREĐIVANJE Ft muško žensko nesreće a b nesreće a 1 bez c d bez c 1 d 1 Fo – da li ima povezanosti? Ft - nema povezanosti • Zajednička verovatnoća statistički nezavisnih događaja jednaka je proizvodu njihovih verovatnoća. • Ft (a 1) = (a+b)*(a+c)/(a+b+c+d) • Ft (b 1) = (a+b)*(b+d)/(a+b+c+d) • Ft (c 1) = (c+d)*(a+c)/(a+b+c+d) • Ft (d 1) = (b+d)*(c+d)/(a+b+c+d)
χ2 TEST • Pirsonov statistik • Zasnovan na količniku verodostojnosti • Stepeni slobode: (c-1)*(r-1)
INTENZITET POVEZANOSTI • Različiti koeficijenti: viša vrednost – viša povezanost • Samo neki: od 0 (nema povezanosti ) do 1 (visoka povezanost) • Kramerov V koeficijent – n: veličina uzorka, q: manja vrednost broja redova i kolona • Fi koeficijent: Kramerov V za tabele 2*2
INTENZITET POVEZANOSTI • Koeficijent kontigencije • Količnik šansi К 1 К 2 R 1 a b R 2 c d • Količnik rizika • Razlika rizika
VRSTE TESTOVA • Omnibus – razlike između n grupa od ukupno n grupa – Razlike između svih grupa • Parcijalni – razlike između n-1 grupa od ukupno n grupa – Razlike između nekih grupa • Kontrast - razlike 2 grupe od ukupno n (n>2) grupa – Razlike između parova grupa
- Slides: 39