Univerzitet u Beogradu Filozofski fakultet STATISTIKA U PSIHOLOGIJI

Univerzitet u Beogradu Filozofski fakultet STATISTIKA U PSIHOLOGIJI 1 STATISTIKA U ISTRAŽIVANJU OBRAZOVANJA STATISTIČKO ZAKLJUČIVANJE – TESTIRANJE STATISTIČKIH HIPOTEZA Oliver Tošković

Parametri i statistici • Parametar - statistička mera numeričke karakteristike populacije • Statistik - statistička mera numeričke karakteristike uzorka

AGRESIVNOST ZNAČAJNOST RAZLIKA M 1 -M 2 > 0 M 2 Da li su muškarci agresivniji? muški ženski POL

Statističke hipoteze Statističke i istraživačke hipoteze: • formalno iskazane pretpostavke o vrednosti određenih parametara populacije; • sadrže određene formalno iskazane tvrdnje o pravom stanju u populaciji. • Statističke hipoteze nisu isto što i istraživačke hipoteze mada su sa njima povezane! • Statističke hipoteze su iskazane formalnom statističkom terminologijom, • a istraživačke u terminima određene naučne discipline.

Statističke hipoteze Nulta hipoteza (H 0): uobičajeno pretpostavlja da je prava razlika među grupama u populaciji jednaka nuli ili da je povezanost među varijablama u populaciji jednaka nuli. Alternativna hipoteza (HA) : sadrži pretpostavku koja je komplementarna nultoj hipotezi i uzajamno isključiva sa nultom hipotezom. Primer nulte i alternativne hipoteze: H 0: µ 1 - µ 2 = 0 H A: µ 1 - µ 2 0 (µ 1 - µ 2 je razlika aritmetičkih sredina u populaciji)

Distribucija uzorkovanja Empirijske distribucije M 9 SD? M 7 M 3 M 4 M 5 M 1 M M 8 M 2 M 6

M 1 -M 2 > 0 IP (M 2) IP (M 1) AGRESIVNOST Osnovni koraci u statističkom testiranju hipoteza Da li je razlika proseka veća od greške merenja? muški ženski POL

Primer 1: Testiranje statističke značajnosti razlika aritmetičkih sredina 2 nezavisna uzorka: t-test • Ho: 1 - 2 = 0 ( 1 i 2 su aritmetičke sredine dveju subpopulacija na varijabli X) • Statistik za testiranje Ho, t: (M 1 i M 2 su aritmetičke sredine uzoraka na varijabli X, a SE je ocena standardne greške za razliku aritmetičkih sredina) • Ako je H 0 tačna statistik t ima Studentovu distribuciju uzorkovanja čiji su stepeni slobode n 1+n 2– 2 (n 1 i n 2 su veličine uzoraka). • Ako je verovatnoća da se dobije statistik t jednak onom koji smo dobili veći od onoga koji smo dobili manja od 0. 05 odbacujemo H 0 • zaključujemo da je statistik t statitički značajan, tj. da je razlika aritmetičkih sredina statistički značajna. • Statistik t zavisi od veličine razlike aritmetičkih sredina uzoraka i standardne greške za razliku između aritmetičkih sredina.

W. Gosset i njegova (Studentova) T funkcija gustine

Distribucija uzorkovanja t-testa Ukoliko nema razlika između dve grupe p Neka je u izvedenom istraživanju t=2. 3 • p – verovatnoća da se, ukoliko u populaciji ne postoje razlike između dve grupe, na uzorku dobiju vrednosti za t, jednake ili veće od 2. 3 • Ako je p malo, mala je verovatnoća da nema razlika u populaciji • Koja je verovatnoća dovoljno mala?

Osnovni koraci u testiranju statističkih hipoteza Verovatnoća p, p = P(ltl tdobijeno|H 0 tačna) ne predstavlja verovatnoću da je nulta hipoteza tačna. Verovatnoća p je verovatnoća da statistik za testiranje nulte hipoteze uzme vrednost jednaku ili veću od vrednosti dobijene na uzorku ako je nulta hipoteza tačna. Čak i ako je ova verovatnoća jako mala moguće je da je nulta hipoteza tačna. Verovatnoća P(ltl tdobijeno|H 0 tačna) = p ne predstavlja verovatnoću da je istraživačka hipoteza tačna. Korišćenjem ovog postupka nije moguće odrediti verovatnoću da je nulta hipoteza tačna već samo dovesti u sumnju njenu tačnost.

GREŠKE ZAKLJUČIVANJA ODLUKA NA OSNOVU TESTA Statistička značajnost!! Ho odbačeno Ho nije odbačeno PRAVO STANJE U POPULACIJI Ho tačno Ho nije tačno Pogrešna odluka TIP 1 Verovatnoća (α) - p Tačna odluka Snaga statističkog testa Tačna odluka Pogrešna odluka TIP 2 Verovatnoća (β)

STATISTIČKA ZNAČAJNOST • Nivoi značajnosti: koja je veovatnoća mala? 0. 01 (1%) na nivou 0. 01 0. 05 (5%) na nivou 0. 05 odbacuje se Ho razlikuju se grupe ne odbacuje se Ho ne razlikuju se grupe? • Zašto baš 0. 05 i 0. 01? • Zavisi od posledica istraživanja • Koliku greško možemo da dozvolimo svojim rezultatima!

AGRESIVNOST ZNAČAJNOST RAZLIKA M 1 -M 2 > 0 M 2 Da li su muškarci agresivniji? muški ženski POL

Primer 2: Testiranje statističke značajnosti koeficijenta linearne korelacije: t-test • H 0: ρ = 0 (ρ je koeficijent linearne korelacije u populaciji) • Statistik za testiranje H 0, t: (r je koeficijent linearne korelacije dobijen na uzorku, a n je veličina uzorka) • Ako je H 0 tačna. statistik t ima Studentovu distribuciju uzorkovanja čiji parametar (stepeni slobode) je n – 2. • Ako je verovatnoća da se dobije statistik t jednak onom koji smo dobili veći od onoga koji smo dobili manja od 0. 05 odbacujemo H 0 i zaključujemo da je koeficijent linearne korelacije statistički značajan. Statistik t zavisi od veličine koeficijenta linearne korelacije uzorka i veličine uzorka •

Primer 3: Testiranje normalnosti raspodele varijable u populaciji: Kolmogorov-Smirnov test • H 0: Distribucija varijable X u populaciji je normalna sa parametrima koji odgovaraju ocenama AS i SD koje su dobijene na uzorku: X ~ N( = M, 2 = S 2 ) • Statistik za testiranje Ho, Dmax: Dmax = max{D-, D+} pri čemu je: D+ = maxi {Fe(xi) – F(xi)}, a D- = maxi { F(xi) - Fe(xi)} Fe(xi) je empirijska funkcija distribucije (dobijena na uzorku) F(xi) je funkcija distribucije za normalnu raspodelu • Dmax je, dakle, najveća apsolutna razlika između empirijske funkcije distribucije i funkcije distribucije za normalnu raspodelu. • Statistik Dmax ima veoma komplikovanu nultu distribuciju uzorkovanja. • Ako je uzorak veći od 50 značajnost se određuje Lilieforsovim postupkom a za uzorke manje od 50 Šapiro-Vilkovim postupkom. • Ako je dobijena verovatnoća manja od 0. 05 odbacujemo H 0 i sumnjamo u normalnost raspodele varijable X u populaciji.

Primer 4: Testiranje pretpostavljene raspodele varijable u populaciji: Hi kvadrat test (χ2) • Nulta hipoteza: Raspodela verovatnoća kategoričke varijable u populaciji ima određenu strukturu. – Struktura verovatnoća može biti različita: uniformna (podjednaka verovatnoća svih kategorija) ili neka druga. • Nulta hipoteza, ako se pretpostavlja da je raspodela verovatnoća uniformna: 1 = 2 = ··· g • Nulta hipoteza za varijablu sa tri kategorije bi mogla glasiti i: 1 = 0. 2; 2 = 0. 6; 3 = 0. 2.

TEST RASPODELE – χ2 • Karl Pirson • fk je emirijska učestalost u kategoriji k, a k je očekivana učestalost za kategoriju k (na osnovu nulte hipoteze) • χ2 uključuje neslaganja (reziduale) empirijski dobijenih učestalosti i učestalosti koje se očekuju

• Uniformna distribucija – jednaka raspodela frekvenci po grupama • Da li u svakoj grupi ima podjednak broj ispitanika? – Da li je svaka stranka podjednako zastupljena u medijima? Grupa/stranka Frekvenca DSS 220 DS 210 SRS 200

Grupa Frekvenca Fo /stran opažena ka (empirijska) DSS 220 DS 210 SRS 200

Grupa Frekvenca Fo Frekvenca Ft /stran opažena očekivana ka (empirijska) (teorijska) DSS 220 210 DS 210 SRS 200 210

Grupa Frekvenca Fo Frekvenca Ft /stran opažena očekivana ka (empirijska) (teorijska) Fo – Ft DSS 220 210 10 DS 210 0 SRS 200 210 -10

Grupa Frekvenca Fo Frekvenca Ft /stran opažena očekivana ka (empirijska) (teorijska) Fo – Ft (Fo-Ft)2 DSS 220 210 10 100 DS 210 0 0 SRS 200 210 -10 100

Grupa Frekvenca Fo Frekvenca Ft /stran opažena očekivana ka (empirijska) (teorijska) Fo – Ft (Fo-Ft)2/Ft DSS 220 210 10 100 0. 48 DS 210 0 0 0 SRS 200 210 -10 100 0. 48 χ2 =Σ (Fo-Ft)2/Ft χ2 = 0. 96 Σ (Fo-Ft)2/Ft = 0. 96

DISTRIBUCIJA UZORKOVANJA χ2 -TESTA • Ako je nulta hipoteza tačna statistik χ2 ima Hi-kvadrat raspodelu sa g– 1 stepeni slobode. • Hi-kvadrat funkcija gustine

DISTRIBUCIJA UZORKOVANJA χ2 -TESTA Ukoliko nema razlika između empirijskih i teorijskih frekvenci p Neka je u izvedenom istraživanju χ2 = 2. 3 • p – verovatnoća da se, ukoliko u populaciji ne postoje razlike između empirijskih i teorijskih frekvenci, na uzorku dobiju vrednosti za χ2, jednake ili veće od 2. 3

STATISTIČKA ZNAČAJNOST • Dozvoljava uopštavanje sa uzorka na populaciju • Na osnovu statistika donosimo zaključke o parametrima • Testiramo različite hipoteze • Značajnost – verovatnoća da ćemo pogrešiti ukoliko odbacimo Ho, tj ukoliko pretpostavimo da neke razlike ili povezanosti postoje u populaciji • Što je manja, sa više sigurnosti možemo da tvrdimo da dobijene razlie postoje u populaciji