Statistika Predavanje 11 Hikvadrat test Statistika Predavanje 11

  • Slides: 38
Download presentation
Statistika Predavanje 11 Hi-kvadrat test Statistika – Predavanje 11 27/29. 04. 2020.

Statistika Predavanje 11 Hi-kvadrat test Statistika – Predavanje 11 27/29. 04. 2020.

Fokus predavanja § Kada i kako se koristi hi-kvadrat test za tabele kontingencije §

Fokus predavanja § Kada i kako se koristi hi-kvadrat test za tabele kontingencije § Kako se koristi hi-kvadrat test za vrednovanje prilagođenosti skupa podataka specifičnom rasporedu vjerovatnoće tj. kao test oblika rasporeda § Hi-kvadrat test nezavisnosti Statistika – Predavanje 11 27/29. 04. 2020.

Tabele kontingencije n n n Korisne u situacijama sa proporcijama iz više populacija Korisne

Tabele kontingencije n n n Korisne u situacijama sa proporcijama iz više populacija Korisne za klasifikaciju opservacija iz uzorka prema dvije ili više karakteristika Nazivaju se kros-klasifikacione tabele Statistika – Predavanje 11 27/29. 04. 2020.

Tabela kontingencije - primjer Ljevorukost vs. Pol Dominantna ruka: Lijeva vs. Desna Pol: Muški

Tabela kontingencije - primjer Ljevorukost vs. Pol Dominantna ruka: Lijeva vs. Desna Pol: Muški vs. Ženski 2 kategorije za svaku varijablu, tzv. 2 x 2 x 2 tabela § § Pretpostavimo da ispitujemo uzorak veličine 300 opservacija Statistika – Predavanje 11 27/29. 04. 2020.

Tabela kontingencije - primjer (nastavak) Rezultati iz uzorka su prikazani u tabeli kontingencije: Uzorak

Tabela kontingencije - primjer (nastavak) Rezultati iz uzorka su prikazani u tabeli kontingencije: Uzorak veličine n=300: 120 žena, 12 ljevaci 180 muškarci, 24 ljevaci Statistika – Predavanje 11 Preferirana ruka Pol Lijeva Desna Žene 12 108 120 Muškarci 24 156 180 36 264 300 27/29. 04. 2020.

 2 test za razliku između dvije proporcije H 0: π1 = π2 (Proporcija

2 test za razliku između dvije proporcije H 0: π1 = π2 (Proporcija žena ljevaka jednaka je proporciji muškaraca ljevaka) H 1: π1 ≠ π2 (Dvije proporcije nijesu iste – preferirana ruka nije nezavisna od pola) n n Ako je H 0 tačna, onda bi proporcija žena ljevaka trebalo da bude jednaka proporciji muškaraca ljevaka Ove dvije proporcije trebalo bi da budu jednake sa proporcijom ljevaka u ukupnom stanovništvu Statistika – Predavanje 11 27/29. 04. 2020.

Statistika hi-kvadrat testa je: n gdje: fo = opservirane frekvencije u određenoj ćeliji fe

Statistika hi-kvadrat testa je: n gdje: fo = opservirane frekvencije u određenoj ćeliji fe = očekivane frekvencije u određenoj ćeliji ako je H 0 tačna 2 za slučaj 2 x 2 ima 1 stepen slobode (Pretpostavka: svaka ćelija u tabeli kontingencije ima očekivanu frekvenciju jednaku makar 5) Statistika – Predavanje 11 27/29. 04. 2020.

Pravilo odlučivanja Statistika 2 testa aproksimativno ima hi-kvadrat raspored sa jednim stepenom distribucije Pravilo

Pravilo odlučivanja Statistika 2 testa aproksimativno ima hi-kvadrat raspored sa jednim stepenom distribucije Pravilo odlučivanja: Ako je 2 > 2 U, odbaciti H 0, u suprotnom H 0 ne može odbaciti Statistika – Predavanje 11 0 Ne odbacuje se H 0 Odbaciti H 0 2 2 U 27/29. 04. 2020.

Izračunavanje prosječne proporcije Prosječna proporcija je: 120 žena, 12 su ljevaci Ovdje: 180 muškaraca,

Izračunavanje prosječne proporcije Prosječna proporcija je: 120 žena, 12 su ljevaci Ovdje: 180 muškaraca, 24 su ljevaci tj. , proporcija ljevaka ukupno je 0. 12, odnosno 12% Statistika – Predavanje 11 27/29. 04. 2020.

Pronalaženje očekivanih frekvencija n n Da bi se dobila očekivana frekvencija žena ljevaka, potrebno

Pronalaženje očekivanih frekvencija n n Da bi se dobila očekivana frekvencija žena ljevaka, potrebno je pomnožiti prosječnu proporciju ljevaka (p) sa ukupnim brojem žena Da bi se dobila očekivana frekvencija muškaraca ljevaka, potrebno je pomnožiti prosječnu proporciju ljevaka (p) ukupnim brojem muškaraca Ako su dvije proporcije jednake, onda P(Ljevak | Žena) = P(Ljevak | Muškarac) =0. 12 tj. , očekujemo da Statistika – Predavanje 11 (0. 12)(120) = 14. 4 žena budu ljevaci (0. 12)(180) = 21. 6 muškaraca budu ljevaci 27/29. 04. 2020.

Opservirane vs. Očekivane frekvencije Preferirana ruka Pol Lijeva Desna Ženski Opservirano = 12 Opservirano

Opservirane vs. Očekivane frekvencije Preferirana ruka Pol Lijeva Desna Ženski Opservirano = 12 Opservirano = 108 Očekivano = 14. 4 Očekivano = 105. 6 120 Muški Opservirano = 24 Opservirano = 156 Očekivano = 21. 6 Očekivano = 158. 4 180 36 Statistika – Predavanje 11 264 300 27/29. 04. 2020.

Statistika hi-kvadrat testa Preferirana ruka Pol Ženski Muški Lijeva Desna Opservirano = 12 Opservirano

Statistika hi-kvadrat testa Preferirana ruka Pol Ženski Muški Lijeva Desna Opservirano = 12 Opservirano = 108 Očekivano = 14. 4 Očekivano = 105. 6 Opservirano = 24 Opservirano = 156 Očekivano = 21. 6 Očekivano = 158. 4 36 264 120 180 300 Statistika testa je: Statistika – Predavanje 11 27/29. 04. 2020.

Pravilo odlučivanja: Ako je 2 > 3. 841, odbaciti H 0, u suprotnom ne

Pravilo odlučivanja: Ako je 2 > 3. 841, odbaciti H 0, u suprotnom ne odbacuj H 0 0 Ne odbacuje se H 0 Odbacuje se H 0 2 U=3. 841 Statistika – Predavanje 11 2 Ovdje, 2 = 0. 7576 < 2 U = 3. 841, pa je odluka da se ne odbacuje H 0 jer nema dovoljno dokaza da su dvije proporcije različite pri = 0. 05 27/29. 04. 2020.

 2 test za razliku između više od dvije proporcije n 2 test se

2 test za razliku između više od dvije proporcije n 2 test se proširuje na slučaj sa više od dvije nezavisne populacije: H 0: π 1 = π 2 = … = π c H 1: Nijesu sve proporcije πj (j = 1, 2, …, c) Statistika – Predavanje 11 27/29. 04. 2020.

Statistika hi-kvadrat testa je: n gdje: fo = opservirana frekvencija u određenoj celiji tabele

Statistika hi-kvadrat testa je: n gdje: fo = opservirana frekvencija u određenoj celiji tabele 2 x c fe = očekivana frekvencija u određenoj celiji ako je H 0 tačna 2 za slučaj 2 x c ima (2 -1)(c-1) = c - 1 stepeni slobode (Pretpostavka: svaka ćelija u tabeli kontingencije ima očekivanu frekvenciju jednaku makar 1) Statistika – Predavanje 11 27/29. 04. 2020.

Izračunavanje ukupne proporcije Ukupna proporcija je: n Očekivane frekvencije za c kategorija kalkulišu se

Izračunavanje ukupne proporcije Ukupna proporcija je: n Očekivane frekvencije za c kategorija kalkulišu se isto kao i u slučaju 2 x 2, a isto je i pravilo za odlučivanje: Pravilo odlučivanja: Ako je 2 > 2 U, H 0 se odbacuje, u suprotnom ne može se odbaciti H 0 Statistika – Predavanje 11 2 U je teorijska vrijednost hi-kvadrat distribucije sa c – 1 stepeni slobode 27/29. 04. 2020.

 2 test nezavisnosti n Sličan 2 testu jednakosti dvije ili više proporcija, ali

2 test nezavisnosti n Sličan 2 testu jednakosti dvije ili više proporcija, ali se koncept proširuje na tabele kontingencije sa r redova i c kolona H 0: Dva modaliteta varijable su nezavisna (tj. među njima nema relacije) H 1: Dva modaliteta su zavisna (tj. , postoji relacija među njima) Statistika – Predavanje 11 27/29. 04. 2020.

 2 test nezavisnosti (nastavak) Statistika hi-kvadrat testa je: n gdje: fo = opservirana

2 test nezavisnosti (nastavak) Statistika hi-kvadrat testa je: n gdje: fo = opservirana frekvencija u određenoj ćeliji tabele r x c fe = očekivana frekvencija u određenom intervalu ako je H 0 tačno 2 za r x c slučaj ima (r-1)(c-1) stepeni slobode (Pretpostavka: svaki ćelija u tabeli kontingencije ima očekivanu frekvenciju jednaku makar 1) Statistika – Predavanje 11 27/29. 04. 2020.

Očekivane frekvencije n Očekivane frekvencije u ćelijama (intervalima) gdje: ukupno red = suma svih

Očekivane frekvencije n Očekivane frekvencije u ćelijama (intervalima) gdje: ukupno red = suma svih frekvencija u redu ukupno kolona = suma svih frekvencija u koloni n = ukupna veličina uzorka Statistika – Predavanje 11 27/29. 04. 2020.

Pravilo odlučivanja n Pravilo za odlučivanje je Ako je 2 > 2 U, odbaciti

Pravilo odlučivanja n Pravilo za odlučivanje je Ako je 2 > 2 U, odbaciti H 0, inače se ne odbacuje H 0 gdje je 2 U teorijska hi-kvadrat vrijednost distribucije sa (r – 1)(c – 1) stepeni slobode Statistika – Predavanje 11 27/29. 04. 2020.

Primjer n Plan obroka odabran od 200 studenata prikazan je u tabeli: Godina studija

Primjer n Plan obroka odabran od 200 studenata prikazan je u tabeli: Godina studija Prva Broj obroka u nedjelji 20/nedj. 10/nedj. nijedan Ukupno 24 32 14 70 Druga 22 26 12 60 Treća 10 14 6 30 Četvrta 14 16 10 40 70 88 42 200 Ukupno Statistika – Predavanje 11 27/29. 04. 2020.

Primjer (nastavak) n Testira se hipoteza: H 0: Plan obroka i godina studija su

Primjer (nastavak) n Testira se hipoteza: H 0: Plan obroka i godina studija su nezavisni (tj. , nema relacije među njima) H 1: Plan obroka i godina studija su zavisni (tj. , postoji relacije među njima) Statistika – Predavanje 11 27/29. 04. 2020.

Primjer: očekivane frekvencije (nastavak) Opservirano: Godine studija Nedjeljni broj obroka 20/nd. 10/nd. nijedan Prva

Primjer: očekivane frekvencije (nastavak) Opservirano: Godine studija Nedjeljni broj obroka 20/nd. 10/nd. nijedan Prva 24 32 14 70 Druga 22 26 12 60 Treća 10 14 6 30 Četvrta 14 16 10 40 Total 70 88 42 200 Primjer za jedan interval: Očekivane frekvencije ako je H 0 tačna: Total Nedjeljni broj obroka Godine studija 20/nd. 10/nd. nijedan Total Prva 24. 5 30. 8 14. 7 70 Druga 21. 0 26. 4 12. 6 60 Treća 10. 5 13. 2 6. 3 30 Četvrta 14. 0 17. 6 8. 4 40 70 88 42 200 Total Statistika – Predavanje 11 27/29. 04. 2020.

Primjer: statistika testa (nastavak) n Vrijednost statistike testa je: 2 U = 12. 592

Primjer: statistika testa (nastavak) n Vrijednost statistike testa je: 2 U = 12. 592 za = 0. 05 iz hi-kvadrat distribucije sa (4 – 1)(3 – 1) = 6 stepeni slobode Statistika – Predavanje 11 27/29. 04. 2020.

Primjer: odluka i interpretacija (nastavak) Pravilo odluke: Ako je 2 > 12. 592, odbaciti

Primjer: odluka i interpretacija (nastavak) Pravilo odluke: Ako je 2 > 12. 592, odbaciti H 0, inače se ne može odbaciti H 0 0 Ne može seodbaciti H 0 Odbaciti H 0 2 U=12. 592 Statistika – Predavanje 11 2 Ovdje, 2 = 0. 709 < 2 U = 12. 592, pa se ne može odbaciti H 0 Zaključak: nema dovoljno dokaza da između plana obroka i godine studija postoji relacija pri = 0. 05 27/29. 04. 2020.

Hi-kvadrat test oblika rasporeda n Da li podaci iz uzorka imaju pretpostavljenu distribuciju? n

Hi-kvadrat test oblika rasporeda n Da li podaci iz uzorka imaju pretpostavljenu distribuciju? n Primjeri: n n Statistika – Predavanje 11 Je li broj poziva za tehničku pomoć isti svakog dana u nedjelji? (tj. , da li pozivi imaju uniformnu distribuciju? ) Da li mjerenja u procesu proizvodnje imaju normalnu distribuciju? 27/29. 04. 2020.

Hi-kvadrat test oblika rasporeda (nastavak) n Je li broj poziva za tehničku pomoć isti

Hi-kvadrat test oblika rasporeda (nastavak) n Je li broj poziva za tehničku pomoć isti svakog dana u nedjelji? (tj. , da li pozivi imaju uniformnu distribuciju? ) n Uzorak podataka za 10 dana po danu u nedjelji: Suma poziva u ovom danu: Ponedjeljak Utorak Srijeda Četvrtak Petak Subota Nedjelja 290 250 238 257 265 230 192 = 1722 Statistika – Predavanje 11 27/29. 04. 2020.

Logika testa § § Ako pozivi imaju uniformnu distribuciju, trebalo bi očekivati da 1722

Logika testa § § Ako pozivi imaju uniformnu distribuciju, trebalo bi očekivati da 1722 poziva budu jednako podijeljeni tokom 7 dana: Hi-kvadrat test oblika: testira se da li su rezultati iz uzorka konzistentni sa očekivanim rezultatima Statistika – Predavanje 11 27/29. 04. 2020.

Opservirane vs. Očekivane frekvencije Ponedjeljak Utorak Srijeda Četvrtak Petak Subota Nedjelja UKUPNO Statistika –

Opservirane vs. Očekivane frekvencije Ponedjeljak Utorak Srijeda Četvrtak Petak Subota Nedjelja UKUPNO Statistika – Predavanje 11 Opservirane fo 290 250 238 257 265 230 192 Očekivane fe 246 246 1722 27/29. 04. 2020.

Statistika hi-kvadrat testa H 0: Raspored poziva tokom dana u nedjelji je uniforman H

Statistika hi-kvadrat testa H 0: Raspored poziva tokom dana u nedjelji je uniforman H 1: Pozivi nemaju uniformnu distribuciju n Statistika testa je gdje: k = broj modaliteta fo = opservirana frekvencija ćelije (intervala) fe = očekivana frekvencija ćelije (intervala) p = broj parametara koji se ocjenjuju iz podataka Statistika – Predavanje 11 27/29. 04. 2020.

Zona odbacivanja H 0: Raspored poziva tokom dana u nedjelji je uniforman H 1:

Zona odbacivanja H 0: Raspored poziva tokom dana u nedjelji je uniforman H 1: Pozivi nemaju uniformnu distribuciju n Odbaciti H 0 ako je k – 2 stepeni slobode, pošto je p = 1 (ocijenjena je aritmetička sredina) Statistika – Predavanje 11 2 0 Ne može se odbaciti H 0 2 Odbaciti H 0 27/29. 04. 2020.

Statistika hi-kvadrat testa H 0: Raspored poziva tokom dana u nedjelji je uniforman H

Statistika hi-kvadrat testa H 0: Raspored poziva tokom dana u nedjelji je uniforman H 1: Pozivi nemaju uniformnu distribuciju k – 2 = 5 (k = 7 dana u nedjelji) pa je za 5 stepeni slobode: 2. 05 = 11. 0705 Zaključak: 2 = 23. 05 > 2 = 11. 0705 pa se odbacuje H 0 i zaključuje da distribucija nije uniformna Statistika – Predavanje 11 =. 05 0 Ne može se odbaciti H 0 Odbaciti H 0 2. 05 = 11. 0705 2 27/29. 04. 2020.

Primjer - normalan raspored n n Da li mjerenja u procesu proizvodnje imaju normalan

Primjer - normalan raspored n n Da li mjerenja u procesu proizvodnje imaju normalan raspored sa μ = 50 i σ = 15? Proces: n n n Statistika – Predavanje 11 Prikupiti podatke iz uzorka Grupisati podatke u intervale (ćelije) (Očekivana frekvencija intervala mora biti makar 5 za svaki interval) Uporediti stvarne frekvencije sa očekivanim frekvencijama 27/29. 04. 2020.

Primjer - normalan raspored (nastavak) n Podaci iz uzorka grupisani u intervale: 150 mjerenja

Primjer - normalan raspored (nastavak) n Podaci iz uzorka grupisani u intervale: 150 mjerenja u uzorku 80 65 36 66 50 38 57 77 59 …itd… Statistika – Predavanje 11 Interval Frekvencija Manje od 30 10 30 ali < 40 21 40 ali < 50 33 50 ali < 60 41 60 ali < 70 26 70 ali < 80 10 80 ali < 90 7 90 ili više 2 UKUPNO 150 27/29. 04. 2020.

Primjer - normalan raspored (nastavak) n Kolike su očekivane frekvencije za ove intervale za

Primjer - normalan raspored (nastavak) n Kolike su očekivane frekvencije za ove intervale za normalni raspored sa μ = 50 i σ = 15? Interval Manje od 30 10 30 ali < 40 21 40 ali < 50 33 50 ali < 60 41 60 ali < 70 26 70 ali < 80 10 80 ali < 90 7 90 ili više 2 UKUPNO Statistika – Predavanje 11 Frekvencija Očekivana frekvencija ? 150 27/29. 04. 2020.

Očekivane frekvencije Vrijednost P(X < vrijednost) Očekivana frekvencija Manje od 30 0. 09121 13.

Očekivane frekvencije Vrijednost P(X < vrijednost) Očekivana frekvencija Manje od 30 0. 09121 13. 68 30 ali < 40 0. 16128 24. 19 40 ali < 50 0. 24751 37. 13 50 ali < 60 0. 24751 37. 13 60 ali < 70 0. 16128 24. 19 70 ali < 80 0. 06846 10. 27 80 ali < 90 0. 01892 2. 84 90 ili više 0. 00383 0. 57 1. 00000 150. 00 UKUPNO Očekivane frekvencije u uzorku veličine n=150, iz normalne distribucije sa μ=50, σ=15 Primjer: Kombinovati grupne intervale tako da ni jedan nema očekivanu frekvenciju <1 Statistika – Predavanje 11 27/29. 04. 2020.

Statistika testa Interval Očekivana (opservirana, fo) frekvencija, fe Frekvencija Manje od 30 10 13.

Statistika testa Interval Očekivana (opservirana, fo) frekvencija, fe Frekvencija Manje od 30 10 13. 68 30 ali < 40 21 24. 19 40 ali < 50 33 37. 13 50 ali < 60 41 37. 13 60 ali < 70 26 24. 19 70 ali < 80 10 10. 27 80 ili više 9 3. 41 150. 00 UKUPNO Statistika – Predavanje 11 Test statistika je n Odbaci H 0 ako (sa k – p – 1 stepeni slobode) 27/29. 04. 2020.

Rezime n n Primjena 2 testa razlike između dvije proporcije Primjena 2 testa razlike

Rezime n n Primjena 2 testa razlike između dvije proporcije Primjena 2 testa razlike između više od dvije proporcije Korišćenje 2 testa nezavisnosti Korišćenje 2 testa oblika rasporeda Statistika – Predavanje 11 27/29. 04. 2020.