Darko Milunovi mr asistent darko milunovicef unibl org
Darko Milunović, mr, asistent darko. milunovic@ef. unibl. org STATISTIKA TESTIRANJE STATISTIČKIH HIPOTEZA Testovi zasnovani na jednom i dva uzorka
Nakon ovog poglavlja možemo. . . Ø Shvatiti značaj, logiku i ograničenja statističkog testiranja Ø Spoznati tzv. p – vrijednost Ø Primjenjivati najpoznatije parametarske testove (sa jednim ili dva uzorka) Ø Tip greške I i II vrste Ø Tumačiti kompjuterski izlaz za bilo koji test 2
Hipoteza Ø Hipoteza je tvrdnja o parametru populacije: Sredina Primjer: Prosječni mjesečni račun za telefon u RS je μ = 42 KM Proporcija Primjer: Udio odraslih u RS koji imaju bar jedan mobilni telefon je p = 0. 68 Ø Tradicionalno, testiranje se koristi kada imamo neko prethodno saznanje o parametru skupa. 3
Postupak testiranja Ø Formiraju se hipoteze (H 0 i H 1) – na bazi ranije definisanog problema Ø Izbor testa (uz provjeru pretpostavki) i nivo značajnosti Ø Formuliše se pravilo odlučivanja Ø Realizovana vrijednost Statistike testa (kriterijum za odlučivanje. . . ) Ø Zaključak o postavljenom problemu
Nivo značajnosti i oblast odbacivanja hipoteze /2 Nivo značajnosti = H 0 : μ = 3 H 1 : μ ≠ 3 H 0 : μ ≤ 3 H 1 : μ > 3 H 0 : μ ≥ 3 H 1 : μ < 3 /2 predstavlja kritičnu vrijednost Dvostrani test 0 Desnostrani test Kritična oblast 0 Ljevostrani test 0 5
Greške pri testiranju Mogući ishodi: Trenutna situacija Odluka 6 H₀ istinita H₀ pogrešna H₀ nije odbačena Nema greške 1 -α Greška II vrste β H₀ odbačena Greška I vrste α Nema greške 1 -β
Testiranje aritmetičke sredine (jedan uzorak) Zadatak br. 1 U izvještaju jednog preduzeća, koje ima 3. 000 radnika, piše da je prosječna plata 600 KM (sa prosječnim odstupanjem od 40 KM). Slučajno smo izabrali 80 radnika tog preduzeća i utvrdili prosječnu platu od 590 KM. Ispitati uz 5% rizika da li navedenu tvrdnju možemo prihvatiti kao tačnu? Podaci: 7
Ø formulisanje nulte i alternativne hipoteze Ø izbor statistike testa i nivoa značajnosti testa Pošto je varijansa osnovnog skupa poznata, a uzorak veći od 30 elemenata, koristi se statistika Z testa. . . Zaključak se donosi uz 5% rizika! Ø formulisanje pravila na osnovu kojih će se vršiti zaključivanje Kritična oblast (oblast odbacivanja nulte hipoteze) je raspoređena simetrično na krajevima Z rasporeda, pa kritičnu vrijednost nalazimo u Tablicama br. 3 8
Upravo, na osnovu kritične vrijednosti formiraju se pravila odlučivanja: H 0 ne treba odbaciti ako je H 0 treba odbaciti ako je određivanje realizovane vrijednosti: Zaključak. . . 9
Zadatak 2 Rukovodilac jednog odjela (Odnos sa korisnicima usluga) kompanije M: tel smatra da se mjesečni iznos, koji klijenti plaćaju za korišćenje njihovih usluga, povećao te sada iznosi prosječno preko 52 KM. Kompanija želi testirati ovu tvrdnju. (poznato je da odstupanje od prosjeka iznosi 10 KM). 10 H 0: μ ≤ 52 prosječna potrošnja nije preko 52 KM mjesečno H 1: μ > 52 prosječna potrošnja jeste preko 52 KM mjesečno
Zadatak 2 Ako znamo da je nivo značajnosti testa. 10, na sljedeći način pronalazimo kritičnu oblast (što je ujedno i pravilo odlučivanja): = 0. 10 Ne odbacujemo H 0 0 11 1. 28 Odbacujemo H 0
Zadatak 2 Uzimamo uzorak. . . Ø Na uzorku od 64 ispitanika dobijamo da je prosječna mjesečna potrošnja 53, 1 KM. Ø Na osnovu ovih rezultata izračunavamo Statistiku testa Z: Nećemo odbaciti H 0 jer je z = 0. 88 < 1. 28 Zaključujemo da potrošnja (mjesečna) nije veća od 52 KM. . . 12
Zadatak 3 Kruži priča da je prosječna cijena hotelske sobe u Čikagu $168 za polupansion. Slučajno izaberemo 25 hotela i dobijemo sljedeće rezultate: x = $172. 50 i s = $15. 40. Testirati tvrdnju na nivou značajnosti od = 0. 05. (pretpostavka je da populacija ima normalnu distribuciju. . . ) 13 H 0: μ = 168 H 1: μ ¹ 168
Koristi se t-test a = 0. 05 a/2=. 025 n = 25 je nepoznata, pa koristimo t statistic Kritična vrijednost je: t 24 , . 025 = ± 2. 0639 Odb. H 0 -t n-1, α/2 -2. 0639 Prihvata se H 0 0 t n-1, α/2 Odb. H 0 2. 0639 14
Zadaci Zadatak br. 4 Jedan poljoprivredni kombinat želi da utvrdi da li u tekućoj godini može očekivati sa zasijanih površina prošlogodišnji prinos pšenice od 3 t/ha. Slučajno odabranih 16 ha zasijane površine dalo je prosječan prinos od 2, 6 t/ha, sa prosječnim odstupanjem od 0, 23 t. Utvrditi uz 5% rizika da li se može očekivati prošlogodišnji prinos pšenice sa zasijanih površina, ako znamo da su zasijane površine normalno raspoređene prema prinosu. Zadatak br. 5 Prema deklaraciji proizvođača sijalica prosječan vijek trajanja njegovih proizvoda iznosi više od 2000 časova, sa prosječnim odstupanjem od 70 časova. Slučajno smo izabrali 30 sijalica i utvrdili prosječan vijek trajanja tih sijalica od 1988 časova. Provjeriti da li možemo, uz 5% rizika, prihvatiti tvrdnju ovog proizvođača kao tačnu (pod pretpostavkom da raspored sijalica prema vijeku trajanja ima karakteristike normalnog rasporeda). 15
Testiranje proporcije (jedan uzorak) Uključuje i kategorijalne varijable. Dva ishoda se posmatraju, gdje je jedan okarakterisan kao: “uspjeh” (na bazi osobine koja se posmatra) “neuspjeh” (sve ostalo. . . ) Koriste se veliki uzorci (moraju se ispuniti određeni uslovi). Kada je n. P(1 – P) > 5, tada se prporcija uzorka može aproksimirati normalnom distribucijom sa sredinom i std. devijacijom. 16
Zadatak 1 Na jednoj fudbalskoj utakmici slučajno je izabrano 500 gledalaca među kojima je bilo 375 muškaraca. Ispitati, uz 5% rizika, pretpostavku da fudbalskoj utakmici prisustvuje: a) 70% muškaraca, b) manje od 30% gledalaca ženskog pola. Hipoteze. . . a) 17
Zadatak 1 Koristi se Statistika testa Z, ako su ispunjeni određeni uslovi: Rizik je 5%, a kritične vrijednosti su raspoređene simetrično, na krajevima normalnog raspreda. . . Pravilo odlučivanja glasi: H 0 nećemo odbaciti ako je: H 0 ćemo odbaciti ako je: 18
Zadatak 1 Statistika testa Z se dobije na osnovu naredne formule i iznosi: Zaključak. . . Odbacujemo nultu hipotezu i uz 5% rizika zaključujemo da se učešće gledalaca muškog pola statistički značajno razlikuje od 70%. . . b) Ovde se radi o jednostranom testu (lijevo je kritična oblast. . . ) Hipoteze su: 19
Zadatak 1 Sa slike se jasno vidi da ćemo nultu hipotezu odbaciti ako je realizovana vrijednost manja od -1, 65 i obrnuto. . . Što je ujedno i pravilo odlučivanja. Realizovana vrijednost: Zaključak: Odbacujemo nultu hipotezu i uz 5% rizika konstatujemo da je učešće gledalaca ženskog pola manje od 30%. 20
Zadaci Zadatak br. 2 Procenat masnoće u jednoj litri mlijeka na jednoj farmi treba da iznosi najmanje 3. 5%. Slučajno smo izabrali 250 litara mlijeka i utvrdili da procenat masnoće iznosi 3%. Ispitati uz koji najveći stepen rizika možemo prihvatiti ovu hipotezu. Zadatak br. 3 Marketing kompanija tvrdi da 8% njenih klijenata ekspresno odgovara na mail. Da bi provjerili ovu pretpostavku, poslali su 500 upita na različite mail-ove i ustanovili da je 25 klijenata odmah poslalo odgovor na upit. Ispitati ovu tvrdnju (nivo pouzdanosti 95%)! 21
Testiranje hipoteza (2 uzorka) Testovi sa 2 uzorka 22 Sredina populacija (zavisni uzorci) Sredina populacije (nezavisni uzorci) Proporcija populacije Ista grupa prije i poslije tretmana Grupa 1 vs. Grupa 2 (dvije nezavisne grupe) U dvije različite grupe se posmatra udio neke pojave. . .
Zadatak 1 Jedno preduzeće želi da uporedi kvalitet rada 2 mašine koje je nabavilo za proizvodnju određenog proizvoda. Slučajno odabranih 120 proizvoda sa mašine A imalo je prosječno vrijeme izrade 75 minuta, dok je 150 proizvoda sa mašine B imalo prosječno vrijeme izrade 90 minuta. Ispitati uz 5% rizika da li je statistički značajna razlika u kvalitetu rada mašina A i B pod pretpostavkom da su standardne devijacije ova 2 skupa jednake i iznose 25 minuta. Pošto su varijanse poznate i koristimo statistiku Z testa. 23
Zadatak 1 Radi se o dvosmjernom testu pa imamo: Pravilo odlučivanja: H 0 nećemo odbaciti ako je: H 0 ćemo odbaciti ako je: Realizovana vrijednost Statistike testa Z: 24 Zaključak. . .
Zadatak 2 Praćenjem gledanosti jedne TV emisije na području A slučajno je odabrano 1000 gledaoca od kojih 410 tu emisiju redovno prati, dok od 500 slučajno odabranih gledaoca sa područja B 52% su redovni gledaoci te TV emisije. a) Utvrditi uz 5% rizika da li su gledaoci sa područja B više zainteresovani za ovu TV emisiju; b) Odrediti najveći stepen rizika uz koji možemo prihvatiti pretpostavku da nema značajne razlike u zainteresovanosti gledaoca na područjima A i B za ovu TV emisiju. 25
Hvala na pažnji! 26
- Slides: 26