ANALIZA PRIKUPLJENIH PODATAKA STATISTIKO ZAKLJUIVANJE Vebe 3 Primeri
ANALIZA PRIKUPLJENIH PODATAKA: STATISTIČKO ZAKLJUČIVANJE Vežbe 3
Primeri upotrebe • Pri bacanju novčića, da li je novčić “pristrasan”? – Prikupljanje podataka • 100 puta bacimo novčić – Desktriptivna statistika • 60% glava, 40% pismo – Zaključak? • Da li je novčić „ispravan“ ili je “pristrasan”? • U gradu od 50. 000 stanovnika, ispitivanjem slučajnog uzorka od 1600 ljudi želimo da procenimo postotak onih koji podržavaju zakonsku zabranu fizičkog kažnjavanja dece – Prikupljanje podataka • Anketa – Deskriptivna statistika • 1000 ljudi protiv zabrane, 600 ljudi za zabranu – Zaključak? • Da li se 62. 5% stanovnika protivi zabrani? • Manje? Više? • Kolika je moguća greška u dobijenim rezultatima?
Donošenje zaključaka na osnovu rezultata istraživanja Populacija Uzorak Uzorkovanje ZAKLJUČIVANJE
Vrste statističkog zaključivanja 1. Ocenjivanje parametara a) Tačkasto ocenjivanje parametara b) Intervalno ocenjivanje parametara 2. Testiranje statističkih hipoteza
OCENJIVANJE PARAMETARA
CILJ • proceniti koja je vrednost numeričkog parametra (mere/obeležja koje se odnosi na celu populaciju) kada je poznat samo statistik (mera/obeležje koje se odnosi na uzorak) Statistik Ar. sredina: procenjuje (SD) procenjuje M (X) St. devijacija: S Proporcija: iz uzorka p Parametar čitava populacija
Primer • Cilj: proceniti koja je vrednost numeričkog parametra (mere/obeležja koje se odnosi na celu populaciju) kada je poznat samo statistik (mera/obeležje koje se odnosi na uzorak) • Koliko prosečno traje polaganje prijemnog ispita za srednju školu? – Istraživanje na reprezentativnom uzorku: M = 55 minuta
Primer Populacija: = ? ? ? Uzorak: M = 55 min
Ocenjivanje parametra • Cilj: proceniti koja je vrednost numeričkog parametra (mere/obeležja koje se odnosi na celu populaciju) kada je poznat samo statistik (mera/obeležje koje se odnosi na uzorak) TAČKASTA OCENA PARAMETRA • Koliko prosečno traje polaganje prijemnog ispita za srednju školu? – Istraživanje na reprezentativnom uzorku: M = 55 min – Ali nas zanima vrednost parametra (populacija) a ne statistika (uzorak)! Možda prosek za populaciju nije isti kao za uzorak! – Da li je prosečno trajanje polaganja prijemnog za sve učenike u Srbiji 55 minuta?
Primer Populacija: = ? ? ? Uzorak: M = 55 Uzorak: M = 57 Uzorak: M = 54
Greška uzorka • Procena populacijske vrednosti na osnovu uzoračke vrednosti uvek sadrži marginu greške – Greška uzorka – razlika između parametra (populacijske vrednosti) i statistika (uzoračke vrednosti) – Gi = μ – M i • Statistik (Mi) - podatak koji se dobije u istraživanju • Parametar (μ) – praktično se ne može utvrditi Greška uzorka (Gi) je uvek nepoznata
Standardna greška • Greška uzorka je uvek nepoznata • ALI: – Može se izračunati: Standardna greška statistika • Standardna devijacija njegove distribucije uzorkovanja S SE = √n Distribucija uzorkovanja – veza mogućih vrednosti statistika i verovatnoće dobijanja tih vrednosti (za uzorak date veličine)
Ocena parametra • Greška uzorka je uvek nepoznata • ALI: – Može se izračunati: – Standardna greška statistika • verovatnoća da se neki statistik razlikuje od parametra za određeni iznos (koji smo dobili u istraživanju) • Ar. sredina populacije (μ) u 95% slučajeva nalaziće se na manje od 1. 96 x SE od ar. sredine slučajnog uzorka (M) Naša procena ar. sredine populacije (μ) na osnovu ar. sredine slučajnog uzorka u 5% slučajeva biće netačna Ako nam je potrebna 99% sigurnost: ar. sredina populacije nalaziće se na manje od 2. 58 x SE od ar. sredine slučajnog uzorka
TAČKASTA OCENA PARAMETRA Primer • Koliko vremena je u proseku potrebno za polaganje prijemnog ispita? – Slučajni uzorak: n = 100 ispitanika – M = 55 min, S = 15 min – (pod pretpostavkom da je S u populaciji ista kao i u uzorku: ) INTERVALNA OCENA PARAMETRA – Sa 95% sigurnosti možemo da zaključimo da je prosečno vreme potrebno za polaganje prijemnog: μ = M 1. 96 SE S Procena μ : između 52 i 58 minuta SE = 15 √n μ = 55 min 1. 96 x Margina greške: 3 minuta √ 100 μ = 55 1. 96 * 1. 5 Verovatnoća greške: 5% μ = 55 2. 94 minuta
Vrste ocenjivanja parametra 1. Tačkasto – Ar. sredina uzorka (M) • primer: M = 55 min 2. Intervalno – Intervali poverenja (CI) • • primer: sa sigurnošću od 95%, μ je između 52 i 58 minuta sa sigurnošću od 99%, μ je između 51 i 59 minuta
TESTIRANJE HIPOTEZE
Hipoteza i njeno testiranje • Hipoteza = uverenje koje se tiče parametra – Parametri: aritmetička sredina, standardna devijacija, proporcija, itd. • Testiranje hipoteze = statistički postupak kojim se podaci dobijeni na uzorku koriste kako bi se procenila tačnost hipoteze koja se tiče populacijskog parametra Verujem da je agresivnost u jednakoj meri prisutna kod dečaka i devojčica
Nulta hipoteza • Nulta hipoteza (H 0): ono od čega polazimo – prethodno znanje, preovladavajuće mišljenje, prethodna teorija, itd. • Pretpostavlja se da je tačna dok se ne pronađu dokazi protiv nje • Ako/kad nam podaci dobijeni na osnovu uzorka daju jake dokaze protiv nulte hipoteze, ona se odbacuje i počinjemo da verujemo u alternativnu hipotezu (H 1)
Nulta hipoteza: primeri • H 0: Prosečno vreme izrade prijemnog iznosi 55 minuta • H 1: Prosečno vreme izrade prijemnog iznosi više od 55 minuta • H 0: Nivo agresivnosti jednak je kod dečaka i devojčica • H 1: Nivo agresivnosti nije jednak kod dečaka i devojčica • H 0: Školski uspeh u korelaciji je sa inteligencijom • H 1: Školski uspeh nije u korelaciji sa inteligencijom
Nivo značajnosti • Određuje vrednosti koje statistik ne sme imati ukoliko je nulta hipoteza tačna – Region odbijanja (α) u distribuciji uzorkovanja Koliko prosečno vreme polaganja prijemnog na uzorku je potrebno dobiti da bismo odbacili nultu hipotezu da je α prosek za populaciju 55 minuta? Zavisi od toga koliko sigurni želimo da budemo sigurni u svoju odluku kritične vrednosti Ukoliko želimo veći stepen sigurnosti, odstupanje u uzorku mora da bude veće • Nivo značajnosti određuje ga istraživač, na početku analize – Tipične vrednosti su: 0. 05, 0. 01 • Na osnovu njega se određuju kritične vrednosti statističkog testa
Nivo značajnosti • Kada odbacujemo nultu hipotezu, rizikujemo da donesemo pogrešan zaključak • Taj rizik se može izračunati i izražava se kao p-vrednost – Uobičajeno se odabira kritična vrednost (α) od 0. 05 ili 0. 01
Koraci u testiranju hipoteze 1. Postavljaju se H 0 i H 1 – Polazi se od pretpostavke da je H 0 istinita 2. Izračunava se vrednost test-statistika 3. Izračunava se p-vrednost – p-vrednost je verovatnoća da se na uzorku dobije vrednost koja je dobijena ili veća, ukoliko je H 0 istinita 4. Odlučuje se da li je (na osnovu rezultata dobijenih na uzorku) H 0 istinita – Pravilo odlučivanja: • ako je p-vrednost manja od α, onda se H 0 odbacuje; • ako je p-vrednost veća od α, H 0 ostaje na snazi
Tipovi grešaka u odlučivanju Tačna H 0 Netačna H 0 Odbačena H 0 Greška tipa I Korektna odluka H 0 nije odbačena Korektna odluka Greška tipa II
Najčešće korišćeni testovi hipoteza • Testiranje hipoteze o aritmetičkoj sredini populacije – Primer: Da li je prosečno vreme polaganja prijemnog 55 minuta? – t-test • Testiranje značajnosti razlika između aritmetičkih sredina – Primer: Da li je agresivnost podjednako prisutna kod dečaka i devojčica? – t-test (za nezavisne uzorke) • Testiranje podudarnosti dve distribucije – Primer: da li su ocene u osnovnoj školi (1, 2, 3, 4 i 5) jednako učestale kod levorukih i desnorukih učenika? – Hi-kvadrat (χ2) test
Pitanja?
HVALA na pažnji
- Slides: 26