Osnove i jo malo vie statistike www illustrationsof
- Slides: 82
Osnove (i još malo više) statistike www. illustrationsof. com Doc. dr. sc. Ozren Polašek
© Lucasfilm
l Statistika je disciplina i struka koja se bavi shvaćanjem varijabilnosti podataka, na temelju prikupljanja i analize podataka
Prikupljanje podataka l Svrha – opisati neku pojavu u populaciji l Kako – obuhvatiti cijelu populaciju? http: //www. samepoint. com
Temeljne pretpostavke l Cilj: istražiti nešto u uzorku a zatim zaključivati o populaciji l Uzorkovanje ¡Prikladno (namjerno)(loše) ¡Jedna ustanova (loše) ¡Konsekutivno (malo bolje) ¡Slučajni odabir (najbolje) http: //www. samepoint. com
Mjerenje l Preciznost i validnost mjerenja (prosjek mjerenja odgovara stvarnom prosjeku)
Podjele… l Statistika ¡Deskriptivna ¡Analitička/inferencijalna l. Parametrijska l. Neparametrijska
Oblici mjerenja i varijabli Tip mjerenja Obilježja varijable Primjer Opisna statistika Razina informativnosti Kategorijske Nominalne Neuređene kategorije Spol, krvna grupa Broj, proporcija Niska Ordinalne Uređene kategorije Ocjene, skala boli Medijani Srednja Uređene kategorije s jednakim intervalima Visina, težina Srednja vrijednost, medijan Visoka Kontinuirane (numeričke)
Osnovni pojmovi (deskriptivna statistika) l Srednja vrijednost (zbroj/broj) l Standardna devijacija l Raspon (min-max) l (Per)centila (100’) l Medijan (50%) l Interkvartilni raspon (75’-25’)
Srednja vrijednost 25’ Medijan (50’) 75’
Testiranje hipoteze l P vrijednost (eng. probability - vjerojatnost) l Govori o tome kolika je vjerojatnost da je rezultat točan, tj. da nije točan l Manja od 0, 05 (ili 0, 01) – govori o tome da je vjerojatnost za neki događaj manja od 5% slučajnog rezultata
Testiranje hipoteze l P vrijednost l Manja od 0, 05 (ili 0, 01) ¡ P<0, 05 ¡ P NS. ¡ P=0, 021 ¡ P<0, 001 ¡ P=3, 45*10 -5 l Odabir statističkog testa ovisno o istraživačkom pitanju, obilježjima analiziranih varijabli i strukturi istraživanja
l Asking a statistician to help after the experiment has been completed is like talking to a pathologist. It is then that the statistician can tell you what the project died of. Sir Ronald Aylmer Fisher (1890 -1962) http: //en. wikipedia. org/wiki/Ronald_Fisher
Kvalitativni (kategorijski) 1 neovisna varijabla Goodness of fit x 2 2 ili više neovisnih varijabli Hi kvadrat (x 2) 2 ili više ovisnih varijabli Mc. Nemar test Pearson r Kontinuirana varijabla Regresija 1 prediktor TIP PODATKA Rangovi Više prediktora Povezanost Multipla regresija t test neovisne 2 skupine Kvantitativni Spearman r Testiranje hipoteze Mann-Whitney t test za povezane uzorke ovisne Wilcoxon Razlika One-way ANOVA Kruskal-Wallis neovisne Parametrijske Neparametrijske ANOVA za ponavljane uzorke Više skupina ovisne Friedman
Parametrijske metode l Temelje se na parametrima iz uzorka/populacije l Zahtijevaju normalnu raspodjelu podataka
Normalna raspodjela podataka l “Gaussova” l eng. bell shaped l Srednja vrijednost ista kao i medijan l Standardna devijacija određuje širinu
Testiranje normalnosti l “Okometrijski” l Korištenjem posebnih grafičkih prikaza l Korištenjem statističkih testova ¡Kolmogorov-Smirnov test (>50) ¡Shapiro-Wilk test (<50)
Kada koristiti parametrijske metode? l Normalna raspodjela podataka l Mjerenja moraju biti neovisna (npr. 10 ispitanika sa 10 mjerenja istog svojstva na svakome od njih NIJE 100 neovisnih mjerenja) l Mjerenja se zasnivaju na populaciji koja ima normalnu raspodjelu istraživanog svojstva l Svi skupine u uzorku moraju imati istu varijancu
Zašto uopće gledati raspodjelu? l Zato što o raspodjeli podataka ovisi metoda i tijek analize l Normalna raspodjela omogućuje upotrebu parametrijskih metoda analize l Odstupanje od normalne raspodjele onemogućuje upotrebu parametrijskih metoda l Analiza raspodjele omogućuje uočavanje mogućih pogrešaka u podacima
Deskriptivna statistika l Prikaz mjera središnje tendencije l Prikaz mjera varijabilnosti podataka l UVIJEK ZAJEDNO! l Normalna raspodjela: srednja vrijednost±standardna devijacija l Raspodjela podataka koja odstupa od normalne: medijan i (1) raspon, (2) najmanja i najveća vrijednost i (3) interkvartilni raspon
Medijan i mjere varijabilnosti l Medijan (raspon) max-min ¡ 56, 0 (75, 0) l Medijan (raspon) min i max ¡ 56, 0 (18, 0 -93, 0) l Medijan (interkvartilni raspon; 75’-25’) ¡ 56, 0 (24, 0)
Kolcic I, Polasek O, Mihalj H, Gombac E, Kraljevic V, Kraljevic I, Krakar G. Research involvement, specialty choice, and emigration preferences of final year medical students in Croatian Medical Journal 2005; 46(1): 88 -95.
Polasek O, Kolcic I, Smoljanovic A, Stojanovic D, Grgic M, Ebling B, Klaric M, Milas J, Puntaric D. Demonstrating reduced environmental and genetic diversity in human isolates by analysis of blood lipid levels. Croatian Medical Journal. 2006; 47(4): 649 -55.
Polasek O, Petrovecki M, Primorac D, Petrovecki M. Fellowship outcomes and factors associated with scientific successfulness of junior researchers in Croatia. Drustvena istrazivanja 2007, 6 (92): 1127 -1150.
Polasek O, Mavrinac M, Jovic A, Kolcic I, Ramic S, Ivankovic D, Petrovečki M. Undergraduate grade point average is a poor predictor of scientific productivity later in career. Higher Education, In Press
Odabir statističkog testa l 2 nepovezane skupine: t-test (engl. independent samples t-test) l 2 povezane skupine: t-test za povezane uzorke (engl. dependent samples t-test) l Više od dva neovisna uzorka: F-test ili ANOVA (analysis of variance)+post-hoc test l Više od dva ovisna uzorka: faktorska ANOVA i AUC
t-test za neovisne uzorke l 1908 William Sealy Gosset l Osmislio je novi test za kontrolu kvalitete piva u pivovari Guinness l Objavio rezultate u časopisu Biometrika, ali nije mogao koristiti svoje ime zbog očuvanja poslovne tajne © Guinness
t-test za ovisne uzorke l Podaci koji su povezani l Npr. dužina lijeve i desne očne jabučice l Interpretacija ista kao i t-test za neovisne uzorke
ANOVA l Analysis of variance l Više nepovezanih skupina l Međutim, sam test nije dovoljan (P<0, 001) l Post-hoc test – usporedba svake skupine sa svakom 1 2 3 ANOVA P<0, 001 1 2 3 Post-hoc 1 vs. 2 P=0, 621 1 vs. 3 P=0, 003 2 vs. 3 P<0, 001
Goodness of fit x 2 1 neovisna varijabla Hi kvadrat (x 2) 2 neovisne varijable Mc. Nemar test 2 ovisne varijable Pearson r Kontinuirana varijabla Kvalitativni (kategorijski) Povezanost Regresija 1 prediktor Rangovi Više prediktora Multipla regresija TIP PODATKA Spearman rs t test neovisne 2 skupine Testiranje hipoteze Mann-Whitney U t test za povezane uzorke ovisne Kvantitativni Wilcoxon Razlika One-way ANOVA Kruskal-Wallis H neovisne Parametrijske Neparametrijske ANOVA za ponavljane uzorke Više skupina ovisne Friedman
Parametrijska korelacija l Povezanost dvije kontinuirane numeričke varijable koje obilježava normalnu raspodjelu podataka l Koeficijent korelacije (r) l Govori o snazi povezanosti, a kreće se od -1, 0 do 1, 0 l Koeficijent korelacije r=0 ukazuje na nepostojanje korelacije
Pearsonov test korelacije l Parametrijski model korelacije l Zasniva se na testiranju snage povezanosti dvije varijable l Uvijek prikazujte graf rasapa (scatterplot) na kojem se vidi priroda korelacije l Korelacija mora biti linearna
r=0, 32
Goodness of fit x 2 1 neovisna varijabla Hi kvadrat (x 2) 2 neovisne varijable Mc. Nemar test 2 ovisne varijable Pearson r Kontinuirana varijabla Kvalitativni (kategorijski) Povezanost Regresija 1 prediktor Rangovi Više prediktora Multipla regresija TIP PODATKA Spearman rs t test neovisne 2 skupine Testiranje hipoteze Mann-Whitney U t test za povezane uzorke ovisne Kvantitativni Wilcoxon Razlika One-way ANOVA Kruskal-Wallis H neovisne Parametrijske Neparametrijske ANOVA za ponavljane uzorke Više skupina ovisne Friedman
GIGO l Garbage in, garbage out l Niti najbolja statistička obrada neće popraviti loš dizajn istraživanja, unos podataka ili loše istraživačko pitanje
Regresija: krvni tlak i prihodi l Postoji jasna i očita povezanost krvnog tlaka i razine prihoda, na način da u uzorku ispitanici sa najvišim primanjima imaju najviši krvni tlak l Objašnjenje?
Tko ima visoke prihode? l Stariji l Muškarci l Višeg stupnja obrazovanja*
Regresija l Povezanost više (prediktorskih) varijabli sa jednom ciljnom (ovisnom) varijablom l Npr. utjecaj spola i dobi na visinu krvnog tlaka l Istovremeni prikaz utjecaja više varijabli na jednu l Epidemiološki rečeno, ovo su varijable zbunjivanja (engl. confounding) l Kako se riješiti ovog učinka?
Kako ukloniti zbunjivanje (confounding)? l Stratifikacija l Standardizacija l Sparivanje (engl. mathcing) l Selekcija l Randomizacija* l Regresija
Oblici regresijske analize l Linearna i multipla linearna l Logistička l Cox (hazard model) l Ordinalna
Pretpostavke korištenja linearne regresije l Ciljna varijabla ima normalu raspodjelu l Prediktorske varijable imaju normalnu raspodjelu l Prediktorske varijable ne mogu biti ordinalne ili kategorijske (samo binarne i kontinuirane normalne)
Logistička regresija l Ciljna varijabla je binarna (npr. zdravbolestan, živ-mrtav, …) l Mjeri utjecaj pojedine klase prediktorske varijable na ishod
Goodness of fit x 2 1 neovisna varijabla Hi kvadrat (x 2) 2 neovisne varijable Mc. Nemar test 2 ovisne varijable Pearson r Kontinuirana varijabla Kvalitativni (kategorijski) Povezanost Regresija 1 prediktor Rangovi Više prediktora Multipla regresija TIP PODATKA Spearman rs t test neovisne 2 skupine Testiranje hipoteze Mann-Whitney U t test za povezane uzorke ovisne Kvantitativni Wilcoxon Razlika One-way ANOVA Kruskal-Wallis H neovisne Parametrijske Neparametrijske ANOVA za ponavljane uzorke Više skupina ovisne Friedman
Srednja vrijednost Std. Devijacija Medijan 138. 3 24. 1 135. 0 Min 69. 0 Max 230. 0 Raspon 161. 0 Interkvartilni raspon 32. 0
Srednja vrijednost 5. 69 Std. Devijacija 1. 48 Medjian 5. 40 Min 2. 30 Max 17. 40 Raspon 15. 10 Interkvartilni raspon 1. 10
Srednja vrijednost Medijan (50’)
Tip podatka / očekivana raspodjela l Visina l Prosjek ocjena l Starost u godinama l Razina inzulina u serumu l Težina l Bilirubin u mokraći
Prosjek ocjena l Ocjene od 1 -5 su brojčane l Međutim, one su diskretne, nisu kontinuirane l Ovaj tip podatka nikako ne može imati normalnu raspodjelu
Neparametrijske metode l Analitičke metode koje se ne zasnivaju na pretpostavci raspodjele podataka l NEMA srednje vrijednosti i standardne devijacije l Podaci su po svojoj prirodi nominalni ili ordinalni l Veličina uzorka je mala (npr. 20 ispitanika) – šansa za pogrešku tipa I
Prednost NP metoda l Mogućnost analize raznolikih uzoraka (engl. outliers) l Analiza se svodi na rang podataka ne na stvarne vrijednosti
Kada obavezno NP metode? l Mali uzorci (N<30) l Varijable koje nemaju normalnu raspodjelu (npr. enzimi, biokemijski pokazatelji, krvni tlak, …) l Ordinalne varijable (ocjene, starost u godinama, …)
Zašto ne koristiti NP metode? l Otežana interpretacija (medijan i raspon) l Ponekad nemoguće pokazati razliku dvije varijable (iste vrijednosti medijana) l Smanjena statistička snaga testa i povećana šansa za pogreške
Pogreške u analizi l Pogreška tipa I: lažno pozitivni rezultat ¡ Odbijanje nul-hipoteze kada je ona stvarno istina, tj. prikazivanje rezultata kao statistički značajan kada on uistinu nije l Pogreška tipa II: promašaj stvarnog učinka ¡ Pogreška koja nastaje jer se ne odbacuje nul-hipoteza kada je ona lažna, tj. odbacivanje stvarnog rezultata i proglašavanje neznačajnim
Neparametrijske metode l 2 neovisna uzorka – Mann-Whitney (t-test) l 2 povezana uzorka – Wilcoxon (t-test PU) l Više od dva neovisna uzorka – Kruskal. Wallis (ANOVA) l Više od dva povezana uzorka – Friedman (faktorska ANOVA)
Usporedba P i NP metoda l Moguće je izračunati rezultata i P i NP metoda za neki uzorak i usporediti značajnosti l Oba uzorka isto – jednostavno l Problem – P i NP rezultati se razlikuju
Goodness of fit x 2 1 neovisna varijabla Hi kvadrat (x 2) 2 neovisne varijable Mc. Nemar test 2 ovisne varijable Pearson r Kontinuirana varijabla Kvalitativni (kategorijski) Povezanost Regresija 1 prediktor Rangovi Više prediktora Multipla regresija TIP PODATKA Spearman rs t test neovisne 2 skupine Testiranje hipoteze Mann-Whitney U t test za povezane uzorke ovisne Kvantitativni Wilcoxon Razlika One-way ANOVA Kruskal-Wallis H neovisne Parametrijske Neparametrijske ANOVA za ponavljane uzorke Više skupina ovisne Friedman
Neparametrijska korelacija l Korelacija dvije kvantitativne kontinuirane varijable koje nisu povezane linearno ili nemaju normalnu raspodjelu podataka l Ordinalne varijable l Spearmanov rank test l Isti pokazatelji kao i Pearsonov test (r, P)
Što s raspodjelom podataka? l Parametrijske metode? l Neparametrijske metode? l Regresija? l Transformacija podataka – računska operacija s podacima koja rezultira promjenom raspodjele podataka
Oblici transformacije podataka Logaritamska transformacija [log(x)] Kvadratična transformacija (x 2)
Carothers AD, Rudan I, Kolcic I, Polasek O, Hayward C, Wright AF, Campbell H, Teague P, Hastie ND, Weber JL. Estimating human inbreeding coefficients: comparison of genealogical and marker heterozygosity approaches. Annals of Human Genetics 2006; 70(5): 666 -76.
Oblici transformacija l Logaritamska l Kvadratična l Korjenska l Inverzna l Logit (proporcije)
Rang-normalnost transformacija l Transformacija koja rangira sve uzorke (slaže po redu), a zatim njihove rangove zamjenjuje za vrijednosti dobivene iz izračuna normalne raspodjele podataka na temelju parametara uzorka
Rang-normalnost transformacija Prije Poslije
Sistolički krvni tlak
Goodness of fit x 2 1 neovisna varijabla Hi kvadrat (x 2) 2 neovisne varijable Mc. Nemar test 2 ovisne varijable Pearson r Kontinuirana varijabla Kvalitativni (kategorijski) Povezanost Regresija 1 prediktor Rangovi Više prediktora Multipla regresija TIP PODATKA Spearman rs t test neovisne 2 skupine Testiranje hipoteze Mann-Whitney U t test za povezane uzorke ovisne Kvantitativni Wilcoxon Razlika One-way ANOVA Kruskal-Wallis H neovisne Parametrijske Neparametrijske ANOVA za ponavljane uzorke Više skupina ovisne Friedman
Hi-kvadrat test l Jedan od najjednostavnijih statističkih testova l Jako često se koristi l Veliki broj neparametrijskih testova svodi se na hi-kvadrat
Hi-kvadrat - pažnja l Primjenjiv samo na kategorijskim podacima l Primjeri? ¡Ocjene ¡Stupanj fizičke aktivnosti ¡Boja očiju ¡Spolne razlike ¡Socioekonomski status
Hi-kvadrat l Temelji se na usporedbi očekivanih i opaženih frekvencija l Za mali broj uzoraka (manji od 5 u 20% ili više polja tablice kontingencije) potrebno je koristiti Fisherov egzaktni test
Mc. Nemar l Alternativa hi-kvadrata za povezane varijable l Kategorijske varijable koje su povezane ¡Pripadnost političkoj stranci prije i nakon izbora ¡Ishod liječenja u cross-over pokusu
Goodness of fit x 2 1 neovisna varijabla Hi kvadrat (x 2) 2 neovisne varijable Mc. Nemar test 2 ovisne varijable Pearson r Kontinuirana varijabla Kvalitativni (kategorijski) Povezanost Regresija 1 prediktor Rangovi Više prediktora Multipla regresija TIP PODATKA Spearman rs t test neovisne 2 skupine Testiranje hipoteze Mann-Whitney U t test za povezane uzorke ovisne Kvantitativni Wilcoxon Razlika One-way ANOVA Kruskal-Wallis H neovisne Parametrijske Neparametrijske ANOVA za ponavljane uzorke Više skupina ovisne Friedman
Primjer (1/2) l Prosječna plaća u Republici Hrvatskoj iznosi 4. 450 Kn l U gradu Zagrebu 5. 097 Kn
4, 450 Kn
4, 450 Kn
Primjer (2/2) l U razdoblju od 1995 -2005 godine u Vinkovcima je zabilježeno 1102 slučaja alergijskog rinitisa i astme. Srednja dob svih ispitanika bila je 24, 3± 11, 6 godina. Odnos spolova bio je podjednak, 50, 3% uzorka bili su muškarci.
- Kursevi statistike beograd
- Finance za nefinančnike
- Sta su informacione tehnologije
- Homologi hromozomi
- Radulovi
- Slidetodoc.com
- 3. deklinacija
- E sa akcentom
- Osnove interneta
- Osnove jela
- Osnove zaštite na radu
- Realnost informatika
- Osnove tehničkih materijala
- Matematicke osnove racunara
- Opste osnove predskolskog programa
- Informatika 8 razred
- Masculinum femininum neutrum
- Osnove imunologije
- Osnove algoritama
- Informatika je nauka
- Slidetodoc
- Principi urednog knjigovodstva
- Osnove pedagogije
- Sql osnove
- Osnove zdravstvene njege
- Organske osnove psihickog zivota
- Osnove poslovne komunikacije
- Osnove termodinamike
- Osnove termodinamike
- Osnove rada u programu prikupljanje i unos podataka
- Informatika osnovni pojmovi
- Osnove java programiranja
- Vrste turizma
- Objektno orijentisano programiranje java zadaci
- Osnove arhitekture
- Php osnove
- Osnove zdravstvene njege
- Dipl ms
- Malo mavis malui malle
- Estado de naturaleza de rousseau
- Tan comparative and superlative
- Reljef međimurja
- Dalmacija veliko ili malo slovo
- Lo malo de la televisión
- Peluquero malo
- Salmo 50 16
- Pisanje imena stanovnika
- Mateo 25
- Malo znanje čini ljude oholim a veliko skromnim
- Veliko i malo slovo u imenima ulica i trgova
- Malo regular bueno excelente
- Busca lo bueno y no lo malo para que vivais
- Zagrebačka gora pravopis
- Ustanova veliko ili malo slovo
- Imena naseljenih mjesta
- Doctor qu
- Institution saint malo
- Perfetto attivo latino
- Arma sumantur pro patria cives
- Age comparative and superlative
- Málo členitá plochá krajina se nazývá
- Como concretar mi deseo de conversion
- Posvojni pridjevi na ov ev in
- Malo regular bueno excelente
- Levinson structure de vie
- Valve mécanique ou biologique
- Pain de vie corps ressuscité
- Beau texte sur le tricot
- Le sport c'est la vie
- Esempi di protezione passiva
- Formazione dpi 3 categoria vie respiratorie
- Dure vie
- Volume de distribution d'un médicament
- Mot de bienvenue pour un culte d'adoration
- Android
- Circulatia in lumea vie
- Alister mulhouse recrutement
- Demi vie tramadol lp
- Vis ta vie znacenje
- Le grand je suis paroles
- Charlie chaplin j'ai pardonné
- Ligne de niveau produit scalaire
- Il est des moments