Statistika Pohled z pta perspektivy Statistika z pta

  • Slides: 64
Download presentation
Statistika Pohled z ptačí perspektivy

Statistika Pohled z ptačí perspektivy

Statistika z ptačí perspektivy • Úloha statistiky v experimentálním výzkumu • Explorační metody •

Statistika z ptačí perspektivy • Úloha statistiky v experimentálním výzkumu • Explorační metody • Konfirmační metody • Sedm + 1 praktických rad

Statistika z ptačí perspektivy • Úloha statistiky v experimentálním výzkumu • Explorační metody •

Statistika z ptačí perspektivy • Úloha statistiky v experimentálním výzkumu • Explorační metody • Konfirmační metody • Sedm + 1 praktických rad

Poslání statistiky Statistika nám pomáhá odhalovat zákonitosti v našem stochastickém světě. Umožňuje nám odfiltrovávat

Poslání statistiky Statistika nám pomáhá odhalovat zákonitosti v našem stochastickém světě. Umožňuje nám odfiltrovávat či alespoň kvantifikovat vliv náhody na naše experimentální data.

Vlivy náhody na naše data 1) Chyba malých čísel, velikost výběrového souboru (vzorku), reprezentativnost

Vlivy náhody na naše data 1) Chyba malých čísel, velikost výběrového souboru (vzorku), reprezentativnost vzorku 2) Studovaný jev (například vliv stáří na tělesnou váhu) může být překryt vlivy jiných (z hlediska studovaného jevu náhodných) faktorů

Statistické metody Základní rozdělení podle účelu: 1) Explorační metody 2) Konfirmační metody

Statistické metody Základní rozdělení podle účelu: 1) Explorační metody 2) Konfirmační metody

Statistika z ptačí perspektivy • Úloha statistiky v experimentálním výzkumu • Explorační metody •

Statistika z ptačí perspektivy • Úloha statistiky v experimentálním výzkumu • Explorační metody • Konfirmační metody • Sedm + 1 praktických rad

Explorační metody § popisná statistika § zobrazovací metody § shluková analýza § diskriminační analýza

Explorační metody § popisná statistika § zobrazovací metody § shluková analýza § diskriminační analýza § faktorová analýza § a mnohé další

Charakteristiky polohy (centrální tendence) §Průměr (aritmetický, geometrický, harmonický) §Medián a kvantily [Median, Quantiles] §Modus

Charakteristiky polohy (centrální tendence) §Průměr (aritmetický, geometrický, harmonický) §Medián a kvantily [Median, Quantiles] §Modus 2014 průměr: 26 174 Kč podprůměrný plat má 63%

Charakteristiky variability (disperse) § Rozsah (range) § Variance, rozptyl, 2, var [variance] 2={ (xi-X)2}/n

Charakteristiky variability (disperse) § Rozsah (range) § Variance, rozptyl, 2, var [variance] 2={ (xi-X)2}/n s 2={ (xi-X)2}/(n-1) § Směrodatná odchylka, s, s. d. , SD [standard deviation] s = var § Variační koeficient, CV [coeficient of variation] CV=s/X

Přehled nejčastějších grafů § Koláčový graf (podíly z celku) § Sloupcový graf (průměry pro

Přehled nejčastějších grafů § Koláčový graf (podíly z celku) § Sloupcový graf (průměry pro kategorie) § Krabicový graf (velikosti a rozptyl pro kategorie) § Čárový graf (funkční závislost) § Histogram (četnosti pro kategorie) § XY (XYZ) graf (závislost 2 (3) kvantitativních veličin) § Houslový graf – průměr i rozdělení četnosti

Koláčový graf [Pie chart]

Koláčový graf [Pie chart]

Koláčový graf [Pie chart]

Koláčový graf [Pie chart]

Koláčový graf [Pie chart]

Koláčový graf [Pie chart]

Sloupcový graf [bar/collumn plot]

Sloupcový graf [bar/collumn plot]

Krabicový graf [box plot] muži ženy

Krabicový graf [box plot] muži ženy

Čárový graf

Čárový graf

Čárový graf

Čárový graf

Histogram

Histogram

XY-graf [scatterplot]

XY-graf [scatterplot]

Houslový graf [violin plot]

Houslový graf [violin plot]

Další metody explorační statistiky • Shluková analýza (cluster analysis) Na základě kombinace hodnot velkého

Další metody explorační statistiky • Shluková analýza (cluster analysis) Na základě kombinace hodnot velkého počtu proměnných uspořádá studované objekty do přirozených skupin (hierarchicky nebo nehierarchicky) Použití: Numerická taxonomie

Další metody explorační statistiky • Shluková analýza (cluster analysis)

Další metody explorační statistiky • Shluková analýza (cluster analysis)

Další metody explorační statistiky • Diskrimanační analýza Najde kombinaci proměnných na jejichž základě lze

Další metody explorační statistiky • Diskrimanační analýza Najde kombinaci proměnných na jejichž základě lze rozpoznat příslušnost objektu do některé z předem známých skupin.

Další metody explorační statistiky • Diskrimanační analýza ; .

Další metody explorační statistiky • Diskrimanační analýza ; .

Další metody explorační statistiky • Diskrimanační analýza Najde kombinaci proměnných na jejichž základě lze

Další metody explorační statistiky • Diskrimanační analýza Najde kombinaci proměnných na jejichž základě lze rozpoznat příslušnost objektu do některé z předem známých skupin. Cross validizace – leave-one-out metoda Použití: Determinace organismů, diagnostika.

Další metody explorační statistiky • Faktorová analýza Redukuje větší počet proměnných na menší počet

Další metody explorační statistiky • Faktorová analýza Redukuje větší počet proměnných na menší počet faktorů. Faktory vytvoří kombinací různých proměnných, které na studovaných objektech spolu souvisely. Použití: Vytváření osobnostních dotazníků.

Faktorová analýza • Faktorová analýza Sexual dominance Men Homosexuality Sexual submissiveness Bondage Homosexual sex

Faktorová analýza • Faktorová analýza Sexual dominance Men Homosexuality Sexual submissiveness Bondage Homosexual sex

Statistika z ptačí perspektivy • Úloha statistiky v experimentálním výzkumu • Explorační metody •

Statistika z ptačí perspektivy • Úloha statistiky v experimentálním výzkumu • Explorační metody • Konfirmační metody • Sedm + 1 praktických rad

Konec 1. dílu

Konec 1. dílu

Konfirmační metody

Konfirmační metody

Principy statistického rozhodování Nulová hypotéza H 0 - pozorovaný jev je dílem náhody, její

Principy statistického rozhodování Nulová hypotéza H 0 - pozorovaný jev je dílem náhody, její chybné zamítnutí (chyba prvního druhu [Type I error] ) by bylo závažnější (forézní medicína – justiční vražda, věda – Occamova břitva) Alternativní hypotéza - chybné zamítnutí alternativní hypotézy = chyba druhého druhu Síla testu – odráží pravděpodobnost oprávněného přijetí alternativní hypotézy 1 - (přesněji řečeno: pravděpodobnost oprávněného zamítnutí nulové hypotézy) p hodnota – pravděpodobnost, že takto podezřelá či ještě podezřelejší data vyjdou při platnosti nulové hypotézy

Testové statistiky a jejich využití Testová statistika pro testování shody četností: 2 = {(fi

Testové statistiky a jejich využití Testová statistika pro testování shody četností: 2 = {(fi - fiteor. )2/fiteor. } 2 Příklad: Mendel hrách, dva dominantní geny, křížení heterozygotů fenotypy: 152 : 39 : 53 : 6 9 : 3 : 1 ? ? ? očekávané: 140, 6 : 46, 9 : 15, 6 2 = 11, 42/140, 6 + (-7, 9)2/46, 9 + 6, 12/46, 9 + (-9, 62/15, 6 = 8, 97 V tabulkách zjistíme, že 8, 97 > 7, 81 (kritická hodnota pro = 0, 05 při 3 stupních volnosti) Závěr: Nulovou hypotézu (odchylky od očekávaných četností jsou dílem náhody) zamítáme na hladině významnosti 0, 05 (t. j. 5%)

Statistika v době počítačů Provedení: není třeba znát vzorečky (či dokonce pomocí nich počítat),

Statistika v době počítačů Provedení: není třeba znát vzorečky (či dokonce pomocí nich počítat), je třeba vědět jaké testy kdy použít pro danou úlohu. Výstupy: možno získat přímo hodnotu P (pravděpodobnost chyby I. druhu). Dříve: P<0, 05 Nyní: P=0, 048 P<0, 01 P<0, 001 Vždy uvést i sílu efektu: R 2, d (Cohenovo d), OR

Testování hypotéz • hypotézy o poloze (t-test, ANOVA) • hypotézy o rozptylu (F-test) •

Testování hypotéz • hypotézy o poloze (t-test, ANOVA) • hypotézy o rozptylu (F-test) • hypotézy o rozložení (Chi 2, Kolmogorov Smirnov) • hypotézy o vychýlených hodnotách (Grubbsův test, Dixonův test)

Spojitá Typ dat? Chi 2 Kontingenční tabulky Typ otázky? Závislost Rozdíl v čem? Rozlišíme

Spojitá Typ dat? Chi 2 Kontingenční tabulky Typ otázky? Závislost Rozdíl v čem? Rozlišíme závislou a nezávislou proměnnou? Regresní analýza Kategoriální Více průměrů Korelační analýza Kolik skupin? Průměr Rozptyl Více než dvě N < 5? Fisherův exaktní Jednovýběrový t-test F-test, Bartlettův test Předpoklady splněny ? Předpoklady splněny? Pearsonova korelace Jde opravit transformací? Man Whitney U test, nebo Wilcoxonův test Kendallova korelace Dvě Předpoklady splněny? Studentův t-test Jednocestná ANOVA Jde opravit transformací? Kruskall Wallis test Když signifikantní – post hoc test Dunn’s test, Tukey’s test Mc. Elreath R. , Statistical Rethinking, A Bayesian Course with Examples in R and Stan, 2019

Testování hypotéz o poloze • Výběr vhodné metody závisí na typu proměnných a typu

Testování hypotéz o poloze • Výběr vhodné metody závisí na typu proměnných a typu dat

Typy proměnných a typy statistických dat • Cílové (závislé) [dependent], vysvětlující [independent], rušivé [confoundings]

Typy proměnných a typy statistických dat • Cílové (závislé) [dependent], vysvětlující [independent], rušivé [confoundings] • Kvantitativní × kvalitativní • spojité a nespojité • kategoriální (nominální) [nominal data], × ordinální binární [binary data]

Typy metod v závislosti na charakteru studovaných veličin Vysvětlující kategoriální spojité ordinální i spojité

Typy metod v závislosti na charakteru studovaných veličin Vysvětlující kategoriální spojité ordinální i spojité Cílové (závislé) kategoriální spojité Kontingenční ANOVA tabulky t-test Logistická Lineární regrese Logistická ANCOVA regrese Příslušný test nám může pomoci odpovědět na otázku, jestli, případně do jaké míry, nám variabilitu v cílové veličině vysvětluje veličina(y) vysvětlující.

Vztahy spojitých veličin Regresní analýza [regression] (závislá a nezávislá proměnná) - regresní koeficient (směrnice

Vztahy spojitých veličin Regresní analýza [regression] (závislá a nezávislá proměnná) - regresní koeficient (směrnice přímky) a P (odráží pravděpodobnost, že = 0) Korelační analýza [correlation] (nelze říci, která proměnná je závislá, obě jsou navíc zatíženy chybou) -Pearsonův koeficient korelace (r), koeficient determinance (R 2) (těsnost vztahu) Ve statistických programech se obojí často počítá současně.

Význam regresního a korelačního koeficientu nižší korelační koeficient nižší regresní koeficient

Význam regresního a korelačního koeficientu nižší korelační koeficient nižší regresní koeficient

Neparametrické metody § Wilcoxonův (= Mann-Whitney) test § Mediánový (= znaménkový) test § Kruskal-Wallis

Neparametrické metody § Wilcoxonův (= Mann-Whitney) test § Mediánový (= znaménkový) test § Kruskal-Wallis ANOVA § Friedman ANOVA § Wald-Wolfowitz runs test § neparametrická korelace (Kendall, Spearman)

Randomizační a Monte Carlo Metody § Jackknifing § Bootstrapping § Permutační testy § Monte

Randomizační a Monte Carlo Metody § Jackknifing § Bootstrapping § Permutační testy § Monte Carlo testy

Příklad 1 Angličané: 180, 177, 164, 169, 178, 170, 172 Francouzi: 170, 165, 181,

Příklad 1 Angličané: 180, 177, 164, 169, 178, 170, 172 Francouzi: 170, 165, 181, 169, 162, 170, 171 Jsou Francouzi menší než Angličané? t-test

Příklad 2 Novákovi: Horákovi: Dolákovi: Červeňákovi: Zeleňákovi: 180, 175 168, 169 179, 171 175,

Příklad 2 Novákovi: Horákovi: Dolákovi: Červeňákovi: Zeleňákovi: 180, 175 168, 169 179, 171 175, 159 190, 177 Existuje souvislost mezi výškou manželů? Korelační analýza

Příklad 3 V posluchárně je 80 žen a 70 mužů, z žen jich už

Příklad 3 V posluchárně je 80 žen a 70 mužů, z žen jich už 23 usnulo a z mužů jich usnulo 24. Jsou spáči stejně zastoupeni mezi muži i ženami? Kontingenční tabulky

Příklad 4 AB: A: B: 0: 111, 120, 105, 118, 130, 98 120, 122,

Příklad 4 AB: A: B: 0: 111, 120, 105, 118, 130, 98 120, 122, 119, 125, 126, 122 110, 129, 99, 160, 111, 102 129, 122, 105, 110, 120, 101 Má krevní skupina vliv na inteligenci? ANOVA

Příklad 5 infikován Novák: Horák: Dolák: Červeňák: Zeleňák: ano ne ano bydliště Praha vesnice

Příklad 5 infikován Novák: Horák: Dolák: Červeňák: Zeleňák: ano ne ano bydliště Praha vesnice město městečko věk 30 18 60 29 35 Má velikost bydliště vliv na pravděpodobnost infekce? Logistická regrese

Konec 2. dílu

Konec 2. dílu

Statistika z ptačí perspektivy • Úloha statistiky v experimentálním výzkumu • Explorační metody •

Statistika z ptačí perspektivy • Úloha statistiky v experimentálním výzkumu • Explorační metody • Konfirmační metody • Osm + 1 praktických rad

Několik užitečných rad 1) Na statistiku je třeba myslet včas. § cíl projektu §

Několik užitečných rad 1) Na statistiku je třeba myslet včas. § cíl projektu § velikost souboru § homogenita a nezávislost dat § subjektivní vlivy § nenáhodný výběr § možnost ovlivnění § monitorovat možné rušivé proměnné § promyslet způsob záznamu dat

Rada 2 Kvalitní data jsou základem úspěchu. § garbage in, garbage out § přesnost

Rada 2 Kvalitní data jsou základem úspěchu. § garbage in, garbage out § přesnost měření § kontrola dat před analýzou - odstranění chyb - rozhodnutí o sporných případech - ošetření odlehlých a vzdálených hodnot § kontrola splnění podmínek testů § transformace (logaritmická, arcsin, odmocninová)

Rada 3 Méně (testů) je někdy (skoro vždy) více. § Ze 20 testů vyjde

Rada 3 Méně (testů) je někdy (skoro vždy) více. § Ze 20 testů vyjde jeden signifikantní na hladině významnosti 0, 05 (nutnost korekce na vícečetné testy)

Rada 4 Jednostranný test je dvakrát citlivější.

Rada 4 Jednostranný test je dvakrát citlivější.

Příklad jednostranného t-testu 2

Příklad jednostranného t-testu 2

Výsledek dvoustranného t-testu 5% P=0, 05 - pravděpodobnost, že průměry dvou souborů budou takto

Výsledek dvoustranného t-testu 5% P=0, 05 - pravděpodobnost, že průměry dvou souborů budou takto vzdáleny jen díky náhodě jsou 5 %. V 2, 5 % případů bude průměr v souboru A větší než průměr v souboru B, v 2, 5 % případů tomu bude naopak.

Výsledek jednostranného t-testu 2, 5% P=0, 05 - pravděpodobnost, že průměr v souboru A

Výsledek jednostranného t-testu 2, 5% P=0, 05 - pravděpodobnost, že průměr v souboru A je větší než průměr v souboru B jen díky náhodě, bude 2, 5 %.

Rada 5 Pozor na rozdíl mezi základním a výběrovým souborem - jednovýběrové a vícevýběrové

Rada 5 Pozor na rozdíl mezi základním a výběrovým souborem - jednovýběrové a vícevýběrové testy. nepodobná nepodobný Vliv sebepodobnosti na důvěryhodnost. Každý proband dostal 30 dvojic, kdyby neexistoval vliv sebepodobnosti, stejně často by volil jako důvěryhodnědnější podobnou i nepodobnou tvář.

Rada 6 Párový test je silnější než test nepárový. neškodný 1 2 3 4

Rada 6 Párový test je silnější než test nepárový. neškodný 1 2 3 4 5 6 7 nebezpečný

Rada 7 Pozor při analýze již publikovaných dat (nutno použít metod metaanalýzy) § Šuplíkový

Rada 7 Pozor při analýze již publikovaných dat (nutno použít metod metaanalýzy) § Šuplíkový efekt páni mají radši blondýnky a oponenti pozitivní výsledky

Rada 8 MYSLET, MYSLET !!! (zejména při interpretaci výsledků)

Rada 8 MYSLET, MYSLET !!! (zejména při interpretaci výsledků)

Statistické programy (velmi neúplný seznam) STATISTICA, STATGRAPHICS SYSTAT, SAS, SIGMASTAT, SPSS NTSYS S+ ,

Statistické programy (velmi neúplný seznam) STATISTICA, STATGRAPHICS SYSTAT, SAS, SIGMASTAT, SPSS NTSYS S+ , R Stat. Xact, TREEPT

Statistická literatura (pro nematiky) Statistika pro zdravotníky, Kubánková, Hendl Metody matematické statistiky, Reisenauer Obecná

Statistická literatura (pro nematiky) Statistika pro zdravotníky, Kubánková, Hendl Metody matematické statistiky, Reisenauer Obecná genetika, Nečásek (Biometrika) (Statistika pro biologické a lékařské vědy, Havránek) (Statistické metody, Anděl) Biometry, Sokal, Rohl Biostatistika, Lepš, Šmilauer Biostatistika, Zvára Biostatistics A methodology for the health sciences Fisher, van Belle

Rada 9 Líná huba holý neštěstí (Statistici to umějí přeci jenom lépe. . .

Rada 9 Líná huba holý neštěstí (Statistici to umějí přeci jenom lépe. . . )