Zklady statistiky MUDr Michal Jurajda Ph D PF

  • Slides: 48
Download presentation
Základy statistiky MUDr. Michal Jurajda, Ph. D. ÚPF LF MU

Základy statistiky MUDr. Michal Jurajda, Ph. D. ÚPF LF MU

Definice n n Statistika - věda Statistika - statisticky vyjádřené šetření

Definice n n Statistika - věda Statistika - statisticky vyjádřené šetření

Statistika jako věda - definice n n soubor postupů užívaných při sběru, zpracování a

Statistika jako věda - definice n n soubor postupů užívaných při sběru, zpracování a interpretaci dat směřujících ke zlepšení rozhodování Soubor metod, které nám umožňují činit rozumná rozhodnutí v případě nejistoty.

n n n Slovo statistika má stejný původ jako slovo stát Statistika vychází jako

n n n Slovo statistika má stejný původ jako slovo stát Statistika vychází jako matematická věda především z počtu pravděpodobnosti a teorie her. Studuje převážně tak zvané hromadné jevy

Statistika n popisná n – základní charakteristika získaných dat n vyčerpávající šetření n analytická,

Statistika n popisná n – základní charakteristika získaných dat n vyčerpávající šetření n analytická, induktivní – charakterizace určitého vzorku populace, ze které usuzujeme na vlastnosti celého základního souboru výběr

Statistika n testování hypotéz n n explorativní statistika data mining

Statistika n testování hypotéz n n explorativní statistika data mining

Statistika a lékař n n „sběratel“ dat „konzument“ výsledků

Statistika a lékař n n „sběratel“ dat „konzument“ výsledků

Statistika se zabývá variabilitou měření n n n Metodologická, přesnost měření Časová, v rámci

Statistika se zabývá variabilitou měření n n n Metodologická, přesnost měření Časová, v rámci individua = intraindividuální variabilita Interindividuální variabilita = populační

Statistika opakovaných měření n n Sledujeme správnost a přesnost měření Měření – Správné a

Statistika opakovaných měření n n Sledujeme správnost a přesnost měření Měření – Správné a přesné – Správné a nepřené – Nesprávné a přesné – Nesprávné a nepřesné

Zpracování naměřených dat n n n Kontrola konzistence dat Zobrazení dat Testy normality (Vyřazení

Zpracování naměřených dat n n n Kontrola konzistence dat Zobrazení dat Testy normality (Vyřazení výsledků ovlivněných velkou chybou) Odhad středních hodnot a variability

Variabilita populací n n Srovnávání populace s teoretickým předpokladem Srovnávání populací mezi sebou

Variabilita populací n n Srovnávání populace s teoretickým předpokladem Srovnávání populací mezi sebou

Statistika n n n experimentální design popisná analýza testování hypotéz explorativní statistika data mining

Statistika n n n experimentální design popisná analýza testování hypotéz explorativní statistika data mining

Sběr dat n data – kvalitativní • kategoriální, nominální (např. pohlaví) potřeba kódování –

Sběr dat n data – kvalitativní • kategoriální, nominální (např. pohlaví) potřeba kódování – kvantitativní • • diskrétní x kontinuální (spojitá) ordinální (např. známky ve škole 1, 2, 3, 4, 5) intervalová poměrová

Sběr dat n měřítka – přímo naměřená hodnota – intervalové (o kolik? ) –

Sběr dat n měřítka – přímo naměřená hodnota – intervalové (o kolik? ) – poměrové (kolikrát? )

Sběr dat n Vztah základní soubor x výběr – každý prvek základního souboru musí

Sběr dat n Vztah základní soubor x výběr – každý prvek základního souboru musí mít stejnou pravděpodobnost, že se stane prvkem výběru!!!! n n Definice výběrových kritérií / kritérií exkluze Opakovatelnost výběru

Sběr dat n n dostupnost dat úplnost dat spolehlivost dat cena dat Úvahy zahrnuté

Sběr dat n n dostupnost dat úplnost dat spolehlivost dat cena dat Úvahy zahrnuté v plánování experimentu!!!!

Sběr dat n Databáze – záznam: nositel znaku – pole: znaky/proměnné

Sběr dat n Databáze – záznam: nositel znaku – pole: znaky/proměnné

Zobrazení dat n tabulka, četnostní tabulka, histogram četností) originální data setříděná data 115 135

Zobrazení dat n tabulka, četnostní tabulka, histogram četností) originální data setříděná data 115 135 120 140 125 130 150 145. . . <100: 0 100 -110: 1 111 -120: 0 121 -130: 2 131 -140: 4 141 -150: 8 151 -160: 4 161 -170: 11 >171: 0 histogram

č e t n o s t hodnota sledované veličiny

č e t n o s t hodnota sledované veličiny

Zobrazení dat n n histogram box and whisker plot sloupcový graf koláčový graf

Zobrazení dat n n histogram box and whisker plot sloupcový graf koláčový graf

Zobrazení dat n n Tabulky absolutních četností Relativní četnost – porovnání zastoupení jednotlivých kategorií

Zobrazení dat n n Tabulky absolutních četností Relativní četnost – porovnání zastoupení jednotlivých kategorií mezi různě velikými skupinami – vyjádření struktury, vztahu části k celku – indexy pro porovnání vývoje v čase (pevný základ a zřetězený index)

Popis dat n Distribuce – normální – Poissonova – binomická n Testy normality

Popis dat n Distribuce – normální – Poissonova – binomická n Testy normality

Popis dat n míry polohy – průměr ( ) – medián (= 50 percentil,

Popis dat n míry polohy – průměr ( ) – medián (= 50 percentil, frekvenční střed) – modus (= nejčastější hodnota)

Popis dat n míry variability – min-max (=rozsah, range) – kvantily (horní 25%, dolní

Popis dat n míry variability – min-max (=rozsah, range) – kvantily (horní 25%, dolní 75%) – směrodatná odchylka (SD, ) – rozptyl ( 2)

Normální rozložení

Normální rozložení

symetrické průměr =medián =modus asymetrická medián průměr

symetrické průměr =medián =modus asymetrická medián průměr

-3 -2 -1 +1 =medián =modus +2 +3

-3 -2 -1 +1 =medián =modus +2 +3

99, 7% 95, 5% 68% -3 -2 -1 +1 =medián =modus +2 +3

99, 7% 95, 5% 68% -3 -2 -1 +1 =medián =modus +2 +3

Variabilita - příčiny opakovaná měření, např. teploty 18, 2°C 18, 5°C 19, 1°C 18,

Variabilita - příčiny opakovaná měření, např. teploty 18, 2°C 18, 5°C 19, 1°C 18, 7°C časová proměnlivost fluktuace čas proměnlivost biologických společenstev mezipopulační rozdíly rasové rozdíly = BIODIVERZITA variabilita výšky v populaci 180 cm 175 cm 165 cm 157 cm

symetrické průměr =medián =modus asymetrická medián průměr

symetrické průměr =medián =modus asymetrická medián průměr

Transformace dat

Transformace dat

Odhady parametrů rozložení n Výběrové charakteristiky – průměr , směrodatná odchylka s n Vztahujeme

Odhady parametrů rozložení n Výběrové charakteristiky – průměr , směrodatná odchylka s n Vztahujeme na základní soubor – průměr μ, směrodatná odchylka σ

Příklady n Popisná statistika a zobrazení získaných dat

Příklady n Popisná statistika a zobrazení získaných dat

Statistická indukce n základní soubor (populace) – soubor prvků, o kterém chceme statistickými metodami

Statistická indukce n základní soubor (populace) – soubor prvků, o kterém chceme statistickými metodami něco zjistit n výběr – reprezentativní část dané populace (zákl. souboru), která má sloužit k odvození závěrů platných pro celou populaci

Testování hypotéz n n porovnání výběrového souboru a teorie o základním souboru porovnání dvou

Testování hypotéz n n porovnání výběrového souboru a teorie o základním souboru porovnání dvou základních souborů na základě porovnání dvou výběrů nulová hypotéza alternativní hypotéza

Chyba 1. a 2. typu

Chyba 1. a 2. typu

Postup při testování hypotéz n n n vyslovení hypotéz volba testu volba pravděpodobnosti chyby

Postup při testování hypotéz n n n vyslovení hypotéz volba testu volba pravděpodobnosti chyby zamítnutí, hladiny významnosti α výpočet zamítnutí/nezamítnutí nulové hypotézy

Statistické testy nepárové parametrické (pro normální nebo téměř normální rozložení) • t-test nezávislý •

Statistické testy nepárové parametrické (pro normální nebo téměř normální rozložení) • t-test nezávislý • t-test závislý (klasický t-test, two-sample) (one-sample) neparametrické (pro jiné než normální rozložení) • Mann-Whitney • Wilcoxon závislý • znaménkový test (=Wilcoxon nezávislý) • mediánový test srovnání parametru mezi 2 skupinami objektů srovnání parametru u stejných objektů v časové souslednosti

Kontingenční tabulky n n Chi-square Fischer exact test

Kontingenční tabulky n n Chi-square Fischer exact test

Regresní a korelační analýza n Sleduje závislost dvou proměnných – Formální korelace – Korelace

Regresní a korelační analýza n Sleduje závislost dvou proměnných – Formální korelace – Korelace způsobená nehomogenitou – Korelace způsobená třetí veličinou

Mnohorozměrná analýza dat n Shluková analýza

Mnohorozměrná analýza dat n Shluková analýza

Příklad 1 n n Porovnejte mzdy ve dvou virtuálních nemocnicích. Stanovte hlavní rozdíly a

Příklad 1 n n Porovnejte mzdy ve dvou virtuálních nemocnicích. Stanovte hlavní rozdíly a porovnejte vypovídací schopnost aritmetického průměru o skutečném stavu

Příklad 2 n n n Porovnejte hmotnosti pacientů a zdravých jedinců Vyslovte nulovou a

Příklad 2 n n n Porovnejte hmotnosti pacientů a zdravých jedinců Vyslovte nulovou a alternativní hypotézu. Otestujte normalitu distribuce znaku, rozhodněte jaký typ testů na testování hypotéz je možno použít, otestujte nulovou hypotézu a komentujte výsledek

Příklad 3 n n n Porovnejte systolický krevní tlak u pacientů před terapií a

Příklad 3 n n n Porovnejte systolický krevní tlak u pacientů před terapií a po terapii. Vyslovte nulovou a alternativní hypotézu. Otestujte normalitu distribuce znaku, rozhodněte jaký typ testů na testování hypotéz je možno použít, otestujte nulovou hypotézu a komentujte výsledek

Příklad 4 n n n Porovnejte hladiny Ig. E u pacientů a zdravých jedinců

Příklad 4 n n n Porovnejte hladiny Ig. E u pacientů a zdravých jedinců Vyslovte nulovou a alternativní hypotézu. Otestujte normalitu distribuce znaku, rozhodněte jaký typ testů na testování hypotéz je možno použít, otestujte nulovou hypotézu a komentujte výsledek

Příklad 5 n n n Analyzujte tabulku 2 x 2 Vyslovte nulovou a alternativní

Příklad 5 n n n Analyzujte tabulku 2 x 2 Vyslovte nulovou a alternativní hypotézu. Otestujte tabulky Fischer exact testem

Příklad 6 n Korelujte 10 řad náhodných čísel a interpretujte výsledek korelace

Příklad 6 n Korelujte 10 řad náhodných čísel a interpretujte výsledek korelace