Zklady statistiky li odsouzenhodn statistiky Definice n n

  • Slides: 35
Download presentation
Základy statistiky lži odsouzeníhodné statistiky

Základy statistiky lži odsouzeníhodné statistiky

Definice n n Statistika - věda Statistika - statisticky vyjádřené šetření

Definice n n Statistika - věda Statistika - statisticky vyjádřené šetření

Statistika jako věda - definice n n soubor postupů užívaných při sběru, zpracování a

Statistika jako věda - definice n n soubor postupů užívaných při sběru, zpracování a interpretaci dat směřujících ke zlepšení rozhodování Soubor metod, které nám umožňují činit rozumná rozhodnutí v případě nejistoty.

n n n Slovo statistika má stejný původ jako slovo stát Statistika vychází jako

n n n Slovo statistika má stejný původ jako slovo stát Statistika vychází jako matematická věda především z počtu pravděpodobnosti a teorie her. Studuje převážně tak zvané hromadné jevy

Statistika n popisná n – základní charakteristika získaných dat n vyčerpávající šetření n analytická,

Statistika n popisná n – základní charakteristika získaných dat n vyčerpávající šetření n analytická, induktivní – charakterizace určitého vzorku populace, ze které usuzujeme na vlastnosti celého základního souboru výběr

Statistika n testování hypotéz n n explorativní statistika data mining

Statistika n testování hypotéz n n explorativní statistika data mining

Statistika a lékař n n „sběratel“ dat „konzument“ výsledků

Statistika a lékař n n „sběratel“ dat „konzument“ výsledků

Sběr dat n n dostupnost dat úplnost dat spolehlivost dat cena dat Úvahy zahrnuté

Sběr dat n n dostupnost dat úplnost dat spolehlivost dat cena dat Úvahy zahrnuté v plánování experimentu!!!!

Sběr dat n data – kvalitativní • kategoriální, nominální (např. pohlaví) potřeba kódování –

Sběr dat n data – kvalitativní • kategoriální, nominální (např. pohlaví) potřeba kódování – kvantitativní • • diskrétní x kontinuální (spojitá) ordinální (např. známky ve škole 1, 2, 3, 4, 5) intervalová poměrová

Sběr dat n měřítka – přímo naměřená hodnota – intervalové (o kolik? ) –

Sběr dat n měřítka – přímo naměřená hodnota – intervalové (o kolik? ) – poměrové (kolikrát? )

Sběr dat n Databáze – záznam: nositel znaku – pole: znaky/proměnné

Sběr dat n Databáze – záznam: nositel znaku – pole: znaky/proměnné

Sběr dat n Vztah základní soubor x výběr – každý prvek základního souboru musí

Sběr dat n Vztah základní soubor x výběr – každý prvek základního souboru musí mít stejnou pravděpodobnost, že se stane prvkem výběru!!!! n n Definice výběrových kritérií / kritérií exkluze Opakovatelnost výběru

Zobrazení dat n n Tabulky absolutních četností Relativní četnost – porovnání zastoupení jednotlivých kategorií

Zobrazení dat n n Tabulky absolutních četností Relativní četnost – porovnání zastoupení jednotlivých kategorií mezi různě velikými skupinami – vyjádření struktury, vztahu části k celku – indexy pro porovnání vývoje v čase (pevný základ a zřetězený index)

Zobrazení dat n tabulka, četnostní tabulka, histogram četností) originální data setříděná data 115 135

Zobrazení dat n tabulka, četnostní tabulka, histogram četností) originální data setříděná data 115 135 120 140 125 130 150 145. . . <100: 0 100 -110: 1 111 -120: 0 121 -130: 2 131 -140: 4 141 -150: 8 151 -160: 4 161 -170: 11 >171: 0 histogram

Zobrazení dat n n histogram box and whisker plot sloupcový graf koláčový graf

Zobrazení dat n n histogram box and whisker plot sloupcový graf koláčový graf

č e t n o s t hodnota sledované veličiny

č e t n o s t hodnota sledované veličiny

Popis dat n Distribuce – normální – Poissonova – binomická n Testy normality

Popis dat n Distribuce – normální – Poissonova – binomická n Testy normality

Normální rozložení

Normální rozložení

Popis dat n míry polohy – průměr ( ) – medián (= 50 percentil,

Popis dat n míry polohy – průměr ( ) – medián (= 50 percentil, frekvenční střed) – modus (= nejčastější hodnota)

Popis dat n míry variability – min-max (=rozsah, range) – kvantily (horní 25%, dolní

Popis dat n míry variability – min-max (=rozsah, range) – kvantily (horní 25%, dolní 75%) – směrodatná odchylka (SD, ) – rozptyl ( 2)

symetrické průměr =medián =modus asymetrická medián průměr

symetrické průměr =medián =modus asymetrická medián průměr

-3 -2 -1 +1 =medián =modus +2 +3

-3 -2 -1 +1 =medián =modus +2 +3

99, 7% 95, 5% 68% -3 -2 -1 +1 =medián =modus +2 +3

99, 7% 95, 5% 68% -3 -2 -1 +1 =medián =modus +2 +3

Variabilita - příčiny opakovaná měření, např. teploty 18, 2°C 18, 5°C 19, 1°C 18,

Variabilita - příčiny opakovaná měření, např. teploty 18, 2°C 18, 5°C 19, 1°C 18, 7°C časová proměnlivost fluktuace čas proměnlivost biologických společenstev mezipopulační rozdíly rasové rozdíly = BIODIVERZITA variabilita výšky v populaci 180 cm 175 cm 165 cm 157 cm

symetrické průměr =medián =modus asymetrická medián průměr

symetrické průměr =medián =modus asymetrická medián průměr

Transformace dat

Transformace dat

Statistická indukce n základní soubor (populace) – soubor prvků, o kterém chceme statistickými metodami

Statistická indukce n základní soubor (populace) – soubor prvků, o kterém chceme statistickými metodami něco zjistit n výběr – reprezentativní část dané populace (zákl. souboru), která má sloužit k odvození závěrů platných pro celou populaci

Odhady parametrů rozložení n Výběrové charakteristiky – průměr , směrodatná odchylka s n Vztahujeme

Odhady parametrů rozložení n Výběrové charakteristiky – průměr , směrodatná odchylka s n Vztahujeme na základní soubor – průměr μ, směrodatná odchylka σ

Testování hypotéz n n porovnání výběrového souboru a teorie o základním souboru porovnání dvou

Testování hypotéz n n porovnání výběrového souboru a teorie o základním souboru porovnání dvou základních souborů na základě porovnání dvou výběrů nulová hypotéza alternativní hypotéza

Chyba 1. a 2. typu

Chyba 1. a 2. typu

Postup při testování hypotéz n n n vyslovení hypotéz volba testu volba pravděpodobnosti chyby

Postup při testování hypotéz n n n vyslovení hypotéz volba testu volba pravděpodobnosti chyby zamítnutí, hladiny významnosti α výpočet zamítnutí/nezamítnutí nulové hypotézy

Statistické testy nepárové parametrické (pro normální nebo téměř normální rozložení) • t-test nezávislý •

Statistické testy nepárové parametrické (pro normální nebo téměř normální rozložení) • t-test nezávislý • t-test závislý (klasický t-test, two-sample) (one-sample) neparametrické (pro jiné než normální rozložení) • Mann-Whitney • Wilcoxon závislý • znaménkový test (=Wilcoxon nezávislý) • mediánový test srovnání parametru mezi 2 skupinami objektů srovnání parametru u stejných objektů v časové souslednosti

Regresní a korelační analýza n n Sleduje závislost dvou proměnných Zprostředkovaná korelace

Regresní a korelační analýza n n Sleduje závislost dvou proměnných Zprostředkovaná korelace

Kontingenční tabulky n n Chi-square Fischer exact test

Kontingenční tabulky n n Chi-square Fischer exact test

Mnohorozměrná analýza dat n Shluková analýza

Mnohorozměrná analýza dat n Shluková analýza