Zklady statistiky Statistika popisn zkladn charakteristika zskanch dat


























- Slides: 26

Základy statistiky

Statistika § popisná § základní charakteristika získaných dat § analytická, induktivní § vyčerpávající šetření § charakterizace určitého vzorku populace, ze které usuzujeme na vlastnosti celého základního souboru § výběr

Základní idea testování § Rozlišení, co je na výsledku pozorování náhodné a co zákonité § ↑ pravděpodobnost náhodného vzniku → výsledek pokládáme za náhodný § ↓pravděpodobnost náhodného vzniku → výsledek pokládáme za zákonitý § Hladina statistické významnosti 5%, hladina vysoké stat. významnosti 1%

Variabilita § Opakovaných měření (chyba vážení, měření, přístroje atd. ) § Znaku v populaci (rozptyl znaku, přirozená variabilita – interindividuální) § Měřené veličiny v čase (časová proměnlivost – intraindividuální) § Biologických společenstev mezipopulační rozdíly, rasové rozdíly = BIODIVERZITA

Variabilita - příčiny

Vybrané základní pojmy § Experimentální jednotka – objekt, na kterém se provádí šetření § Populace – soubor experimentálních jednotek § Znak – vlastnost sledovaná na objektu § Sledovaná veličina – číselná hodnota vyjadřující výsledek náhodného experimentu

§ ZNAK se stává náhodnou veličinou, pokud se jeho hodnota zjišťuje vylosováním objektu ze základního souboru: ZÁKLADNÍ SOUBOR NÁHODNÝ VÝBĚROVÝ SOUBOR

Sběr dat § data § kvalitativní § kategoriální, nominální (např. pohlaví) potřeba kódování § kvantitativní § diskrétní § kontinuální / spojitá § ordinální (např. známky ve škole 1, 2, 3, 4, 5)

Sběr dat § Databáze § záznam: nositel znaku § pole: znaky/proměnné

Sběr dat § Vztah základní soubor x výběr § každý prvek základního souboru musí mít stejnou pravděpodobnost, že se stane prvkem výběru!!!! § Definice výběrových kritérií / kritérií exkluze § Opakovatelnost výběru

Zobrazení dat § tabulka, četnostní tabulka, histogram četností) originální data setříděná data 115 135 120 140 125 130 150 145. . . <100: 0 100 -110: 1 111 -120: 0 121 -130: 2 131 -140: 4 141 -150: 8 151 -160: 4 161 -170: 11 >171: 0 histogram

Zobrazení dat § § histogram box and whisker plot sloupcový graf koláčový graf

Popis dat § Distribuce § normální § Poissonova § binomická § Testy normality

Normální rozložení

Popis dat § Míry polohy § průměr ( ) – součet hodnot děleno počtem § medián (= 50 percentil, frekvenční střed) – polovina hodnot je menší a polovina větší § modus - nejčastější hodnota

Popis dat § Míry variability § min-max (=rozsah, range) § kvantily (horní 25%, dolní 75%) § směrodatná odchylka (SD, ) § rozptyl ( 2)

-3 -2 -1 +1 =medián =modus +2 +3

99, 7% 95, 5% 68% -3 -2 -1 +1 =medián =modus +2 +3

symetrické průměr =medián =modus asymetrická modus průměr

Transformace dat

Statistická indukce § základní soubor (populace) § soubor prvků, o kterém chceme statistickými metodami něco zjistit § výběr § reprezentativní část dané populace (zákl. souboru), která má sloužit k odvození závěrů platných pro celou populaci

Odhady parametrů rozložení § Výběrové charakteristiky § průměr , směrodatná odchylka s § Vztahujeme na základní soubor § průměr μ, směrodatná odchylka σ

Testování hypotéz § porovnání výběrového souboru a teorie o základním souboru § porovnání dvou základních souborů na základě porovnání dvou výběrů nulová hypotéza alternativní hypotéza

Postup při testování hypotéz § § § vyslovení hypotéz volba testu volba pravděpodobnosti chyby zamítnutí, hladiny významnosti α § výpočet § zamítnutí/nezamítnutí nulové hypotézy

Statistické testy nepárové parametrické (pro normální nebo téměř normální rozložení) • t-test nezávislý • t-test závislý (klasický t-test, two-sample) • Mann-Whitney neparametrické (=Wilcoxon nezávislý) (pro jiné než normální rozložení) • mediánový test srovnání parametru mezi 2 skupinami objektů (one-sample) • Wilcoxon závislý • znaménkový test srovnání parametru u stejných objektů v časové souslednosti

Mnohonásobné srovnání Holmův postup: • seřadíme pravděpodobnosti dle velikosti • nejmenší násobíme počtem srovnání • další počtem srovnání -1, další -2 atd. • výsledky jsou nevýznamné od prvního vyššího než je zvolená úroveň (5%, 1%)