VOD DO TESTOVN HYPOTZ Martina Litschmannov Obsah lekce
ÚVOD DO TESTOVÁNÍ HYPOTÉZ Martina Litschmannová
Obsah lekce § Princip testování hypotéz § Co je to testování hypotéz? § Základní pojmy (statistická hypotéza, test) § Princip testování hypotéz § Základní typy stypotéz, základní typy testů § Jaké přístupy k testování hypotéz lze použít? § Jakých chyb se při testování hypotéz můžeme dopustit? § Co je to p-hodnota? § Pár poznámek pro praxi § Vybrané testy jednovýběrových a dvouvýběrových hypotéz § Testy o střední hodnotě, resp. testy o mediánu § Testy o parametru binomického rozdělení § Testy o shodě rozptylů § Testy o shodě středních hodnot § Testy o homogenitě binomických rozdělení
Základní metody statistické indukce § Intervalové odhady (angl. confidence interval) – umožňují odhadnout nejistotu v odhadu parametru náhodné veličiny § Testování hypotéz (angl. hypothesis testing) - umožňuje posoudit, zda experimentálně získaná data nepopírají předpoklad, který jsme před provedením testování učinili. Používáme, chceme-li ověřit platnost předem definované hypotézy (s předem danou hladinou významností). Používáme, chceme-li určit velikost parametru NV, resp. velikost efektu (rozdílu, resp. poměru parametrů dvou NV). zdroj: http: //www. nedarc. org/
Co je to statistická hypotéza? Statistická hypotéza – předpoklad (tvrzení) o rozdělení náhodné veličiny (o populaci) Příklady statistických hypotéz: § Průměrné krevní ztráty pac. po primární TEP kyčle a kolena jsou nižší než 250 ml. § Mortalita je u laparoskopických operací nižší než u operací konvenčních. § Průměrné výsledky srovnávacích testů závisí na typu absolvované střední školy. § Pořízený datový soubor je výběrem z populace mající normální rozdělení. Poznámka: Rozdíl (resp. poměr) parametru náhodné veličiny a jeho očekávané hodnoty, popřípadě rozdíl (resp. poměr) parametrů náhodných veličin nazýváme
Co je to statistická hypotéza? Statistická hypotéza – předpoklad (tvrzení) o rozdělení náhodné veličiny (o populaci) Co je zdrojem statistických hypotéz? § předchozí zkušenosti, § teorie, kterou je třeba doložit, § dohady založené na náhodném pozorování…
Jaké typy statistických hypotéz rozlišujeme? § Parametrická statistická hypotéza – tvrzení ohledně efektu § Hypotézy o parametru jedné populace (o střední hodnotě, rozptylu, mediánu, parametru binomického rozdělení, …) § Hypotézy o shodě parametrů dvou populací (srovnávací testy) § Hypotézy o shodě parametrů více než dvou populací (ANOVA, Kruskalův. Wallisův test, …) § Neparametrická statistická hypotéza – hypotéza o jiné vlastnosti rozdělení náhodné veličiny než o jejím parametru (např. hypotézy o typu rozdělení NV, hypotézy o závislosti NV, …)
Jak ověřit, zda je statistická hypotéza pravdivá? §
Jak ověřit, zda je statistická hypotéza pravdivá? Pravdivost nulové hypotézy nelze na základě dat dokázat!!! Pravdivost nulové hypotézy lze na základě dat pouze vyvrátit. Alternativní hypotéza (obžalovaný je vinen) Nulová hypotéza (obžalovaný je nevinen) Data (výběrový soubor) (svědci) Testové kritérium (soudce) Princip presumpce neviny Neodsoudí-li soudce obžalovaného, nemusí to znamenat, že je obžalovaný nevinný. Může to znamenat, že neexistuje dostatek důkazů pro jeho odsouzení!
Co je to testování hypotéz? Egon Sharpe Pearson (1895 -1980) zdroj: http: //www-groups. dcs. st-and. ac. uk Jerzy Neymann (1894 -1981) zdroj: http: //www-history. mcs. st-and. ac. uk/
Terminologie v praxi (I) §
Terminologie v praxi (II) §
Jak postupovat při testování hypotéz? (klasický přístup) §
V literatuře je uváděno, že průměrná doba přežití pacientů po jistém zákroku je 1 200 dní a směrodatná odchylka 300 dní. V souboru 100 pacientů nemocnice USPECH byla pozorována průměrná doba přežití 1265 dní, Jde o statisticky významně lepší výsledek, nejde pouze o náhodný rozdíl? § testová statistika nulové rozdělení Toto platí pouze v případě, že X je náhodný výběr z populace mající normální rozdělení!!! předpoklady testu
V literatuře je uváděno, že průměrná doba přežití pacientů po jistém zákroku je 1 200 dní a směrodatná odchylka 300 dní. V souboru 100 pacientů nemocnice USPECH byla pozorována průměrná doba přežití 1265 dní, Jde o statisticky významně lepší výsledek, nejde pouze o náhodný rozdíl? Řešení: 4. Pro určení kritického oboru je nutné předem si stanovit, jak „nepravděpodobné“ hodnoty testové statistiky již budeme považovat za „velmi nepravděpodobné“. T(X), jestliže platí H 0 Nezamítáme H 0 0 Zamítáme H 0 α– hladina významnosti testu W* =1, 64 z 0, 95
V literatuře je uváděno, že průměrná doba přežití pacientů po jistém zákroku je 1 200 dní a směrodatná odchylka 300 dní. V souboru 100 pacientů nemocnice USPECH byla pozorována průměrná doba přežití 1265 dní, Jde o statisticky významně lepší výsledek, nejde pouze o náhodný rozdíl? §
Kritický obor pro oboustranný a levostranný test (Zdroj: Pavlík, T. , Dušek, L. (2012), Biostatistika)
Praktická významnost vs. statistická významnost § Testování statistických hypotéz provádíme kvůli možnosti zobecnění z náhodného výběru na celou populaci. § Statistická významnost (zamítnutí nulové hypotézy) indikuje, že pozorovaný efekt není ve smyslu stanovené hypotézy náhodný. § Pro stanovení, toho, zda je dosažený efekt zároveň i prakticky (věcně) významný, neexistuje žádné univerzální pravidlo, neboť vše závisí na konkrétní situaci, měřené veličině a cílech výzkumu. Stejná číselná hodnota pozorovaného efektu (effect size) může být v jedné situaci považována za praktický významný efekt a v jiném kontextu lze dojít k závěru, že efekt prakticky významný není. Rozhodnutí o praktické významnosti musí provádět člověk znalý věci, který čerpá ze znalosti problému nebo z informací dostupných v literatuře.
Praktická významnost vs. statistická významnost Srovnání statistické a praktické významnosti výsledků experimentů (Zdroj: Pavlík, T. , Dušek, L. (2012), Biostatistika)
Chyba I. a II. druhu Při testování hypotéz mohou nastat čtyři situace: hladina významnosti testu Skutečnost Rozhodnutí Nezamítáme H 0 Zamítáme H 0 Platí H 0 Správné rozhodnutí Pravděpodobnost: 1 - α Chyba I. druhu Pravděpodobnost: α Platí HA Chyba II. druhu Pravděpodobnost: β Správné rozhodnutí Pravděpodobnost: 1 β síla testu § Jelikož výběr, na jehož základě rozhodujeme, je náhodný, nelze se chybám I. a II. druhu vyhnout.
Chyba I. a II. druhu §
p-hodnota § Nevýhodou klasického testu je skutečnost, že při pohledu na výsledek testu (vztah pozorované a kritické hodnoty) nevidíme přímo, jak rozhodnutí závisí na změně hladiny významnosti. Závěr: V současnosti preferujeme rozhodování o výsledku testu na základě p-hodnoty, přičemž p-hodnota je nejnižší hladina významnosti, na níž můžeme nulovou hypotézu zamítnout. Jinými slovy: p-hodnota je pravděpodobnost, že v případě platnosti nulové hypotézy získáme z jiné realizace výběrového šetření data, která proti nulové hypotéze svědčí stejně nebo ještě silněji než data z dané realizace výběrového šetření. Je zřejmé, že nízká p-hodnota vypovídá v neprospěch nulové hypotézy.
Čistý test významnosti aneb testování pomocí p-hodnoty § Rozhodnutí Zamítáme H 0 ve prospěch HA. Nezamítáme H 0.
§ „p-value is low, null hypothesis must go!“ Keith M. Bower
Několik poznámek pro praxi § Pozor na pečlivé plánování experimentu! (Nutno zajistit nezávislost pokusů, eliminaci vlivů nežádoucích faktorů, dostatečný rozsah výběru (výsledky testu nelze upravovat tím, že dodatečně rozšíříme výběrový soubor), …) Příklad: Včely jsou postupně vypouštěny do pokusného prostoru se žlutými, červenými a modrými terči. Sledujeme barvu terče, na který každá včela poprvé usedne. Nulová hypotéza je, že pravděpodobnost usednutí nezávisí na barvě terče (tímto způsobem zjišujeme, zda se včely vizuálně orientují a zda při této orientaci hrají nějakou úlohu barvy). (Lepš, Kapitola 2 – testování hypotéz, test dobré shody, online: http: //botanika. bf. jcu. cz/suspa/vyuka/materialy/KAP 2. pdf [2012 -03 -19]) Co všechno je třeba při pokusu zajistit? • vypouštění včel po jednotlivcích, • včely nesmí zanechávat stopy o své návštěvě terče (není-li splněno, nutná výměna terčů po každém pokusu), • předem daný počet pokusů.
Několik poznámek pro praxi §
Jednovýběrové parametrické testy Název testu Test o rozptylu Jednovýběrový z test Jednovýběrový t test Testovaný parametr rozptyl σ2 (směrodatná odchylka σ) střední hodnota μ Předpoklady testu Nulové rozdělení
Jednovýběrové neparametrické testy Název testu Kvantilový test Testovaný parametr Předpoklady testu Jednovýběrový Wilcoxonův test Nulové rozdělení Kritické hodnoty jsou tabelovány (Tab. T 6)
Dvouvýběrové parametrické testy pro nezávislé výběry Název testu test o shodě rozptylů dvouvýběrový z test dvouvýběrový t test Aspinové – Welchův test Testované parametry Předpoklady testu Nulové rozdělení
Dvouvýběrové neparametrické testy pro nezávislé výběry Název testu Mannův-Whitneyův test Test homogenity dvou binomických rozdělení Testovaný parametr Předpoklady testu nezávislé výběry ze spojitých rozdělení se stejným rozptylem a tvarem. Testová statistika Nulové rozdělení Kritické hodnoty rozdělení jsou uvedeny v tabulce
Literatura § Litschmannová, M. (2012), Úvod do statistiky, elektronická skripta a doplňkové interaktivní materiály (kapitoly Testování hypotéz – princip, Jednovýběrové testy parametrických hypotéz, Dvouvýběrové testy parametrických hypotéz) § Zvárová, J. (1999), Základy statistiky pro biomedicínské obory, dostupné online: http: //new. euromise. org/czech/tajne/ucebnice/html/statist. html (kapitoly 7, 8, 9) § Pavlík, T. , Dušek, L. (2012), Biostatistika, Akademické nakladatelství CERM, ISBN 978 -80 -7204 -782 -6 (kapitola 6, 7)
DĚKUJI ZA POZORNOST!
- Slides: 31