Testovn neparametrickch hypotz Neparemetrick hypotzy Hypotzy o vlastnostech
- Slides: 33
Testování neparametrických hypotéz
Neparemetrické hypotézy Hypotézy o vlastnostech populace (typ rozdělení, závislosti, …)
Testy dobré shody (testy o shodě mezi výb. a teoret. rozdělením) Χ 2 – test dobré shody Kolmogorovův – Smirnovův test pro jeden výběr
Χ 2 – test dobré shody Volba H 0 a) H 0: Výběr pochází z populace, v níž jsou relativní četnosti jednotlivých variant rovny číslům, populace musí být roztříditelná podle nějakého znaku do k skupin. b) H 0: Výběr pochází z rozdělení určitého typu, jehož parametry jsou dány (úplně specifikovaný model). c) H 0: Výběr pochází z rozdělení určitého typu, přičemž neověřujeme informace o parametrech rozdělení, parametry modelu odhadujeme (neúplně specifikovaný model).
Χ 2 – test dobré shody Volba testové statistiky n … rozsah výběru k … počet variant h … počet odhadovaných parametrů modelu ni … empirické četnosti jednotlivých variant π0, i … očekávané rel. četnosti jednotlivých variant
Χ 2 – test dobré shody Předpoklad testu Očekávané četnosti musí být větší než 5 (alespoň 80% očekávaných četností musí být větších než 5)
Χ 2 – test dobré shody Výpočet p – value
Příklady Litschmannová M. , Statistika I. – cvičení, Testování neparam. hypotéz: 12. 1 -12. 3
Kolmogorovův-Smirnovův test pro jeden výběr Používá se pro ověření hypotézy, zda pořízený výběr pochází z rozdělení se spojitou distribuční funkcí F(x) musí být úplně specifikovaná.
Kolmogorovův-Smirnovův test pro jeden výběr Výhody oproti X 2 -testu dobré shody: • větší síla testu • nemá omezující podmínky (lze použít při výběrech malého rozsahu) • vychází z jednotlivých pozorování a nikoliv z údajů setříděných do skupin
Kolmogorovův-Smirnovův test pro jeden výběr H 0 a HA: H 0: H A: Testová statistika:
Kolmogorovův-Smirnovův test pro jeden výběr Dn
Kolmogorovův-Smirnovův test pro jeden výběr Nulové rozdělení: Speciální rozdělení pro tento test, kvantily tabelovány – viz. Tab. 5 Výpočet p-value
Příklady Litschmannová M. , Statistika I. – cvičení, Testování neparam. hypotéz: 12. 4
Testy v kontingenční tabulce
X 2 -test nezávislosti v kontingenční tabulce (Testování závislosti dvou kategoriálních proměnných)
Co je to kontingenční tabulka? Dvourozměrná tabulka četností, z jejichž hodnot můžeme usoudit na závislost či nezávislost mezi dvěma kategoriálními proměnnými
Grafický výstup pro analýzu závislosti dvou kategoriálních proměnných • Shlukový sloupcový graf • Kumulativní sloupcový graf • Mozaikový graf • 100% skládaný pruhový graf (Lze použít k explorační analýze závislosti)
Shlukový sloupcový graf (Statgraphics)
Shlukový sloupcový graf (Excel) 200 180 Závislost typu péče na věkové kategorii pacienta 177 160 140 118 120 100 99 103 Intenzivní Standardní 80 60 40 20 0 Nezletilý Zletilý
Kumulativní sloupcový graf (Excel) Závislost typu péče na věkové kategorii pacienta 300 250 200 99 118 150 100 177 103 50 0 Nezletilý Zletilý Standardní Intenzivní
Mozaikový graf (Statgraphics)
100% skládaný pruhový graf (Excel) Závislost typu péče na věkové kategorii pacienta Zletilý 103; 47% 118; 53% Intenzivní Standardní Nezletilý 0% 177; 64% 10% 20% 30% 99; 36% 40% 50% 60% 70% 80% 90% 100%
Pojmy: Pozorované (empirické) četnosti Oij (Observed frequency) – zjištěné sdružené četnosti Očekávané (teoretické) četnosti Eij (Expected frequency) – sdružené četnosti očekávané za předpokladu nezávislosti proměnných (aneb platí-li H 0) Odchylky, rezidua (Deviation) – rozdíly mezi očekávanými a pozorovanými četnostmi = Eij-Oij
Chí-kvadrát test nezávislosti v kontingenční tabulce Ideální případ nezávislosti Oij=Eij aneb Oij-Eij=0 i=1, …, m; j=1, …, n
Chí-kvadrát test nezávislosti v kontingenční tabulce H 0 a HA: H 0: Proměnné v kontingenční tabulce jsou nezávislé. HA: Proměnné v kontingenční tabulce jsou závislé. Testová statistika (Pearsonova statistika chí-kvadrát): m … počet řádků kont. tabulky n … počet sloupců kont. tabulky
Chí-kvadrát test nezávislosti v kontingenční tabulce Předpoklady testu: • Žádná očekávaná četnost nesmí klesnout pod 2 • Alespoň 80% četností musí být větších než 5 Výpočet p-value
Rozšířená kontingenční tabulka Nezletilý Zletilý Celkem Intenzivní 177 64% 63% 155, 5 21, 5 3, 0 103 47% 37% 124, 5 -21, 5 3, 7 280 Standardní Celkem Vysvětlivky 99 276 Empirické četnosti Eij 36% Řádkové rel. četnosti 46% Sloupcové rel. četnosti 120, 5 Očekávané četnosti Oij -21, 5 Odchylky (Eij-Oij) 3, 8 (Eij-Oij)2/Oij 118 221 Empirické četnosti Eij 53% Řádkové rel. četnosti 54% Sloupcové rel. četnosti 96, 5 Očekávané četnosti Oij 21, 5 Odchylky (Eij-Oij) 4, 8 (Eij-Oij)2/Oij 217 497
Příklady Litschmannová M. , Statistika I. – cvičení, Testování neparam. hypotéz: 12. 5
Yatesova korekce • Lze provést v případě, kdy nejsou splněny předpoklady chí-kvadrát testu nezávislosti (extrémně nízké očekávané četnosti). • Snižuje pravděpodobnost chyby I. druhu, tím však snižuje sílu testu. Testová statistika (Pearsonova statistika chí-kvadrát): m, n … počet řádků (sloupců) kont. tabulky Výpočet p-value:
Fisherův exaktní test • Užívá se v případě extrémně nízkých očekávaných četností. • Lze použít pouze pro čtyřpolní tabulky. • Určují se pravděpodobnosti výskytu všech možných obměn četností v kontingenční tabulce, které dávají stejné marginální četnosti jako tabulka zjištěných četností…
Mc. Nemarův test • Pouze pro čtyřpolní tabulky. • Test shody rozdělení pro závislé alternativní proměnné se stejnými kódy. Nulová a alternativní hypotéza: H 0: Procenta „úspěšností“ jsou u obou veličin stejná. HA: Procenta „úspěšností“ nejsou u obou veličin stejná. Testové kritérium: Předpoklad testu: Výpočet p-value:
Příklady Litschmannová M. , Statistika I. – cvičení, Testování neparam. hypotéz: 12. 6