Nhodn promnn Rozdlen Hzel jsem si korunou padestkrt
- Slides: 43
Náhodná proměnná Rozdělení
Házel jsem si korunou (padesátkrát) a počítal jedničky
Výsledek hodu korunou jako • Typický náhodný jev • přitom by teoreticky šlo ze zákonů klasické mechaniky spočítat, co padne – ale musel bych znát přesně, jakou silou a po jaké dráze jsem působil (a možná ještě něco) – což je v praxi nemožné • Za náhodný jev považujeme to, co nemáme pod kontrolou (to není definice, to je popis, jak to chodí)
nebo frekvence mohu vyjádřit v procentech
nebo kumulativní histogram
případně také v procentech
Když mám nekonečně velký soubor • pak mám nekonečný počet pozorování (takže nekonečný i v každém intervalu) - ale můžu ho charakterizovat podílem ze všech pozorování v libovolném intervalu (pravděpodobností, že náhodně vybraný prvek bude charakterizován hodnotou v daném intervalu) • Pro diskrétní proměnnou: výčet všech hodnot a jím odpovídajících pravděpodobností pi=P(X=xi) - může být dán tabulkou nebo vzorcem. Distribuční funkce je potom součet pravděpodobností pro všechy hodnoty menší než xi
Spojitou proměnnou charakterizuji distribuční funkcí a hustotou pravděpodobnosti
Distribuční funkce F(x) =P(X<x) má tyto základní vlastnosti 1. P(a X < b) = F(b) - F(a) ; 2. F(x 1) F(x 2) pro x 1 < x 2 ; 3. 4. Je to vlastně idealizovaný kumulativní histogram s nekonečně úzkými sloupečky.
Jak “idealizovat” normální histogram Když budu dělat sloupečky nekonečně úzké, nezbude mi v nich “nic” - proto procento pozorování intervalu dělím “šířkou” sloupečku. V limitním případě dostávám pro hustotu pravděpodobnosti
Pro hustotu pravděpodobnosti platí
Z distribuční funkce lze spočítat střední hodnotu a varianci Diskrétní proměnná Spojitá proměnná
Kvantil Když tato plocha je 0, 75, tedy 75% Pak 12, 54 je 75% kvantil uvažovaného rozdělení (tedy horní kvartil)
Testování hypotéz + Test dobré shody
Žádnou hypotézu nemohu dokázat • Proto formuluji nulovou hypotézu (H 0), a tím, že ji vyvrátím, dokazuji její opak. • Alternativní hypotéza H 1 nebo HA je tedy negací nulové hypotézy • Nulovou hypotézu formuluji já, jako biolog - proto musí být nulová hypotéza taková, aby její vyvrácení bylo zajímavé
Chyby v rozhodnutí • V případě, že data jsou náhodná (což je v biologii prakticky vždy) musím počítat s tím, že učiním chybné rozhodnutí - statistika zná chybu prvního a druhého druhu (Type I error, Type II error), které jsou nevyhnutelnou součástí našeho rozhodování • Kromě toho samozřejmě můžeme udělat ještě chybu tím, že něco nesprávně spočítáme, ale to už není nevyhnutelné
Kuchařka testování hypotéz • 1. Formuluji nulovou hypotézu • 2. Zvolím hladinu významnosti a tak dostanu kritickou hodnotu (z nějakých tabulek) • 3. Z dat spočtu testovací kriterium • 4. Když je hodnota testovacího kriteria větší než hodnota kritická, zamítám nulovou hypotézu
2 test (test dobré shody) • Příklad - křížím hrachy: očekávám F 1: F 2: Mám 80 potomků - očekávám 60: 20, dostávám 70: 10 Je to jen náhodná variabilita, nebo zde Mendelovské poměry nefungují?
• 1. Zamítnutí nulové hypotézy o poměru 3: 1 je biologicky zajímavé. Statisticky bych mohl obdobně testovat nulovou hypotézu o poměru 4, 2371: 1, ale její zamítnutí nám nic biologicky zajímavého nepřinese. • 2. Nulová hypotéza bude formálně: pravděpodobnost vzniku dominantního fenotypu je 0, 75 (v nekonečně velkém souboru potenciálních potomků jsou poměry fenotypů 3: 1)
Výpočet Všimněte si, hodnota kriteria je tím větší, čím je větší odchylka od nulové hypotézy f - absolutní frekvence, tj. počty nezávislých pozorování DF=1 (počet kategorií - 1 pro apriorně danou hypotézu), kritická hodnota = 3, 84 Hodnota testového kriteria > kritická hodnota, zamítám nulovou hypotézu - říkám, že poměry v F 2 se statisticky průkazně liší od očekávaných 3: 1 při = 0. 05 - nebo píšu ( 2 = 6. 66, df=1, P<0. 05)
Co se může stát - házím korunou Skutečnost - koruna je OK, tj. P 0=P 1=0, 5 (ALE TO MY NEVÍME) 100 hodů, dostávám 55: 45 Potom 2=(55 -50)2/50+(45 -50)2/50 = 1. 0 < 3. 84. Nemohu zamítnout nulovou hypotézu. Správné rozhodnutí.
Co se může stát - házím korunou Skutečnost - koruna je OK, tj. P 0=P 1=0, 5 (ALE TO MY NEVÍME) 100 hodů, dostávám 60: 40 Potom 2=(60 -50) 2/50+(40 -50) 2/50 = 4. 0 > 3. 84. Zamítám nulovou hypotézu na 5%-ní hladině významnosti. Udělal jsem chybu prvního druhu - Type I error (a pověsím nevinnýho). Pravděpodobnost této chyby známe: je to . Hladina významnosti je tedy podmíněná pravděpodobnost zamítnutí nulové hypotézy za předpokladu, že nulová hypotéza platí.
Co se může stát - házím korunou Skutečnost - koruna je falešná, tj. P 0=0, 6; P 1=0, 4 (ALE TO MY NEVÍME) 100 hodů, dostávám 60: 40 Potom 2=(60 -50) 2/50+(40 -50) 2/50 = 4. 0 > 3. 84. Zamítám nulovou hypotézu na 5%-ní hladině významnosti. Správné rozhodnutí (a pověsím lumpa).
Co se může stát - házím korunou Skutečnost - koruna je falešná, tj. P 0=0, 6; P 1=0, 4 (ALE TO MY NEVÍME) 100 hodů, dostávám 55: 45 Potom 2=(55 -50)2/50+(45 -50)2/50 = 1. 0 < 3. 84. Nemohu zamítnout nulovou hypotézu (a osvobodím lumpa). Dopustil jsem se chyby druhého druhu. Její pravděpodobnost označujeme jako a většinou ji neznáme. 1 - je síla testu (power of the test). Obecně platí, že síla testu roste s odchylkou od nulové hypotézy a s počtem pozorování. Protože neznáme, je správná formulace výsledku: Na základě dat nemůžeme zamítnout nulovou hypotézu. Formulace: Dokázali jsme nulovou hypotézu je nesprávná!
Rozhodovací tabulka Při daném počtu pozorování - čím lépe jsem chráněn proti jedné chybě, tím je výsledek náchylnější k druhé chybě. Rozhodnu se, že budu provádět text na 1%ní hladině významnosti - kritická hodnota je potom 6, 63
Co se může stát - házím korunou Skutečnost - koruna je OK, tj. P 0=P 1=0, 5 (ALE TO MY NEVÍME) 100 hodů, dostávám 60: 40 Potom 2=(60 -50) 2/50+(40 -50) 2/50 = 4. 0 <6, 63. Nezamítám nulovou hypotézu na 1%-ní hladině významnosti. - OK, nepověsil jsem nevinnýho.
Co se může stát - házím korunou Skutečnost - koruna je falešná, tj. P 0=0, 6; P 1=0, 4 (ALE TO MY NEVÍME) 100 hodů, dostávám 60: 40 Potom 2=(60 -50) 2/50+(40 -50) 2/50 = 4. 0 < 6, 63. Nezamítám nulovou hypotézu na 5%-ní hladině významnosti. Chyba druhého druhu (pouštím lumpa). Pravděpodobnost chyb nemůže být nulová, protože přesně stejný výsledek pokusu mohu získat jak v případě, že nulová hypotéz platí, tak v případě, že neplatí – zde poměr 60: 40
Pro 20 hodů korunou
Síla testu Skutečnost - koruna je falešná, tj. P 0=0, 55; P 1=0, 45 (ALE TO MY NEVÍME) - Když to dopadne přesně podle pravděpodobností 100 hodů, dostávám 55: 45 Potom 2=(55 -50)2/50+(45 -50)2/50 = 1. 0 < 3. 84. Nezamítám Ch 2 1000 hodů, dostávám 550: 450 Potom 2=(550 -500)2/500+(450 -500)2/500 = 10. 0 > 3. 84. Správně zamítám Skutečnost - koruna je falešná, tj. P 0=0, 51; P 1=0, 49 100 hodů, dostávám 51: 49 Potom 2=(51 -50)2/50+(49 -50)2/50 = 0. 04 < 3. 84. Nezamítám Ch 2 1000 hodů, dostávám 510: 490 Potom 2=(510 -500)2/500+(490 -500)2/500 = 0. 4 < 3. 84. Nezamítám Ch 2 10000 hodů, dostávám 5100: 4900 Potom 2=(5100 -5000)2/5000+(4900 -5000)2/5000 = 4 > 3. 84. Správně zamítám.
Síla testu roste • S počtem nezávislých pozorování • S velikostí odchylky od nulové hypotézy • Se snižující se ochranou proti chybě 1. druhu
Poměrné zastoupení úspěchů ve výběru, které nám pomocí testu 2 umožní zamítnout nulovou hypotézu, že P 1=P 2=0, 5 P<0. 01<P<0. 05 P>0. 05 P<0. 01
Příklady použití • Štěpné poměry • 3: 1 • 9: 3: 3: 1 (počet stupňů volnosti = počet kategorií - 1, pro apriorně danou hypotézu, tedy DF=3)
Příklady použití • • • Poměr pohlaví 1: 1 Pozor na předpoklady Nezávislost pozorování! Stejná pravděpodobnost V praxi tedy může být zamítnutí nulové hypotézy důsledkem tří skutečností: 1. Nulová hypotéza neplatí. 2. Nulová hypotéza platí, ale dopustili jsme se chyby 1. druhu. 3. Nulová hypotéza platí, ale my jsme nesplnili všechny předpoklady pro užití testu.
Příklady použití • Orientace včel podle barvy terče • H 0: 1: 1: 1 • Jak zajistit nezávislost? • Pevná velikost výběru
Příklady použití • Hardy-Weibergovská rovnováha • p 2+ 2 pq + q 2 • pozor - odečítáme ještě jeden stupeň volnosti na parametr, který odhadujeme z dat, takže DF= 3 - 1 = 1
Co to jsou kritické hodnoty? Čím větší odchylka od nulové hypotézy, tím větší chikvadrát
Co to jsou kritické hodnoty? Když toto je 5%, pak 11, 1 je kritická hladina na 5% hladině významnosti (zde je DF=5)
Dnes se častěji užívá Můžeme i opačný postup. Spočítali jsme, že chikvadrát=14 Plocha “ocásku” = P = 0, 014 je P je pravděpodobnost, že takto nebo více odlišný výsledek od nulové hypotézy dostaneme jen vlivem náhody, pokud H 0 platí. dosažená hladina významnosti
Obvykle píšeme • výsledek je průkazný při = 0. 05 • nebo píšu ( 2 = 6. 66, df=1, P<0. 05)
A co když nám vyjde hodnota blízká nule 2 P>0, 99 Nešlo by to považovat za důkaz pravdivosti H 0?
TOO GOOD TO BE TRUE
2 - je odvozen teoreticky, ale Takovýhle hodnoty jsem si nasimuloval házením korunou. Problém - chikvadrát je spojitá distribuce, frekvence jsou z definice diskrétní
Proto se někdy používá Yatesova korekce (na kontinuitu) Dává příliš konzervativní test (tj. pravděpodobnost chyby je většinou menší, než stanovená hodnota, a tak je menší i síla testu). Je zcela zbytečné ji používat, když jsou očekávané frekvence 5 a větší, ale neužívá se většinou ani, když jich není příliš, které jsou menší.