Nhodn promnn Rozdlen Hzel jsem si korunou padestkrt

Házel jsem si korunou (padesátkrát) a počítal jedničky

Výsledek hodu korunou jako • Typický náhodný jev • přitom by teoreticky šlo ze

nebo frekvence mohu vyjádřit v procentech

Když mám nekonečně velký soubor • pak mám nekonečný počet pozorování (takže nekonečný i

Spojitou proměnnou charakterizuji distribuční funkcí a hustotou pravděpodobnosti

Distribuční funkce F(x) =P(X<x) má tyto základní vlastnosti 1. P(a X < b) =

Jak “idealizovat” normální histogram Když budu dělat sloupečky nekonečně úzké, nezbude mi v nich

Z distribuční funkce lze spočítat střední hodnotu a varianci Diskrétní proměnná Spojitá proměnná

Kvantil Když tato plocha je 0, 75, tedy 75% Pak 12, 54 je 75%

Žádnou hypotézu nemohu dokázat • Proto formuluji nulovou hypotézu (H 0), a tím, že

Chyby v rozhodnutí • V případě, že data jsou náhodná (což je v biologii

Kuchařka testování hypotéz • 1. Formuluji nulovou hypotézu • 2. Zvolím hladinu významnosti a

2 test (test dobré shody) • Příklad - křížím hrachy: očekávám F 1: F

• 1. Zamítnutí nulové hypotézy o poměru 3: 1 je biologicky zajímavé. Statisticky

Výpočet Všimněte si, hodnota kriteria je tím větší, čím je větší odchylka od nulové

Co se může stát - házím korunou Skutečnost - koruna je OK, tj. P

Co se může stát - házím korunou Skutečnost - koruna je falešná, tj. P

Rozhodovací tabulka Při daném počtu pozorování - čím lépe jsem chráněn proti jedné chybě,

Síla testu Skutečnost - koruna je falešná, tj. P 0=0, 55; P 1=0, 45

Síla testu roste • S počtem nezávislých pozorování • S velikostí odchylky od nulové

Poměrné zastoupení úspěchů ve výběru, které nám pomocí testu 2 umožní zamítnout nulovou hypotézu,

Příklady použití • Štěpné poměry • 3: 1 • 9: 3: 3: 1 (počet

Příklady použití • • • Poměr pohlaví 1: 1 Pozor na předpoklady Nezávislost pozorování!

Příklady použití • Orientace včel podle barvy terče • H 0: 1: 1: 1

Příklady použití • Hardy-Weibergovská rovnováha • p 2+ 2 pq + q 2 •

Co to jsou kritické hodnoty? Čím větší odchylka od nulové hypotézy, tím větší chikvadrát

Co to jsou kritické hodnoty? Když toto je 5%, pak 11, 1 je kritická

Dnes se častěji užívá Můžeme i opačný postup. Spočítali jsme, že chikvadrát=14 Plocha “ocásku”

Obvykle píšeme • výsledek je průkazný při = 0. 05 • nebo píšu (

A co když nám vyjde hodnota blízká nule 2 P>0, 99 Nešlo by to

2 - je odvozen teoreticky, ale Takovýhle hodnoty jsem si nasimuloval házením korunou. Problém

Proto se někdy používá Yatesova korekce (na kontinuitu) Dává příliš konzervativní test (tj. pravděpodobnost

Slides: 43

Download presentation

Náhodná proměnná Rozdělení

Házel jsem si korunou (padesátkrát) a počítal jedničky

Výsledek hodu korunou jako • Typický náhodný jev • přitom by teoreticky šlo ze zákonů klasické mechaniky spočítat, co padne – ale musel bych znát přesně, jakou silou a po jaké dráze jsem působil (a možná ještě něco) – což je v praxi nemožné • Za náhodný jev považujeme to, co nemáme pod kontrolou (to není definice, to je popis, jak to chodí)

nebo frekvence mohu vyjádřit v procentech

nebo kumulativní histogram

případně také v procentech

Když mám nekonečně velký soubor • pak mám nekonečný počet pozorování (takže nekonečný i v každém intervalu) - ale můžu ho charakterizovat podílem ze všech pozorování v libovolném intervalu (pravděpodobností, že náhodně vybraný prvek bude charakterizován hodnotou v daném intervalu) • Pro diskrétní proměnnou: výčet všech hodnot a jím odpovídajících pravděpodobností pi=P(X=xi) - může být dán tabulkou nebo vzorcem. Distribuční funkce je potom součet pravděpodobností pro všechy hodnoty menší než xi

Spojitou proměnnou charakterizuji distribuční funkcí a hustotou pravděpodobnosti

Distribuční funkce F(x) =P(X<x) má tyto základní vlastnosti 1. P(a X < b) = F(b) - F(a) ; 2. F(x 1) F(x 2) pro x 1 < x 2 ; 3. 4. Je to vlastně idealizovaný kumulativní histogram s nekonečně úzkými sloupečky.

Jak “idealizovat” normální histogram Když budu dělat sloupečky nekonečně úzké, nezbude mi v nich “nic” - proto procento pozorování intervalu dělím “šířkou” sloupečku. V limitním případě dostávám pro hustotu pravděpodobnosti

Pro hustotu pravděpodobnosti platí

Z distribuční funkce lze spočítat střední hodnotu a varianci Diskrétní proměnná Spojitá proměnná

Kvantil Když tato plocha je 0, 75, tedy 75% Pak 12, 54 je 75% kvantil uvažovaného rozdělení (tedy horní kvartil)

Testování hypotéz + Test dobré shody

Žádnou hypotézu nemohu dokázat • Proto formuluji nulovou hypotézu (H 0), a tím, že ji vyvrátím, dokazuji její opak. • Alternativní hypotéza H 1 nebo HA je tedy negací nulové hypotézy • Nulovou hypotézu formuluji já, jako biolog - proto musí být nulová hypotéza taková, aby její vyvrácení bylo zajímavé

Chyby v rozhodnutí • V případě, že data jsou náhodná (což je v biologii prakticky vždy) musím počítat s tím, že učiním chybné rozhodnutí - statistika zná chybu prvního a druhého druhu (Type I error, Type II error), které jsou nevyhnutelnou součástí našeho rozhodování • Kromě toho samozřejmě můžeme udělat ještě chybu tím, že něco nesprávně spočítáme, ale to už není nevyhnutelné

Kuchařka testování hypotéz • 1. Formuluji nulovou hypotézu • 2. Zvolím hladinu významnosti a tak dostanu kritickou hodnotu (z nějakých tabulek) • 3. Z dat spočtu testovací kriterium • 4. Když je hodnota testovacího kriteria větší než hodnota kritická, zamítám nulovou hypotézu

2 test (test dobré shody) • Příklad - křížím hrachy: očekávám F 1: F 2: Mám 80 potomků - očekávám 60: 20, dostávám 70: 10 Je to jen náhodná variabilita, nebo zde Mendelovské poměry nefungují?

• 1. Zamítnutí nulové hypotézy o poměru 3: 1 je biologicky zajímavé. Statisticky bych mohl obdobně testovat nulovou hypotézu o poměru 4, 2371: 1, ale její zamítnutí nám nic biologicky zajímavého nepřinese. • 2. Nulová hypotéza bude formálně: pravděpodobnost vzniku dominantního fenotypu je 0, 75 (v nekonečně velkém souboru potenciálních potomků jsou poměry fenotypů 3: 1)

Výpočet Všimněte si, hodnota kriteria je tím větší, čím je větší odchylka od nulové hypotézy f - absolutní frekvence, tj. počty nezávislých pozorování DF=1 (počet kategorií - 1 pro apriorně danou hypotézu), kritická hodnota = 3, 84 Hodnota testového kriteria > kritická hodnota, zamítám nulovou hypotézu - říkám, že poměry v F 2 se statisticky průkazně liší od očekávaných 3: 1 při = 0. 05 - nebo píšu ( 2 = 6. 66, df=1, P<0. 05)

Co se může stát - házím korunou Skutečnost - koruna je OK, tj. P 0=P 1=0, 5 (ALE TO MY NEVÍME) 100 hodů, dostávám 55: 45 Potom 2=(55 -50)2/50+(45 -50)2/50 = 1. 0 < 3. 84. Nemohu zamítnout nulovou hypotézu. Správné rozhodnutí.

Co se může stát - házím korunou Skutečnost - koruna je OK, tj. P 0=P 1=0, 5 (ALE TO MY NEVÍME) 100 hodů, dostávám 60: 40 Potom 2=(60 -50) 2/50+(40 -50) 2/50 = 4. 0 > 3. 84. Zamítám nulovou hypotézu na 5%-ní hladině významnosti. Udělal jsem chybu prvního druhu - Type I error (a pověsím nevinnýho). Pravděpodobnost této chyby známe: je to . Hladina významnosti je tedy podmíněná pravděpodobnost zamítnutí nulové hypotézy za předpokladu, že nulová hypotéza platí.

Co se může stát - házím korunou Skutečnost - koruna je falešná, tj. P 0=0, 6; P 1=0, 4 (ALE TO MY NEVÍME) 100 hodů, dostávám 60: 40 Potom 2=(60 -50) 2/50+(40 -50) 2/50 = 4. 0 > 3. 84. Zamítám nulovou hypotézu na 5%-ní hladině významnosti. Správné rozhodnutí (a pověsím lumpa).

Co se může stát - házím korunou Skutečnost - koruna je falešná, tj. P 0=0, 6; P 1=0, 4 (ALE TO MY NEVÍME) 100 hodů, dostávám 55: 45 Potom 2=(55 -50)2/50+(45 -50)2/50 = 1. 0 < 3. 84. Nemohu zamítnout nulovou hypotézu (a osvobodím lumpa). Dopustil jsem se chyby druhého druhu. Její pravděpodobnost označujeme jako a většinou ji neznáme. 1 - je síla testu (power of the test). Obecně platí, že síla testu roste s odchylkou od nulové hypotézy a s počtem pozorování. Protože neznáme, je správná formulace výsledku: Na základě dat nemůžeme zamítnout nulovou hypotézu. Formulace: Dokázali jsme nulovou hypotézu je nesprávná!

Rozhodovací tabulka Při daném počtu pozorování - čím lépe jsem chráněn proti jedné chybě, tím je výsledek náchylnější k druhé chybě. Rozhodnu se, že budu provádět text na 1%ní hladině významnosti - kritická hodnota je potom 6, 63

Co se může stát - házím korunou Skutečnost - koruna je OK, tj. P 0=P 1=0, 5 (ALE TO MY NEVÍME) 100 hodů, dostávám 60: 40 Potom 2=(60 -50) 2/50+(40 -50) 2/50 = 4. 0 <6, 63. Nezamítám nulovou hypotézu na 1%-ní hladině významnosti. - OK, nepověsil jsem nevinnýho.

Co se může stát - házím korunou Skutečnost - koruna je falešná, tj. P 0=0, 6; P 1=0, 4 (ALE TO MY NEVÍME) 100 hodů, dostávám 60: 40 Potom 2=(60 -50) 2/50+(40 -50) 2/50 = 4. 0 < 6, 63. Nezamítám nulovou hypotézu na 5%-ní hladině významnosti. Chyba druhého druhu (pouštím lumpa). Pravděpodobnost chyb nemůže být nulová, protože přesně stejný výsledek pokusu mohu získat jak v případě, že nulová hypotéz platí, tak v případě, že neplatí – zde poměr 60: 40

Pro 20 hodů korunou

Síla testu Skutečnost - koruna je falešná, tj. P 0=0, 55; P 1=0, 45 (ALE TO MY NEVÍME) - Když to dopadne přesně podle pravděpodobností 100 hodů, dostávám 55: 45 Potom 2=(55 -50)2/50+(45 -50)2/50 = 1. 0 < 3. 84. Nezamítám Ch 2 1000 hodů, dostávám 550: 450 Potom 2=(550 -500)2/500+(450 -500)2/500 = 10. 0 > 3. 84. Správně zamítám Skutečnost - koruna je falešná, tj. P 0=0, 51; P 1=0, 49 100 hodů, dostávám 51: 49 Potom 2=(51 -50)2/50+(49 -50)2/50 = 0. 04 < 3. 84. Nezamítám Ch 2 1000 hodů, dostávám 510: 490 Potom 2=(510 -500)2/500+(490 -500)2/500 = 0. 4 < 3. 84. Nezamítám Ch 2 10000 hodů, dostávám 5100: 4900 Potom 2=(5100 -5000)2/5000+(4900 -5000)2/5000 = 4 > 3. 84. Správně zamítám.

Síla testu roste • S počtem nezávislých pozorování • S velikostí odchylky od nulové hypotézy • Se snižující se ochranou proti chybě 1. druhu

Poměrné zastoupení úspěchů ve výběru, které nám pomocí testu 2 umožní zamítnout nulovou hypotézu, že P 1=P 2=0, 5 P<0. 01<P<0. 05 P>0. 05 P<0. 01

Příklady použití • Štěpné poměry • 3: 1 • 9: 3: 3: 1 (počet stupňů volnosti = počet kategorií - 1, pro apriorně danou hypotézu, tedy DF=3)

Příklady použití • • • Poměr pohlaví 1: 1 Pozor na předpoklady Nezávislost pozorování! Stejná pravděpodobnost V praxi tedy může být zamítnutí nulové hypotézy důsledkem tří skutečností: 1. Nulová hypotéza neplatí. 2. Nulová hypotéza platí, ale dopustili jsme se chyby 1. druhu. 3. Nulová hypotéza platí, ale my jsme nesplnili všechny předpoklady pro užití testu.

Příklady použití • Orientace včel podle barvy terče • H 0: 1: 1: 1 • Jak zajistit nezávislost? • Pevná velikost výběru

Příklady použití • Hardy-Weibergovská rovnováha • p 2+ 2 pq + q 2 • pozor - odečítáme ještě jeden stupeň volnosti na parametr, který odhadujeme z dat, takže DF= 3 - 1 = 1

Co to jsou kritické hodnoty? Čím větší odchylka od nulové hypotézy, tím větší chikvadrát

Co to jsou kritické hodnoty? Když toto je 5%, pak 11, 1 je kritická hladina na 5% hladině významnosti (zde je DF=5)

Dnes se častěji užívá Můžeme i opačný postup. Spočítali jsme, že chikvadrát=14 Plocha “ocásku” = P = 0, 014 je P je pravděpodobnost, že takto nebo více odlišný výsledek od nulové hypotézy dostaneme jen vlivem náhody, pokud H 0 platí. dosažená hladina významnosti

Obvykle píšeme • výsledek je průkazný při = 0. 05 • nebo píšu ( 2 = 6. 66, df=1, P<0. 05)

A co když nám vyjde hodnota blízká nule 2 P>0, 99 Nešlo by to považovat za důkaz pravdivosti H 0?

TOO GOOD TO BE TRUE

2 - je odvozen teoreticky, ale Takovýhle hodnoty jsem si nasimuloval házením korunou. Problém - chikvadrát je spojitá distribuce, frekvence jsou z definice diskrétní

Proto se někdy používá Yatesova korekce (na kontinuitu) Dává příliš konzervativní test (tj. pravděpodobnost chyby je většinou menší, než stanovená hodnota, a tak je menší i síla testu). Je zcela zbytečné ji používat, když jsou očekávané frekvence 5 a větší, ale neužívá se většinou ani, když jich není příliš, které jsou menší.