Nhodn promnn Rozdlen Hzel jsem si korunou padestkrt

  • Slides: 43
Download presentation
Náhodná proměnná Rozdělení

Náhodná proměnná Rozdělení

Házel jsem si korunou (padesátkrát) a počítal jedničky

Házel jsem si korunou (padesátkrát) a počítal jedničky

Výsledek hodu korunou jako • Typický náhodný jev • přitom by teoreticky šlo ze

Výsledek hodu korunou jako • Typický náhodný jev • přitom by teoreticky šlo ze zákonů klasické mechaniky spočítat, co padne – ale musel bych znát přesně, jakou silou a po jaké dráze jsem působil (a možná ještě něco) – což je v praxi nemožné • Za náhodný jev považujeme to, co nemáme pod kontrolou (to není definice, to je popis, jak to chodí)

nebo frekvence mohu vyjádřit v procentech

nebo frekvence mohu vyjádřit v procentech

nebo kumulativní histogram

nebo kumulativní histogram

případně také v procentech

případně také v procentech

Když mám nekonečně velký soubor • pak mám nekonečný počet pozorování (takže nekonečný i

Když mám nekonečně velký soubor • pak mám nekonečný počet pozorování (takže nekonečný i v každém intervalu) - ale můžu ho charakterizovat podílem ze všech pozorování v libovolném intervalu (pravděpodobností, že náhodně vybraný prvek bude charakterizován hodnotou v daném intervalu) • Pro diskrétní proměnnou: výčet všech hodnot a jím odpovídajících pravděpodobností pi=P(X=xi) - může být dán tabulkou nebo vzorcem. Distribuční funkce je potom součet pravděpodobností pro všechy hodnoty menší než xi

Spojitou proměnnou charakterizuji distribuční funkcí a hustotou pravděpodobnosti

Spojitou proměnnou charakterizuji distribuční funkcí a hustotou pravděpodobnosti

Distribuční funkce F(x) =P(X<x) má tyto základní vlastnosti 1. P(a X < b) =

Distribuční funkce F(x) =P(X<x) má tyto základní vlastnosti 1. P(a X < b) = F(b) - F(a) ; 2. F(x 1) F(x 2) pro x 1 < x 2 ; 3. 4. Je to vlastně idealizovaný kumulativní histogram s nekonečně úzkými sloupečky.

Jak “idealizovat” normální histogram Když budu dělat sloupečky nekonečně úzké, nezbude mi v nich

Jak “idealizovat” normální histogram Když budu dělat sloupečky nekonečně úzké, nezbude mi v nich “nic” - proto procento pozorování intervalu dělím “šířkou” sloupečku. V limitním případě dostávám pro hustotu pravděpodobnosti

Pro hustotu pravděpodobnosti platí

Pro hustotu pravděpodobnosti platí

Z distribuční funkce lze spočítat střední hodnotu a varianci Diskrétní proměnná Spojitá proměnná

Z distribuční funkce lze spočítat střední hodnotu a varianci Diskrétní proměnná Spojitá proměnná

Kvantil Když tato plocha je 0, 75, tedy 75% Pak 12, 54 je 75%

Kvantil Když tato plocha je 0, 75, tedy 75% Pak 12, 54 je 75% kvantil uvažovaného rozdělení (tedy horní kvartil)

Testování hypotéz + Test dobré shody

Testování hypotéz + Test dobré shody

Žádnou hypotézu nemohu dokázat • Proto formuluji nulovou hypotézu (H 0), a tím, že

Žádnou hypotézu nemohu dokázat • Proto formuluji nulovou hypotézu (H 0), a tím, že ji vyvrátím, dokazuji její opak. • Alternativní hypotéza H 1 nebo HA je tedy negací nulové hypotézy • Nulovou hypotézu formuluji já, jako biolog - proto musí být nulová hypotéza taková, aby její vyvrácení bylo zajímavé

Chyby v rozhodnutí • V případě, že data jsou náhodná (což je v biologii

Chyby v rozhodnutí • V případě, že data jsou náhodná (což je v biologii prakticky vždy) musím počítat s tím, že učiním chybné rozhodnutí - statistika zná chybu prvního a druhého druhu (Type I error, Type II error), které jsou nevyhnutelnou součástí našeho rozhodování • Kromě toho samozřejmě můžeme udělat ještě chybu tím, že něco nesprávně spočítáme, ale to už není nevyhnutelné

Kuchařka testování hypotéz • 1. Formuluji nulovou hypotézu • 2. Zvolím hladinu významnosti a

Kuchařka testování hypotéz • 1. Formuluji nulovou hypotézu • 2. Zvolím hladinu významnosti a tak dostanu kritickou hodnotu (z nějakých tabulek) • 3. Z dat spočtu testovací kriterium • 4. Když je hodnota testovacího kriteria větší než hodnota kritická, zamítám nulovou hypotézu

2 test (test dobré shody) • Příklad - křížím hrachy: očekávám F 1: F

2 test (test dobré shody) • Příklad - křížím hrachy: očekávám F 1: F 2: Mám 80 potomků - očekávám 60: 20, dostávám 70: 10 Je to jen náhodná variabilita, nebo zde Mendelovské poměry nefungují?

 • 1. Zamítnutí nulové hypotézy o poměru 3: 1 je biologicky zajímavé. Statisticky

• 1. Zamítnutí nulové hypotézy o poměru 3: 1 je biologicky zajímavé. Statisticky bych mohl obdobně testovat nulovou hypotézu o poměru 4, 2371: 1, ale její zamítnutí nám nic biologicky zajímavého nepřinese. • 2. Nulová hypotéza bude formálně: pravděpodobnost vzniku dominantního fenotypu je 0, 75 (v nekonečně velkém souboru potenciálních potomků jsou poměry fenotypů 3: 1)

Výpočet Všimněte si, hodnota kriteria je tím větší, čím je větší odchylka od nulové

Výpočet Všimněte si, hodnota kriteria je tím větší, čím je větší odchylka od nulové hypotézy f - absolutní frekvence, tj. počty nezávislých pozorování DF=1 (počet kategorií - 1 pro apriorně danou hypotézu), kritická hodnota = 3, 84 Hodnota testového kriteria > kritická hodnota, zamítám nulovou hypotézu - říkám, že poměry v F 2 se statisticky průkazně liší od očekávaných 3: 1 při = 0. 05 - nebo píšu ( 2 = 6. 66, df=1, P<0. 05)

Co se může stát - házím korunou Skutečnost - koruna je OK, tj. P

Co se může stát - házím korunou Skutečnost - koruna je OK, tj. P 0=P 1=0, 5 (ALE TO MY NEVÍME) 100 hodů, dostávám 55: 45 Potom 2=(55 -50)2/50+(45 -50)2/50 = 1. 0 < 3. 84. Nemohu zamítnout nulovou hypotézu. Správné rozhodnutí.

Co se může stát - házím korunou Skutečnost - koruna je OK, tj. P

Co se může stát - házím korunou Skutečnost - koruna je OK, tj. P 0=P 1=0, 5 (ALE TO MY NEVÍME) 100 hodů, dostávám 60: 40 Potom 2=(60 -50) 2/50+(40 -50) 2/50 = 4. 0 > 3. 84. Zamítám nulovou hypotézu na 5%-ní hladině významnosti. Udělal jsem chybu prvního druhu - Type I error (a pověsím nevinnýho). Pravděpodobnost této chyby známe: je to . Hladina významnosti je tedy podmíněná pravděpodobnost zamítnutí nulové hypotézy za předpokladu, že nulová hypotéza platí.

Co se může stát - házím korunou Skutečnost - koruna je falešná, tj. P

Co se může stát - házím korunou Skutečnost - koruna je falešná, tj. P 0=0, 6; P 1=0, 4 (ALE TO MY NEVÍME) 100 hodů, dostávám 60: 40 Potom 2=(60 -50) 2/50+(40 -50) 2/50 = 4. 0 > 3. 84. Zamítám nulovou hypotézu na 5%-ní hladině významnosti. Správné rozhodnutí (a pověsím lumpa).

Co se může stát - házím korunou Skutečnost - koruna je falešná, tj. P

Co se může stát - házím korunou Skutečnost - koruna je falešná, tj. P 0=0, 6; P 1=0, 4 (ALE TO MY NEVÍME) 100 hodů, dostávám 55: 45 Potom 2=(55 -50)2/50+(45 -50)2/50 = 1. 0 < 3. 84. Nemohu zamítnout nulovou hypotézu (a osvobodím lumpa). Dopustil jsem se chyby druhého druhu. Její pravděpodobnost označujeme jako a většinou ji neznáme. 1 - je síla testu (power of the test). Obecně platí, že síla testu roste s odchylkou od nulové hypotézy a s počtem pozorování. Protože neznáme, je správná formulace výsledku: Na základě dat nemůžeme zamítnout nulovou hypotézu. Formulace: Dokázali jsme nulovou hypotézu je nesprávná!

Rozhodovací tabulka Při daném počtu pozorování - čím lépe jsem chráněn proti jedné chybě,

Rozhodovací tabulka Při daném počtu pozorování - čím lépe jsem chráněn proti jedné chybě, tím je výsledek náchylnější k druhé chybě. Rozhodnu se, že budu provádět text na 1%ní hladině významnosti - kritická hodnota je potom 6, 63

Co se může stát - házím korunou Skutečnost - koruna je OK, tj. P

Co se může stát - házím korunou Skutečnost - koruna je OK, tj. P 0=P 1=0, 5 (ALE TO MY NEVÍME) 100 hodů, dostávám 60: 40 Potom 2=(60 -50) 2/50+(40 -50) 2/50 = 4. 0 <6, 63. Nezamítám nulovou hypotézu na 1%-ní hladině významnosti. - OK, nepověsil jsem nevinnýho.

Co se může stát - házím korunou Skutečnost - koruna je falešná, tj. P

Co se může stát - házím korunou Skutečnost - koruna je falešná, tj. P 0=0, 6; P 1=0, 4 (ALE TO MY NEVÍME) 100 hodů, dostávám 60: 40 Potom 2=(60 -50) 2/50+(40 -50) 2/50 = 4. 0 < 6, 63. Nezamítám nulovou hypotézu na 5%-ní hladině významnosti. Chyba druhého druhu (pouštím lumpa). Pravděpodobnost chyb nemůže být nulová, protože přesně stejný výsledek pokusu mohu získat jak v případě, že nulová hypotéz platí, tak v případě, že neplatí – zde poměr 60: 40

Pro 20 hodů korunou

Pro 20 hodů korunou

Síla testu Skutečnost - koruna je falešná, tj. P 0=0, 55; P 1=0, 45

Síla testu Skutečnost - koruna je falešná, tj. P 0=0, 55; P 1=0, 45 (ALE TO MY NEVÍME) - Když to dopadne přesně podle pravděpodobností 100 hodů, dostávám 55: 45 Potom 2=(55 -50)2/50+(45 -50)2/50 = 1. 0 < 3. 84. Nezamítám Ch 2 1000 hodů, dostávám 550: 450 Potom 2=(550 -500)2/500+(450 -500)2/500 = 10. 0 > 3. 84. Správně zamítám Skutečnost - koruna je falešná, tj. P 0=0, 51; P 1=0, 49 100 hodů, dostávám 51: 49 Potom 2=(51 -50)2/50+(49 -50)2/50 = 0. 04 < 3. 84. Nezamítám Ch 2 1000 hodů, dostávám 510: 490 Potom 2=(510 -500)2/500+(490 -500)2/500 = 0. 4 < 3. 84. Nezamítám Ch 2 10000 hodů, dostávám 5100: 4900 Potom 2=(5100 -5000)2/5000+(4900 -5000)2/5000 = 4 > 3. 84. Správně zamítám.

Síla testu roste • S počtem nezávislých pozorování • S velikostí odchylky od nulové

Síla testu roste • S počtem nezávislých pozorování • S velikostí odchylky od nulové hypotézy • Se snižující se ochranou proti chybě 1. druhu

Poměrné zastoupení úspěchů ve výběru, které nám pomocí testu 2 umožní zamítnout nulovou hypotézu,

Poměrné zastoupení úspěchů ve výběru, které nám pomocí testu 2 umožní zamítnout nulovou hypotézu, že P 1=P 2=0, 5 P<0. 01<P<0. 05 P>0. 05 P<0. 01

Příklady použití • Štěpné poměry • 3: 1 • 9: 3: 3: 1 (počet

Příklady použití • Štěpné poměry • 3: 1 • 9: 3: 3: 1 (počet stupňů volnosti = počet kategorií - 1, pro apriorně danou hypotézu, tedy DF=3)

Příklady použití • • • Poměr pohlaví 1: 1 Pozor na předpoklady Nezávislost pozorování!

Příklady použití • • • Poměr pohlaví 1: 1 Pozor na předpoklady Nezávislost pozorování! Stejná pravděpodobnost V praxi tedy může být zamítnutí nulové hypotézy důsledkem tří skutečností: 1. Nulová hypotéza neplatí. 2. Nulová hypotéza platí, ale dopustili jsme se chyby 1. druhu. 3. Nulová hypotéza platí, ale my jsme nesplnili všechny předpoklady pro užití testu.

Příklady použití • Orientace včel podle barvy terče • H 0: 1: 1: 1

Příklady použití • Orientace včel podle barvy terče • H 0: 1: 1: 1 • Jak zajistit nezávislost? • Pevná velikost výběru

Příklady použití • Hardy-Weibergovská rovnováha • p 2+ 2 pq + q 2 •

Příklady použití • Hardy-Weibergovská rovnováha • p 2+ 2 pq + q 2 • pozor - odečítáme ještě jeden stupeň volnosti na parametr, který odhadujeme z dat, takže DF= 3 - 1 = 1

Co to jsou kritické hodnoty? Čím větší odchylka od nulové hypotézy, tím větší chikvadrát

Co to jsou kritické hodnoty? Čím větší odchylka od nulové hypotézy, tím větší chikvadrát

Co to jsou kritické hodnoty? Když toto je 5%, pak 11, 1 je kritická

Co to jsou kritické hodnoty? Když toto je 5%, pak 11, 1 je kritická hladina na 5% hladině významnosti (zde je DF=5)

Dnes se častěji užívá Můžeme i opačný postup. Spočítali jsme, že chikvadrát=14 Plocha “ocásku”

Dnes se častěji užívá Můžeme i opačný postup. Spočítali jsme, že chikvadrát=14 Plocha “ocásku” = P = 0, 014 je P je pravděpodobnost, že takto nebo více odlišný výsledek od nulové hypotézy dostaneme jen vlivem náhody, pokud H 0 platí. dosažená hladina významnosti

Obvykle píšeme • výsledek je průkazný při = 0. 05 • nebo píšu (

Obvykle píšeme • výsledek je průkazný při = 0. 05 • nebo píšu ( 2 = 6. 66, df=1, P<0. 05)

A co když nám vyjde hodnota blízká nule 2 P>0, 99 Nešlo by to

A co když nám vyjde hodnota blízká nule 2 P>0, 99 Nešlo by to považovat za důkaz pravdivosti H 0?

TOO GOOD TO BE TRUE

TOO GOOD TO BE TRUE

2 - je odvozen teoreticky, ale Takovýhle hodnoty jsem si nasimuloval házením korunou. Problém

2 - je odvozen teoreticky, ale Takovýhle hodnoty jsem si nasimuloval házením korunou. Problém - chikvadrát je spojitá distribuce, frekvence jsou z definice diskrétní

Proto se někdy používá Yatesova korekce (na kontinuitu) Dává příliš konzervativní test (tj. pravděpodobnost

Proto se někdy používá Yatesova korekce (na kontinuitu) Dává příliš konzervativní test (tj. pravděpodobnost chyby je většinou menší, než stanovená hodnota, a tak je menší i síla testu). Je zcela zbytečné ji používat, když jsou očekávané frekvence 5 a větší, ale neužívá se většinou ani, když jich není příliš, které jsou menší.