Data s diskrtnm rozdlenm Poissonovo a binomick rozdlen
Data s diskrétním rozdělením Poissonovo a binomické rozdělení
Co je diskrétní rozdělení • Proměnná s diskrétním rozdělením může nabývat jen určitých hodnot, nejčastěji celá nezáporná čísla • Nejběžněji užívanými typy diskrétního rozdělení jsou Poissonovo („počet něčeho“) a binomické („počet něčeho z celkového počtu“, podíl – pravděpodobnost) • Další: negativně binomické a Neymannovo
Poissonovo rozdělení 1 X = 32 N= 9 p = 0. 03125 l = 0. 28125 • Hrníčková metoda: mám mnoho hrníčků, házím do nich kuličkami, pokaždé se do nějakého trefím . • Každý hod je nezávislý na předchozích, všechny hrníčky mají pravděpodobnost zásahu stejnou (p). Pokud mám X hrníčků a N kuliček, je p=1/X a průměrný počet kuliček v hrníčku je p*N, čili i N/X, označuje se l.
Poissonovo rozdělení 2 • Střední („průměrná“) hodnota je l • Variance tohoto rozdělení je také l • S rostoucí hodnotu l se Poissonovo rozdělení přibližuje normálnímu (Gaussovu) • Odmocněním (alternativně logaritmickou transformací) přiblížím distribuci normální a stabilizuji varianci (neporoste s průměrem) • Generalized linear models (GLM)
Poissonovo rozdělení: zjišťování náhodnosti rozmístění • Jsou květenství rozmístěna náhodně? • Umístím přes plochu čtverce (náhodně na část nebo pravidelnou síť) • Spočítám průměr a varianci: pro náhodné rozmístění budou mít počty ve čtvercích Poissonovo rozdělení, průměr rovný varianci
Náhodnost rozmístění 2 • Shlukovitá distribuce: pokud najdu ve čtverci jedno individuum, zvyšuje to pravděpodobnost, že najdu další • Náhodné rozmístění: pokud najdu ve čtverci individuum, nemění to pravděpodobnost nalezení dalšího • Pravidelné rozmístění: pokud najdu ve čtverci individuum, snižuje to pravděpodobnost, že najdu další
Náhodnost rozmístění 3 • Poměr variance k průměru (počty jedinců) je charakteristikou povahy rozmístění • Lloydův index • Test shody s Poissonovým rozdělením. Veličina má pro Poissonovo rozdělení přibližně c 2 rozdělení s n-1 stupni volnosti
Binomické rozdělení • Hrníčková metoda: mám mnoho hrníčků, do každého zvlášť házím n kuličkami (například 5), pokaždé se ale netrefím . • Každý hod je nezávislý na předchozích, při každém mám pravděpodobnost zásahu p, nezávislou na pokusu a hrníčku. Binomické rozdělení mají počty úspěchů (zásahů) – tj. počet kuliček v jednotlivých hrníčcích, ale nejčastěji se pracuje s p. • Pravděpodbnost neúspěchu q = 1 - p
Binomické rozdělení 2 • Se zvyšujícím se n se přibližuje normálnímu • Pro dané n je nejblíže normálnímu rozdělení pro p = q = 0. 5
Použití binomického rozdělení 1 • Máme n pokusů: 100 náhodně vybraných jablek k odhadu procenta červivých (např. X=15), 250 občanů k odhadu procenta volební preference strany XYZ. . . • Odhad podílu je jednoduchý • Variance tohoto odhadu je • . . . ale my neznáme p, jen jeho odhad, takže odhad variance je
Použití binomického rozdělení 2 • Pak můžeme odhadnout konfidenční interval aproximací („jako by šlo o“) normálním rozdělením Z(1 - /2) je (1 - /2)*100 procentní kvantil normovaného normálního rozdělení Pokud nejsou uvedená omezení dodržena, interval často bude vybočovat mimo rozsah 0 až 1.
Použití binomického rozdělení 3 • Mimo rozsah „normální aproximace“ lze užít kde F je (1 -a/2)*100 -procentní kvantil se stupni volnosti n 1=2(n-X+1) a n 2=2 X a tady jsou stupně volnosti n’ 1=2(X+1) a n’ 2=2(n-X)
Použití binomického rozdělení 4 • Přesnost odhadu p stoupá s n • Počet pozorování, která potřebujeme k tomu, aby byla střední chyba odhadu zhruba w je: • Příklad: očekáváme, že v populaci je asi 20% jedinců s určitou vlastností a chceme jejich zastoupení určit se střední chybou 1%. K tomu potřebujeme z populace náhodně vybrat n = (0. 2 * 0. 8) / 0. 012 = 1600 jedinců
- Slides: 13