STATISTIKA I NHODN JEV nhodn pokus neznme pedem

  • Slides: 39
Download presentation
STATISTIKA I.

STATISTIKA I.

NÁHODNÝ JEV náhodný pokus – neznáme předem výsledek – můžeme libovolněkrát opakovat – př.

NÁHODNÝ JEV náhodný pokus – neznáme předem výsledek – můžeme libovolněkrát opakovat – př. hod kostkou, vybrání náhodné osoby, … náhodný jev – výsledek náhodného pokusu – př. „padne 6“, „padne sudé“, „padne méně než 7“, „padne více než 10“, … elementární jev – jev, který nelze rozdělit – př. „padne 6“, „padne 1“, …

PRAVDĚPODOBNOSTNÍ MODELY STAT. DAT Ω={ω1, …, ωk} množina elementárních jevů (všech možných výsledků náhod.

PRAVDĚPODOBNOSTNÍ MODELY STAT. DAT Ω={ω1, …, ωk} množina elementárních jevů (všech možných výsledků náhod. pokusu) Náh. jevy A, B, …libovolné podmnožiny Ω Příklad: Náh. pokus hod kostkou Ω={1, 2, …, 6} A={6} hození šestky B={2, 4, 6} hození sudého čísla C= {1, 2, 3, 4, 5, 6} hození čísla menšího než 7 D= Ø hození čísla většího než 7

PRAVDĚPODOBNOSTNÍ MODELY STAT. DAT PRAVDĚPODOBNOST je vhodně definovaná relativní míra výskytu náh. jevů KLASICKÁ

PRAVDĚPODOBNOSTNÍ MODELY STAT. DAT PRAVDĚPODOBNOST je vhodně definovaná relativní míra výskytu náh. jevů KLASICKÁ DEFINICE ||A|| ( A) značí počet elem. jevů tvořících A: P(A) = ||A|| / ||Ω|| Příklad – pokračování: P(A) = 1/6 P(B) = 3/6 = ½ P(C) = 6/6 = 1 P(D) = 0/6 = 0

NÁHODNÝ JEV – II. jistý jev – P(A) = 1 nemožný jev – P(A)

NÁHODNÝ JEV – II. jistý jev – P(A) = 1 nemožný jev – P(A) = 0 možný jev

PRAVDĚPODOBNOSTNÍ MODELY STAT. DAT Geometrická definice 2 Plocha čtverce = 22 = 4 Plocha

PRAVDĚPODOBNOSTNÍ MODELY STAT. DAT Geometrická definice 2 Plocha čtverce = 22 = 4 Plocha kruhu = . 12 = Pravděpodobnost, že se trefíme do kruhu: /4

OPERACE S JEVY Průnik A B Sjednocení A B A A B B

OPERACE S JEVY Průnik A B Sjednocení A B A A B B

OPERACE S JEVY Doplněk Ā, A’, AC Podmíněnost A|B A A B

OPERACE S JEVY Doplněk Ā, A’, AC Podmíněnost A|B A A B

PRAVDĚPODOBNOSTNÍ MODELY STAT. DAT Základní vlastnosti pravděpodobnosti: a) P(Ø) = P({ }) = 0,

PRAVDĚPODOBNOSTNÍ MODELY STAT. DAT Základní vlastnosti pravděpodobnosti: a) P(Ø) = P({ }) = 0, P(Ω) = 1 b) 0 ≤ P(A) ≤ 1 c) A je podmnožina B => P(A)<P(B) d) P(Ā) = P(A’) = P(AC) = 1 − P(A) (doplněk) e) P(AUB) = P(A) + P(B) − P(A∩B) f) P(A|B) = ||A∩B || / ||B|| = P(A∩B) / P(B) (podmínka)

NEZÁVISLOST JEVŮ Jevy A a B jsou nezávislé, pokud platí P(B|A) = P(B|Ā) =

NEZÁVISLOST JEVŮ Jevy A a B jsou nezávislé, pokud platí P(B|A) = P(B|Ā) = P(B) Nutná a postačující podmínka nezávislosti P(A∩B) = P(A) · P(B) A, B nezávislé

Rozklad Ω Náhodné jevy (množiny) A 1 až AK jsou rozklad Ω Ai∩Aj= Ø

Rozklad Ω Náhodné jevy (množiny) A 1 až AK jsou rozklad Ω Ai∩Aj= Ø pro i≠j , A 1 U…UAK=Ω

Bayesova věta Nechť známe P(B|A 1) až P(B|A 5). Pak: P(A 1|B) = P(B|A

Bayesova věta Nechť známe P(B|A 1) až P(B|A 5). Pak: P(A 1|B) = P(B|A 1)·P(A 1) / [Σ P(B|Ai)·P(Ai)] analogicky pro ostatní části rozkladu, obecně: P(Aj|B) = P(B|Aj)·P(Aj) / [Σ P(B|Ai)·P(Ai)]

Bayesova věta Nechť známe P(A), P(Ā), P(B|A) a P(B|Ā). Pak: P(A|B) = P(B|A)·P(A) /

Bayesova věta Nechť známe P(A), P(Ā), P(B|A) a P(B|Ā). Pak: P(A|B) = P(B|A)·P(A) / [ P(B|A)·P(A)+ P(B|Ā )·P(Ā)] A Ā B

Bayesova věta (ilustrace) Nechť v populaci je 60 % mužů. Víme, že mezi muži

Bayesova věta (ilustrace) Nechť v populaci je 60 % mužů. Víme, že mezi muži je 10% nezaměstnanost, zatímco mezi ženami je 20% nezaměstnanost. a) Určete, jaká je celková míra nezaměstnanosti. b) Určete, jakou část z nezaměstnaných tvoří muži. Zadáno: P(M)=0, 6 P(M’)=0, 4 P(N|M)=0, 1 P(N|M’)=0, 2 a) P(N∩M)=0, 1· 0, 6=0, 06 P(N∩M’)=0, 2· 0, 4=0, 08 P(N)=0, 06+0, 08=0, 14 b) P(M|N)=P(N|M)·P(M)/[P(N|M)·P(M)+P(N|M’)·P(M’)]= = P(N∩M)/P(N) = 0, 06 / 0, 14 = 0, 43

Náhodná veličina X Ω: výsledky 2 hodů kostkou (X=počet šestek) A 1…nehozena ani jedna

Náhodná veličina X Ω: výsledky 2 hodů kostkou (X=počet šestek) A 1…nehozena ani jedna šestka (X=0) A 2…hozena jedna šestka (X=1) A 3…hozeny dvě šestky (X=2) 1, 1 2, 1 3, 1 4, 1 5, 1 6, 1 1, 2 2, 2 3, 2 4, 2 5, 2 6, 2 1, 3 2, 3 3, 3 4, 3 5, 3 6, 3 1, 4 2, 4 3, 4 4, 4 5, 4 6, 4 1, 5 2, 5 3, 5 4, 5 5, 5 6, 5 1, 6 2, 6 3, 6 4, 6 5, 6 6, 6

Pravděpodobnost hodnot náhodné veličiny P(A 1)=25/36 P(A 2)=10/36 P(A 3)=1/36 P(X=0)=25/36 P(X=1)=10/36 P(X=2)=1/36 Píšeme:

Pravděpodobnost hodnot náhodné veličiny P(A 1)=25/36 P(A 2)=10/36 P(A 3)=1/36 P(X=0)=25/36 P(X=1)=10/36 P(X=2)=1/36 Píšeme: P(X=0) = P(0) = P 1 Zákon rozdělení pravděpodobnosti: Σ Pi=1 (neb Ai tvoří rozklad Ω)

Pravděpodobnostní funkce P(x) = P(X=x) P(0) = P(X=0)=25/36 P(1) = P(X=1)=10/36 P(2) = P(X=2)=1/36

Pravděpodobnostní funkce P(x) = P(X=x) P(0) = P(X=0)=25/36 P(1) = P(X=1)=10/36 P(2) = P(X=2)=1/36 25/36 10/36 1/36 0 1 2 P(-3) = P(X=-3)=0 P(1, 4)=P(X=1, 4)=0 P(8) = P(X=8)=0

Charakteristiky náhodné veličiny Modus=0 (nejpravděpodobnější hodnota X) První obecný moment aneb: Střední hodnota: EX

Charakteristiky náhodné veličiny Modus=0 (nejpravděpodobnější hodnota X) První obecný moment aneb: Střední hodnota: EX = Σ xi·P(xi) = Σ xi·Pi, i=1…K EX = 0· 25/36+1· 10/36+2· 1/36 = 12/36 = 1/3 Druhý obecný moment: E(X 2)= Σ xi 2·P(xi) = Σ xi 2·Pi , i=1…K E(X 2)= 02· 25/36+12· 10/36+22· 1/36 = 14/36 = 7/18

Druhý centrovaný moment (rozptyl): DX = Σ (xi−EX)2 ·P(xi )= Σ (xi−EX)2 ·Pi ,

Druhý centrovaný moment (rozptyl): DX = Σ (xi−EX)2 ·P(xi )= Σ (xi−EX)2 ·Pi , i=1…K DX = (0− 1/3)2· 25/36 + + (1− 1/3)2· 10/36 + + (2− 1/3)2· 1/36 = … = 5/18 Druhý centrovaný moment pomocí obecných: DX = E(X 2)−(EX)2 DX = 7/18−(1/3)2 = 5/18 Medián (obecně: kvantily)?

Lze využít: Distribuční funkce F(x)= P(X≤x) =„kumulovaná pravděpodobnost“ F(0)= P(0)= 25/36 F(1)= P(0)+P(1)= 25/36+10/36

Lze využít: Distribuční funkce F(x)= P(X≤x) =„kumulovaná pravděpodobnost“ F(0)= P(0)= 25/36 F(1)= P(0)+P(1)= 25/36+10/36 = 35/36 F(2)= P(0)+P(1)+P(2)= 25/36+10/36+1/36 = 1

Alternativní rozdělení X~Alt(π) A…sledovaný jev, π=P(A) X=počet výskytů A při jediném pokusu X=0 nebo

Alternativní rozdělení X~Alt(π) A…sledovaný jev, π=P(A) X=počet výskytů A při jediném pokusu X=0 nebo 1 P(X=0) = P(A’) = 1−π, P(X=1) = π EX = 0·(1−π)+1·π = π, E(X 2) = 02·(1−π)+12·π = π, DX = π−π2 = π·(1−π)

Binomické rozdělení X~Bi(n, π) π=P(A), A…sledovaný jev n=počet nezávislých pokusů (P(A) se v nich

Binomické rozdělení X~Bi(n, π) π=P(A), A…sledovaný jev n=počet nezávislých pokusů (P(A) se v nich nemění) X=počet výskytů A při n pokusech X=0, 1, …, n P(X=x) = πx(1−π)n-x EX = n·π DX = n·π·(1−π) Příklad: Počet šestek při 2 hodech kostkou. (=Př. 4) Příklad: Počet „úspěchů“ při losování s vracením.

Hypergeometrické rozdělení X~Hpg(n, M, N) A…sledovaný jev n=počet závislých pokusů (losování bez vracení z

Hypergeometrické rozdělení X~Hpg(n, M, N) A…sledovaný jev n=počet závislých pokusů (losování bez vracení z osudí s N prvky, z nichž M vyhovuje jevu A) X=počet výskytů A při n pokusech X=0, 1, …, n (může dojít k „posunu“ minima i maxima) EX = n·M/N Příklad: Ze skupiny 20 lidí (z nich 4 muži) vybíráme bez vracení pětici, sledujeme počet vybraných mužů.

Poznámka: V případě, kdy sice vybíráme technikou bez vracení (čili správný je hypergeometrický model),

Poznámka: V případě, kdy sice vybíráme technikou bez vracení (čili správný je hypergeometrický model), ale výběr probíhá z velké populace, použijme binomický model. Proč? Když např. z 10. 000 obyvatel, kde jevu A vyhovovalo 5. 000 obyvatel (tj. M/N=0, 5) ubereme 30 jedinců technikou bez vracení, bude poté jevu A vyhovovat podíl z rozmezí (dle postupu vybírání) 4. 970 / 9. 970 až 5. 000 / 9. 970 0, 498 až 0, 502 což se příliš nezměnilo oproti hodnotě 0, 5 aneb pravděpodobnost výskytu jevu A téměř nezávisí na pořadí výběru.

Poissonovo rozdělení X~Po(λ) A…sledovaný jev X=počet výskytů A při nekonečně mnoha pokusech X=0, 1,

Poissonovo rozdělení X~Po(λ) A…sledovaný jev X=počet výskytů A při nekonečně mnoha pokusech X=0, 1, 2, … P(x) =λx e λ/x! EX = DX = λ Příklad: Na výrobní lince se zhruba každé dvě hodiny vyskytne porucha. S jakou pravděpodobností se na této lince během osmihodinové pracovní směny vyskytnou nejvýše dvě poruchy?

Rovnoměrné rozdělení (kategoriální typ) X~R(K) X=hodnoty 1, 2, …, K stejně pravděpodobné P(X=x) =

Rovnoměrné rozdělení (kategoriální typ) X~R(K) X=hodnoty 1, 2, …, K stejně pravděpodobné P(X=x) = 1/K, EX = (1+K)/2 Příklad: X=výsledek hodu kostkou (K=6). Graf distribuční funkce F(x) = P(X≤x)

Rovnoměrné rozdělení (spojitý typ) X~R(0, K) X=kterékoli reálné číslo mezi 0 až K Distribuční

Rovnoměrné rozdělení (spojitý typ) X~R(0, K) X=kterékoli reálné číslo mezi 0 až K Distribuční funkce F(x) = P(X≤x) = x/K (mezi 0 až K, jinde konstanta viz graf) l Hustota f(x) = F’(x) = 1/K (mezi 0 až K, jinde 0)

Zákon rozdělení: f(x)dx=1 … integrály určité (zde meze integrálu: min X až max X)

Zákon rozdělení: f(x)dx=1 … integrály určité (zde meze integrálu: min X až max X) modus…hodnota, v níž je hustota max. Distribuční funkce: F(b) = P(X<b) … všeobecně platná definice F(b) = f(x) dx … meze integrálu: min X až b F(b) = velikost plochy pod hustotou mezi min. X až b Důsledky pro určování pravděpodobností: P(X>a) = 1–F(a) = f(x) dx (integrál od a do max X) P(a<X<b)= F(b)–F(a) = f(x) dx (integrál od a do b)

Střední hodnota: EX = x·f(x)dx Druhý obecný moment: E(X 2)= x 2·f(x)dx Druhý centrovaný

Střední hodnota: EX = x·f(x)dx Druhý obecný moment: E(X 2)= x 2·f(x)dx Druhý centrovaný moment (rozptyl): DX=E(X 2)−(EX)2 Př. (rovnom. spojitá veličina, meze: 0 až K) 1/K dx = [x/K] = K/K – 0/K = 1– 0 = 1 modus…není definován EX = x· 1/K dx= [x 2/(2 K)] = K 2/(2 K)– 0 = K/2 EX 2= x 2· 1/K dx= [x 3/(3 K)] = K 3/(3 K)– 0 = K 2/3 DX = K 2/3 – (K/2)2 = K 2/3 – K 2/4 = K 2/12

Gaussovo normální rozdělení X~N(μ, σ2) Grafem hustoty f(x) (vzorec viz skripta) Gaussova křivka (centrována

Gaussovo normální rozdělení X~N(μ, σ2) Grafem hustoty f(x) (vzorec viz skripta) Gaussova křivka (centrována kolem μ=EX, ale je to též modus – hodnota s max. hustotou a medián). Graf zde je spec. (normovaný) U-případ (μ=0, σ2=1):

Gaussovo normální rozdělení

Gaussovo normální rozdělení

Gaussovo normální rozdělení Princip normování spočívá v převodu veličiny X~N(μ, σ2) na veličinu U~N(0,

Gaussovo normální rozdělení Princip normování spočívá v převodu veličiny X~N(μ, σ2) na veličinu U~N(0, 1): U=(X−μ)/σ Pro U≥ 0 je tabelována distribuční funkce (viz http: //fse. ujep. cz/~hrach/). Pro U<0 využijeme symetrii kolem 0: F(-u) = 1−F(u)

Gaussovo normální rozdělení Příklad 5: Nechť je hmotnost X~N(80, 100). Určíme P(X≤ 90), P(X≤

Gaussovo normální rozdělení Příklad 5: Nechť je hmotnost X~N(80, 100). Určíme P(X≤ 90), P(X≤ 75) a P(75≤X≤ 90). Využijeme princip normování a tabulku distribuční funkce: a) P(X≤ 90) = P(U≤(90 -80)/10) = P(U≤ 1) = = F(1) = 0, 84 = 84 % b) P(X≤ 75) = P(U≤(75 -80)/10) = P(U≤-0, 5) = = F(-0, 5) = 1 - F(0, 5) = 1 -0, 69 = 0, 31 = 31 % c) P(75≤X≤ 90) = P(X≤ 90)–P(X≤ 75) = 0, 84 -0, 31 = =0, 53 = 53 %.

Exponenciální rozdělení X~Exp(δ) X = jakákoli kladná hodnota (doba čekání) Distribuční funkce (x>0) F(x)

Exponenciální rozdělení X~Exp(δ) X = jakákoli kladná hodnota (doba čekání) Distribuční funkce (x>0) F(x) = P(X≤x) = 1 e-x/δ l Hustota (x>0) f(x) = F’(x) = e-x/δ/δ l EX = δ , DX = δ 2 , x 0, 5 = δln 2 , = 1/ l Příklad: Stř. doba čeká- ní je 5 min; určit prst, že čekání bude max. 6 min.

Exponenciální rozdělení Pokud X značí dobu do poruchy nějakého zařízení, pak pravděpodobnost, že zařízení,

Exponenciální rozdělení Pokud X značí dobu do poruchy nějakého zařízení, pak pravděpodobnost, že zařízení, které pracovalo bez poruchy po dobu a hodin, bude pracovat bez poruchy ještě alespoň x hodin, je rovna pravděpodobnosti, že zařízení, které dosud nebylo v provozu, bude pracovat alespoň x hodin. Dříve odpracovaná doba je zanedbána. To lze aplikovat pro zařízení u kterých není doba životnosti ovlivněna dobou provozu.

Exponenciální rozdělení - příklad Střední doba čekání zákazníka na obsluhu v prodejně je 50

Exponenciální rozdělení - příklad Střední doba čekání zákazníka na obsluhu v prodejně je 50 sekund. Doba čekání se řídí exponenciálním rozdělením (pravděpodobnost, že zákazník nebude obsloužen s rostoucím časem klesá exponenciálně). Jaká je pravděpodobnost, že náhodný zákazník bude obsloužen dříve než za 30 sekund? Řešení: Zákazník bude obsloužen dříve než za 30 sekund s pravděpodobností 45, 1 %.

Základy statistické indukce Pro stat. data hledáme vhodné pravděp. modely, odhadujeme hodnoty jejich parametrů

Základy statistické indukce Pro stat. data hledáme vhodné pravděp. modely, odhadujeme hodnoty jejich parametrů či testujeme tvrzení o chování stat. veličin. Využíváme toho, že charakteristiky stat. dat (např. aritm. průměr) vykazují vlastnosti pravděpodobnostních rozdělení.

Základy statistické indukce BODOVÉ ODHADY (tj. odhady jedním číslem) Tn (např. aritm. průměr či

Základy statistické indukce BODOVÉ ODHADY (tj. odhady jedním číslem) Tn (např. aritm. průměr či medián) je z dat získaný bodový odhad pro neznámý parametr q v pravděpodobnostním modelu pro sledovanou veličinu (např. pro střední hodnotu v normálním rozdělení). Je to odhad nestranný E(Tn)= q.

Základy statistické indukce Tabulka teoretických (neznámých a tudíž odhadovaných) parametrů a jejich nejvhodnějších (nestranných)

Základy statistické indukce Tabulka teoretických (neznámých a tudíž odhadovaných) parametrů a jejich nejvhodnějších (nestranných) odhadů: PARAMETR q JEHO BODOVÝ ODHAD Tn π = P(A) p = relativní četnost jevu A μ (střední hodnota) aritmetický průměr σ2 (rozptyl) s 2 =M 2·n/(n-1)