Sandsynlighedsregning og statistik Noget teori og nogle begreber

Sandsynlighedsregning og statistik

Noget teori og nogle begreber u u En stikprøve eller et observationssæt betegnes x 1, x 2, …………xn En a- fraktil er det mindste tal x, hvor den kumuleret frekvens er større end eller lig med a. u Middelværdi : u Varians : u Spredning :

Nogle graftyper til deskriptiv Statistik Histogram til kontinuerte data u Sumkurve vha. kumuleret frekvens u Stolpediagram til ikke kontinuerte data u XY-graf til beskrivelse af sammenhæng En del af ovenstående kan illustreres vha. SPSS: poisbin 6 indlagt henfald, soldaterhøjde. u

Endeligt sandsynlighedsfelt Definition Ved et endeligt sandsynlighedsfelt forstås parret (U, P), hvor 1) U = , hvor n N. er en mængde. U kaldes udfaldsrummet og mængdens elementer for udfald. 2) 0 ≤ P(u)≤ 1 for alle u U. 3) = 1. P kaldes for sandsynlighedsfunktionen, og P(u) betegner sandsynligheden for udfaldet u. Såfremt P(u) = for alle u sandsynlighedsfelt. U, kaldes (U, P) et symmetrisk

Definition En delmængde A af udfaldsrummet U kaldes en hændelse. Sandsynligheden for hændelsen A betegnes med P(A) og P(A) = Definition Lad A og B være to hændelser i et sandsynlighedsfelt (U, P), hvor P(B)>0. Den betingede sandsynlighed for A givet B er bestemt ved

Nogle nyttige formler: Additionssætningen: Bayes’ formel: Eksempel: Apgartal

Et eksempel

Eksemplet fortsat P(A|B) = P(A∩B) / P(B) P(Moderen røg) = 10/30 = 33. 3% P(Apgar < 7) = 11/30 = 36. 7% P(Moderen røg og Apgar < 7) = 8/30 = 26. 7% P(Apgar < 7| Moderen røg) = 26. 7% / 33. 3 % = 8/10 = 80. 0%

Bayes’ formel P(Brun) = 35% P(Lus) = ? ? ? P(Lus|Blond) = 20%

Bayes’ formel fortsat P(Lus|Blond) = P(Lus ∩ Blond)/P(Blond) P(Lus ∩ Blond) = P(Blond) P(Lus|Blond) = 0. 4 · 0. 2 = 8% P(Lus) = P(Lus ∩ Brun) + P(Lus ∩ Blond) + P(Lus ∩ Sort) + P(Lus ∩ Rød) = 0. 12 · 0. 35 + 0. 20 · 0. 40 + 0. 08 · 0. 20 + 0. 25 · 0. 05 = 15. 1%

Bayes’ formel fortsat P(Rød|Lus) = ? ? ? P(Rød|Lus) = P(Lus ∩ Rød)/P(Lus) = 0. 25 · 0. 05/0. 151 = 8. 3%

Definition Lad der være givet et endeligt sandsynlighedsfelt (U, P). En funktion X af U ind i R kaldes en stokastisk variabel. Ved P(X = x) forstås sandsynligheden P(X = x) for x Vm(X) kaldes sandsynlighedsfordelingen for den stokastiske variabel X. Hvis Vm(X)= betegnes for middelværdien af X og for variansen af X. Kvadratroden af variansen kaldes for spredningen af X og betegnes s(X).

Kombinatorik Angiver antal måde man kan udtage r elementer fra en mængde på n elementer uden hensyntagen til rækkefølgen. Den hypergeometriske fordeling: Fra en population på N elementer, hvoraf d er defekte, udtages en stikprøve på n elementer. Hvis X er antal defekte i stikprøven fås

Eksempel En population består af 30 æbler, hvoraf 5 er rådne. Der udtages en stikprøve på 4 æbler. Kaldes X for antal rådne æbler i stikprøven fås q P(X=q) 0 0, 462 1 0, 420 2 0, 110 3 0, 009 4 0, 000 sum 1, 000

Binomialfordelingen Et basiseksperiment beskrives af et udfaldsrum E med to udfald succes (s) og fiasko (f), dvs. E={s, f}, hvor P(s)=p og P(f)=1 -p. Basiseksperimemtet gentages n gange uafhængigt af hinanden. Hvis X betegner antal succes i de n gentagelser gælder Sætning: E(X)=np ; V(X)=np(1 -p) Eks. 5 uafhængige kast med en terning. X er antal 6’ere. q 0 1 2 3 4 5 P(X=q) 0, 402 0, 462 0, 161 0, 032 0, 003 0, 000 Se også SPSS: pois. Bin 6 indlagte. sav

Generel teori Definition : σ-algebra Lad Ω være en ikke-tom mængde. En mængde F af delmængder af Ω kaldes en σ-algebra på Ω hvis der gælder: 1. Ω F. 2. F er afsluttet over for komplementærmængdedannelse, : hvis A F, så er Ac F 3. F er afsluttet over for tællelige foreningsmængdedannelser, : hvis er en følge i F, så er foreningsmængden også i F.

Definition: Sandsynlighedsrum Et sandsynlighedrum er et tripel (Ω, F, P) bestående af 1. et udfaldsrum Ω som er en ikke-tom mængde, 2. en σ-algebra F af delmængder af Ω, 3. Et sandsynlighedsmål på (Ω, F), dvs. en afbildning P : F → R som er • positiv: P(A)≥ 0 for alle A i F, • normeret: P(Ω=1, og • σ-addit iv : hvis er en følge af parvis disjunkte hændelser fra F, så er . Sætning Lad (Ω, F, P) være et sandsynlighedsrum. Der gælder at sandsynlighedsmålet er monoton-kontinuert i den forstand at hvis man har en voksende følge i F , så er i F, og måde hvis er en aftagende følge i F, så er . i F og ; på samme

Definition: Stokastisk variabel En stokastisk variabel på (Ω, F, P) er en afbildning X af Ω ind i R med den egenskab at {X B} F for ethvert B B, hvor B den mindste σ-algebra på R som indeholder alle intervaller. ( En såkaldt Borel-σ-algebra). Definition: Fordelingsfunktionen for en stokastisk variabel er funktionen F(x)=P(X≤x) Sætning Fordelingsfunktionen F for en stokastisk variabel X har følgende egenskaber: 1. Den er ikke-aftagende, dvs. hvis x≤y, så er F(x)≤F(y). 2. og. 3. Den er højrekontinuert, dvs. F(x+) = F(x) for alle x. 4. I ethvert punkt x gælder P(X = x) = F(x) − F(x−). 5. Et punkt x er et diskontinuitetspunkt for F hvis og kun hvis P(X = x) > 0.

Kontinuerte fordelinger Definition: Tæthedsfunktion En sandsynlighedtæthedsfunktion på R er en integrabel funktion f : R→[0; ∞[ hvor =1 Definition: Kontinuert fordeling En kontinuert sandsynlighedsfordeling er en sandsynlighedsfordeling som har en sandsynlighedstæthedsfunktion f : funktionen er fordelingsfunktionen for en kontinuert fordeling på R Definition : middelværdi , varians og spredning Lad X være en stokastisk variabel med tæthedfunktion f(x) Middelværdi μ=E(X)= Varians σ2=E((X-μ)2)= Spredningen er σ

Normalfordelingen er det klassiske eksempel på en kontinuert fordeling. Her er tæthedsfunktionen givet ved Middelværdien er μ og spredningen σ. Den stokastiske variabel med denne tæthedsfunktion siges at være N(μ, σ2) –fordelt. Den normalfordelte stokastiske variabel, som har middelværdi 0 og varians 1, kaldes sædvanligvis U, og den tilhørende tæthedsfunktion for φ , dvs. at Den tilsvarende fordelingsfunktion kaldes for φ, dvs. at

Der gælder følgende : Man kan derfor klare sig med kendskab til værdier af Ф, som er tabellagt indlagt i de fleste computersystemer. Undersøgelse af om et observationssæt kan betragtes som Normalfordelt: Apgar- fødselsvægt (SPSS) eller BMI – Geogear (SPSS)

Hvorfor er normalfordelingen interessent? Ja, det er den, fordi gennemsnittet af næsten alle målinger tilnærmelsesvis er normalfordelt. Mere præcist, så gælder den centrale grænseværdisætning :

Nogle grænseværdier Hvis X er b(n, p)-fordelt og np → λ for n→ ∞ vil X tilnærmelsesvis være poisson-fordelt, Dvs. at Der gælder at E(X) = V(X) = λ Hvis X er b(n, p)-fordelt er X tilnærmelsesvis normalfordelt N(µ, σ2 ) for n→ ∞ , hvor µ = np og σ2 = np(1 -p).