VERJETNOST IN STATISTIKA STATISTIK A Formulacija problema opazujemo
VERJETNOST IN STATISTIKA STATISTIK A Formulacija problema: § opazujemo neko množico (končno ali neskončno), ki ji pravimo populacija; (npr. prebivalci Slovenije, izdelki neke tovarne, bolniki z neko boleznijo, delnice na borzi, izidi na ruleti) § vsak element populacije ima neko merljivo lastnost X; (npr. starost, kakovost izdelka, učinek zdravila, cena delnice) § vrednost X je zaradi nekega razloga (velikost populacije, način ali cena ugotavljanja, . . . ) znana le na delu populacije, ki mu pravimo vzorec; Osnovni problem statistike: Kaj lahko povemo o lastnosti X na podlagi njenih vrednosti na vzorcu? MATEMATIKA 2 1
VERJETNOST IN STATISTIKA VZORČENJE Če je vzorec naključno izbran, so vrednosti X na vzorcu slučajna spremenljivka. Enako velja za vse druge količine (povprečja, standardni odkloni. . . ), ki jih izpeljemo iz teh vrednosti. Idealni vzorec je reprezentativen v smislu, da se značilnosti X na vzorcu se ujemajo z značilnostmi na celotni populaciji. Pri naključnem vzorcu lahko določimo verjetnost, da je reprezentativen. Včasih skušamo reprezentativnost doseči z dirigiranim vzorčenjem (npr. onesnaženje običajno merijo na stalnih lokacijah). Obstaja nevarnost, da je takšno vzorčenje pristransko. Omejili se bomo na primere, ko je izbira vzorca povsem naključna. To pomeni, da vzorec izbiramo zaporedoma in pri tem imajo vsi elementi populacije enako verjetnost, da se znajdejo v vzorcu. (gre torej za izbiro z vračanjem; če je velikost vzorca majhna v primerjavi z velikostjo populacije smemo izbirati brez vračanja) MATEMATIKA 2 2
VERJETNOST IN STATISTIKA Populacijski parametri: STATISTIČNI PARAMETRI Vzorčni parametri: § velikost populacije: N § velikost vzorca: n § vrednosti X na populaciji: x 1, x 2, . . . , x. N § vrednosti X na vzorcu: X 1, X 2, . . . , Xn § populacijsko povprečje: § vzorčno povprečje: § populacijska razpršenost: § vzorčna razpršenost: MATEMATIKA 2 3
VERJETNOST IN STATISTIKA STATISTIČNI PARAMETRI POVPREČNA VREDNOST IN RAZPRŠENOST VZORČNIH PARAMETROV § vzorec velikosti 1: E(Xk)= (populacijsko povprečje ) D(Xk)= 2 (populacijska razpršenost) § vzorec velikosti n: (vzorčenje z vračanjem) (enostavno vzorčenje) korekcijski faktor za primer relativno velikega vzorca MATEMATIKA 2 4
VERJETNOST IN STATISTIKA Povprečna vrednost količine STATISTIČNI PARAMETRI na množici vseh vzorcev ni enaka 2. Pravimo, da gre za pristransko oceno populacijske razpršenosti. Pri dovolj velikih vzorcih je razlika zanemarljiva, pri majhnih vzorcih pa ne, zato kot mero vzorčne razpršenosti vzamemo MATEMATIKA 2 E(s 2)= 2 5
VERJETNOST IN STATISTIKA OPISOVANJE PODATKOV rezultati kolokvija intervali dolžine 5 intervali dolžine 10 Običajno tvorimo 10 -20 kategorij. Zaželjeno je, da je v večini kategoriji vsaj 5 enot. Pri računanju povprečja in razpršenosti upoštevamo sredine intervalov. MATEMATIKA 2 6
VERJETNOST IN STATISTIKA OCENJEVANJE PARAMETROV INTERVALSKO OCENJEVANJE Vzorčno povprečje in razpršenost sta primerna približka za populacijsko povprečje in razpršenost. Kolikšna je natančnost teh približkov? Simulirali smo 10 zaporedij po 100 metov kocke in dobili naslednjo tabelo: s 3. 59 1. 800 3. 47 1. 687 3. 94 1. 605 3. 44 1. 930 3. 68 1. 567 3. 28 1. 789 3. 53 1. 602 3. 43 1. 692 3. 42 1. 668 3. 50 1. 609 Kaj lahko sklepamo o dejanski povprečni vrednosti in standardnemu odklonu? MATEMATIKA 2 7
VERJETNOST IN STATISTIKA OCENJEVANJE PARAMETROV Razsevni diagram za povprečja in standardne odklone simulacij. Dejanska vrednost: =3. 5, =1. 708 Povprečje simulacij: =3. 53, =1. 695 Osnovni problem je: kako na podlagi vzor čnih parametrov oceniti dejanske populacijske parametre? Pri numeričnih metodah določimo približek in oceno za napako približka. Dejanska vrednost je nekje na intervalu okoli približka. Na podlagi vzorca ni mogoče sklepati o parametrih populacije s 100% zanesljivostjo, . . . pač pa lahko določimo interval, za katerega je zelo verjetno, da vsebuje iskani populacijski parameter. MATEMATIKA 2 8
VERJETNOST IN STATISTIKA OCENJEVANJE PARAMETROV Naj bo količina X normalno porazdeljena na celotni populaciji z neznanim povprečjem a. Zaradi enostavnosti privzemimo, da je standardni odklon enak . Na vzorcu velikosti n dobimo vrednosti X 1, X 2, . . . , Xn in izračunamo njihovo povprečje (tj. za okoli 95% vzorcev je populacijsko povprečje na izračunanem intervalu, za okoli 5% vzorcev pa je izven) Verjetnost, s katero se iskani parameter nahaja na nekem intervalu je stopnja zaupanja. Pripadajoči interval je interval zaupanja. Večja stopnja zaupanja ali večja razpršenost ⇒ potreben je širši interval zaupanja. Večji vzorec ⇒ zadošča ožji interval zaupanja. MATEMATIKA 2 9
VERJETNOST IN STATISTIKA OCENJEVANJE PARAMETROV Splošni postopek za določanje intervala zaupanja za populacijski parameter u: 1) določimo vzorčni parameter ū, ki je primeren približek za u (npr. 2) za povprečje ali s 2 za razpršenost) določimo porazdelitveni zakon vzorčnega parametra ū (npr. normalni, binomski, . . . ; to je najzahtevnejši korak - praviloma se omejimo na standardne primere) 3) 4) izberemo stopnjo zaupanja (običajno =95% ali =99%) na podlagi porazdelitve in vrednosti vzorčnega parametra ū na danem vzorcu določimo interval zaupanja [U 1, U 2] za u, ki pripada izbrani stopnji zaupanja ( tj. tako, da velja P(U 1 ≤ u ≤ U 2) = ). MATEMATIKA 2 10
VERJETNOST IN STATISTIKA OCENJEVANJE PARAMETROV Pri manjših vzorcih ali neznanemu standardnemu odklonu ne moremo privzeti, da je povprečje normalno porazdeljeno. Običajno dobimo za približek porazdelitev, ki je odvisna od velikosti vzorca. Naj bo količina X porazdeljena normalno z neznanim povprečjem a in standardnim odklonom . Iščemo interval zaupanja za populacijsko povprečje a pri stopnji zaupanja . Velja: T je porazdeljena po t. im. Studentovem porazdelitvenem zakonu S(n-1) MATEMATIKA 2 11
VERJETNOST IN STATISTIKA OCENJEVANJE PARAMETROV Tabela mejnih vrednosti porazdelitve S(n): Senčena ploščina je enaka . parameter n (‘stopnje prostosti’) mejna vrednost na stopnji zaupanja 1 - ( P(|T| ≤ t )=1 - ) 95% 99% mejne vrednosti za normalno porazdelitev MATEMATIKA 2 12
VERJETNOST IN STATISTIKA OCENJEVANJE PARAMETROV Za izbrano stopnjo zaupanja iz tabel določimo t , da velja P(|T| ≤ t )= Interval zaupanja za a na stopnji zaupanja je s interval zaupanja 95% 99% 3. 59 1. 800 [3. 237, 3. 942] [3. 125, 4. 054] 3. 47 1. 687 [3. 139, 3. 800] [3. 034, 3. 905] 3. 94 1. 605 [3. 625, 4. 254] [3. 495, 4. 354] 3. 44 1. 930 [3. 061, 3. 818] [2. 941, 3. 938] 3. 68 1. 567 [3. 372, 3. 987] [3. 275, 4. 084] 3. 28 1. 789 [2. 929, 3. 630] [2. 818, 3. 741] 3. 53 1. 602 [3. 215, 3. 844] [3. 116, 3. 943] 3. 43 1. 692 [3. 098, 3. 761] [2. 993, 3. 866] 3. 42 1. 668 [3. 092, 3. 747] [2. 989, 3. 850] 3. 50 1. 609 [3. 184, 3. 815] [3. 084, 3. 915] MATEMATIKA 2 pri 3. poskusu je dejansko povprečje izven 95%-intervala zaupanja in komajda znotraj 99%-intervala zaupanja. 13
VERJETNOST IN STATISTIKA OCENJEVANJE PARAMETROV Intervalska ocena za standardni odklon pri normalni porazdelitvi: Primerjamo populacijsko razpršenost 2 z vzorčno razpršenostjo s 2: Velja: 2 je porazdeljena po zakonu ‘hi-kvadrat’ 2(n-1). Porazdelitev hi-kvadrat 2(n) ima gostoto Porazdelitvena gostota ni simetrična, zato za zahtevano stopnjo zaupanja poiščemo meji 2 a in 2 b , da velja P( 2 ≤ 2 a )=P( 2 ≥ 2 b )=1 - /2 ⇒ P( 2 a ≤ 2 b )= MATEMATIKA 2 14
VERJETNOST IN STATISTIKA OCENJEVANJE PARAMETROV Tabela mejnih vrednosti porazdelitve 2(n) Senčena ploščina je enaka . parameter n (‘stopnje prostosti’) mejna vrednost 2 ( P( 2 ≥ 2 )= ) MATEMATIKA 2 15
VERJETNOST IN STATISTIKA PRESKUŠANJE STATISTIČNIH DOMNEV Statistična domneva je trditev o porazdelitvenem zakonu slučajne spremeljivke, ki jo želimo potrditi ali ovreči na podlagi vrednosti, ki jih zavzame na nekem vzorcu. parametrične domneve neparametrične domneve (trditve o parametrih znanega porazdelitvenega zakona, npr. Poissonovo porazdeljena spremenljivka ima povrečje a) (trditve o naravi porazdelitvenega zakona, npr. spremenljivka je normalno porazdeljena) primerjamo dve domnevi: H 0: ničelna domneva in H 1: alternativna domneva (npr. H 0 trdi, da porazdelitev ustreza zakonu P(2), H 1 pa, da ustreza zakonu P(3. 5)) Domneva je enostavna, če v celoti določa porazdelitev (tip in parametre), sicer pa je sestavljena. (npr. če H 0 trdi, da je porazdelitev Poissonova z neznanim parametrom - H 1 pa, da ni Poissonova, sta obe sestavljeni) Omejili se bomo na osnovne primere parametričnih domnev, ko je vsaj ničelna domneva enostavna. MATEMATIKA 2 16
VERJETNOST IN STATISTIKA PRESKUŠANJE STATISTIČNIH DOMNEV Leta 2003 je bilo v Sloveniji 17321 živorojenih otrok, od tega 8930 dečkov in 8391 deklic. Zanima nas, ali je to v nasprotju z domnevo, da je rojstvo dečka enako verjetno kot rojstvo deklice. Za slučajno spremenljivko X vzamemo število rojstev dečkov. X je porazdeljena binomsko b(n, p). H 0 je enostavna domneva p=0. 5, H 1 je sestavljena domneva p > 0. 5. Izberemo majhno število (npr. 0. 05 ali 0. 01) in poiščemo kritično vrednost c , da je pri pogoju p=0. 5 verjetnost P(X > c )=. Če je število dečkov večje od c , potem H 0 zavrnemo, v nasprotnem primeru pa je ne zavrnemo. Binomsko porazdelitev b(17321, 0. 5) aproksimiramo z N(8660. 5, 65. 80), in vzamemo =0. 05. Ker je dejanska vrednost (8930) večja od c 0. 05, ničelno domnevo zavrnemo. Pri 1% značilnosti preskusa dobimo c 0. 01=8813. 5, torej domnevo zavrnemo tudi pri ostrejšem preskusu. MATEMATIKA 2 17
VERJETNOST IN STATISTIKA PRESKUŠANJE STATISTIČNIH DOMNEV Enostavna parametrična domneva u=u 0 ima tri alternativne parametrične domneve: sprejmemo zavrnemo u > u 0 u < u 0 zavrnemo sprejmemo c u ≠ u 0 c u 0 zavrnemo sprejmemo zavrnemo c 1 u 0 c 2 Za prvo in drugo alternativo pravimo, da sta enostranski, za tretjo pa, da je dvostranska. Pri preskušanju trdnosti nekega materiala je smiselna enostranska alternativa, saj nas ne moti, če je le-ta trdnejši kot pričakujemo. Pri preskušanju odstopov velikosti vijaka glede na matico pa raje oblikujemo dvostransko alternativo. MATEMATIKA 2 18
VERJETNOST IN STATISTIKA PRESKUŠANJE STATISTIČNIH DOMNEV Z porazdeljena po N(0, 1) - kako določimo c ? dvostranski preskus: enostranski preskus: Podobno ravnamo pri drugih preskusih. Pri t-testu tvorimo in upoštevamo, da je T porazdeljen po zakonu S(n-1). Kritične vrednosti za dvostranski poskus pri značilnosti so v (n-1)-vi vrstici in stolpcu, ki ustreza. Kritične vrednosti za enostranski poskusa pa so v stolpcu, ki ustreza . MATEMATIKA 2 19
VERJETNOST IN STATISTIKA PRESKUŠANJE STATISTIČNIH DOMNEV Povprečje 10 meritev gostote neke snovi nam je dalo 1. 35 g/cm 3, čeprav bi teoretično pričakovali gostoto 1. 2 g/cm 3. Na podlagi izkušenj vemo, da je pri tovrstnem merjenju standardna napaka =0. 25 g/cm 3. Ali na podlagi tega lahko zavrnemo H 0( =1. 2 g/cm 3)? Značilnost preskusa naj bo 5%. 1. ) H 1( ≠ 1. 2) (dvostranski preskus) Ničelne domneve ne zavrnemo. (testna vrednost je manjša od kritične) 2. ) H 1( > 1. 2) (enostranski preskus) Ničelno domnevo zavrnemo. (testna vrednost je večja od kritične) Pri sestavljeni alternativi lahko manj verjetni del alternative zmanjša možnost za izključitev ničelne domneve. MATEMATIKA 2 20
- Slides: 20