Statistika Statistika Se ukvarja s preuevanjem podatkov Vsebuje
Statistika
Statistika Se ukvarja s preučevanjem podatkov. Vsebuje zbiranje, klasificiranje, povzemanje, organiziranje, analiziranje, in interpretiranje podatkov.
Dve glavni veji statistike Opisna statistika predstavlja vejo, ki se ukvarja z organiziranjem, povzemanjem in opisovanjem zbirk podatkov. Analitična statistika je veja statistike, ki jemlje vzorce podatkov, da na osnovi njih naredi zaključke (inferenčnost) o populaciji.
Populacija je podatkovna množica, ki je tarča naše pozornosti/interesa. Vzorec je podmnožica podatkov, ki so izbrani iz polulacije.
Dva tipa podatkov Kvantitativni podatki so podatki, ki predstavljajo kvantiteto ali količino nečesa. Kvalitativni podatki so podatki, ki ne vsebujejo nobenih kvantitativnih interpretacij.
Oddelek sistemskih inženirjev kategorija frekvenca relativna frekvenca vrsta zaposlenih število zaposlenih delež učitelji skupne službe 16 3 0. 8421 0. 1579 skupaj 19 1. 0000
Grafična predstavitev kvalitativnih podatkov • stolpčni graf, poligonski diagram • strukturni krog pogača, kolač
Stolpčni graf število zaposlenih Oddelek sistemskih inženirjev sk. službe učitelji
Pareto diagram (po italijanskem ekonomistu) število zaposlenih Oddelek sistemskih inženirjev učitelji sk. službe
Strukturni krog (pogača, kolač) Oddelek sistemskih inženirjev
Grafična predstavitev kvantitativnih podatkov • zaporedje • steblo-list predstavitev • histogram
Urejeno zaporedje/ranžirana vrsta Urejeno zaporedje je zapis podatkov v vrsto glede na njihovo numerično velikost (ustreznemu mestu pravimo rang).
Primer zaporedja podatkov (nal. 2. 48, str. 64) a. Konstruiraj urejeno zaporedje. b. Nariši steblo-list diagram. c. Naredi histogram. 88 92 95 97 97 97 98 98 100 103 108 109 111 112 112 113 114 116 117 118 119 120 122 124 124 128 128 131 131 132 133 135 136 138 142 146 150
Koraki za konstrukcijo steblo-list predstavitve 1. Razdeli vsako opazovanje-podatke na dva dela, steblo (stem) in listi (leaf). 2. Naštej stebla po vrsti v stolpec, tako da začneš pri najmanjšem in končaš pri največjem.
Koraki za konstrukcijo steblo-list predstavitve 3. Pojdi skozi vse podatke in postavi liste 4. za vsak dogodek/meritev v ustrezno 5. vrstico/steblo. 4. Naštej vse frekvence za vsako steblo.
Steblo-list diagram stebla listi 08 09 10 11 12 13 14 15 8 2 0 1 2 0 5 0 1 6 7 3 2 2 1 7 8 2 2 2 7 9 2 4 3 frekvenca relativna frekvenca 8 9 3 4 3 8 3 4 6 6 7 8 9 4 8 8 8 5 6 8 8 1 7 6 13 10 10 2 1 2% 14% 12% 26% 20% 4% 2% 50 100%
Koraki po katerih zgradimo histogram 1. Izračunaj razpon podatkov. 2. Razdeli razpon na 5 do 20 razredov enake širine. 3. Za vsak razred preštej število vzorcev, 4. ki padejo v ta razred. To število imenujemo frekvenca razred. 4. Izračunaj vse relativne frekvence 5. razredov.
Dobro/uporabno pravilo za določanje števila razredov v histogramu Število vzorcev V množici podatkov manj kot 25 25 - 50 več kot 50 število razredov 5 ali 6 7 - 14 15 - 20
Frekvenčna porazdelitev razred 1 2 3 4 5 6 7 8 interval razreda 80 90 100 110 120 130 140 150 - 90 100 110 120 130 140 150 160 frekvenca relativna frekvenca 1 7 6 13 10 10 2 1 2% 14% 12% 26% 20% 4% 2% 50 100%
frekvenca Histogram 80 90 100 110 120 130 140 150 160 število delovnih ur
procent Histogram 80 90 100 110 120 130 140 150 160 število delovnih ur
Povprečje populacije: vzorca:
Vzeli smo vzorec osebje na FRI. Zabeležili smo naslednje število otrok: 1 1 1 2 2 5
Mediana Da bi prišli do mediane za neko množici podatkov, naredimo naslednje: 1. Podatke uredimo po velikosti v naraščujočem vrstnem redu. 2. Če je število podatkov liho, potem je mediana podatek, ki se nahaja na sredini. 3. če je število podatkov sodo, je mediana 4. enaka povprečju dveh podatkov na sredini.
Mediana populacije: t vzorca: m
Modus množice podatkov je tista vrednost, ki se pojavi z največjo frekvenco.
X 1 50 50 99 Y 49 50 50 51
Razpon je razlika med največjo in najmanjšo meritvijo v množici podatkov.
Varianca populacije: (končne populacije z n meritvami).
Varianca vzorca: (z n meritvami).
Standardni odklon je pozitivno predznačen kvadratni koren variance.
Empirična pravila Če ima podatkovna množica porazdelitev približno zvonaste oblike (unimodalna oblika – ima en sam vrh), potem veljajo naslednja pravila (angl. rule of thumb), ki jih lahko uporabimo za opis podatkovne množice: 1. Približno 68% vseh meritev leži na razdalji 1 x standardnega odklona od njihovega povprečja.
Empirična pravila 2. Približno 95% meritev leži na razdalji do 2 x standardnega odklona od njihovega povprečja. 3. Skoraj vse meritve ležijo na razdalji 3 x standardnega odklona od njihovega povprečja.
Centili 100 p-ti centil (p je med 0 in 1) je definiran kot število od katerega ima 100 p procentov meritev manjšo ali enako numerično vrednost.
Določanje 100 p-tega centila Izračunaj vrednost i = p (n+1) in jo zaokroži na najbližje celo število. To število je enako i. Izmerjena vrednost z i-tim rangom je 100 p-ti centil.
• 25. centil se imenuje tudi 1. kvartil. • 50. centil se imenuje 2. kvartil in mediana. • 75. centil se imenuje tudi 3. kvartil.
Vzorčenje
Analitična statistika je veja statistike, ki se ukvarja z uporabo vzorčnih podatkov, da bi z njimi naredili zaključek (inferenco) o populaciji.
Zakaj vzorčenje? • cena • čas • destruktivno testiranje
Načini vzorčenja • ocena – priročnost • naključno – enostavno – Stratified – grozdno
Enostavno naključno vzorčenje je Vzorčenje, pri katerem je vsak član populacije izbran/vključen enako 3 z enako verjetnostjo. 1 2
Del tabele 6 stran 1096
Del tabele 6 stran 1096
Razdeljen naključni vzorec dobimo tako, da razdelimo populacijo na disjunktne množice oziroma dele in nato izberemo enostavne naključne vzorce za vsak del posebej.
Grozdno vzorčenje je enostavno naključno vzorčenje skupin ali klustrov/grozdov elementov. Boston Denver Los Angles Atlanta
Populacija 1, 2, 3, 4 n = 4
Populacija 1, 2, 3, 4
Populacija 1, 2, 3, 4 n = 4 (velikost populacije)
Vsi možni vzorci velikosti 2 1, 1 1, 2 1, 3 1, 4 2, 1 2, 2 2, 3 2, 4 3, 1 3, 2 3, 3 3, 4 4, 1 4, 2 4, 3 4, 4
Vzorec 1, 1 1, 2 1, 3 1, 4 2, 1 2, 2 2, 3 2, 4 3, 1 3, 2 3, 3 3, 4 4, 1 4, 2 4, 3 4, 4 Povprečje vzorca 1. 0 1. 5 2. 0 2. 5 3. 0 3. 5 4. 0
Porazdelitev enostavnih povpračij
Populacija vzorčnih povprečij Velikost populacije n = 16 1, 1. 5, 2, 2. 5, 3, 3. 5, 4
Populacija Vzorčna povprečja n= 4 (velikost populacije) n = 2 (velikost vzorca)
Vzorčna porazdelitev povprečja Centralni limitni izrek Če je naključni vzorec velikosti n izbran iz populacije s končnim povprečjem m in varianco s 2, potem lahko v primeru da je n dovolj velik, vzorčna porazdelitev povprečja aproksimirana z gostoto normalne porazdelitve.
Vzorčna porazdelitev povprečja Naj bo y 1, y 2, . . . , yn naključni vzorec, ki je sestavljen iz n meritev populacije s končnim povprečjem m in končnim standardnim odklonom s. Potem sta povprečje in standardni odklon vzorčne porazdelitve:
- Slides: 60