Obrada empirijskih podataka deskriptivna statistika opisivanje podataka iz
Obrada empirijskih podataka • • deskriptivna statistika – opisivanje podataka iz uzorka ili populacije u formi osnovnih parametara osnovne vrste podataka – po nastanku varijable (upotreba različitih mjernih ljestvica) se mogu klasificirati na: 1. Kvalitativne: nominalne (Da, Ne, Dobar, Loš. . . ), ordinalne (rangovi) 2. Kvantitativne: diskretne (cjelobrojne vrijednosti, pobrojane), kontinuirane (neprekinute, mjerene) a) Diskretne varijable – nastaju prebrojavanjem b) Kontinuirane varijable – nastaju mjerenjem rujan 2009. N. Zagreb, Šakić, H. Cajner
• Grafička obrada empirijskih podataka • vrste grafičkih prikaza: 1. Histogram (‘bar chart’) – prikazivanje učestalosti podataka stupićima te povezivanje vrhova u poligon frekvencija Primjer: - histogramski prikaz za diskretnu varijablu - direktno očitavanje vjerojatnosti pojave pojedine vrijednosti varijable - histogramski prikaz za kontinuiranu varijablu - prikaz preko razreda podataka po kojima klasificiramo podatke - u tehnici se radi sa razredima jednake veličine (širine) rujan 2009. N. Zagreb, Šakić, H. Cajner
- kumulanta – histogramski prikaz frekvencija koje se kumuliraju od najnižega ka najvišem razredu - mogućnost prikaza relativnih frekvencija (u %) na ordinati 2. ‘Box- whisker’ prikaz (prikaz ‘kutija – brkovi’) – jedno od najčešćih prikaza podataka Primjer: - ‘box-whisker’ prikaz za kontinuiranu varijablu - prikaz je moguće kreirati u različitim verzijama (središnja točka medijan/aritmetička sredina, podjela po percentilima/intervalima povjerenja. . . ) - jednostavna dijagnostika problematičnih podataka (ekstrema, ‘outliera’) - mogućnost prikazivanja dva ili više uzoraka paralelno te brzo dijagnosticiranja njihovih relacija i karakteristika rujan 2009. N. Zagreb, Šakić, H. Cajner
3. ‘Stem-leaf’ prikaz (prikaz ‘stabljika - list’) Primjer: fi Stem Leaf 2 21 02 4 22 3349 5 23 12589 4 24 5678 2 25 48 1 26 4 4. Ostali prikazi: • • • - prikaz ‘stabljika-list’ se najčešće koristi na podacima koji su u decimalnom obliku gdje se znamenka cijelog broja prikazuju kao stabljika a decimalni dio kao ‘list’ ‘Individual plot’, ‘Scatter plot’, ‘Line plot’, ‘Dot plot’ , ‘Marginal plot’ , ‘Area plot’, ‘Pie chart’ ‘Normal probability plot’, . . . rujan 2009. N. Zagreb, Šakić, H. Cajner
Primjer grafičke analize podataka: Na jednom uzorku izmjerene su vrijednosti vlačne čvrstoće šarže čeličnog lima (u N/mm 2). Nakon mjerenja dobiveni su sljedeći podaci: 430, 440, 450, 460, 440, 430, 410 440, 430, 440, 420, 450, 430, 450 420, 440, 420, 450, 410, 440, 460, 430 rujan 2009. N. Zagreb, Šakić, H. Cajner
• Numerička obrada empirijskih podataka • MJERE POLOŽAJA • aritmetička sredina – suma svih elemenata u populaciji podijeljena sa brojem elemenata populacije (težište – paralela sa mehaničkim modelom) najvažnije svojstvo aritmetičke sredine: • mod – podatak(ili razred) koji ima najveću frekvenciju - mod dijeli distribuciju frekvencija na rastuću i padajuću stranu - vrste distribucija s obzirom na mod rujan 2009. N. Zagreb, Šakić, H. Cajner
• medijan – 50% podataka je manje, a 50% veće od te vrijednosti • kvantili - vrijednosti numeričkog obilježja koje niz uređen po veličini dijele na q jednakih dijelova Medijan Kvartili Decili Percentili rujan 2009. N. Zagreb, Šakić, H. Cajner
• MJERE RASIPANJA • standardna devijacija σ – prosječno odstupanje svakog podatka od arit. sredine • varijanca σ2 – prosječno kvadratno odstupanje svakog podatka od arit. sredine • nepristrana procjena varijance osnovnog skupa (σo 2) : • koeficijent varijacije, V – međusobno uspoređivanje varijabilnosti pojava ili svojstava - pokazuje koliki odnos vrijednosti aritm. sredine iznosi vrijednost standardne devijacije (u %) koeficijent varijacije (relativna mjera rasipanja) • raspon, Rx – razlika najveće i najmanje vrijednosti u nekom nizu podataka rujan 2009. N. Zagreb, Šakić, H. Cajner
• MOMENTI STATISTIČKIH SKUPOVA • mehanički model - greda, oslonac i opterećenje ( x 1, x 2, . . . – jedinične sile) x 1 x 2 x 3 x 4 x 5 x 6 x 7 0 – centralni moment r-tog reda – moment oko centra (aritmetička sredina): r=0 r=1 r=2 r=3 r=4 M 0=1 M 1=0 M 2=σ2 M 3 M 4 varijanca koeficijent asimetrije koeficijent spljoštenosti – pomoćni moment r-tog reda – moment oko točke 0 r=1 m 0=1 m 1 = aritmetička sredina rujan 2009. N. Zagreb, Šakić, H. Cajner
• MJERE OBLIKA STATISTIČKOG SKUPA • koeficijent asimetrije (Skewness) – mjera nagnutosti distribucije na lijevu ili desnu stranu svaki |α 3| : 0 - 0, 25 zanemariva asimetrija 0, 25 – 0, 50 slaba asimetrija 0, 50 – 0, 75 srednja asimetrija 0, 75 - + jaka asimetrija pozitivna asimetrije α 3>0 nema asimetrije α 3=0 negativna asimetrija α 3<0 rujan 2009. N. Zagreb, Šakić, H. Cajner
• koeficijent spljoštenosti (Kurtosis)– mjera spljoštenosti (zaobljenosti) distribucije -normiranje na nulu (jednostavnije očitavanje) spljoštenost α 4<3 (α’ 4<0) normalna spljoštenost α 4=3 (α’ 4=0) izduženost α 4>3 (α’ 4>0) rujan 2009. N. Zagreb, Šakić, H. Cajner
Primjer dva skupa: a) sa istim očekivanjem a različitom varijancom b) sa istim očekivanjem i varijancom ali različitim elementima rujan 2009. N. Zagreb, Šakić, H. Cajner
• OPĆI SLUČAJ ZA DISKRETNE I KONTINUIRANE VARIJABLE • diskretne varijable: očekivanje varijanca – vjerojatnost diskretne varijable: učestalost vjerojatnost – funkcija distribucije F(x) diskretne varijable (kumulanta): rujan 2009. N. Zagreb, Šakić, H. Cajner
zbrajanja frekvencija (kumuliranje) rujan 2009. N. Zagreb, Šakić, H. Cajner
• kontinuirane varijable: očekivanje varijanca – funkcija gustoće vjerojatnosti (kontinuirana varijabla): svojstva f. g. v. : 1. 2. 3. rujan 2009. N. Zagreb, Šakić, H. Cajner
– funkcija distribucije vjerojatnosti (kontinuirana varijabla): povezanost f. g. v. i funkcije distribucije rujan 2009. N. Zagreb, Šakić, H. Cajner
Primjer: Sljedeći podaci prezentiraju temperature ‘O-ring’ brtvi raketnog motora prilikom testiranja sustava paljenja: 84, 49, 61, 40, 83, 67, 45, 66, 70, 69, 80, 58, 60, 67, 72, 73, 70, 57, 63, 70, 78, 52, 67, 53, 67, 75, 61, 70, 81, 76, 79, 75, 76, 58, 31. Potrebno je odrediti sve osnovne statističke parametre i grafički prikazati podatke. rujan 2009. N. Zagreb, Šakić, H. Cajner
Razdioba aritmetičkih sredina i centralni granični teorem • uzorkovanjem i analizom zaključujemo što se događa u osnovnom skupu • uzorak mora biti sličan osnovnom skupu rujan 2009. N. Zagreb, Šakić, H. Cajner
• razdioba aritmetičke sredine uzoraka se vrlo brzo približava normalnoj raspodjeli neovisno o vrsti raspodjele u osnovnom skupu ako veličina uzorka n teži u beskonačnost Primjer: Bacaju se igrače kocke. Nakon bacanja crta se distribucija prosječnih vrijednosti. Nakon ‘dovoljno’ (n>30) bacanja može se smatrati da se distribucija aritm. sredina ponaša po normalnoj distribuciji. rujan 2009. N. Zagreb, Šakić, H. Cajner
Nepristrane procjene parametara osnovnog skupa (populacije) • aritmetička sredina: – procjena očekivanja E(x)=µ osnovnog skupa – baza za intervalnu procjenu očekivanja • nepristrana procjena varijance: – procjena varijance osnovnog skupa (σo 2) – intervalna procjena varijance osnovnog skupa: • nepristrana procjena standardne pogreške aritmetičke sredine: rujan 2009. N. Zagreb, Šakić, H. Cajner
- Slides: 20