Esmane anals Kordamine ESMANE ANALS Anname levaate he
- Slides: 59
Esmane analüüs Kordamine
ESMANE ANALÜÜS Anname ülevaate ühe tunnuse väärtustest § Analüüsi küsimus • • KUI SUUR OSA? MILLIST VÄÄRTUST ESINES KÕIGE ROHKEM? § Tunnuse tüüp • • NIMITUNNUS JÄRJESTUSTUNNUS BINAARNE TUNNUS INTERVALLTUNNUS § Valimi suurus • • VÄHE VASTAJAID PALJU VASTAJAID § Meetod • • • TEKST TABEL DIAGRAMM
ANDMETE ESITAMINE m 2008 L. sav § § § § Keskmine sissetulek pereliikme kohta viimasel kuul Sugu Mitu aastat olete kooliharidust saanud, koolides õppinud? Milline on Teie praegune haridustase? Perekonnaseis Mitu inimest elab Teiega koos ühes leibkonnas, Teie kaasa arvatud? Vanus
Kodune ül. nr. 3 Milliste järeldusteni te kodustes töödes jõudsite.
BINAARNE TUNNUS 1. Sugu • Mees • Naine A: pakun välja kasutada tulpdiagrammi, mis näitab meeste ja naiste osakaalu. B: pakume sektordiagrammi, kuna siis on visuaalselt näha 2. 2 ja 6 võib lahendada nii tulp- kui ka sektordiagrammiga. 3. Kas teil on auto? • Jah • Ei
INTERVALLTUNNUS tulpdiagramm
Mis oli auto maksumus ostmise ajal? alla 1001 - 4001 - 8001 - 12001 - Üle 1000 4000 8000 12000 16000 Siia sobib kõige rohkem histogramm, kuna see illustreerib vahed kõige paremini. Sektor sobiks ka, aga sektoriga on üsna raske visuaalselt võrrelda andmed.
4. Kui palju eurosid te keskmiselt kulutate ühes kuus toidule? § 50 -70 § 71 -90 § 91 -110 § 111 -130 § 130 ja enam X: Tundub, et histogramm sobib nende tulemuste grupeerimiseks ning esitlemiseks kõige paremini? Y: Vahemikud on olemas ning neid võib kasutada nii histogrammi kui ka sektordiagrammina
3. Kes tunnevad end õnnelikematena, kas mehed või naised? Tulemuse näitamiseks kasutame histogrammi.
3. Kes tunnevad end õnnelikematena, kas mehed või naised? Tulemuse näitamiseks kasutame histogrammi.
VÕRDLEMINE. . . kasutades õpitud meetode Andmed kokku võtta eraldi iga grupi jaoks ja siis neid võrrelda. Arvnäitajatest kasutatakse võrdluste läbiviimiseks kõige sagedamini aritmeetilist keskmist Nimitunnuste ja järjestustunnuste puhul saab teha võrdleva sagedustabeli. Tulemuste esitamiseks võib aga kasutada näiteks võrdlevat tulpdiagrammi või joondiagrammi.
VÕRDLEME meeste naiste sissetulekuid § Kas me saame võrrelda keskmiseid sissetulekuid? § § Millist sissetulekut esineb meeste hulgas kõige rohkem ja kas see langeb kokku tüdrukute hulgas kõige enamlevinud sissetulekuga? Arvutame sagedused ja nendest lähtuvad protsendid võrreldavate gruppide lõikes võrdlev sagedustabel e risttabel.
VÕRDLEV SAGEDUSTABEL Tabelist näeme, et mehi osales uuringus rohkem (243) kui naisi (198), mistõttu on sageduste põhjal gruppide võrdlemine raskendatud.
1 3 Tabelis 2. on paigutatud võrreldavad grupid veergudesse ning tabelisse on lisatud protsent nii, et meeste ja naiste vastused on eraldi tervikud (eraldi 100%), mistõttu saame nende gruppide vastuseid võrrelda. 2
RISTTABEL Võrdlev sagedustabel
RISTTABELID Mõnikord sagedusi välja ei tooda, esitatakse ainult protsendid
MIDA OLEKS VAJA MUUTA?
VORMISTA JÄRELDUS
VORMISTA JÄRELDUS
ERINEVUSTE ILLUSTREERIMINE PROTSENTUAALSEID JAOTUSI VÕRDLEVA DIAGRAMMINA Samad andmed, erinev tulemus? 70% 60% 50% 40% poiss 30% tüdruk 20% 10% 0% Samsung Nokia Sony Ericsson Muu 35 30 25 20 poiss 15 tüdruk 10 5 0 Samsung Nokia Sony Ericsson Muu
KIHTDIAGRAMM Tasustatud töö Pensionil Põhja-Eesti Õpingud Lääne-Eesti Lõuna-Eesti Töötu Kirde-Eesti Kesk-Eesti Kodune Muu tegevus 0% 10% 20% 30% Kui võrreldavaid gruppe on rohkem kui kaks, läheb tavaline võrdlev tulpdiagramm üsna kirjuks ja seega raskesti arusaadavaks. 40% 50% 60% 70% Põhja-Eesti Lääne-Eesti Tasustatud töö Pensionil Kihtdiagrammis esitatakse iga võrreldava grupi kohta üks tulp, mis on jagatud võrdluse aluseks oleva tunnuse väärtuste protsentuaalse osakaalu järgi kihtideks, mis kokku moodustavad 100%. Õpingud Lõuna-Eesti Töötu Kodune Kirde-Eesti Muu tegevus Kesk-Eesti 0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100%
KIHTDIAGRAMM Millist panka kasutatakse põhiliselt?
MILLIST PANKA. . . 80 70 60 50 40 naine 30 mees 20 10 0 Hansapank Ühispank 100% 80% 60% Ühispank Hansapank 40% 20% 0% naine mees
VÕRDLEME Erinevate haridustasemetega vastajate vanuseid § KAS arvutame sagedused ja nendest lähtuvad protsendid võrreldavate gruppide lõikes?
NÄITEKS Riigieksami tulemuste analüüs • Min, max • Keskväärtus (keskmise taseme võrdlemiseks) • Standardhälve (hajuvuse võrdlemiseks)
JAOTUS Kirjeldavad arvnäitajad Keskmine tase Mood Mediaan Aritmeetiline keskmine Geomeetriline keskmine Harmooniline keskmine Ruutkeskmine Kaalutud keskmine Hajuvus Ulatus Kvartiilid Protsentiilid Dispersioon Standardhälve Jaotuse kuju Asümmeetria Ekstsess
KESKMINE TASE Mood Unimodaalne Bimodaalne Multimodaalne 1 mood 2 moodi mitu moodi §. . . on tunnuse kõige enam esinenud väärtus § 1 1 2 2 3 3 3 4 4 4 5 5 m o= § 1 2 3 4 4 5 5 m o= § Kõige enam kasutatud inimese nimi maailmas on… mo= Mohammed § 1 2 3 4 5 § SPSSi vastus: mo=1 “Multiple modes exist. The smallest value is shown” NYDaily. News. com
BIMODAALNE JAOTUS … on ka sümmeetriline § N: on mõõdetud kahte erinevat gruppi:
KESKMINE TASE Mediaan §. . . on variatsioonirea keskel paiknev väärtus Tavaline andmerida: 2 4 6 3 5 7 3 4 1 Variatsioonirida (samade andmete põhjal): 1 2 3 3 4 4 5 6 7 § 1 2 3 4 5 6 7 8 9 me= § 1 2 3 4 me = § 17 41 25 56 18 22 20 me = KUI on paarisarv andmeid: 1 1 2 2 3 3 4 4 Siis mediaan on variatsioonirea kahe keskmise liikme aritmeetiline keskmine Me= (2+3)/2=2, 5 § Mida saate järeldada, kui arvutuste tulemusena saadi laste arvu mediaaniks 1?
Kas mediaan on alati reaalne väärtus variatsioonireast?
KESKMINE TASE Aritmeetiline keskmine e keskväärtus § . . . võimaldab suurt hulka numbrilisi andmeid koondada ja välja tuua üldtendentse. § Puuduseks tundlikkus äärmuslike väärtuste suhtes, kasutatakse eelkõige väikese hajuvuse korral keskväärtuse suhtes. Nt keskmine vanus 44 ei ütle midagi selle kohta, kui palju on alla 20 aastaseid. § § § Mood ja mediaan – muutuvad siis, kui esineb olulisi muutusi andmetes Aritmeetiline keskmine – muutub siis, kui muutub kasvõi üks rea liige § § Keskväärtus on võrreldes teiste näitajatega kõige stabiilsem Kõigile teada tuntud arvnäitaja (kõik teavad ja oskavad arvutada)
KESKVÄÄRTUSE RAKENDAMINE A. Masso
KESKMINE TASE Aritmeetiline keskmine e keskväärtus § Kui esineb ekstreemseid väärtuseid, siis ei näita objektiivselt keskmist tendentsi §Töötajate sissetulekud: I gr. 100 140 200 250 310 II gr. 110 140 190 260 1 300 Aritmeetilised keskmised: I gr. – 200 II gr. – 400 Mediaanid: I gr. - 200 II gr. -190
STAT. EE Palgatöötaja kuukeskmine brutotulu 2010 1, 200 1, 000 800 Eesti keskmine 2010 mehed 600 naised 400 200 0 Põhja-Eesti Kesk-Eesti Kirde-Eesti Lääne-Eesti Täpsustatud andmetel vähenes 2011. aastal Eesti arvestuslik rahvaarv ligi 3000 inimese võrra 2012. aasta 1. jaanuaril elas Eestis 1 318 000 inimest, teatab Statistikaamet. Lõuna-Eesti
EKSTREEMSETE VÄÄRTUSTE. . . korral näitab keskmist taset paremini kui aritmeetiline keskmine: § GEOMEETRILINE KESKMINE – ei ole tundlik ekstreemsete väärtuste suhtes § KAALUTUD KESKMINE – arvestab erinevat palka saavate inimeste hulka => kui on rohkem madalamapalgalisi, siis nende mõju keskmisele on suurem. § KOHANDATUD KESKMINE – keskmine, mille arvutamisel jäetakse välja 5% või 10% ekstreemsetest näitajatest, eemaldame ülisuurte ja üliväikeste väärtuste mõju § MEDIAAN
1 3 2
2005 a. lõpueksami (kirjand) tulemused: Esmasel vaatlusel ei teki ülevaadet: § kuidas paiknevad hinded max. ja min. vahel? § kas paiknevad ühtlaselt? § kas erinevate koolide tasemed on sarnased? MILLINE ON TULEMUSTE HAJUVUS?
JAOTUSE HAJUVUS Maksimaalne, minimaalne väärtus § Võrdlemisel erinevate maakondade tulemusi, saame juba rohkem infot. § Milliste maakondade tulemused hajuvad kõige rohkem?
JAOTUSE HAJUVUS Ulatus e. haar (Range) on. . . §. . . maksimaalse ja minimaalse väärtuse vahe e. vahemiku laius, milles andmed paiknevad § Milliste maakondade tulemused hajuvad kõige rohkem? + lihtsamini leitav - sõltub äärmistest väärtustest, mis võivad olla ekstreemsed!!
KVARTIILID Kvartiilid jagavad variatsioonirea nelja võrdsesse ossa Q 1= 40 Q 2= 55 Q 3= 70 25% õpilastest sai kirjandi eest 40 ja vähem punkti. Pooled õpilastest said 55 ja vähem punkti. 75% õpilastest sai …
KARP DIAGRAMM
KARPDIAGRAMM
TÜVIDIAGRAMM
KARPDIAGRAMM
KARPDIAGRAMM
PROTSENTIILID § Kvintiilid jagavad variatsioonrea viieks võrdseks osaks. § Detsiilid jagavad variatsioonrea kümneks võrdseks osaks. • Kvintiile ja detsiile kasutatakse palju majanduses. (tulukvintiilid ja –detsiilid) § Protsentiilid jagavad variatsioonirea 100 -ks võrdseks osaks • Õpilaste vanuse 36 -s protsentiil = 18 • 36% õpilastest on nooremad kui 18 aastat § Mida tähendab: • Tudengite keskmise eksamihinde 89 -s protsentiil = 4, 0 § Mitmes protsentiil on: • Mediaan • Alumine kvartiil • Ülemine kvartiil
KÕIGE OLULISEM HAJUVUSE NÄITAJA Standardhälve § Kui palju üksikud tulemused erinevad keskmisest? Kui andmed on ühesugused => st. hälve=0 Mida rohkem nad erinevad => suurem on st. hälve
Kui standardhälve=0, kas siis… STANDARDHÄLVE 1. Kõikide tulemuste sagedused on võrdsed 2. Keskmine = 0 3. Mood = 0 4. Kõik tulemused on samade väärtustega Keskmine erinevus keskmisest § § Millise grupi tulemused erinevad rohkem e. millise grupi väärtuste standardhälve on suurem A: B: 6 1 24 4 37 7 49 8 64 20
STARNDARDHÄLBE TÕLGENDAMINE A. Masso
JAOTUSED ON/EI OLE ENAMASTI. . . sümmeetrilised § Sümmeetriline jaotus: • Kõige rohkem väärtusi jaotuse keskel, liikudes otspunktide poole tulemuste hulk väheneb § Sümmeetriline jaotus on väga tavaline • Temperatuurid • Testi punktid • Jne. (bioloogilised nähtused) § Mida suurem on asümmeetria koefitsent (skewness), seda rohkem on jaotus väljavenitatud. § Kui jaotus on sümmeetriline, a=0
ASÜMMEETRIA Positiivne asümmeetria (skewness) § Jaotus on väljavenitatud paremalt poolt § Jaotuse “saba” on paremal pool § Skaalal väiksemaid väärtuseid rohkem 1900 1910 1920 1930 1940 1950 1960
ASÜMMEETRIA Negatiivne asümmeetria (skewness) § Jaotus on väljavenitatud vasakult poolt § Jaotuse “saba” on vasakul poolt § Skaalal suuremaid väärtuseid rohkem 1950 1960 1970 1980 1990 2000 2010
KIRJELDAVAD ARVNÄITAJAD Võrdleme erinevate eksamite tulemusi Inglise keele eksami tulemus Eesti keele eksami tulemus 150 127 0 23 Valid VASTAJATE ARV Missing PUUDUVAD VASTUSED Mean KESKVÄÄRTUS 70, 46 65, 86 Median MEDIAAN 69, 00 72, 00 Mode MOOD 58(a) 70 Std. Deviation STANDARDHÄLVE 14, 42 14, 99 Skewness ASÜMMEETRIA , 30 -2, 64 Minimum MIN. 46 15 Maximum MAX. 100 90 Percentiles 25 25 -S PROTSENTIIL 58, 00 55, 00 50 50 -S PROTSENTIIL 69, 00 72, 00 75 75 -S PROTSENTIIL 82, 00 80, 00 a Multiple modes exist. The smallest value is shown
KIRJELDAVAD ARVNÄITAJAD Ennustage rühmades järgmiste arvnäitajate väärtuseid tänases tunnis olevate õpilaste pikkuste jaotuse kohta § § § § Keskväärtus Mediaan Mood Minimaalne väärtus Maksimaalne väärtus Standardhälve Asümmeetria