Kurs Statistika u psihologiji 1Statistika u istraivanju obrazovanja
Kurs: Statistika u psihologiji 1/Statistika u istraživanju obrazovanja Tema: Statistički opis uzorka u pogledu jedne kategoričke varijable Copyright Lazar Tenjović Odeljenje za psihologiju, Filozofski fakultet, Beograd
Kategorička varijabla Varijabla koja sadrži određeni broj iscrpnih i međusobno isključivih kategorija u koje možemo svrstati ili klasifikovati jedinice posmatranja. Primeri: Pol (Muški, Ženski); Etnička pripadnost (slovačka, mađarska, romska, srpska, bošnjačka, hrvatska, arbanaška, rusinska, vlaška, ostalo); Bračni status (oženjen/udata, zajednički život-nevenčani, neoženjen/neudata, udovac/udovica) Zanimanje (različiti sistemi kategorija zanimanja); Rukost (dominantnost ruke: levoruk/a, ambidekstar, desnoruk/a); Stručna sprema (Bez škole, Nepotpuna osmogodišnja, Osmogodišnja, Srednja, Viša/Visoka, Postdiplomska); Stepen slaganja sa tvrdnjom (Uopšte se ne slažem, Više se ne slažem no što se slažem, Podjednako se ne slažem i slažem; Više se slažem no što se ne slažem, Sasvim se slažem)
Kategorička varijabla Kategoričke varijable sadrže podatke sa nominalnog (nominalne varijable) i ordinalnog (uređene kategoričke, ordinalne varijable) nivoa merenja. Primeri: Pol (Muški, Ženski); Etnička pripadnost (slovačka, mađarska, romska, srpska, bošnjačka, hrvatska, arbanaška, rusinska, vlaška, ostalo); Bračni status (oženjen/udata, zajednički život-nevenčani, neoženjen/neudata, udovac/udovica) Zanimanje (različiti sistemi kategorija zanimanja); Rukost (dominantnost ruke: levoruk/a, ambidekstar, desnoruk/a); Stručna sprema (Bez škole, Nepotpuna osmogodišnja, Osmogodišnja, Srednja, Viša/Visoka, Postdiplomska); Stepen slaganja sa tvrdnjom (Uopšte se ne slažem, Više se ne slažem no što se slažem, Podjednako se ne slažem i slažem; Više se slažem no što se ne slažem, Sasvim se slažem).
Kategorička kategorisana varijabla nastaje kategorizacijom kvantitativne varijable. (Kategorizacija kvantitativne varijable se ne preporučuje sem u izuzetnim situacijama). Primer: Kvantitativna varijabla uzrast (u godinama) kategorisana u 7 uređenih kategorija 65 > = 7 55 64 = 6 45 54 = 5 35 44 = 4 25 34 = 3 18 24 = 2 < 18 = 1
Vrste kategoričkih varijabli prema broju kategorija i načinu označavanja kategorija Dihotomne (dve kategorije): pol Politomne (više od dveju kategorija): bračno stanje Binarne: dihotomne, kategorije označene sa 0 i 1. Označavanje kategorija na kategoričkim varijablama koje sadrže nominalne podatke je proizvoljno (kako je najlakše: 1, 2, 3, 4 ili 0, 1, 2, 3 ili 22, 33, 44, 55). Cifarske oznake na ovim varijablama nemaju osobine brojeva u matematičkom smislu. Jedina relacija je “jednako-nije jednako Kategorije na kategoričkim varijablama koje sadrže ordinalne podatke najbolje je označiti uzastopnim celim brojevima kako bi se istakla relacija poretka. l l l
Načini kodiranja kategoričkih nominalnih varijabli 1. Kao faktor: svaka kategorija se označi različitom oznakom, najbolje cifrom. Primer za varijablu rukost: Levoruk = 1; Ambidekstar = 2; Desnoruk = 3. Uobičajeno u postupcima analize varijanse. Faktor je u statističkim postupcima analize varijanse kategorička varijabla koja se smatra nezavisnom varijablom čiji uticaj na zavisnu varijablu se ispituje.
Načini kodiranja kategoričkih nominalnih varijabli 2. U kompletni disjunktni oblik: ako kategorička varijabla ima g kategorija svaka kategorija se označi sa g nula i jedinica, pri čemu oznaka 1 ide u kolonu koja predstavlja datu kategoriju a sve ostalo su nule. SPSS ovo radi automatski u meniju Transform/Create Dummy Variables
Načini kodiranja kategoričkih nominalnih varijabli 3. Dàmi (engl. dummy = školski, lažan) kodiranje: ako kategorička varijabla ima g kategorija svaka kategorija se označi sa g - 1 nula i jedinica, pri čemu oznaka 1 ide u kolonu koja predstavlja datu kategoriju. SPSS ovo ne radi automatski u Transform/Create Dummy Variables!
Statistički opis uzorka u pogledu kategoričke varijable Učestalost (frekvencija) i relativna učestalost kategorija, kao i deskriptivne statističke mere zasnovane na frekvencijama i relativnim frekvencijama. Primer: uzorak srednjoškolaca iz Beograda u pogledu religioznosti:
Statistički opis uzorka u pogledu kategoričke varijable: mere “lokacije” Za nominalne: kao mera “lokacije” samo Mod. (Nagradno pitanje: može li nekad i aritmetička sredina? ) Za uređene kategoričke (ordinalne): Mod i Medijana. Mod je jednak kategoriji sa najvećom učestalošću. Medijana je vrednost koja deli distribuciju na dva dela: ispod i iznad nje je po 50% rezultata. IZUZETAK, SPECIJALNI SLUČAJ: Aritmetička sredina binarne varijable (dihotomne sa oznakama 0 i 1) jednaka je proporciji kategorije označene oznakom 1!
Statistički opis uzorka u pogledu kategoričke varijable: mere “varijabilnosti” Za nominalne: indeks kvalitativne varijacije i entropijski indeks. Za uređene kategoričke (ordinalne): interkvartilni raspon, kvartilno odstupanje i 1 – normirana mera ordinalne koncentracije. Za nominalne varijable, umesto o varijabilnosti smisaonije govoriti o raznovrsnosti ili raznolikosti što je u vezi sa rasporedom frekvencija po kategorijama. Na uređenim kategoričkim (ordinalnim) varijablama maksimalna varijabilnost postoji onda kada postoji najveća polarizovanost, tj. kada su sve frekvencije podjednako prisutne u krajnjim kategorijama.
Razumevanje raznolikosti (raznovrsnosti) nominalnim varijablama na Za razumevanje “varijabilnosti” nominalnih varijabli potrebno je razumeti pojam raznolikosti ili raznovrsnosti (engl. diversity). Koji uzorak je “šareniji”, tj. raznovrsniji? Uzorak 1!
Razumevanje raznolikosti (raznovrsnosti) nominalnim varijablama na Rasporedi frekvencija na zamišljenom uzorku 1 i Zamišljenom uzorku 2: Dakle, veća raznovrsnost postoji u Zamišljenom uzorku 1, tj. kada je na nominalnoj varijabli raspored frekvencija po svim kategorijama ujednačen (uniforman).
Mere raznovrsnosti za nominalne varijable 1. Indeks kvalitativne varijacije: g je broj kategorija, pk je relativna učestalost kategorije k, a D indeks raznovrsnosti. Tumačenje: pomnoži se sa 100 i dobijena vrednost pokazuje koliko posto u uzorku postoji raznovrsnosti od moguće/maksimalne. IQV za Zamišljeni uzorak 1 je 1, a za Zamišljeni uzorak 2 je 0. 75. U uzorku 1 postoji maksimalna raznovrsnost, a u uzorku 2 postoji 75% od maksimalno moguće raznovrsnosti.
Mere raznovrsnosti za nominalne varijable 2. Entropijski indeks: g je broj kategorija, pk je relativna učestalost u kategoriji k, a ln prirodni logaritam (logaritam sa osnovom e). Tumačenje: podeliti dobijeni entropijski indeks sa maksimalno mogućim za dati broj kategorija. Za tri kategorije maksimalno H = 1. 10. H za Zamišljeni uzorak 1 je 1. 10, a za Zamišljeni uzorak 2 je 0. 86. U uzorku 1 postoji maksimalna raznovrsnost, a u uzorku 2 postoji 78% od maksimalno moguće raznovrsnosti.
Mere varijabilnosti za uređene kategoričke (ordinalne) varijable (NE MORA SE UČITI ZA ISPIT) Pored inerkvartilnog raspona i kvartilne devijacije, mera koja je jednaka 1 – normirana mera ordinalne koncentracije. Normirana mera ordinalne koncentracije: g je broj kategorija, cpk je relativna kumulativna učestalost u kategoriji k. Mera 1 – L 2 kreće se u rasponu od 0 (minimalna varijabilnost) do 1 (maksimalna varijabilnost).
Mere varijabilnosti za uređene kategoričke (ordinalne) varijable: primer Poređenje varijabilnosti uzorka Univerziteta u Beogradu u pogledu obrazovanja oca i obrazovanja majke: U oba slučaja mera 1 – L 2 jednaka je 0. 5. Podjednaka varijabilnost uzorka u pogledu ova dva obeležja.
Grafičko prikazivanje podataka na kategoričkoj varijabli 1. Štapićasti dijagram (engl. barchart) (Nije isto što i histogram!) Grafik 1. Struktura uzorka beogradskih srednjoškolaca (n = 266) prema obrazovanju oca.
Grafičko prikazivanje podataka na kategoričkoj varijabli 2. Pitasti ili kružni dijagram (engl. pierchart) (ili “burek”. . . ) Grafik 2. Struktura uzorka beogradskih srednjoškolaca (n = 266) prema obrazovanju majke
Preporuke predavača za crtanje štapićastog i pitastog dijagrama 1. NIKADA ne prikazujte grafički podatke sa dihotomnih varijabli. Da bi grafik imao smisla varijabla treba da ima barem tri kategorije (još bolje ako ima više od tri); 2. Štapiće na štapićastom dijagramu počnite od nulte tačke; 3. Izbegavajte legendu: bolje je nazive kategorija smestiti na sam grafik; 4. Izbegavajte pseudotrodimenzionalne prikaze, “kitnjatost” , senčenja, šrafure koje opterećuju oko posmatrača a ništa “ne govore”. Dok crtate grafik stalno imajte na umu koja je to suštinska informacija koju želite da prenesete grafikom. I samo nju prenesite, ništa više i ništa manje! Nemojte graficima da “zasenjujete prostotu”!
Za danas. . . toliko!
- Slides: 21