Korelacijske metode psihologija 1 st 2 letnik 201112
- Slides: 19
Korelacijske metode psihologija (1. st. ) – 2. letnik 2011/12 2. predavanje: vnos in urejanje podatkov pregled podatkov pred multivariatno analizo ! manjkajoče vrednosti, osamelci, vplivne točke !
Tipi spremenljivk Merska raven (po Stevensu) Zaporedje Enake Absolutna Dopustne pretvorbe razdalje ničla Nominalna vse enolične p. Ordinalna vse monotone p. Intervalna Razmernostna linearne p. : X' = a+b. X X' = a. X • kvantitativne (I, R) vs. kvalitativne (N) • manifestne vs. latentne • odvisne (kriterijske) vs. neodvisne (pojasnjevalne, prediktorji, napovedniki)
Urejanje podatkov Šifra Podatkovna matrika: A 01 1 25 7 125 A 02 1 25 6 111 A 03 0 36 6 104 A 04 1 23 4 95 A 05 0 48 5 109 B 01 0 -9999 5 98 B 02 0 31 3 92 • osebe v vrsticah, spremenljivke v stolpcih • načelo “ 1 enota (oseba) – 1 vrstica” (par obravnavamo kot enoto) Moški Starost Izobrazba • najprej identifikacijska B 03 1 27 4 spremenljivka, nato splošne 1 41 4 demografske spremenljivke, B 04 za tem vse ostalo • numerično kodiranje kvalitativnih spremenljivk (1/0 pri dihotomnih; 1=da) • jasna imena (zapišimo si natančen opis vsake spremenljivke!) • kode za manjkajoče vrednosti (potrebno sporočiti programu!) • vhodni podatki za MV analizo so lahko tudi druge matrike (npr. kovariančna matrika, matrika razdalj…) IQ 94 88
Manjkajoče vrednosti (missing data) Zelo velik problem! Večina multivariatnih analiz zahteva popolne podatke. Preprečevati v procesu zbiranja podatkov. Ni preprostih dobrih rešitev – več o tem ob koncu semestra… Privzeto v SPSS: brisanje vseh oseb z manjkajočimi vrednostmi.
Nezaželene odvisnosti A. odvisnost oseb: • Navadno posledica stopenjskega vzorčenja. • Ignoriranje ima lahko zelo resne posledice (neveljavnost stat. testov)! • Rešitev: večnivojski modeli. B. odvisnost spremenljivk: Nastane zaradi: 1. medsebojne pogojenosti odgovorov; 2. ipsativnega vrednotenja (npr. prisilni izbiri); 3. možnosti izbiranja nalog; 4. hkratne uporabe X, Y in a. X+b. Y ipd. , 5. hkratne uporabe (skoraj) identičnih spremenljivk. Preprečiti v procesu zbiranja podatkov (1 -3) oz. analize (4 -5).
Pomen natančnega pregleda podatkov pri MV analizi: - odkrivanje napak in motenj (težko razvidne iz rezultatov!) - preverjanje predpostavk (normalnost, linearnost, homoscedastičnost) Osnovni pregled: M, SD / AD, min, max histogram / tabela frekvenčne porazdelitve okvir z ročaji (boxplot) razsevni diagrami (scatter-plot)
Npr. : Dihotomno (1/0) točkovana postavka: Descriptive Statistics N VAR 00001 107 Valid N (listwise) 107 Valid Minimum Maximum , 00 11, 00 Mean Std. Deviation , 6729 1, 12246 Cumulative Percent Frequency Percent Valid Percent , 00 45 42, 1 1, 00 61 57, 0 99, 1 11, 00 1 , 9 100, 0 Total 107 100, 0 V obeh primerih ima M “nevpadljivo” vrednost (0, 67 oz. 3, 30)! Postavka “Likertovega tipa” (1 -5)
r = 0, 250 . . . na prvi pogled v redu, toda… Če pravilno določimo kodo za manjkajočo vrednost: r = 0, 048
Vpliv omejene variabilnosti na korelacijo: Mimogrede: sprememba merske lestvice ne vpliva na r!
Osamelci (ekstremne vrednosti, outliers) Neobičajno visoke / nizke vrednosti (odklon od povprečja je velik v primerjavi z variabilnostjo) Problematični, ker lahko nesorazmerno vplivajo na M, SD oz. Var, r in b (ter ostale izpeljane statistike!) vplivne točke (influential observations) Univariatni in multivariatni osamelci Multivariatni: neobičajen vzorec povezanosti. Vsak uni- je tudi multi-, ne velja pa obratno! Diagnostika: • slike (zaboj z ročaji za univar. , razsevni diagram za bivar. ) • “z > 3”, “X-Me >1, 5(Q 3 -Q 1)” ipd. (univariatni) • Mahalanobisova razdalja D (multivar. ): posplošitev z 2 na več spremenljivk, upošteva variabilnost in korelacijo; pribl. po 2 … (pove, kako daleč je enota od centroida vseh enot na prediktorski spremenljivki – velika razdalja pove, da je vrednost osamelec za prediktorje)
Primer: osamelci v bivariatnem primeru 0 2 1 3
z(X) z(Y) r regr. enačba M ( D) max(D) 0 1 2 3 / 4 2 4 / 3, 6 -2 -2 0, 90 0, 91 0, 83 0, 75 51, 9+0, 98 X 55, 4+0, 90 X 61, 6+0, 77 X 6, 26 13, 66 44, 35 64, 10 Y' = 1, 98 D = Mahalanobisova razdalja z(X), z(Y) = z vrednost osamelca na vsaki od spremenljivk (v vseh primerih se povečata SD in spremenita M, vendar so razlike majhne) Y' = 1, 98
Razlogi za nastanek osamelcev: 1. napake pri zbiranju podatkov 2. napake pri vnosu/manipulaciji podatkov 3. kodiranje manjkajočih vrednosti (tipična koda: -9999) 4. oseba ne pripada ciljni populaciji 5. oblika porazdelitve Ukrepi: • popravek (2, 3), • brisanje (1, 4 potrebna utemeljitev!) • pretvorbe podatkov (5) • (bolj) robustne metode (5) • analiza z in brez osamelcev (5, 5? ) preveriti, ali je osamelec tudi vplivna točka!
Normalnost porazdelitve Ni nujen pogoj pri vsaki analizi! Običajno najbolj problematična visoka sploščenost. Preverjanje univariatne normalnosti: • P-P in Q-Q grafi, • koeficienta sploščenosti in asimetrije • testi normalnosti (npr. Shapiro-Wilk) Multivariatna normalnost (MVN): • vse obtežene vsote spremenljivk so normalno porazdeljene • vse pogojne porazdelitve so normalne • univariatna n. je nujen, vendar ne zadosten pogoj za MVN Preverjanje: slabo razvito! Test MV sploščenosti in asimetrije (Mardia).
Linearnost povezav • implicira vsaj intervalno merjenje • pomembna pri analizah, ki temeljijo na r ali Cov • vzroki nelinearnosti: intrinzična nelinearnost ali oblika porazdelitve • diagnostika: pregled razsevnih diagramov in rezidualnih grafov Homoscedastičnost (ant. heteroscedastičnost) • enaka variabilnost napak pri vsaki vrednosti X • enaka natančnost (napovedi) pri vsakem X • preverjamo z grafičnimi preizkusi (rezidualni graf)
“Metuljasta heteroscedastičnost” zaradi združevanja različnih skupin r=0 r = 0, 71
Linearnost, homoscedastičnost in normalnost so lahko povezane:
Pretvorbe: Ø ploščinska normalizacija; Ø nelinearne funkcije, npr. koren, logaritem ali inverz. As=-0, 43 Spl=0, 40 As=-0, 82 Spl=1, 36 Nelinearne pretvorbe lahko ublažijo odstopanja od linearnosti, homoscedastičnosti in normalnosti, vendar navadno otežijo interpretacijo spremenljivk. X in f (X) ne moreta biti hkrati intervalni!
Kaj moramo torej preveriti, preden poženemo multivariatno analizo? 1. So podatki ustrezno vneseni? 2. Nepristne odvisnosti spremenljivk ali oseb? 3. Manjkajoči podatki? 4. Pregled univariatnih opisnih statistik in slik. 5. Multivariatni osamelci (outliers) in vplivne točke? kjer vrsta analize to zahteva, pa še: 6. Oblika porazdelitve: normalnost, homoscedastičnost? 7. Linearni odnosi? 8. Je variabilnost vzorca primerljiva s populacijsko?
- Marketing psihologija
- Pedagoski fakultet niksic
- Singidunum psihologija
- Nacrt istrazivanja primer
- Psihologija individualnih razlika
- Habituacija
- Inat psihologija
- Transfer psihologija
- Filozofski fakultet skopje
- Adlerova teorija licnosti
- Psihologija kao nauka
- Numerički faktor - logičko zaključivanje
- Psihologija seminarska naloga
- Socijalizacija motiva
- I nastava psihologije
- Psihologija marketinga
- Psihologija grupe
- Manifestacije pamcenja
- Singidunum psihologija
- Komunikacija psihologija