Korelacijske metode psihologija 1 st 2 letnik 201112

  • Slides: 19
Download presentation
Korelacijske metode psihologija (1. st. ) – 2. letnik 2011/12 2. predavanje: vnos in

Korelacijske metode psihologija (1. st. ) – 2. letnik 2011/12 2. predavanje: vnos in urejanje podatkov pregled podatkov pred multivariatno analizo ! manjkajoče vrednosti, osamelci, vplivne točke !

Tipi spremenljivk Merska raven (po Stevensu) Zaporedje Enake Absolutna Dopustne pretvorbe razdalje ničla Nominalna

Tipi spremenljivk Merska raven (po Stevensu) Zaporedje Enake Absolutna Dopustne pretvorbe razdalje ničla Nominalna vse enolične p. Ordinalna vse monotone p. Intervalna Razmernostna linearne p. : X' = a+b. X X' = a. X • kvantitativne (I, R) vs. kvalitativne (N) • manifestne vs. latentne • odvisne (kriterijske) vs. neodvisne (pojasnjevalne, prediktorji, napovedniki)

Urejanje podatkov Šifra Podatkovna matrika: A 01 1 25 7 125 A 02 1

Urejanje podatkov Šifra Podatkovna matrika: A 01 1 25 7 125 A 02 1 25 6 111 A 03 0 36 6 104 A 04 1 23 4 95 A 05 0 48 5 109 B 01 0 -9999 5 98 B 02 0 31 3 92 • osebe v vrsticah, spremenljivke v stolpcih • načelo “ 1 enota (oseba) – 1 vrstica” (par obravnavamo kot enoto) Moški Starost Izobrazba • najprej identifikacijska B 03 1 27 4 spremenljivka, nato splošne 1 41 4 demografske spremenljivke, B 04 za tem vse ostalo • numerično kodiranje kvalitativnih spremenljivk (1/0 pri dihotomnih; 1=da) • jasna imena (zapišimo si natančen opis vsake spremenljivke!) • kode za manjkajoče vrednosti (potrebno sporočiti programu!) • vhodni podatki za MV analizo so lahko tudi druge matrike (npr. kovariančna matrika, matrika razdalj…) IQ 94 88

Manjkajoče vrednosti (missing data) Zelo velik problem! Večina multivariatnih analiz zahteva popolne podatke. Preprečevati

Manjkajoče vrednosti (missing data) Zelo velik problem! Večina multivariatnih analiz zahteva popolne podatke. Preprečevati v procesu zbiranja podatkov. Ni preprostih dobrih rešitev – več o tem ob koncu semestra… Privzeto v SPSS: brisanje vseh oseb z manjkajočimi vrednostmi.

Nezaželene odvisnosti A. odvisnost oseb: • Navadno posledica stopenjskega vzorčenja. • Ignoriranje ima lahko

Nezaželene odvisnosti A. odvisnost oseb: • Navadno posledica stopenjskega vzorčenja. • Ignoriranje ima lahko zelo resne posledice (neveljavnost stat. testov)! • Rešitev: večnivojski modeli. B. odvisnost spremenljivk: Nastane zaradi: 1. medsebojne pogojenosti odgovorov; 2. ipsativnega vrednotenja (npr. prisilni izbiri); 3. možnosti izbiranja nalog; 4. hkratne uporabe X, Y in a. X+b. Y ipd. , 5. hkratne uporabe (skoraj) identičnih spremenljivk. Preprečiti v procesu zbiranja podatkov (1 -3) oz. analize (4 -5).

Pomen natančnega pregleda podatkov pri MV analizi: - odkrivanje napak in motenj (težko razvidne

Pomen natančnega pregleda podatkov pri MV analizi: - odkrivanje napak in motenj (težko razvidne iz rezultatov!) - preverjanje predpostavk (normalnost, linearnost, homoscedastičnost) Osnovni pregled: M, SD / AD, min, max histogram / tabela frekvenčne porazdelitve okvir z ročaji (boxplot) razsevni diagrami (scatter-plot)

Npr. : Dihotomno (1/0) točkovana postavka: Descriptive Statistics N VAR 00001 107 Valid N

Npr. : Dihotomno (1/0) točkovana postavka: Descriptive Statistics N VAR 00001 107 Valid N (listwise) 107 Valid Minimum Maximum , 00 11, 00 Mean Std. Deviation , 6729 1, 12246 Cumulative Percent Frequency Percent Valid Percent , 00 45 42, 1 1, 00 61 57, 0 99, 1 11, 00 1 , 9 100, 0 Total 107 100, 0 V obeh primerih ima M “nevpadljivo” vrednost (0, 67 oz. 3, 30)! Postavka “Likertovega tipa” (1 -5)

r = 0, 250 . . . na prvi pogled v redu, toda… Če

r = 0, 250 . . . na prvi pogled v redu, toda… Če pravilno določimo kodo za manjkajočo vrednost: r = 0, 048

Vpliv omejene variabilnosti na korelacijo: Mimogrede: sprememba merske lestvice ne vpliva na r!

Vpliv omejene variabilnosti na korelacijo: Mimogrede: sprememba merske lestvice ne vpliva na r!

Osamelci (ekstremne vrednosti, outliers) Neobičajno visoke / nizke vrednosti (odklon od povprečja je velik

Osamelci (ekstremne vrednosti, outliers) Neobičajno visoke / nizke vrednosti (odklon od povprečja je velik v primerjavi z variabilnostjo) Problematični, ker lahko nesorazmerno vplivajo na M, SD oz. Var, r in b (ter ostale izpeljane statistike!) vplivne točke (influential observations) Univariatni in multivariatni osamelci Multivariatni: neobičajen vzorec povezanosti. Vsak uni- je tudi multi-, ne velja pa obratno! Diagnostika: • slike (zaboj z ročaji za univar. , razsevni diagram za bivar. ) • “z > 3”, “X-Me >1, 5(Q 3 -Q 1)” ipd. (univariatni) • Mahalanobisova razdalja D (multivar. ): posplošitev z 2 na več spremenljivk, upošteva variabilnost in korelacijo; pribl. po 2 … (pove, kako daleč je enota od centroida vseh enot na prediktorski spremenljivki – velika razdalja pove, da je vrednost osamelec za prediktorje)

Primer: osamelci v bivariatnem primeru 0 2 1 3

Primer: osamelci v bivariatnem primeru 0 2 1 3

z(X) z(Y) r regr. enačba M ( D) max(D) 0 1 2 3 /

z(X) z(Y) r regr. enačba M ( D) max(D) 0 1 2 3 / 4 2 4 / 3, 6 -2 -2 0, 90 0, 91 0, 83 0, 75 51, 9+0, 98 X 55, 4+0, 90 X 61, 6+0, 77 X 6, 26 13, 66 44, 35 64, 10 Y' = 1, 98 D = Mahalanobisova razdalja z(X), z(Y) = z vrednost osamelca na vsaki od spremenljivk (v vseh primerih se povečata SD in spremenita M, vendar so razlike majhne) Y' = 1, 98

Razlogi za nastanek osamelcev: 1. napake pri zbiranju podatkov 2. napake pri vnosu/manipulaciji podatkov

Razlogi za nastanek osamelcev: 1. napake pri zbiranju podatkov 2. napake pri vnosu/manipulaciji podatkov 3. kodiranje manjkajočih vrednosti (tipična koda: -9999) 4. oseba ne pripada ciljni populaciji 5. oblika porazdelitve Ukrepi: • popravek (2, 3), • brisanje (1, 4 potrebna utemeljitev!) • pretvorbe podatkov (5) • (bolj) robustne metode (5) • analiza z in brez osamelcev (5, 5? ) preveriti, ali je osamelec tudi vplivna točka!

Normalnost porazdelitve Ni nujen pogoj pri vsaki analizi! Običajno najbolj problematična visoka sploščenost. Preverjanje

Normalnost porazdelitve Ni nujen pogoj pri vsaki analizi! Običajno najbolj problematična visoka sploščenost. Preverjanje univariatne normalnosti: • P-P in Q-Q grafi, • koeficienta sploščenosti in asimetrije • testi normalnosti (npr. Shapiro-Wilk) Multivariatna normalnost (MVN): • vse obtežene vsote spremenljivk so normalno porazdeljene • vse pogojne porazdelitve so normalne • univariatna n. je nujen, vendar ne zadosten pogoj za MVN Preverjanje: slabo razvito! Test MV sploščenosti in asimetrije (Mardia).

Linearnost povezav • implicira vsaj intervalno merjenje • pomembna pri analizah, ki temeljijo na

Linearnost povezav • implicira vsaj intervalno merjenje • pomembna pri analizah, ki temeljijo na r ali Cov • vzroki nelinearnosti: intrinzična nelinearnost ali oblika porazdelitve • diagnostika: pregled razsevnih diagramov in rezidualnih grafov Homoscedastičnost (ant. heteroscedastičnost) • enaka variabilnost napak pri vsaki vrednosti X • enaka natančnost (napovedi) pri vsakem X • preverjamo z grafičnimi preizkusi (rezidualni graf)

“Metuljasta heteroscedastičnost” zaradi združevanja različnih skupin r=0 r = 0, 71

“Metuljasta heteroscedastičnost” zaradi združevanja različnih skupin r=0 r = 0, 71

Linearnost, homoscedastičnost in normalnost so lahko povezane:

Linearnost, homoscedastičnost in normalnost so lahko povezane:

Pretvorbe: Ø ploščinska normalizacija; Ø nelinearne funkcije, npr. koren, logaritem ali inverz. As=-0, 43

Pretvorbe: Ø ploščinska normalizacija; Ø nelinearne funkcije, npr. koren, logaritem ali inverz. As=-0, 43 Spl=0, 40 As=-0, 82 Spl=1, 36 Nelinearne pretvorbe lahko ublažijo odstopanja od linearnosti, homoscedastičnosti in normalnosti, vendar navadno otežijo interpretacijo spremenljivk. X in f (X) ne moreta biti hkrati intervalni!

Kaj moramo torej preveriti, preden poženemo multivariatno analizo? 1. So podatki ustrezno vneseni? 2.

Kaj moramo torej preveriti, preden poženemo multivariatno analizo? 1. So podatki ustrezno vneseni? 2. Nepristne odvisnosti spremenljivk ali oseb? 3. Manjkajoči podatki? 4. Pregled univariatnih opisnih statistik in slik. 5. Multivariatni osamelci (outliers) in vplivne točke? kjer vrsta analize to zahteva, pa še: 6. Oblika porazdelitve: normalnost, homoscedastičnost? 7. Linearni odnosi? 8. Je variabilnost vzorca primerljiva s populacijsko?