Luento 4 Regressioanalyysi Petri Nokelainen petri nokelainenuta fi

  • Slides: 74
Download presentation
Luento 4: Regressioanalyysi Petri Nokelainen petri. nokelainen@uta. fi http: //www. uta. fi/~petri. nokelainen Kasvatustieteiden

Luento 4: Regressioanalyysi Petri Nokelainen petri. nokelainen@uta. fi http: //www. uta. fi/~petri. nokelainen Kasvatustieteiden yksikkö Tampereen yliopisto

Sisältö 1. General Linear Model (GLM) 1. 1 Korrelaatio 2. Regressioanalyysi 2. 1 Regressioanalyysin

Sisältö 1. General Linear Model (GLM) 1. 1 Korrelaatio 2. Regressioanalyysi 2. 1 Regressioanalyysin historia 2. 2 Regressioanalyysin lajit 2. 3 Regressioanalyysin käyttötapoja 2. 4 Regressioanalyysin rajoituksia 2. 5 Regressioanalyysin vaiheet 3. Kahden muuttujan regressioanalyysi 4. Useamman muuttujan regressioanalyysi 4. 1 Hierarkkinen regressioanalyysi 4. 2 Askeltava regressioanalyysi 5. Kanoninen korrelaatio Lähteet

1. General Linear Model (GLM) X (IV) Y (DV) 1, jatkuva n, epäjatkuva n,

1. General Linear Model (GLM) X (IV) Y (DV) 1, jatkuva n, epäjatkuva n, jatkuva 1, dikotominen n, jatkuva n, epäjatkuva n, latentti n, jatkuva n, epäjatkuva n, jatkuva (3. 2) Pearsonin tulomomenttikorrelaatiokerroin (r) (3. 3) Regressioanalyysi (Multiple RA) Varianssianalyysi (n-way ANOVA) Kahden ryhmän erotteluanalyysi (Two-group LDA) (3. 4) Monimuuttujaregressioanalyysi (Multivariate RA) Monimuuttujavarianssianalyysi (MANOVA) Erotteluanalyysi (LDA) Faktorianalyysi (EFA) Pääkomponenttianalyysi (PCA)

(Nokelainen, 2008. )

(Nokelainen, 2008. )

DV IV Kovariaatit Analyysi 1 jatkuva Bivariate r 1 jatkuva Ei Multiple R n

DV IV Kovariaatit Analyysi 1 jatkuva Bivariate r 1 jatkuva Ei Multiple R n jatkuvaa Joitakin Muuttujien välisten riippuvuuksien voimakkuus Seq. Multiple R n jatkuvaa Canonical R 1 diskr. n jatkuvaa tai diskr. Multilevel modeling Ei yhtään n diskr. n-way Freq. Anal.

1. 1 Korrelaatio (3. 2) IV 1 DV

1. 1 Korrelaatio (3. 2) IV 1 DV

Sisältö 1. General Linear Model (GLM) 1. 1 Korrelaatio 2. Regressioanalyysi 2. 1 Regressioanalyysin

Sisältö 1. General Linear Model (GLM) 1. 1 Korrelaatio 2. Regressioanalyysi 2. 1 Regressioanalyysin historia 2. 2 Regressioanalyysin lajit 2. 3 Regressioanalyysin käyttötapoja 2. 4 Regressioanalyysin rajoituksia 2. 5 Regressioanalyysin vaiheet 3. Kahden muuttujan regressioanalyysi 4. Useamman muuttujan regressioanalyysi 4. 1 Hierarkkinen regressioanalyysi 4. 2 Askeltava regressioanalyysi 5. Kanoninen korrelaatio Lähteet

2. Regressioanalyysi X (IV) Y (DV) 1, jatkuva n, epäjatkuva n, jatkuva 1, dikotominen

2. Regressioanalyysi X (IV) Y (DV) 1, jatkuva n, epäjatkuva n, jatkuva 1, dikotominen n, jatkuva n, epäjatkuva n, latentti n, jatkuva n, epäjatkuva n, jatkuva (3. 2) Pearsonin tulomomenttikorrelaatiokerroin (r) (3. 3) Regressioanalyysi (Multiple RA) Varianssianalyysi (n-way ANOVA) Kahden ryhmän erotteluanalyysi (Two-group LDA) (3. 4) Monimuuttujaregressioanalyysi (Multivariate RA) Monimuuttujavarianssianalyysi (MANOVA) Erotteluanalyysi (LDA) Faktorianalyysi (EFA) Pääkomponenttianalyysi (PCA)

(Nokelainen, 2008. )

(Nokelainen, 2008. )

DV IV Kovariaatit Analyysi 1 jatkuva Bivariate r 1 jatkuva Ei Multiple R n

DV IV Kovariaatit Analyysi 1 jatkuva Bivariate r 1 jatkuva Ei Multiple R n jatkuvaa Joitakin Muuttujien välisten riippuvuuksien voimakkuus Seq. Multiple R n jatkuvaa Canonical R 1 diskr. n jatkuvaa tai diskr. Multilevel modeling Ei yhtään n diskr. n-way Freq. Anal.

2. Regressioanalyysi (3. 3) IV 1 IV 2 r IV 3 IV 4 DV

2. Regressioanalyysi (3. 3) IV 1 IV 2 r IV 3 IV 4 DV

2. Regressioanalyysi ”…regression analysis is a method of analyzing the variability of a dependent

2. Regressioanalyysi ”…regression analysis is a method of analyzing the variability of a dependent variable by resorting to information available on one or more independent variables. ” (Pedhazur, 1982, 5)

2. Regressioanalyysi • Tarkastelee muuttujien välistä lineaarista yhteyttä, ts. ilmoittaa korrelaatiokertoimen tavoin kahden muuttujan

2. Regressioanalyysi • Tarkastelee muuttujien välistä lineaarista yhteyttä, ts. ilmoittaa korrelaatiokertoimen tavoin kahden muuttujan välisen vaikutussuhteen voimakkuuden (-1, …, 1). • Mahdollistaa lisäksi DV -muuttujan arvojen ennustamisen IV –muuttujan (tai muuttujien) arvojen perusteella.

Sisältö 1. General Linear Model (GLM) 1. 1 Korrelaatio 2. Regressioanalyysi 2. 1 Regressioanalyysin

Sisältö 1. General Linear Model (GLM) 1. 1 Korrelaatio 2. Regressioanalyysi 2. 1 Regressioanalyysin historia 2. 2 Regressioanalyysin lajit 2. 3 Regressioanalyysin käyttötapoja 2. 4 Regressioanalyysin rajoituksia 2. 5 Regressioanalyysin vaiheet 3. Kahden muuttujan regressioanalyysi 4. Useamman muuttujan regressioanalyysi 4. 1 Hierarkkinen regressioanalyysi 4. 2 Askeltava regressioanalyysi 5. Kanoninen korrelaatio Lähteet

2. 1 Regressioanalyysin historia • Perustuu Galtonin (1885) havaintoihin: – Pitkien isien pojista ei

2. 1 Regressioanalyysin historia • Perustuu Galtonin (1885) havaintoihin: – Pitkien isien pojista ei keskimäärin tullutkaan yhtä pitkiä kuin isistään, lyhyiden isien pojista tulikin keskimäärin pidempiä kuin isistään. – Poikien keskipituus lähestyi keskipituutta. Sir Francis Galton 1822 -1911

2. 1 Regressioanalyysin historia • Regressioanalyysi on yksi kasvatustieteiden käytetyimmistä menetelmistä, mutta usein unohdetaan

2. 1 Regressioanalyysin historia • Regressioanalyysi on yksi kasvatustieteiden käytetyimmistä menetelmistä, mutta usein unohdetaan että sen tulisi perustua vahvalle teoreettiselle pohjalle.

Sisältö 1. General Linear Model (GLM) 1. 1 Korrelaatio 2. Regressioanalyysi 2. 1 Regressioanalyysin

Sisältö 1. General Linear Model (GLM) 1. 1 Korrelaatio 2. Regressioanalyysi 2. 1 Regressioanalyysin historia 2. 2 Regressioanalyysin lajit 2. 3 Regressioanalyysin käyttötapoja 2. 4 Regressioanalyysin rajoituksia 2. 5 Regressioanalyysin vaiheet 3. Kahden muuttujan regressioanalyysi 4. Useamman muuttujan regressioanalyysi 4. 1 Hierarkkinen regressioanalyysi 4. 2 Askeltava regressioanalyysi 5. Kanoninen korrelaatio Lähteet

2. 2 Regressioanalyysin lajit • Yhden tai useamman ennustemuuttujan (IV) regressioanalyysi • Monimuuttujaregressioanalyysi (Multivariate

2. 2 Regressioanalyysin lajit • Yhden tai useamman ennustemuuttujan (IV) regressioanalyysi • Monimuuttujaregressioanalyysi (Multivariate regression analysis) (ks. lisää esim. Nummenmaa et al. , 1997, 307326; Kerlinger, 1986, 527 -561). • Hierarkkinen regressioanalyysi – Hierarchical/sequential multiple regression (Pedhazur, 1982; Tabachnick & Fidell, 2007)

2. 2 Regressioanalyysin lajit • Askeltava regressioanalyysi – Stepwise multiple regression (Pedhazur, 1982; Tabachnick

2. 2 Regressioanalyysin lajit • Askeltava regressioanalyysi – Stepwise multiple regression (Pedhazur, 1982; Tabachnick & Fidell, 2007) • Kanoninen korrelaatio – Canonical correlation (Kerlinger, 1986, 561 -568) • Logistinen regressioanalyysi – Logistic regression analysis – Poistaa lineaarisen regressioanalyysin vaatimuksen selitettävän muuttujan jatkuvuudesta, ks. esimerkki dokumentista ” 6. 1 Logistinen regressio” (FSD) – Multiway frequency analysis (Nummenmaa et al. , 1997, 127 -147)

A Standardi R B Hierarkkinen R C Askeltava R A B C IV 1

A Standardi R B Hierarkkinen R C Askeltava R A B C IV 1 IV 2 IV 3

Sisältö 1. General Linear Model (GLM) 1. 1 Korrelaatio 2. Regressioanalyysi 2. 1 Regressioanalyysin

Sisältö 1. General Linear Model (GLM) 1. 1 Korrelaatio 2. Regressioanalyysi 2. 1 Regressioanalyysin historia 2. 2 Regressioanalyysin lajit 2. 3 Regressioanalyysin käyttötapoja 2. 4 Regressioanalyysin rajoituksia 2. 5 Regressioanalyysin vaiheet 3. Kahden muuttujan regressioanalyysi 4. Useamman muuttujan regressioanalyysi 4. 1 Hierarkkinen regressioanalyysi 4. 2 Askeltava regressioanalyysi 5. Kanoninen korrelaatio Lähteet

2. 3 Regressioanalyysin käyttötapoja • Käyttötapoja: – Selittävien (IV) muuttujien etsiminen • Opiskelumenestyksen selittäminen

2. 3 Regressioanalyysin käyttötapoja • Käyttötapoja: – Selittävien (IV) muuttujien etsiminen • Opiskelumenestyksen selittäminen motivaation ja oppimisstrategioiden avulla. – Selittävien (IV) muuttujien selitysosuuden tutkiminen • Kuinka suuri vaikutus varhaisessa vaiheessa tapahtuneella erityisluokalle siirrolla on erityisoppilaan koulumenestykseen. – Selittävien (IV) muuttujien keskinäisen selitysosuuden vertailu eli mitkä muuttujat ovat toisia parempia tietyn Ilmiön selittäjinä. – Selitettävän (DV) muuttujan ennustaminen.

Sisältö 1. General Linear Model (GLM) 1. 1 Korrelaatio 2. Regressioanalyysi 2. 1 Regressioanalyysin

Sisältö 1. General Linear Model (GLM) 1. 1 Korrelaatio 2. Regressioanalyysi 2. 1 Regressioanalyysin historia 2. 2 Regressioanalyysin lajit 2. 3 Regressioanalyysin käyttötapoja 2. 4 Regressioanalyysin rajoituksia 2. 5 Regressioanalyysin vaiheet 3. Kahden muuttujan regressioanalyysi 4. Useamman muuttujan regressioanalyysi 4. 1 Hierarkkinen regressioanalyysi 4. 2 Askeltava regressioanalyysi 5. Kanoninen korrelaatio Lähteet

2. 4 Regressioanalyysin rajoituksia • Yleisiä rajoituksia – Regressioanalyysin avulla löydetyt vaikutussuhteet eivät välttämättä

2. 4 Regressioanalyysin rajoituksia • Yleisiä rajoituksia – Regressioanalyysin avulla löydetyt vaikutussuhteet eivät välttämättä ole kausaalisia. • Kausaalisuuden määrittely on looginen ja koeasetelmallinen ongelma (Pearl, 2000). – Analyysiin mukaan otettujen DV ja IV muuttujien valinnan tulee olla teoreettisesti, loogisesti tms. perusteltavissa.

2. 4 Regressioanalyysin rajoituksia • Teknisiä rajoituksia – Otoskoko (esim. viisi IV muuttujaa) •

2. 4 Regressioanalyysin rajoituksia • Teknisiä rajoituksia – Otoskoko (esim. viisi IV muuttujaa) • Greenin (1991) mukaan – N > 50+8 m (useita IV muuttujia), esim. N = 50+8*5 = 90 – N > 104 + m (yksi IV), esim. N = 104 + 5 = 109 • Stevensin (1996) mukaan – N = 15 m (kaikissa tapauksissa), esim. 15*5 = 75 – IV muuttujien väliset suhteet • Multikollineaarisuutta (korkeita r = +/-. 9 korrelaatioita) ei saa esiintyä. • Singulaarisuutta (muuttuja on toisen/toisten kombinaatio, esim. kolmen testin yksittäiset pistemäärät ja niiden summamuuttuja) ei saa esiintyä.

2. 4 Regressioanalyysin rajoituksia • Teknisiä rajoituksia – Poikkeavat arvot (outlier) tulisi poistaa, korvata

2. 4 Regressioanalyysin rajoituksia • Teknisiä rajoituksia – Poikkeavat arvot (outlier) tulisi poistaa, korvata uudella arvolla (rescore) tai muuntaa (transform). • X Y –muuttujien kuvaajien tarkastelu! – Regressioanalyysiohjelmissa (SAS, BMDP, SPSS) poikkeavien arvojen vaikutusta tutkitaan seuraavilla mittaluvuilla: • Leverage (l) arvioi poikkeavia arvoja IV muuttujien joukossa – Korkeat arvot ovat “kaukana” toisista • Discrepancy (d) arvioi sitä kuinka tapaus on linjassa muiden kanssa. • Influency (l) = l * d.

2. 4 Regressioanalyysin rajoituksia Korkea l Matala d Kohtuullinen i Korkea l Korkea d

2. 4 Regressioanalyysin rajoituksia Korkea l Matala d Kohtuullinen i Korkea l Korkea d Korkea i Matala l Korkea d Kohtuullinen i (Tabachnik & Fidell, 1996, 135. )

2. 4 Regressioanalyysin rajoituksia • Residuaalien (havaitun ja ennustetun DV arvon välinen erotus, regressioyhtälön

2. 4 Regressioanalyysin rajoituksia • Residuaalien (havaitun ja ennustetun DV arvon välinen erotus, regressioyhtälön virhetermi tai jäännöstermi, ) – Normaalisuus • Residuaalien (ennustevirheiden) tulisi olla normaalisti jakautuneita – Lineaarisuus • Residuaalien ja ennustettujen DV arvojen välillä tulisi olla lineaarinen suhde – Homoskedastisuus • DV muuttujien residuaalien varianssien tulisi olla yhtä suuria. – Riippumattomuus • Residuaalien tulisi olla toisistaan riippumattomia.

2. 4 Regressioanalyysin rajoituksia A – A) Normaalisuus ei toteudu 0 – B) Lineaarisuus

2. 4 Regressioanalyysin rajoituksia A – A) Normaalisuus ei toteudu 0 – B) Lineaarisuus ei toteudu 0 B 0 – C) Homoskedastisuus ei toteudu C 0

Sisältö 1. General Linear Model (GLM) 1. 1 Korrelaatio 2. Regressioanalyysi 2. 1 Regressioanalyysin

Sisältö 1. General Linear Model (GLM) 1. 1 Korrelaatio 2. Regressioanalyysi 2. 1 Regressioanalyysin historia 2. 2 Regressioanalyysin lajit 2. 3 Regressioanalyysin käyttötapoja 2. 4 Regressioanalyysin rajoituksia 2. 5 Regressioanalyysin vaiheet 3. Kahden muuttujan regressioanalyysi 4. Useamman muuttujan regressioanalyysi 4. 1 Hierarkkinen regressioanalyysi 4. 2 Askeltava regressioanalyysi 5. Kanoninen korrelaatio Lähteet

2. 5 Regressioanalyysin vaiheet • Regressioanalyysin vaiheet: – Muuttujien valinta (DV, IV) • Paitsi

2. 5 Regressioanalyysin vaiheet • Regressioanalyysin vaiheet: – Muuttujien valinta (DV, IV) • Paitsi jos käytetään “Enter” -menetelmää – Analyysi – Mallille tehtävät diagnostiset tarkastelut

Sisältö 1. General Linear Model (GLM) 1. 1 Korrelaatio 2. Regressioanalyysi 2. 1 Regressioanalyysin

Sisältö 1. General Linear Model (GLM) 1. 1 Korrelaatio 2. Regressioanalyysi 2. 1 Regressioanalyysin historia 2. 2 Regressioanalyysin lajit 2. 3 Regressioanalyysin käyttötapoja 2. 4 Regressioanalyysin rajoituksia 2. 5 Regressioanalyysin vaiheet 3. Kahden muuttujan regressioanalyysi 4. Useamman muuttujan regressioanalyysi 4. 1 Hierarkkinen regressioanalyysi 4. 2 Askeltava regressioanalyysi 5. Kanoninen korrelaatio Lähteet

DV IV Kovariaatit Analyysi 1 jatkuva Bivariate r 1 jatkuva Ei Multiple R n

DV IV Kovariaatit Analyysi 1 jatkuva Bivariate r 1 jatkuva Ei Multiple R n jatkuvaa Joitakin Muuttujien välisten riippuvuuksien voimakkuus Seq. Multiple R n jatkuvaa Canonical R 1 diskr. n jatkuvaa tai diskr. Multilevel modeling Ei yhtään n diskr. n-way Freq. Anal.

3. Kahden muuttujan regressioanalyysi • Kahden muuttujan regressioanalyysi – Määritellään kahden, riippuvan (DV) ja

3. Kahden muuttujan regressioanalyysi • Kahden muuttujan regressioanalyysi – Määritellään kahden, riippuvan (DV) ja riippumattoman (IV) muuttujan välinen yhtälö. • Esim. ennustetaan akateemista tuottavuutta (DV) kognitiivisten oppimistuotosten, esim. GPA, avulla (IV). – Jokaiselle yhtälössä olevalle riippumattomalle muuttujalle annetaan painokerroin ( ), jotka yhdessä muodostavat ns. Beta –vektorin (B). – Selitettävän muuttujan arvo saadaan kun selittävät muuttujat lasketaan yhteen painokertoimilla painotettuna ja summaan lisätään vakio. • Mallissa on aina mukana virhettä, jota kuvataan jäännöstermin, residuaalin, ( ) avulla.

3. Kahden muuttujan regressioanalyysi • Yksinkertaisessa kahden muuttujan välisessä regressiossa määritetään lineaarinen yhtälö joka

3. Kahden muuttujan regressioanalyysi • Yksinkertaisessa kahden muuttujan välisessä regressiossa määritetään lineaarinen yhtälö joka kuvaa riippuvan (Y) ja riippumattoman (X) muuttujan välistä suhdetta: y = 0 + x + y 0 x = riippuva muuttuja = leikkauskohta (intercept, constant) = regressioparametri (slope), kuvaa Y –muuttujan ennustettua arvon muutosta kun X –muuttujan arvo kasvaa yhden yksikön = riippumaton muuttuja = jäännöstermi

3. Kahden muuttujan regressioanalyysi y yi yj, ei yi = 0 + xi +

3. Kahden muuttujan regressioanalyysi y yi yj, ei yi = 0 + xi + x

3. Kahden muuttujan regressioanalyysi • Mallin (regressioyhtälö) ”hyvyyden” mittana käytetään selitettävän (DV, Y) ja

3. Kahden muuttujan regressioanalyysi • Mallin (regressioyhtälö) ”hyvyyden” mittana käytetään selitettävän (DV, Y) ja selittävien (IV, X) muuttujien välistä korrelaatiota R. • H 0 = DV ja IV muuttujien välillä ei ole korrelaatiota (yksikin regressiokerroin saa arvon 0). – Suurella otoskoolla nollahypoteesi tulee siis lähes varmasti hylätyksi.

3. Kahden muuttujan regressioanalyysi

3. Kahden muuttujan regressioanalyysi

3. Kahden muuttujan regressioanalyysi • R 2 on mallin selitysaste – Kuinka monta prosenttia

3. Kahden muuttujan regressioanalyysi • R 2 on mallin selitysaste – Kuinka monta prosenttia malli (siis ennustemuuttuja eli IV) pystyy selittämään riippuvan muuttujan (DV) vaihtelusta. – SPSS laskee kaksi selitysastetta, joista tieteellisissä raporteissa käytetään konservatiivisempaa (”Adjusted R 2”). – Selitysasteen (R 2) perusteella voidaan tehdä päätelmiä efektikoosta:

3. Kahden muuttujan regressioanalyysi

3. Kahden muuttujan regressioanalyysi

3. Kahden muuttujan regressioanalyysi

3. Kahden muuttujan regressioanalyysi

Sisältö 1. General Linear Model (GLM) 1. 1 Korrelaatio 2. Regressioanalyysi 2. 1 Regressioanalyysin

Sisältö 1. General Linear Model (GLM) 1. 1 Korrelaatio 2. Regressioanalyysi 2. 1 Regressioanalyysin historia 2. 2 Regressioanalyysin lajit 2. 3 Regressioanalyysin käyttötapoja 2. 4 Regressioanalyysin rajoituksia 2. 5 Regressioanalyysin vaiheet 3. Kahden muuttujan regressioanalyysi 4. Useamman muuttujan regressioanalyysi 4. 1 Hierarkkinen regressioanalyysi 4. 2 Askeltava regressioanalyysi 5. Kanoninen korrelaatio Lähteet

DV IV Kovariaatit Analyysi 1 jatkuva Bivariate r 1 jatkuva Ei Multiple R n

DV IV Kovariaatit Analyysi 1 jatkuva Bivariate r 1 jatkuva Ei Multiple R n jatkuvaa Joitakin Muuttujien välisten riippuvuuksien voimakkuus Seq. Multiple R n jatkuvaa Canonical R 1 diskr. n jatkuvaa tai diskr. Multilevel modeling Ei yhtään n diskr. n-way Freq. Anal.

4. Useamman muuttujan regressioanalyysi • Määritellään yhden riippuvan (DV) ja usean riippumattoman (IV) muuttujan

4. Useamman muuttujan regressioanalyysi • Määritellään yhden riippuvan (DV) ja usean riippumattoman (IV) muuttujan välisiä yhtälöitä. – Esim. ennustetaan työssä koettua stressiä (DV) esimiehen johtamisominaisuuksien (IV 1) ja ryhmän toimintakyvyn perusteella (IV 2). • Kaikki riippumattomat muuttujat analysoidaan (“Enter” –menetelmä), niitä ei valita tai aseteta järjestykseen.

4. Useamman muuttujan regressioanalyysi • Usean muuttujan lineaarisessa regressiossa määritetään lineaarinen yhtälö joka kuvaa

4. Useamman muuttujan regressioanalyysi • Usean muuttujan lineaarisessa regressiossa määritetään lineaarinen yhtälö joka kuvaa yhden riippuvan ja usean riippumattoman muuttujan välistä suhdetta: y = 0 + 1 x 1 + 2 x 2 +. . . + nxn + y 0 1…n x 1…n = = = riippuva muuttuja vakio (constant) regressioparametreja riippumattomia muuttujia virhetermi

4. Useamman muuttujan regressioanalyysi yi = 0 + 1 ix 1 i + 2

4. Useamman muuttujan regressioanalyysi yi = 0 + 1 ix 1 i + 2 ix 2 i +. . . + nixni + y yi yj, ei x

4. Useamman muuttujan regressioanalyysi Knowledge Value Performance Satisfaction (Warren, White, & Fuller, 1974. )

4. Useamman muuttujan regressioanalyysi Knowledge Value Performance Satisfaction (Warren, White, & Fuller, 1974. )

4. Useamman muuttujan regressioanalyysi Yläasteen opintomenestys Ammatillisten opintojen menestys Kontrolliuskomukset Näyttötilanteiden jännittäminen World. Skills

4. Useamman muuttujan regressioanalyysi Yläasteen opintomenestys Ammatillisten opintojen menestys Kontrolliuskomukset Näyttötilanteiden jännittäminen World. Skills kilpailumenestys Ulkoinen tavoiteorientaatio Tekemällä oppiminen N=64

4. Useamman muuttujan regressioanalyysi • Regressioanalyysin suorittaminen PASW/SPSS -ohjelmassa – Analyze – Regression -

4. Useamman muuttujan regressioanalyysi • Regressioanalyysin suorittaminen PASW/SPSS -ohjelmassa – Analyze – Regression - Linear • Dependent: kilpailumenestys (alle 23 -vuotiaiden menestyminen WSC –kilpailuissa, luokiteltu 3 luokkaan: 1 = heikko, 2 = keskitasoinen, 3 = paras). • Independent(s): str_3 (Learning by Doing, asteikko 1 = täysin eri mieltä. . 5 = täysin samaa mieltä), mot_2 (Extrinsic Goal Orientation), mot_4 (Control Beliefs), mot_6 (Test Anxiety), ammatopmenestys (menestyminen ammatillisissa opinnoissa), ya_ka (yläasteen päästötodistuksen keskiarvo). • Statistics: Estimates, Confidence intervals (95%), Model fit, Collinearity diagnostics, Durbin. Watson. • Plots: Y: *ZRESID (standardoidut residuaalit) ja X: *ZPRED (standardoidut ennustetut arvot)

4. Useamman muuttujan regressioanalyysi • Ensin tarkastellaan tulosteen lopusta ”Charts” –osasta täyttävätkö residuaalit niille

4. Useamman muuttujan regressioanalyysi • Ensin tarkastellaan tulosteen lopusta ”Charts” –osasta täyttävätkö residuaalit niille asetetut vaatimukset normaaliuden ja lineaarisuuden osalta: Residuaalit ovat jakautuneet normaalisti ja lineaarisesti.

4. Useamman muuttujan regressioanalyysi • Seuraavaksi tarkastellaan Model Summary –taulukon Durbin-Watson –sarakkeesta täyttävätkö residuaalit

4. Useamman muuttujan regressioanalyysi • Seuraavaksi tarkastellaan Model Summary –taulukon Durbin-Watson –sarakkeesta täyttävätkö residuaalit niille asetetut vaatimukset myös riippumattomuuden osalta: Durbin-Watson saa arvoja väliltä 0 – 4, arvon 2 osoittaessa korreloimattomia residuaaleja (D-W < 2 = positiivinen korrelaatio, D-W > 2 = negatiivinen korrelaatio). Hyväksyttävät arvot vaihtelevat 1. 0 – 3. 0 välillä (2. 0 = optimi). Tässä aineistossa residuaalien voidaan todeta olevan normaaleja, lineaarisia ja riippumattomia, jolloin voidaan edetä varsinaisen regressioanalyysin tulosten tulkintaan.

4. Useamman muuttujan regressioanalyysi Kuvaa mallin yleistettävyyttä populaatioon, ts. pitäisi olla lähellä R 2

4. Useamman muuttujan regressioanalyysi Kuvaa mallin yleistettävyyttä populaatioon, ts. pitäisi olla lähellä R 2 – arvoa. Jos malli olisi laskettu populaatiosta, eikä tästä 64 nuoren otoksesta, se selittäisi noin 11% vähemmän kilpailumenestyksestä (. 442 -. 331=. 111). Malli selittää tilastollisesti merkitsevästi kilpailumenestystä.

4. Useamman muuttujan regressioanalyysi Luottamusväli joko osoittaa (tai sitten ei) otoksesta lasketun painokertoimen (B)

4. Useamman muuttujan regressioanalyysi Luottamusväli joko osoittaa (tai sitten ei) otoksesta lasketun painokertoimen (B) kuvaavan populaation mielipidettä. Esim. B=. 644 kuvaa ”tekemällä oppimisen” positiivista yhteyttä kilpailumenestykseen (p=. 021), ja samaa viestiä tarjoaa luottamusvälikin (B: n arvo vaihtelee populaatiossa 95% todennäköisyydellä välillä. 104 - 1. 185). Heikon selittäjän, esim. ”ulkoinen tavoiteorientaatio” (B=. 242 , p=. 368), osalta luottamusväli ilmaisee että populaatiossa on todennäköisesti myös henkilöitä joilla ulkoisen tavoiteorientaation vaikutus kilpailumenestykseen on negatiivinen (-. 299). Multikollineaarisuustarkastelu suoritetaan vertaamalla Tolerance sarakkeen arvoja lukuun. 67 (1 -R 2=1 -. 33). Suuret korrelaatiot eivät ole ongelma, koska arvot vaihtelevat välillä. 730 -. 893 eli ovat arvoa. 67 suurempia. Huom. Tolerance = 1 / VIF. Standardoimattomat kertoimet kuvaavat IV –muuttujan (prediktori) yhden yksikön kasvun vaikutusta DV – muuttujassa. Esim. kun ammatillinen opintomenestys kasvaa yhdellä arvosanalla, kilpailumenestyksen odotetaan paranevan. 66 sijoituksen verran.

4. Useamman muuttujan regressioanalyysi Yläasteen opintomenestys Ammatillisten opintojen menestys -. 141(. 139) R 2=33%

4. Useamman muuttujan regressioanalyysi Yläasteen opintomenestys Ammatillisten opintojen menestys -. 141(. 139) R 2=33% . 644(. 417) Kontrolliuskomukset. 247(. 166) Näyttötilanteiden jännittäminen Ulkoinen tavoiteorientaatio Tekemällä oppiminen -. 426(-. 362) . 242(. 138) . 644(. 341) World. Skills kilpailumenestys

4. Useamman muuttujan regressioanalyysi Ammattitaidon maailmanmestaruuskilpailuissa menestymistä selittäviä tekijöitä tarkasteltiin regressioanalyysilla kuuden ennustemuuttujan avulla.

4. Useamman muuttujan regressioanalyysi Ammattitaidon maailmanmestaruuskilpailuissa menestymistä selittäviä tekijöitä tarkasteltiin regressioanalyysilla kuuden ennustemuuttujan avulla. Parhaat ennustajat olivat aiempi ammattiopintomenestys ( =. 417, p=. 001), tekemällä oppiminen ( =. 361, p=. 021) ja näyttötilanteiden jännittäminen ( =-. 362, p=. 018). Malli sopi aineistoon (p=. 005) ja tuloksen efektikoko oli Cohenin (1988) mukaan suuri, =. 331.

DV IV Kovariaatit Analyysi 1 jatkuva Bivariate r 1 jatkuva Ei Multiple R n

DV IV Kovariaatit Analyysi 1 jatkuva Bivariate r 1 jatkuva Ei Multiple R n jatkuvaa Joitakin Muuttujien välisten riippuvuuksien voimakkuus Seq. Multiple R n jatkuvaa Canonical R 1 diskr. n jatkuvaa tai diskr. Multilevel modeling Ei yhtään n diskr. n-way Freq. Anal.

Sisältö 1. General Linear Model (GLM) 1. 1 Korrelaatio 2. Regressioanalyysi 2. 1 Regressioanalyysin

Sisältö 1. General Linear Model (GLM) 1. 1 Korrelaatio 2. Regressioanalyysi 2. 1 Regressioanalyysin historia 2. 2 Regressioanalyysin lajit 2. 3 Regressioanalyysin käyttötapoja 2. 4 Regressioanalyysin rajoituksia 2. 5 Regressioanalyysin vaiheet 3. Kahden muuttujan regressioanalyysi 4. Useamman muuttujan regressioanalyysi 4. 1 Hierarkkinen regressioanalyysi 4. 2 Askeltava regressioanalyysi 5. Kanoninen korrelaatio Lähteet

4. 1 Hierarkkinen regressioanalyysi • Hierarchical/sequential multiple regression (Pedhazur, 1982; Tabachnick & Fidell, 2007)

4. 1 Hierarkkinen regressioanalyysi • Hierarchical/sequential multiple regression (Pedhazur, 1982; Tabachnick & Fidell, 2007) • Rajoitukset ovat samat kuin perinteisessä regressioanalyysissa. • Analyysin suorittamiseen tarvitaan yksi jatkuva DV ja kaksi tai useampia jatkuva tai ei-jatkuva IV muuttuja. • Analyysin avulla voi selvittää kunkin IV muuttujan suhteellisen selitysosuuden DV muuttujan varianssista.

4. 1 Hierarkkinen regressioanalyysi • Riippumattomat muuttujat sijoitetaan regressioyhtälöön tutkijan määrittämässä järjestyksessä. • Yleensä

4. 1 Hierarkkinen regressioanalyysi • Riippumattomat muuttujat sijoitetaan regressioyhtälöön tutkijan määrittämässä järjestyksessä. • Yleensä sijoittelun taustalla on teoreettinen, kausaalinen tms. oletus. – Tutkittaessa koettua stressiä (DV) sisäisten prosessien (IV) ja ulkoisten tapahtumien hallinnan (IV) toimiessa selittävinä muuttujina, on varmasti hyvä ottaa malliin mukaan työkokemus (IV) ja minäkäsitys (IV).

4. 1 Hierarkkinen regressioanalyysi • Pääselittäjien ”voimaa” voi myös tutkia sijoittamalla yhtälöön ensin vähempiarvoisia

4. 1 Hierarkkinen regressioanalyysi • Pääselittäjien ”voimaa” voi myös tutkia sijoittamalla yhtälöön ensin vähempiarvoisia selittäjiä (=kontrolloimalla niitä). – Henkilön lukunopeutta (DV) voi tutkia intensiivikurssin sisällön (IV) ja keston (IV) kannalta sijoittamalla yksilölliset erot lukunopeudessa (IV) yhtälöön ensimmäiseksi.

Sisältö 1. General Linear Model (GLM) 1. 1 Korrelaatio 2. Regressioanalyysi 2. 1 Regressioanalyysin

Sisältö 1. General Linear Model (GLM) 1. 1 Korrelaatio 2. Regressioanalyysi 2. 1 Regressioanalyysin historia 2. 2 Regressioanalyysin lajit 2. 3 Regressioanalyysin käyttötapoja 2. 4 Regressioanalyysin rajoituksia 2. 5 Regressioanalyysin vaiheet 3. Kahden muuttujan regressioanalyysi 4. Useamman muuttujan regressioanalyysi 4. 1 Hierarkkinen regressioanalyysi 4. 2 Askeltava regressioanalyysi 5. Kanoninen korrelaatio Lähteet

4. 2 Askeltava regressioanalyysi • Stepwise multiple regression, statistical regression (Pedhazur, 1982; Tabachnick &

4. 2 Askeltava regressioanalyysi • Stepwise multiple regression, statistical regression (Pedhazur, 1982; Tabachnick & Fidell, 2007) • Menetelmää kutsutaan ”tilastolliseksi” regressioanalyysiksi, koska selittävien muuttujien valinta perustuu puhtaasti tilastollisiin kriteereihin (esim. korrelaation voimakkuus DV muuttujan kanssa). • Muuttujien valinta tapahtuu yleisimmin kolmen menetelmän avulla: (1) forward selection, (2) backward selection, ja (3) stepwise selection.

4. 2 Askeltava regressioanalyysi • Forward selection (lisäävä menettely) – Tyhjään yhtälöön lisätään tilastollisen

4. 2 Askeltava regressioanalyysi • Forward selection (lisäävä menettely) – Tyhjään yhtälöön lisätään tilastollisen kriteerin täyttävä IV yksi kerrallaan. Kukin lisätty IV jää yhtälöön. • Backward selection (poistava menettely) – Kaikki IV muuttujat ovat alussa yhtälössä. Tilastollisen kriteerin ulkopuolelle jäävät IV: t poistetaan yhtälöstä yksi kerrallaan. • Stepwise selection (askeltava menettely) – Yhdistelmä edellisistä. Yhtälö on aluksi tyhjä, ja siihen lisätään IV muuttujia yksi kerrallaan. Yhtälöstä voidaan myös poistaa IV muuttujia kun uusia, paremmin selittäviä tulee tilalle.

4. 2 Askeltava regressioanalyysi • Perinteisessä regressioanalyysissa (A) voimakkaasti selitettävän muuttujan (DV) kanssa korreloiva

4. 2 Askeltava regressioanalyysi • Perinteisessä regressioanalyysissa (A) voimakkaasti selitettävän muuttujan (DV) kanssa korreloiva selittävä muuttuja (IV 1) voi jäädä statistin rooliin. A

4. 2 Askeltava regressioanalyysi • Askeltavassa mallinnuksessa (C) selitettävät muuttujat saavat ”krediitit” riippuvan muuttujan

4. 2 Askeltava regressioanalyysi • Askeltavassa mallinnuksessa (C) selitettävät muuttujat saavat ”krediitit” riippuvan muuttujan selittämisestä korrelaation voimakkuuden perusteella. C

4. 2 Askeltava regressioanalyysi • Ylisovitus (overfitting) on askeltavien menetelmien riski, erityisesti tehtäessä tulkintoja

4. 2 Askeltava regressioanalyysi • Ylisovitus (overfitting) on askeltavien menetelmien riski, erityisesti tehtäessä tulkintoja yhden näytteen perusteella. • Ristiinvalidointi (cross validation) esim. toisen näytteen avulla (tai suuren datatiedoston puolitus) on suositeltavaa käytettäessä tilastollisia regressiomenetelmiä. – Ajetaan sama regressioanalyysi kaksi kertaa eri aineistoilla, esim. jaetaan yksi riittävän suuri aineisto kahteen satunnaisesti muodostettuun aliotokseen.

Sisältö 1. General Linear Model (GLM) 1. 1 Korrelaatio 2. Regressioanalyysi 2. 1 Regressioanalyysin

Sisältö 1. General Linear Model (GLM) 1. 1 Korrelaatio 2. Regressioanalyysi 2. 1 Regressioanalyysin historia 2. 2 Regressioanalyysin lajit 2. 3 Regressioanalyysin käyttötapoja 2. 4 Regressioanalyysin rajoituksia 2. 5 Regressioanalyysin vaiheet 3. Kahden muuttujan regressioanalyysi 4. Useamman muuttujan regressioanalyysi 4. 1 Hierarkkinen regressioanalyysi 4. 2 Askeltava regressioanalyysi 5. Kanoninen korrelaatio Lähteet

DV IV Kovariaatit Analyysi 1 jatkuva Bivariate r 1 jatkuva Ei Multiple R n

DV IV Kovariaatit Analyysi 1 jatkuva Bivariate r 1 jatkuva Ei Multiple R n jatkuvaa Joitakin Muuttujien välisten riippuvuuksien voimakkuus Seq. Multiple R n jatkuvaa Canonical R 1 diskr. n jatkuvaa tai diskr. Multilevel modeling Ei yhtään n diskr. n-way Freq. Anal.

5. Kanoninen korrelaatio • Canonical correlation – (Kerlinger, 1986, 561 -568) • Yleismenetelmä, jonka

5. Kanoninen korrelaatio • Canonical correlation – (Kerlinger, 1986, 561 -568) • Yleismenetelmä, jonka erikoistapauksia ovat mm. regressioanalyysi, erotteluanalyysi ja MANOVA. • Käytetään tutkimuskirjallisuudessa enemmän kuvailuun kuin hypoteesintestaukseen. – ”Tulokset ovat usein matemaattisesti elegantteja, mutta vaikeasti tulkittavissa” (Tabachnik & Fidell, 2007, 570).

5. Kanoninen korrelaatio • Menetelmän avulla tutkitaan kahden muuttujaryhmän välisiä vaikutussuhteita. – Toinen ryhmä

5. Kanoninen korrelaatio • Menetelmän avulla tutkitaan kahden muuttujaryhmän välisiä vaikutussuhteita. – Toinen ryhmä voi koostua DV (esim. ympäristötietoisuus) ja toinen IV (esim. sukupuoli, koulutustaso, poliittinen kanta) muuttujista. – Tutkijan kannalta muuttujien valinta ja erityisesti tulosten mielekäs tulkinta on haasteellista.

Lähteet Berk, R. A. (2004). Regression Analysis: A Constructive Critique. Thousand Oaks: Sage. Cohen,

Lähteet Berk, R. A. (2004). Regression Analysis: A Constructive Critique. Thousand Oaks: Sage. Cohen, J. (1988). Statistical power analysis for the behavioral sciences. Hillsdale, NJ: Erlbaum. Cronbach, L. J. (1951). Coefficient alpha and the internal structure of tests. Psychometrika, 16, 297 -334. Galton, F. (1885). Regression towards mediocrity in hereditary stature. Journal of the Anthropological Institute, 15, 246 -63. Green, S. B. (1991). How many subjects does it take to do a regression analysis? Multivariate Behavioral Research, 26, 499 -510. Gulliksen, H. (1950). Theory of Mental Tests. New York: John Wiley & Sons.

Lähteet Howell, D. (1997). Statistical Methods for Psychology. Belmont, CA: Wadsworth Publishing Company. Kerlinger,

Lähteet Howell, D. (1997). Statistical Methods for Psychology. Belmont, CA: Wadsworth Publishing Company. Kerlinger, F. (1986). Foundations of Behavioral Research. Third Edition. New York: CBS College Publishing. Kuder, G. F. , & Richardson, M. W. (1937). The theory of the estimation of test reliability. Psychometrika, 2, 151 -160. Metsämuuronen, J. (2003). Tutkimuksen tekemisen perusteet ihmistieteissä. Helsinki: International Methelp Ky. Nummenmaa, L. (2009). Käyttäytymistieteiden tilastolliset menetelmät. Ensimmäinen painos, uudistettu laitos. Helsinki: Tammi. Nummenmaa, T. , Konttinen, R. , Kuusinen, J. , & Leskinen, E. (1997). Tutkimusaineiston analyysi. Porvoo: WSOY.

Lähteet Pierce, C. A. , Block, R. , & Aguinis, H. (2004). Cautionary note

Lähteet Pierce, C. A. , Block, R. , & Aguinis, H. (2004). Cautionary note on reporting Etasquared values from multifactor ANOVA designs. Educational and Psychological Measurement, 64(6), 916 -924. Pearl, J. (2000). Causality. New York: Cambridge University Press. Pedhazur, E. (1982). Multiple Regression Analysis in Behavioral Research. New York: Holt, Rinehart and Winston. Stevens, J. (1996). Applied Multivariate Statistics for the Social Sciences. Third edition. Mahwah, NJ: Lawrence Erlbaum. Tabachnick, B. G. , & Fidell, L. S. (1996). Using Multivariate Statistics. Third Edition. New York: Harper Collins.

Lähteet Tabachnick, B. G. , & Fidell, L. S. (2007). Using Multivariate Statistics. Fifth

Lähteet Tabachnick, B. G. , & Fidell, L. S. (2007). Using Multivariate Statistics. Fifth Edition. Boston: Pearson. Warren, R. D. , White, J. K. , & Fuller, W. A. (1974). An errors-in-variables analysis of managerial role performance. Journal of American Statistical Association, 69, 886 -893. Vehkalahti, K. (2007). Kyselytutkimuksen mittarit ja menetelmät. http: //www. helsinki. fi/%7 ekvehkala/mmm/moniste. pdf