UNIVERSITY OF TURKU REGRESSIOANALYYSI Katja Forssn UNIVERSITY OF

  • Slides: 17
Download presentation
UNIVERSITY OF TURKU REGRESSIOANALYYSI Katja Forssén

UNIVERSITY OF TURKU REGRESSIOANALYYSI Katja Forssén

UNIVERSITY OF TURKU REGRESSIOANALYYSIN PERIAATE • Analysoidaan selitettävän eli vastemuuttujan ja selittävien muuttujien välillä

UNIVERSITY OF TURKU REGRESSIOANALYYSIN PERIAATE • Analysoidaan selitettävän eli vastemuuttujan ja selittävien muuttujien välillä vallitsevaa suoraviivaista yhteyttä • Pyritään löytämään muuttujien välistä yhteyttä kuvaava yhtälö – selitettävän muuttujan arvojen ”ennustaminen” selittävien muuttujien arvojen perusteella • Riippuvuuden suunta ja voimakkuus

UNIVERSITY OF TURKU REGRESSIOANALYYSIN PERUSOLETUKSET • Muuttujat vähintään välimatka-asteikollisia • Riippuvuus on suoraviivainen (lineaarinen)

UNIVERSITY OF TURKU REGRESSIOANALYYSIN PERUSOLETUKSET • Muuttujat vähintään välimatka-asteikollisia • Riippuvuus on suoraviivainen (lineaarinen) • Selittävät muuttujat eivät saa korreloida keskenään voimakkaasti (multikollineaarisuus) • Vastemuuttujan hajonta on selittävien muuttujien arvoista riippumaton (homoskedastisuus) • Jäännösmuuttuja noudattaa normaalijakaumaa • Oletusten paikkansa pitävyys mahdollistaa sen, että tulosten perusteella voidaan tehdä päätelmiä perusjoukosta, jota otos edustaa (tilastollinen päättely)

UNIVERSITY OF TURKU DUMMY-MUUTTUJAT • Luokittelu- ja järjestysasteikollisia selittäjiä voidaan analysoida tekemällä niistä dummymuuttujia

UNIVERSITY OF TURKU DUMMY-MUUTTUJAT • Luokittelu- ja järjestysasteikollisia selittäjiä voidaan analysoida tekemällä niistä dummymuuttujia • Kaksiluokkaisen muuttujan arvot 0 ja 1 • Moniluokkaiselle muuttujalle koodataan yksi luokista ykköseksi, muut nollaksi • Miten selitettävän muuttujan arvo muuttuu, kun siirrytään dummy-muuttujan luokasta 0 luokkaan 1 • Analyysista pois jätetty luokka vertailuluokkana

UNIVERSITY OF TURKU REGRESSIOMALLI YHDELLE SELITTÄJÄLLE y = a + bx + e, missä

UNIVERSITY OF TURKU REGRESSIOMALLI YHDELLE SELITTÄJÄLLE y = a + bx + e, missä y= selitettävä muuttuja a = vakiotermi (kohta, jossa regressiosuora leikkaa y-akselin selittävän muuttujan arvolla 0; constant, intercept) b= regressiokerroin (regressiosuoran kulmakerroin, beta) e=virhetermi (regressiosuoralla selittämättä jäänyt selitettävän muuttujan vaihtelu, residual, error term)

UNIVERSITY OF TURKU YHTEYDEN SUUNTA y y * y=a+bx+e ** * e * **

UNIVERSITY OF TURKU YHTEYDEN SUUNTA y y * y=a+bx+e ** * e * ** * * x y=a-bx+e * ** ** * * * ** e ***** * * x

UNIVERSITY OF TURKU REGRESSIOMALLI USEALLE SELITTÄJÄLLE y = a + b 1 x 1+

UNIVERSITY OF TURKU REGRESSIOMALLI USEALLE SELITTÄJÄLLE y = a + b 1 x 1+ b 2 x 2 + … bixi + e, missä selittäviä muuttujia on i kappaletta

UNIVERSITY OF TURKU REGRESSIOANALYYSIN MERKITYS • Regressiokerroin kertoo, kuinka paljon yhden yksikön suuruinen muutos

UNIVERSITY OF TURKU REGRESSIOANALYYSIN MERKITYS • Regressiokerroin kertoo, kuinka paljon yhden yksikön suuruinen muutos selittävässä muuttujassa vaikuttaa selitettävään muuttujaan • Standardoidun regressiokertoimen avulla voidaan verrata muuttujien suhteellista selityskykyä, mutta vain kyseisessä aineistossa • Saadaan tietoa yksittäisen selittävän tekijän merkityksestä, kun muiden selittäjien vaikutus on otettu huomioon

UNIVERSITY OF TURKU KERROINTEN ESTIMOINTI • Etsitään havaintoaineistoon parhaiten sopiva malli (the line of

UNIVERSITY OF TURKU KERROINTEN ESTIMOINTI • Etsitään havaintoaineistoon parhaiten sopiva malli (the line of best fit) = kaikki havaintojen poikkeamat suorasta minimoitu • Pienimmän neliösumman menetelmä (PNS, least squares) – virheiden neliöt e 2 mahdollisimman pienet • Jos regressiokerroin on nolla, selittäjän ja selitettävän välillä ei ole yhteyttä

UNIVERSITY OF TURKU SELITETTÄVÄN JA SELITTÄVIEN MUUTTUJIEN YHTEYDEN MITTALUVUT • Regressiokerrointen ”hyvyyttä” (= selittäjän

UNIVERSITY OF TURKU SELITETTÄVÄN JA SELITTÄVIEN MUUTTUJIEN YHTEYDEN MITTALUVUT • Regressiokerrointen ”hyvyyttä” (= selittäjän merkitystä) testataan t-testillä – kerroin jaetaan varianssillaan • Korkea t-arvo (noin 2 tai suurempi) tai p<0. 05 => selittäjä käyttökelpoinen • Ei vielä kerro selittäjän selitysvoimasta

UNIVERSITY OF TURKU MALLIN RAKENTAMINEN – LISÄÄVÄ MENETTELY • Menettely selittäjien lisäämiseksi (forward selection)

UNIVERSITY OF TURKU MALLIN RAKENTAMINEN – LISÄÄVÄ MENETTELY • Menettely selittäjien lisäämiseksi (forward selection) – ensin valitaan selittäjä, jolla yksinään suurin selitysvoima – tämän jälkeen vuorollaan ne, joilla eniten lisäselitysvoimaa ja jotka parantavat mallin selitysosuutta tilastollisesti merkitsevästi – multikollineaarisuus ei ongelma

UNIVERSITY OF TURKU MALLIN RAKENTAMINEN – POISTAVA MENETTELY • Menettely selittäjien poistamiseksi (backward elimination)

UNIVERSITY OF TURKU MALLIN RAKENTAMINEN – POISTAVA MENETTELY • Menettely selittäjien poistamiseksi (backward elimination) – selittäjien joukosta poistetaan yksi kerrallaan selitysvoimaltaan heikoin – jäljelle jääneet ja selitysvoimaltaan tilastollisesti merkitsevät muuttujat muodostavat parhaan mallin => Onko malli mielekäs teoreettisesti ?

UNIVERSITY OF TURKU MALLIN RAKENTAMINEN – ASKELTAVA MENETTELY • Askeltava menettely (stepwise selection) yhdistää

UNIVERSITY OF TURKU MALLIN RAKENTAMINEN – ASKELTAVA MENETTELY • Askeltava menettely (stepwise selection) yhdistää lisäävän ja poista-van menettelyn • Muuttujia lisätään ja poistetaan mallin sovituksen kuluessa • Voidaan myös pakottaa halutut selittäjät malliin (forsing) • Monien menettelyjen vertaaminen parhaan tuloksen saavuttamiseksi

UNIVERSITY OF TURKU MALLIN SOPIVUUDEN ARVIOINTI • Varianssianalyysilla (F-testi) testataan, onko kyseinen regressiomalli käyttökelpoinen

UNIVERSITY OF TURKU MALLIN SOPIVUUDEN ARVIOINTI • Varianssianalyysilla (F-testi) testataan, onko kyseinen regressiomalli käyttökelpoinen vastemuuttujan vaihtelun selittämiseksi • Testaa, ovatko kaikki regressiokertoimet nollia vai eivät • Jos koko mallin merkitsevyys on suuri, yleensä myös yksittäisten selittäjien merkitsevyys on suuri • Mallin sopivuutta kutsutaan mallin hyvyydeksi (the goodness of fit)

UNIVERSITY OF TURKU SELITYSASTE • Multippelikorrelaatiokerroin R (multiple correlation) eli havaittujen ja mallin avulla

UNIVERSITY OF TURKU SELITYSASTE • Multippelikorrelaatiokerroin R (multiple correlation) eli havaittujen ja mallin avulla ennustettujen y-muuttujan arvojen välinen korrelaatio • R 2 * 100 = mallin selitysaste (determinaatiokerroin kertoo, kuinka monta prosenttia malli pystyy selittämään vastemuuttujan vaihtelusta • R 2 =regressiomallin selittämä osuus vasteen vaihtelusta jaettuna selittymättömällä osalla • R 2 adj = korjattu selitysaste – ottaa huomioon muuttujien määrän ja otoskoon => kahden analyysin vertailu mahdollista

UNIVERSITY OF TURKU DIAGNOSTIIKKA • Jäännösten normaalisuus eli asettuvatko suoralle kuviossa ”normal probability plot”

UNIVERSITY OF TURKU DIAGNOSTIIKKA • Jäännösten normaalisuus eli asettuvatko suoralle kuviossa ”normal probability plot” • Jäännösten jakauman tasaisuus (varianssien yhtäsuuruus) eli homoskedastisuus kuvioista, joissa kuvataan (standardoidut) jäännökset ja (standardoidut) ennustearvot sekä jäännökset ja kunkin yksittäisen selittävän muuttujan arvot (scatter plot) – jos kuviossa esiintyy selkeää rakennetta, oletus ei pidä paikkaansa • Muuttujamuunnokset mahdollisena ratkaisuna

UNIVERSITY OF TURKU OUTLIER-ARVOT • Ongelmien taustalla saattaa olla outlierarvoja eli muista havainnoista suuresti

UNIVERSITY OF TURKU OUTLIER-ARVOT • Ongelmien taustalla saattaa olla outlierarvoja eli muista havainnoista suuresti poikkeavia ja harhaa aiheutta-via arvoja • Löytämiseen tapauskohtainen kuvio (casewise plot) • Voidaan poistaa havainnot, joilla standardoidut jäännökset ovat suuria => analyysin suorittaminen uudelleen