Frelsning 3 732 G 05 Regressions och tidsserieanalys

  • Slides: 28
Download presentation
Föreläsning 3 732 G 05 Regressions- och tidsserieanalys

Föreläsning 3 732 G 05 Regressions- och tidsserieanalys

Multipel linjär regression § En påbyggnad på enkel linjär regression § Beskriva en beroende

Multipel linjär regression § En påbyggnad på enkel linjär regression § Beskriva en beroende variabel y utifrån k stycken förklarande variabler x 1, x 2, …, xk § Där ε är feltermen (error term), som står för den del av variationen i y som inte kan förklaras av modellen. Feltermen antas: § Ha medelvärde 0 § Ha konstant varians σ2 § Vara normalfördelad § Vara oberoende av andra ε 2

Multipel linjär regression Kvadratsummor och varians § Samma beräkningar för SST och SSR §

Multipel linjär regression Kvadratsummor och varians § Samma beräkningar för SST och SSR § Kvadratsummeuppdelning SST = SSR + SSE gäller fortfarande § SSE beräknas på samma sätt som innan: § Variansen (σ2) skattas med MSE: § Standardavvikelsen (σ) skattas med: 3

Multipel linjär regression Hur utreda om modellen är bra? 1. F-test (Overall F-test, testar

Multipel linjär regression Hur utreda om modellen är bra? 1. F-test (Overall F-test, testar hela modellen) • H 0: Alla parametrar (β 1, β 2, …, βk) är lika med noll • Ha: Minst en av parametrarna är skild från noll • Där k är antalet parametrar i modellen • Detta värde jämförs med Fα med k och n-k-1 frihetsgrader 2. T-test (testar varje enskild variabel) • Beräknas på samma sätt som i enkel linjär regression • Skillnad är att t-fördelning med n-k-1 frihetsgrader används 4

Multipel linjär regression Hur utreda om modellen är bra? 3. Förklaringsgrad (R 2) §

Multipel linjär regression Hur utreda om modellen är bra? 3. Förklaringsgrad (R 2) § Beräknas och tolkas på samma sätt som i enkel linjär regression 4. Justerad förklaringsgrad ( 2 ) § R 2 ökar alltid när en ny förklarande variabel läggs till i modellen § Den justerade förklaringsgraden tar hänsyn till antalet förklarande variabler § Denna ska användas vid jämförelse av modeller med olika antal förklarande variabler 5

Multipel linjär regression Exempel 1 § Ett datamaterial bestående av 150 slumpmässigt valda husförsäljningar

Multipel linjär regression Exempel 1 § Ett datamaterial bestående av 150 slumpmässigt valda husförsäljningar i USA Name Price Area Acres Rooms Baths Antal 150 150 150 Beskrivning Pris Area i kvadratfot Tomtyta i tunnland Antal rum Antal badrum Modell y x 1 x 2 x 3 x 4 § Vi vill undersöka hur priset beror på de förklarande variablerna 6

Multipel linjär regression Exempel 1 Pris mot bostadsyta 7

Multipel linjär regression Exempel 1 Pris mot bostadsyta 7

Multipel linjär regression Exempel 1 Pris mot tomtyta 8

Multipel linjär regression Exempel 1 Pris mot tomtyta 8

Multipel linjär regression Exempel 1 Pris mot antal rum 9

Multipel linjär regression Exempel 1 Pris mot antal rum 9

Multipel linjär regression Exempel 1 Pris mot antal badrum 10

Multipel linjär regression Exempel 1 Pris mot antal badrum 10

Multipel linjär regression Exempel 1 § Minitab: Stat → Regression 11

Multipel linjär regression Exempel 1 § Minitab: Stat → Regression 11

Multipel linjär regression Exempel 1 Regression Analysis: Price versus Area; Rooms The regression equation

Multipel linjär regression Exempel 1 Regression Analysis: Price versus Area; Rooms The regression equation is Price = 64221 + 49, 7 Area - 141 Rooms Predictor Constant Area Rooms Coef 64221 49, 673 -141 SE Coef 12766 7, 507 2934 T 5, 03 6, 62 -0, 05 P 0, 000 0, 962 S = 30047, 0 R-Sq = 48, 6% R-Sq(adj) = 47, 9% Analysis of Variance Source Regression Residual Error Total DF 2 147 149 SS 1, 25273 E+11 1, 32715 E+11 2, 57989 E+11 MS 62636682991 902824574 F 69, 38 P 0, 000 12

Multipel linjär regression Punktskattningar § En vanlig tillämpning av multipel linjär regression är att

Multipel linjär regression Punktskattningar § En vanlig tillämpning av multipel linjär regression är att man vill skatta (prediktera) värden för nya observationer § Punktskattning (punktprediktion beräknas på samma sätt): § Punktskattning (point estimate): § Det skattade medelvärdet på y för alla observationer med de givna värdena på x § Punktprediktion (point prediction): § Värdet en individuell observation väntas ha på y med de givna värdena på x 13

Multipel linjär regression Intervallskattningar § Konfidensintervall (hör till punktskattning) § Ett intervall för medelvärdet

Multipel linjär regression Intervallskattningar § Konfidensintervall (hör till punktskattning) § Ett intervall för medelvärdet på y med de givna värdena på x § Prediktionsintervall (hör till punktprediktion) § Ett intervall för värdet på y för en individuell observation med de givna värdena på x § ”Distance value” fås från datorutskrift § Minitab: SE Fit = 14

Multipel linjär regression Exempel punktskattningar och intervallskattningar § Ett intervall för hus med area

Multipel linjär regression Exempel punktskattningar och intervallskattningar § Ett intervall för hus med area 3000 kvadratfot och 6 rum § Minitab: Stat → Regression → Options 15

Multipel linjär regression Exempel punktskattningar och intervallskattningar Predicted Values for New Observations New Obs

Multipel linjär regression Exempel punktskattningar och intervallskattningar Predicted Values for New Observations New Obs 1 Fit 212396 SE Fit 12307 95% CI (188076; 236717) 95% PI (148229; 276564)XX XX denotes a point that is an extreme outlier in the predictors. 16

Multipel linjär regression Exempel punktskattningar och intervallskattningar Predicted Values for New Observations New Obs

Multipel linjär regression Exempel punktskattningar och intervallskattningar Predicted Values for New Observations New Obs 1 Fit 212396 SE Fit 12307 95% CI (188076; 236717) 95% PI (148229; 276564)XX XX denotes a point that is an extreme outlier in the predictors. § Minitab indikerar att vår prediktion inte är helt pålitlig § Vad kan detta bero på? 17

Multipel linjär regression Exempel punktskattningar och intervallskattningar 18

Multipel linjär regression Exempel punktskattningar och intervallskattningar 18

Multipel linjär regression Exempel § Kombination 3000 kvadratfot och 6 rum finns ej i

Multipel linjär regression Exempel § Kombination 3000 kvadratfot och 6 rum finns ej i datamaterialet § Är vår modell giltig för den prediktion vi ville genomföra? Pris Area Rum 117000 1008 6 108000 1036 6 126500 1092 6 133000 1100 6 116000 1100 6 98000 1165 6 129000 1200 6 126000 1232 6 117000 1248 6 110000 1289 6 117500 1300 6 121900 1300 6 100000 1338 6 128500 1344 6 135000 1400 6 140000 1403 6 152000 1450 6 110000 1450 6 142500 1552 6 150000 1564 6 120500 1600 6 141900 1632 6 145900 1680 6 144900 1900 6 19

Multipel linjär regression Kvadratiska och kubiska termer § Det kan vara ett annat samband

Multipel linjär regression Kvadratiska och kubiska termer § Det kan vara ett annat samband än linjärt mellan den beroende variabeln och en förklarande variabel § Då kan man inkludera en kvadratisk eller kubisk term i regressionsmodellen § Antal rum kan tyckas ha ett kvadratiskt samband med pris, en modell där pris förklaras av antal rum och antal rum i kvadrat har följande utseende: y=β 0 + β 3·x 3 + β 5·x 32 + ε 20

Multipel linjär regression Exempel kvadratiska och kubiska termer 21

Multipel linjär regression Exempel kvadratiska och kubiska termer 21

Multipel linjär regression Exempel kvadratiska och kubiska termer Regression Analysis: Price versus Rooms; Rooms**2

Multipel linjär regression Exempel kvadratiska och kubiska termer Regression Analysis: Price versus Rooms; Rooms**2 The regression equation is Price = - 45920 + 39680 Rooms - 1606 Rooms**2 Predictor Constant Rooms**2 Coef -45920 39680 -1606, 4 SE Coef 38935 10477 698, 8 T -1, 18 3, 79 -2, 30 P 0, 240 0, 000 0, 023 S = 33631, 2 R-Sq = 35, 6% R-Sq(adj) = 34, 7% § Ingen praktisk tolkning av b 2 § Kan även användas kubiska termer § Originalvariabeln behålls alltid i modellen! 22

Multipel linjär regression Samspelstermer (interaktionstermer) § Det behöver inte vara ett kvadratiskt samband mellan

Multipel linjär regression Samspelstermer (interaktionstermer) § Det behöver inte vara ett kvadratiskt samband mellan den oberoende variabeln och den förklarande variabeln § Det kan vara så att den förklarande variabeln samspelar med en annan förklarande variabel § Relationen mellan den oberoende variabeln och en förklarande variabel kan vara beroende på värdet på en annan förklarande variabel § Då bildar man en samspelsterm (interaktionsterm), vilket beskrivs i kommande exempel 23

Multipel linjär regression Exempel samspelstermer (interaktionstermer) § Vi bygger vidare på modellen där pris

Multipel linjär regression Exempel samspelstermer (interaktionstermer) § Vi bygger vidare på modellen där pris förklaras av area och antal rum § Antal rum i kvadrat och interaktionstermen läggs till i modellen: y = β 0 + β 1·x 1 + β 3·x 3 + β 5·x 32 + β 6 ·x 1·x 3 + ε 24

Multipel linjär regression Exempel samspelstermer (interaktionstermer) Regression Analysis: Price versus Area; Rooms**2 The regression

Multipel linjär regression Exempel samspelstermer (interaktionstermer) Regression Analysis: Price versus Area; Rooms**2 The regression equation is Price = - 15812 + 49, 3 Area + 22544 Rooms - 1529 Rooms**2 Predictor Constant Area Rooms**2 Coef -15812 49, 326 22544 -1529, 1 SE Coef 34481 7, 379 9549 613, 6 T -0, 46 6, 68 2, 36 -2, 49 P 0, 647 0, 000 0, 020 0, 014 S = 29528, 4 R-Sq = 50, 7% R-Sq(adj) = 49, 6% § Alla variabler signifikanta när vi anpassar med den kvadratiska termen 25

Multipel linjär regression Exempel samspelstermer (interaktionstermer) Regression Analysis: Price versus Area; Rooms**2; Area*Rooms The

Multipel linjär regression Exempel samspelstermer (interaktionstermer) Regression Analysis: Price versus Area; Rooms**2; Area*Rooms The regression equation is Price = 862 + 163 Area - 9248 Rooms + 2161 Rooms**2 - 14, 0 Area*Rooms Predictor Constant Area Rooms**2 Area*Rooms Coef 862 162, 78 -9248 2161 -14, 002 SE Coef 34085 39, 23 14262 1390 4, 759 T 0, 03 4, 15 -0, 65 1, 56 -2, 94 P 0, 980 0, 000 0, 518 0, 122 0, 004 S = 28783, 4 R-Sq = 53, 4% R-Sq(adj) = 52, 2% § När vi anpassar en modell med både kvadrattermen och interaktionstermen blir bara interaktionstermen signifikant. Den har ”tagit över” kvadrattermens roll. 26

Multipel linjär regression Exempel samspelstermer (interaktionstermer) Regression Analysis: Price versus Area; Rooms; Area*Rooms The

Multipel linjär regression Exempel samspelstermer (interaktionstermer) Regression Analysis: Price versus Area; Rooms; Area*Rooms The regression equation is Price = - 28051 + 109 Area + 11862 Rooms - 7, 32 Area*Rooms Predictor Constant Area Rooms Area*Rooms Coef -28051 108, 55 11862 -7, 321 SE Coef 28707 18, 06 4401 2, 058 T -0, 98 6, 01 2, 70 -3, 56 P 0, 330 0, 008 0, 001 S = 28922, 9 R-Sq = 52, 7% R-Sq(adj) = 51, 7% § Vid anpassning med interaktionstermen blir alla signifikanta och vi får en högre förklaringsgrad. 27

Multipel linjär regression Se upp med! § Det kan vara lockande att ha så

Multipel linjär regression Se upp med! § Det kan vara lockande att ha så många variabler som möjligt i modellen för att förklara variansen i datamaterialet bra § Dock kan detta leda till överanpassning, det vill säga att modellen blir ”för bra” anpassad till datamaterialet och att prediktionerna då blir felaktiga § Hitta en balans mellan antalet variabler och förklaringsgrad 28