Frelsning 3 732 G 05 Regressions och tidsserieanalys
- Slides: 28
Föreläsning 3 732 G 05 Regressions- och tidsserieanalys
Multipel linjär regression § En påbyggnad på enkel linjär regression § Beskriva en beroende variabel y utifrån k stycken förklarande variabler x 1, x 2, …, xk § Där ε är feltermen (error term), som står för den del av variationen i y som inte kan förklaras av modellen. Feltermen antas: § Ha medelvärde 0 § Ha konstant varians σ2 § Vara normalfördelad § Vara oberoende av andra ε 2
Multipel linjär regression Kvadratsummor och varians § Samma beräkningar för SST och SSR § Kvadratsummeuppdelning SST = SSR + SSE gäller fortfarande § SSE beräknas på samma sätt som innan: § Variansen (σ2) skattas med MSE: § Standardavvikelsen (σ) skattas med: 3
Multipel linjär regression Hur utreda om modellen är bra? 1. F-test (Overall F-test, testar hela modellen) • H 0: Alla parametrar (β 1, β 2, …, βk) är lika med noll • Ha: Minst en av parametrarna är skild från noll • Där k är antalet parametrar i modellen • Detta värde jämförs med Fα med k och n-k-1 frihetsgrader 2. T-test (testar varje enskild variabel) • Beräknas på samma sätt som i enkel linjär regression • Skillnad är att t-fördelning med n-k-1 frihetsgrader används 4
Multipel linjär regression Hur utreda om modellen är bra? 3. Förklaringsgrad (R 2) § Beräknas och tolkas på samma sätt som i enkel linjär regression 4. Justerad förklaringsgrad ( 2 ) § R 2 ökar alltid när en ny förklarande variabel läggs till i modellen § Den justerade förklaringsgraden tar hänsyn till antalet förklarande variabler § Denna ska användas vid jämförelse av modeller med olika antal förklarande variabler 5
Multipel linjär regression Exempel 1 § Ett datamaterial bestående av 150 slumpmässigt valda husförsäljningar i USA Name Price Area Acres Rooms Baths Antal 150 150 150 Beskrivning Pris Area i kvadratfot Tomtyta i tunnland Antal rum Antal badrum Modell y x 1 x 2 x 3 x 4 § Vi vill undersöka hur priset beror på de förklarande variablerna 6
Multipel linjär regression Exempel 1 Pris mot bostadsyta 7
Multipel linjär regression Exempel 1 Pris mot tomtyta 8
Multipel linjär regression Exempel 1 Pris mot antal rum 9
Multipel linjär regression Exempel 1 Pris mot antal badrum 10
Multipel linjär regression Exempel 1 § Minitab: Stat → Regression 11
Multipel linjär regression Exempel 1 Regression Analysis: Price versus Area; Rooms The regression equation is Price = 64221 + 49, 7 Area - 141 Rooms Predictor Constant Area Rooms Coef 64221 49, 673 -141 SE Coef 12766 7, 507 2934 T 5, 03 6, 62 -0, 05 P 0, 000 0, 962 S = 30047, 0 R-Sq = 48, 6% R-Sq(adj) = 47, 9% Analysis of Variance Source Regression Residual Error Total DF 2 147 149 SS 1, 25273 E+11 1, 32715 E+11 2, 57989 E+11 MS 62636682991 902824574 F 69, 38 P 0, 000 12
Multipel linjär regression Punktskattningar § En vanlig tillämpning av multipel linjär regression är att man vill skatta (prediktera) värden för nya observationer § Punktskattning (punktprediktion beräknas på samma sätt): § Punktskattning (point estimate): § Det skattade medelvärdet på y för alla observationer med de givna värdena på x § Punktprediktion (point prediction): § Värdet en individuell observation väntas ha på y med de givna värdena på x 13
Multipel linjär regression Intervallskattningar § Konfidensintervall (hör till punktskattning) § Ett intervall för medelvärdet på y med de givna värdena på x § Prediktionsintervall (hör till punktprediktion) § Ett intervall för värdet på y för en individuell observation med de givna värdena på x § ”Distance value” fås från datorutskrift § Minitab: SE Fit = 14
Multipel linjär regression Exempel punktskattningar och intervallskattningar § Ett intervall för hus med area 3000 kvadratfot och 6 rum § Minitab: Stat → Regression → Options 15
Multipel linjär regression Exempel punktskattningar och intervallskattningar Predicted Values for New Observations New Obs 1 Fit 212396 SE Fit 12307 95% CI (188076; 236717) 95% PI (148229; 276564)XX XX denotes a point that is an extreme outlier in the predictors. 16
Multipel linjär regression Exempel punktskattningar och intervallskattningar Predicted Values for New Observations New Obs 1 Fit 212396 SE Fit 12307 95% CI (188076; 236717) 95% PI (148229; 276564)XX XX denotes a point that is an extreme outlier in the predictors. § Minitab indikerar att vår prediktion inte är helt pålitlig § Vad kan detta bero på? 17
Multipel linjär regression Exempel punktskattningar och intervallskattningar 18
Multipel linjär regression Exempel § Kombination 3000 kvadratfot och 6 rum finns ej i datamaterialet § Är vår modell giltig för den prediktion vi ville genomföra? Pris Area Rum 117000 1008 6 108000 1036 6 126500 1092 6 133000 1100 6 116000 1100 6 98000 1165 6 129000 1200 6 126000 1232 6 117000 1248 6 110000 1289 6 117500 1300 6 121900 1300 6 100000 1338 6 128500 1344 6 135000 1400 6 140000 1403 6 152000 1450 6 110000 1450 6 142500 1552 6 150000 1564 6 120500 1600 6 141900 1632 6 145900 1680 6 144900 1900 6 19
Multipel linjär regression Kvadratiska och kubiska termer § Det kan vara ett annat samband än linjärt mellan den beroende variabeln och en förklarande variabel § Då kan man inkludera en kvadratisk eller kubisk term i regressionsmodellen § Antal rum kan tyckas ha ett kvadratiskt samband med pris, en modell där pris förklaras av antal rum och antal rum i kvadrat har följande utseende: y=β 0 + β 3·x 3 + β 5·x 32 + ε 20
Multipel linjär regression Exempel kvadratiska och kubiska termer 21
Multipel linjär regression Exempel kvadratiska och kubiska termer Regression Analysis: Price versus Rooms; Rooms**2 The regression equation is Price = - 45920 + 39680 Rooms - 1606 Rooms**2 Predictor Constant Rooms**2 Coef -45920 39680 -1606, 4 SE Coef 38935 10477 698, 8 T -1, 18 3, 79 -2, 30 P 0, 240 0, 000 0, 023 S = 33631, 2 R-Sq = 35, 6% R-Sq(adj) = 34, 7% § Ingen praktisk tolkning av b 2 § Kan även användas kubiska termer § Originalvariabeln behålls alltid i modellen! 22
Multipel linjär regression Samspelstermer (interaktionstermer) § Det behöver inte vara ett kvadratiskt samband mellan den oberoende variabeln och den förklarande variabeln § Det kan vara så att den förklarande variabeln samspelar med en annan förklarande variabel § Relationen mellan den oberoende variabeln och en förklarande variabel kan vara beroende på värdet på en annan förklarande variabel § Då bildar man en samspelsterm (interaktionsterm), vilket beskrivs i kommande exempel 23
Multipel linjär regression Exempel samspelstermer (interaktionstermer) § Vi bygger vidare på modellen där pris förklaras av area och antal rum § Antal rum i kvadrat och interaktionstermen läggs till i modellen: y = β 0 + β 1·x 1 + β 3·x 3 + β 5·x 32 + β 6 ·x 1·x 3 + ε 24
Multipel linjär regression Exempel samspelstermer (interaktionstermer) Regression Analysis: Price versus Area; Rooms**2 The regression equation is Price = - 15812 + 49, 3 Area + 22544 Rooms - 1529 Rooms**2 Predictor Constant Area Rooms**2 Coef -15812 49, 326 22544 -1529, 1 SE Coef 34481 7, 379 9549 613, 6 T -0, 46 6, 68 2, 36 -2, 49 P 0, 647 0, 000 0, 020 0, 014 S = 29528, 4 R-Sq = 50, 7% R-Sq(adj) = 49, 6% § Alla variabler signifikanta när vi anpassar med den kvadratiska termen 25
Multipel linjär regression Exempel samspelstermer (interaktionstermer) Regression Analysis: Price versus Area; Rooms**2; Area*Rooms The regression equation is Price = 862 + 163 Area - 9248 Rooms + 2161 Rooms**2 - 14, 0 Area*Rooms Predictor Constant Area Rooms**2 Area*Rooms Coef 862 162, 78 -9248 2161 -14, 002 SE Coef 34085 39, 23 14262 1390 4, 759 T 0, 03 4, 15 -0, 65 1, 56 -2, 94 P 0, 980 0, 000 0, 518 0, 122 0, 004 S = 28783, 4 R-Sq = 53, 4% R-Sq(adj) = 52, 2% § När vi anpassar en modell med både kvadrattermen och interaktionstermen blir bara interaktionstermen signifikant. Den har ”tagit över” kvadrattermens roll. 26
Multipel linjär regression Exempel samspelstermer (interaktionstermer) Regression Analysis: Price versus Area; Rooms; Area*Rooms The regression equation is Price = - 28051 + 109 Area + 11862 Rooms - 7, 32 Area*Rooms Predictor Constant Area Rooms Area*Rooms Coef -28051 108, 55 11862 -7, 321 SE Coef 28707 18, 06 4401 2, 058 T -0, 98 6, 01 2, 70 -3, 56 P 0, 330 0, 008 0, 001 S = 28922, 9 R-Sq = 52, 7% R-Sq(adj) = 51, 7% § Vid anpassning med interaktionstermen blir alla signifikanta och vi får en högre förklaringsgrad. 27
Multipel linjär regression Se upp med! § Det kan vara lockande att ha så många variabler som möjligt i modellen för att förklara variansen i datamaterialet bra § Dock kan detta leda till överanpassning, det vill säga att modellen blir ”för bra” anpassad till datamaterialet och att prediktionerna då blir felaktiga § Hitta en balans mellan antalet variabler och förklaringsgrad 28
- I just ran
- Tidsserieanalys
- Transportprotokoll
- Frelsning
- Komplex ptsd dissociation
- Tjock och smal liten och stor
- Buddhism och hinduism likheter och skillnader
- Compsci 732
- Monday=621 tuesday=732 wednesday=933
- Compsci 732
- Compsci 732
- Tours 732
- Challenges n 732 ddl
- 1
- Vad menas med en motkraft
- Chokladkakemodellen
- Etiologisk fraktion
- Potens minus
- Personliga pronomen
- Risk och konsekvensanalys
- Kvale and brinkmann interviews
- Eva och adam intro
- Pliktetik
- Argument exempel
- Seminarieboken
- Medvetna och omedvetna signaler np
- Skillnad mellan stapel och stolpdiagram
- Pionärer
- Programtorget hb