Multipel linjr regressionsanalys I stllet fr en frklarande

Multipel linjär regressionsanalys I stället för en förklarande variabel kan vi inkludera flera. Vi

t-test och konfidensintervall för de enskilda parametrarna (b 1, b 2, . . .

Kvadratsummeuppdelningen gäller förstås också: SST = SSR + SSE SST, SSR beräknas som förut,

Konfidensintervall för punktskattningen och prognosintervall for punktprognosen beräknas i princip på samma sätt Konfidensintervall

Följande datamaterial innehåller uppgifter om 150 slumpmässigt valda fastigheter i USA Column Name C

Vi börjar med en modell som inte inkluderar alla förklarande variabler, men bara de

Regression Analysis: Price versus Area, Rooms The regression equation is Price = 64221 +

t-fördelning med 147 frihetsgrader för ett dubbelsidig test är p-värdet sannolikheten att få ett

S = 30047 R-Sq = 48. 6% R-Sq(adj) = 47. 9% Analysis of Variance

Vad står F-testet för i detta fall? F-testet testar om ‘den linjära regressionsmodellen’ är

När man anpassar en regressionsmodell har man oftast två mål: • att hitta en

Det vanliga R 2 -värdet ökar alltid när man lägger till fler förklarande variabler.

Punktskattning och punktprognos Nu vill vi göra en prognos för priset på en fastighet

Regression Analysis: Price versus Area, Rooms Samma utskrift som tidgare Predicted Values for New

New Obs 1 Fit SE Fit 212396 12307 95. 0% CI ( 188076, 236717)

Får vi någon ytterligare information från prognosen? Predicted Values for New Observations New Obs

Om vi t. ex bara har bostadsytan som förklarande variabel: Prediktioner utanför området där

Pris mot bostadsyta Få observation med bostadsyta 3000 ft 2 eller större, men ändå

Vad är då problemet? Om vi tittar på datamaterialet så ser vi att de

Slides: 27

Download presentation

Multipel linjär regressionsanalys I stället för en förklarande variabel kan vi inkludera flera. Vi får dock tänka på att inte inkludera sådana variabler som inte har någon eller som bara har marginell betydelse för responsvariabeln. Återigen inkluderas en felterm e i modellen, som står för den del i variationen av Y som inte kan förklaras genom modellen. Feltermen har medelvärde 0 och varians s 2 och är normalfördelad och varje e är oberoende av de andra e. 1

t-test och konfidensintervall för de enskilda parametrarna (b 1, b 2, . . . , bp-1) i modellen beräknas i princip på samma sätt som förut. Men nu använder man en t-fördelning med n-p frihetsgrader. F-test korrigeras lite genom att inkludera p-1 (antal förklarande variabler i modellen): Observera att formeln är den samma som förut om man sätter p-1=1. Förklaringsgrad beräknas fortfarande: 2

Kvadratsummeuppdelningen gäller förstås också: SST = SSR + SSE SST, SSR beräknas som förut, och även SSE beräknas som förut: eftersom punktskattningen/punktprognosen nu är: Observera att alla sådana beräkningar görs för varje observation, även om index i inte alltid är med. 3

Konfidensintervall för punktskattningen och prognosintervall for punktprognosen beräknas i princip på samma sätt Konfidensintervall Prognosintervall 4

Följande datamaterial innehåller uppgifter om 150 slumpmässigt valda fastigheter i USA Column Name C 1 Price C 2 Area C 3 Acres C 4 Rooms C 5 Baths Count 150 150 150 Description Price Area in square feet Acres Number of rooms Number of baths Modell y x 1 x 2 x 3 x 4 Översättning pris bostadsyta tomtyta antal rum antal badrum Källa: ”MTBWIN”/Student 12/HOMES. MTW 5

Pris mot bostadsyta 6

Pris mot tomtyta 7

Pris mot antal rum 8

Pris mot antal badrum 9

Vi börjar med en modell som inte inkluderar alla förklarande variabler, men bara de som verkar viktigast: bostadsyta och antal rum. 10

Regression Analysis: Price versus Area, Rooms The regression equation is Price = 64221 + 49. 7 Area - 141 Rooms Predictor Constant Area Rooms Coef 64221 49. 673 -141 SE Coef 12766 7. 507 2934 T 5. 03 6. 62 -0. 05 P 0. 000 0. 962 Signifikanstest för t. ex. b 1: är den skattade standardavvikelsen av b 1 Vi jämför t med t-fördelningen med n-p=150 -3 frihetsgrader. 11

t-fördelning med 147 frihetsgrader för ett dubbelsidig test är p-värdet sannolikheten att få ett värde t eller ännu större eller ett värde –t eller ännu mindre. -6. 62 t=6. 62 12

S = 30047 R-Sq = 48. 6% R-Sq(adj) = 47. 9% Analysis of Variance Source Regression Residual Error Total DF SS MS 2 1. 25273 E+11 62636682991 147 1. 32715 E+11 902824574 149 2. 57989 E+11 F 69. 38 P 0. 000 F-testet är signifikant 14

Vad står F-testet för i detta fall? F-testet testar om ‘den linjära regressionsmodellen’ är signifkant eller inte. Om vi bara har en förklarande variabel då är det samma som att testa om denna variabel (parameter b 1) är signifikant. Om vi har flera förklarande variabler, då testar vi om H 0: alla parametrar b 1, b 2, . . . , bp-1 är lika med 0 H 1: minst en av parametrarna b 1, b 2, . . . , bp-1 är inte 0 För att bestämma vilka parametrar som är skilda från 0 använder vi t-testet. 15

Vad är R-sq(adj) då? Justerad R 2: 16

När man anpassar en regressionsmodell har man oftast två mål: • att hitta en modell som beskriver datamaterialet så bra som möjligt (de anpassade värdena ska ligga nära observationerna ) • att hitta en modell som kan göra prediktioner för nya observationer. Göra bra punktprediktioner. Genom att inkludera stora mängder förklarande variabler kan man ofta få bättre och bättre anpassning till datamaterialet, men prognoserna för nya observationer kan bli sämre (överanpassning). 17

Det vanliga R 2 -värdet ökar alltid när man lägger till fler förklarande variabler. Det justerade R 2 -värdet ökar inte alltid om man lägger till fler förklarande variabler, eftersom det innehåller en korrektion för antalet förklarande variabler i modellen 18

Punktskattning och punktprognos Nu vill vi göra en prognos för priset på en fastighet med – bostadsytan: 3000 ft 2 och – antal rum: 6, och ett 95% prediktionsintervall i MINITAB 19

Regression Analysis: Price versus Area, Rooms Samma utskrift som tidgare Predicted Values for New Observations New Obs 1 X Fit SE Fit 212396 12307 95. 0% CI ( 188076, 236717) 95. 0% PI ( 148229, 276564) XX denotes a row with X values away from the center XX denotes a row with very extreme X values Values of Predictors for New Observations New Obs Area Rooms 1 3000 6. 00 Prediktionsintervall 20

New Obs 1 Fit SE Fit 212396 12307 95. 0% CI ( 188076, 236717) 95. 0% PI ( 148229, 276564) XX SE Fit är standardavvikelsen för punktskattningen 22

Får vi någon ytterligare information från prognosen? Predicted Values for New Observations New Obs 1 Fit 212396 SE Fit 12307 ( 95. 0% CI 188076, 236717) ( 95. 0% PI 148229, 276564) XX X denotes a row with X values away from the center XX denotes a row with very extreme X values Varning att fastigheten vi vill veta någonting om har extrema värden för x. Vi kan göra tillförlitliga prognoser bara för fastigheter där vi har liknande fastigheter redan i ursprungliga datamaterialet. 23

Om vi t. ex bara har bostadsytan som förklarande variabel: Prediktioner utanför området där vi har observationer är inte tillförlitliga 24

Pris mot bostadsyta Få observation med bostadsyta 3000 ft 2 eller större, men ändå väl inom området där vi har observation 25

Pris mot antal rum 26

Vad är då problemet? Om vi tittar på datamaterialet så ser vi att de fastigheter som ingår och har exakt 6 rum har en bostadsyta mellan 1008 och 1900 ft 2. Det är alltså kombinationen 3000 ft 2 och 6 rum som är extrem och vi måste fundera över om det är rimligt att anta att modellen är giltig även för denna typ av fastighet. pris area rooms 117000 1008 6 108000 1036 6 126500 1092 6 133000 1100 6 116000 1100 6 98000 1165 6 129000 1200 6 126000 1232 6 117000 1248 6 110000 1289 6 117500 1300 6 121900 1300 6 100000 1338 6 128500 1344 6 135000 1400 6 140000 1403 6 152000 1450 6 110000 1450 6 142500 1552 6 150000 1564 6 120500 1600 6 141900 1632 6 145900 1680 6 144900 1900 6 27