Variabili qualitative e dummies nel modello di regressione
Variabili qualitative e dummies nel modello di regressione lineare (modifica dell’intercetta e della pendenza)
UTILIZZO DI VARIABILI QUALITATIVE Nell’ambito degli studi economico-sociali può risultare utilizzare, tra le variabili esplicative di un modello di regressione lineare, anche quelle qualitative (es. genere, stato civile, livello di istruzione). Ogni singola categoria di una variabile qualitativa deve essere considerata come variabile dummy o indicatore
ASSEGNAZIONE DI VARIABILI DUMMY La variabile dummy o indicatore è una variabile dicotomica che assume valore 1 in caso di presenza di un certo attributo e valore 0 in caso di assenza Quando la variabile qualitativa originaria presenta esclusivamente due categorie, categorie la trasformazione in dummy è immediata: si attribuisce codifica 1 allo stato per cui interessa avere un indicatore, la codifica 0 all’altro (es. per una variabile che rappresenta il genere: 1 genere femminile; 0 per quello maschile) Ø ØQuando invece la variabile di partenza presenta più di due categorie, occorre assegnare tante variabili dummy quante sono le categorie
UN ESEMPIO Sulla base della variabile categorica “Massimo titolo di studio”, studio” che assume le seguenti categorie: 1=licenza media; 2=diploma di scuola superiore; 3=laurea; 4=post laurea, si vogliono assegnare delle variabili dummy allo scopo di includerle in un modello di regressione lineare Si assegnano 3 (numero di categorie meno una) variabili dummy D 1, D 2 e D 3 secondo il seguente schema: D 1 i = 1 se l’unità i-esima ha conseguito al massimo la licenza media; D 1 i = 0 altrimenti; … e così di seguito per la 2 a e la 3 a categoria Il caso in cui l’unità i-esima abbia conseguito il titolo post laurea emerge dall’osservazione congiunta delle 3 dummy che assumono simultaneamente valore 0 (D 1 i = D 2 i = D 3 i = 0) Assegnare una quarta variabile come indicatore dello stato post laurea non solo non è necessario, ma creerebbe problemi di stima. Tale evenienza è comunemente denominata “trappola delle variabili dummy” : le quattro variabili sarebbero infatti legate dalla seguente relazione: D 1 i + D 2 i + D 3 i + D 4 i = 1 conseguenti problemi di esatta multicollinearità
MODIFICA DELL’INTERCETTA IN UN MODELLO DI REGRESSIONE LINEARE SEMPLICE Stimare un modello di regressione lineare con: 1 intercetta 1 variabile continua 1 variabile dummy è equivalente a stimare rette di regressione separate, ma parallele, per ciascuna delle due categorie individuate dalla variabile dummy (ad esempio: maschi e femmine). 5
y=B 0 + B 1 x 1 + B 2 x 2, dove x 1 e una variabile continua; x 2 è 1 se femmina, 0 se maschio y femmine, B 2 > 0 maschi B 2 (+) femmmine, B 2 < 0 B 2 (-) B 0 6 x 1
TERMINE DI INTERAZIONE Una variabile di interazione algebricamente è il prodotto di due variabili. Il suo effetto è di consentire che l'effetto di una delle variabili su Y dipenda dal valore dell'altra variabile. Il termine di interazione fa sì che la pendenza della retta di regressione differisca da fra le due categorie. 7
MODELLO CON TERMINE DI INTERAZIONE Si 16 Le variabili dummy 2009/10 è visto come con l’introduzione di una variabile dummy per il sesso si possa conseguire la possibilità all’intercetta di essere diversa fra Maschi e Femmine. un termine di interazione fra la dummy e la variabile quantitativa permette anche alla pendenza di essere diversa. x 1 è una variabile quantitativa x 2 è una variabile categorica (dummy): 1 se femmina, 0 se maschio x 3 = x 1 × x 2 Y = B 0 + B 1 x 1 + B 2 x 2 + B 3 x 3 8
MODELLO CON TERMINE DI INTERAZIONE 16 Le dummy 2009/10 16 Levariabili dummy 2009/10 9
MODELLO CON TERMINE DI INTERAZIONE 1 intercetta 1 variabile continua; 1 variabile dummy; 1 interazione fra loro è equivalente a stimare regressioni separate - e neanche parallele - per ciascuna delle due categorie individuate dalla variabile dummy (ad esempio: maschi e femmine). 10
Y = B 0 + B 1 x 1 + B 2 x 2 + B 3 x 3 (x 1 quantitativa; x 2 è 1 se femmina, 0 se maschio; x 3 = x 1 × x 2) y femmine B 2 > 0, B 3 > 0 B 1 + B 3 B 2 (+) B 1 maschi B 0 11 x 1
ESEMPIO : VARIABILI QUALITATIVE O DUMMY (MODIFICA DELL’INTERCETTA) IN SERIE STORICHE Supponiamo di investigare se l’acquisto di buoni del tesoro (BOND) da parte del pubblico sia in relazione con il reddito nazionale (GNP). Consideriamo il seguente esempio tratto da un manuale di econometria. Si dispone di 17 osservazioni annuali delle due variabili nel periodo 1933 -1949 per il Canada. Se studiamo la relazione fra BOND e GNP con il seguente modello di regressione semplice, si ottiene: BONDt = ß 0 + ß 1 GNPt + et BONDt = 1. 570 + 0. 759 GNPt (R al quadrato =0, 848; R al quadrato corretto = 0. 838) 12
VARIABILI QUALITATIVE O DUMMY (MODIFICA DELL’INTERCETTA) Se introduciamo la variabile dummy dt (0 per gli anni di pace e 1 per gli anni di guerra) si ottiene: BONDt = γ 0 + γ 1 dt + ß 1 GNPt + et BONDt = 1. 290 + 2. 304 dt + 0. 681 GNPt (R 2 =0, 995; R 2 corretto = 0. 994) 13
VARIABILI QUALITATIVE O DUMMY (MODIFICA DELL’INTERCETTA) Si può facilmente constatare che tale equazione equivale alle seguenti due equazioni: (1) BONDt = 1. 290 + 0. 681 GNPt per gli anni di pace (2) BONDt = 1. 290 + 2. 304 dt + 0. 681 GNPt per gli anni di guerra = BONDt = 3. 594 + 0. 681 GNPt per gli anni di guerra La variabile dt si può anche chiamare variabile di “spostamento”. A seconda che vi sia guerra o pace, ci spostiamo avanti e indietro tra la (2) e la (1). Notiamo che γ 1 (2. 304 nel nostro caso) rappresenta l’effetto della guerra sulla vendita di buoni del tesoro, e che ß 1 rappresenta l’effetto delle variazioni nel reddito. (si ipotizza che questo rimanga lo stesso sia in guerra che in pace). 14
VARIABILI QUALITATIVE O DUMMY (MODIFICA DELL’INTERCETTA) La cosa importante da notare è che una sola regressione multipla di BOND rispetto a dt e a GNP produrrà due rette: L 1 è la stima della funzione in tempo di pace e L 2 è la stima della funzione in tempo di guerra. 15
L 2 L 1 16
*VARIABILI QUALITATIVE O DUMMY (MODIFICA DELL’INTERCETTA) a)Tracciato dei residui senza dummy b)Tracciato dei residui con dummy 17 17
*ESEMPIO PER DUMMY (FONTE: R. J WONNACOT – TH. H WONNACOT, TRATTATO DI ECONOMETRICA, ISEDI, MILANO, 1974, PAGG. 76 -81) 18 18
19 19
- Slides: 19