Individuare un modello di regressione Essentially all models

  • Slides: 28
Download presentation
Individuare un modello di regressione “Essentially, all models are wrong, but some are useful”

Individuare un modello di regressione “Essentially, all models are wrong, but some are useful” G. E. P. Box (1987) Idealmente dato un problema pratico, si vorrebbe individuare un modello “vero” che includa tutte le variabili rilevanti per il fenomeno e ne spieghi le leggi che lo governano.

 • Abbiamo visto nelle lezioni precedenti che per lo stesso fenomeno è possibile

• Abbiamo visto nelle lezioni precedenti che per lo stesso fenomeno è possibile individuare più modelli e non sempre è chiaro quale delle alternative sia la migliore. • Idealmente, ricorrendo alle misure di diagnostica finora incontrate, si vorrebbe che – l’adattamento sia il migliore possibile (R 2 elevato, variabilità residua (σ2) ridotta); – tutte le variabili inserite siano rilevanti (t-test e F significativi) – interpretabilità (valori e segni dei coefficienti coerenti con il fenomeno studiato)

Esistono ulteriori strumenti di diagnostica che vedremo nelle prossime lezioni; tuttavia possiamo già dare

Esistono ulteriori strumenti di diagnostica che vedremo nelle prossime lezioni; tuttavia possiamo già dare delle indicazioni generali: 1. Semplice è bello: «A parità di fattori la spiegazione più semplice è da preferire» (Guglielmo di Occam, XIV sec. ) 2. La scelta può dipendere dagli obbiettivi – Previsione – Analisi della struttura

Salari dei manager: comparazione dei modelli V. Dip Predittori Adj. R 2 DS F-stat

Salari dei manager: comparazione dei modelli V. Dip Predittori Adj. R 2 DS F-stat 1 Y x 1, x 3 0. 735 12981. 62 138. 26 2 Y x 1, x 3, x 1∙x 3 0. 746 12700. 08 98. 09 3 Y x 1, x 2, x 3, x 4, x 5 0. 915 7357. 70 213. 75 4 Y x 1, x 2, x 3, x 1*x 3, x 4, x 5 5 Ln(Y) x 1, x 2, x 3, x 4, x 5 0. 922 7020. 09 197. 38 0. 930 6800. 88 218. 66 Pseudo-R 2 (vedi lez 5) Ricostruito

Commenti • Tutti i modelli includono solo variabili significative • Per i primi 4

Commenti • Tutti i modelli includono solo variabili significative • Per i primi 4 modelli tutte le statistiche vanno in un’unica direzione (mod. 4 è preferibile agli altri) • Se si desidera si può ricorrere ad una procedura formale di selezione attraverso test F-parziali per i primi 4 modelli – Si ricordi che se il modello completo differisce per una sola variabile dal modello ridotto, il test Fparziale è equivalente al t-test della variabile aggiuntiva nel modello completo.

 • Il confronto tra il modello 4 ed il modello 5 viene fatto

• Il confronto tra il modello 4 ed il modello 5 viene fatto attraverso la ricostruzione di R 2 e DS calcolando i valori di salario previsti in base al modello moltiplicativo (vedi lezione 5). • In base a R 2 e DS ricostruiti, tenendo conto che tutte le variabili sono significative, il modello 5 è preferibile. • Dato che sia il modello 4 che il modello 5 sono molto buoni potrebbero però entrare in gioco considerazioni sull’interpretabilità del modello. Si noti infatti che il modello 4 comunica in maniera più diretta l’effetto delle singole variabili sul salario. Il logaritmo del salario è invece più ostico da digerire. • Se l’analista preferisce dare maggior peso a quest’ultimo aspetto, il modello 4 è preferibile al modello 5.

Costruzione gerarchica di modelli • Una tecnica tipica di costruzione dei modelli, definita gerarchica,

Costruzione gerarchica di modelli • Una tecnica tipica di costruzione dei modelli, definita gerarchica, è quella che, individuate una serie di variabili rilevanti per il fenomeno in esame (e raccolti i dati), introduce le variabili una alla volta, o a blocchi, costruendo modelli via più complessi. • La scelta del modello «migliore» viene fatta attraverso test F parziali. • Molto spesso i ricercatori sono interessati ad analizzare gli effetti di alcune (poche) variabili, tuttavia inseriscono (prima di tutto) anche altre variabili nel modello (le cd variabili di controllo) per evitare la distorsione da variabili omesse.

Esempio: effetti della deregolamentazione Si consideri il problema di modellare il prezzo praticato dagli

Esempio: effetti della deregolamentazione Si consideri il problema di modellare il prezzo praticato dagli auto-trasportatori in Florida. Negli anni 80 la Florida rimosse alcuni vincoli regolamentari sul prezzo praticato per gli auto-trasporti interni Uno degli obiettivi dell’analisi di regressione, oltre ad analizzare la struttura del fenomeno, è quello di verificare l’effetto della deregolamentazione sui prezzi praticati. Usiamo un approccio gerarchico per costruire dei modelli che permettano di analizzare il fenomeno

I dati a disposizione • • • Y = ln(prezzo praticato per miglio-tonnellata); x

I dati a disposizione • • • Y = ln(prezzo praticato per miglio-tonnellata); x 1 = distanza della spedizione(centinaia di miglia); x 2 = peso della merce spedita (migliaia di libbre); x 3 = 1 se nel periodo della deregolamentazione; 0 se no; x 4 = Origine della spedizione: 1 se Miami, 0 se Jacksonville; • n = 134 Data: trucking. dat

Modello 1 (M 1) E(Y) = β 0+ β 1 x 1 + β

Modello 1 (M 1) E(Y) = β 0+ β 1 x 1 + β 2 x 2 + β 3 x 1 x 2 + β 6 x 3 + β 7 x 4 + β 8 x 3 x 4 • Nel primo modello si inseriscono tutte le variabili e l’interazione tra peso e distanza e tra le dummy. • Si noti che in pratica si definisce una diversa intercetta per i quattro gruppi: § Carichi che partono da Miami in regime deregolamentato: x 3 = 1 e x 4 = 1 E(Y) = β 0+ β 6 + β 7 + β 8 + β 1 x 1 + β 2 x 2 + β 3 x 1 x 2 § Carichi che partono da Miami prima della deregolamentazione § …

Modello 2 (M 2) E(Y) = β 0+ β 1 x 1 + β

Modello 2 (M 2) E(Y) = β 0+ β 1 x 1 + β 2 x 2 + β 3 x 1 x 2 + β 4 x 21 + β 5 x 22 + β 6 x 3 + β 7 x 4 + β 8 x 3 x 4 Nel secondo modello si introducono degli effetti quadratici per Peso e Distanza Test F parziale di scelta tra M 1 e M 2 H 0: β 4= β 5 = 0. La statistica F è 30, 35 con p-value 0, 000. Il modello 2 è preferito al modello 1

Modello 3 (M 3) E(Y) = β 0+ β 1 x 1 + β

Modello 3 (M 3) E(Y) = β 0+ β 1 x 1 + β 2 x 2 + β 3 x 1 x 2 + β 4 x 21 + β 5 x 22 + β 6 x 3 + β 7 x 4 + β 8 x 3 x 4 + β 9 x 1 x 3 + β 10 x 1 x 4 + β 11 x 1 x 3 x 4 X 1 * dummies + β 12 x 2 x 3 + β 13 x 2 x 4 + β 14 x 2 x 3 x 4 X 2 * dummies + β 15 x 1 x 2 x 3 + β 16 x 1 x 2 x 4 + β 17 x 1 x 2 x 3 x 4 X 1 X 2 * dummies Nel modello 3 si ipotizzano pendenze ed interazioni diverse per i quattro gruppi. Gli effetti sono ottenuti mediante interazione tra dummy e variabili quantitative (ultime tre righe del modello)

Modello 4 (M 1) E(Y) = β 0+ β 1 x 1 + β

Modello 4 (M 1) E(Y) = β 0+ β 1 x 1 + β 2 x 2 + β 3 x 1 x 2 + β 4 x 21 + β 5 x 22 + β 6 x 3 + β 7 x 4 + β 8 x 3 x 4 + β 9 x 1 x 3 + β 10 x 1 x 4 + β 11 x 1 x 3 x 4 + β 12 x 2 x 3 + β 13 x 2 x 4 + β 14 x 2 x 3 x 4 + β 15 x 1 x 2 x 3 + β 16 x 1 x 2 x 4 + β 17 x 1 x 2 x 3 x 4 + β 18 x 12 x 3 + β 19 x 12 x 4 + β 20 x 12 x 3 x 4 X 12 * dummies + β 21 x 22 x 3 + β 22 x 22 x 4 + β 23 x 22 x 3 x 4 X 22 * dummies Il modello 4 aggiunge effetti quadratici diversi per ciascun gruppo (ultime due righe del modello)

Test F parziali Test F parziale di scelta tra M 2 e M 3:

Test F parziali Test F parziale di scelta tra M 2 e M 3: H 0: β 9= β 10 = … = β 17 = 0. p-value 0, 000. Il modello 3 è preferito al modello 2 Test F parziale di scelta tra M 3 e M 4: H 0: β 18= β 19 = … = β 23 = 0. La statistica F è pari a 0. 25 con p-value 0, 67. Il modello 3 è preferito al modello 4. Il modello 3 è il modello adottato per analizzare il fenomeno in esame.

Altre ipotesi di interesse Scelto il modello rappresentativo del fenomeno, con F-test parziali ad-hoc

Altre ipotesi di interesse Scelto il modello rappresentativo del fenomeno, con F-test parziali ad-hoc possiamo verificare specifiche ipotesi Effetto origine. Se l’origine della spedizione non ha alcuna influenza tutti i coefficienti (della popolazione) associati alla variabile x 4 dovrebbero essere nulli H 0: β 7= β 8 = β 10= β 11 = β 13 = β 14 = β 16= β 17 = 0. F=3. 55 con p-value 0, 008. Effetto deregolamentazione. Tutti i coefficienti associati ad x 3 dovrebbero essere nulli H 0: β 6= β 8 = β 9= β 11 = β 12 = β 14 = β 15= β 17 = 0. La statistica F è 75. 44 con p-value 0, 000.

Un caso applicato The Impact of Extent of Telecommuting on Job Satisfaction: Resolving Inconsistent

Un caso applicato The Impact of Extent of Telecommuting on Job Satisfaction: Resolving Inconsistent Findings Timothy D. Golden and John F. Veiga Journal of Management 2005, 31: 301

Struttura dell’articolo • • • Introduzione Teorie e ipotesi Metodologia Risultati Discussione

Struttura dell’articolo • • • Introduzione Teorie e ipotesi Metodologia Risultati Discussione

Teorie e ipotesi (cenni) • “Most recently, Bailey and Kurland (2002) concluded, after reviewing

Teorie e ipotesi (cenni) • “Most recently, Bailey and Kurland (2002) concluded, after reviewing the telecommuting literature, that the empirical evidence linking telecommuting to job satisfaction is unclear, and Cooper and Kurland (2002) called for future research to examine the impact of varying levels of telecommuting. • On one hand, researchers have argued that telecommuting has a positive impact on job satisfaction […] ” • “On the other hand, research also suggests that these positive benefits may be offset by deteriorating work relationships and feelings of isolation […] ”

 • “To reconcile these inconsistent findings, we reason that the link between extent

• “To reconcile these inconsistent findings, we reason that the link between extent of telecommuting and job satisfaction might be curvilinear in the shape of an inverted U. [… ] low levels of telecommuting, in which a greater proportion of time is spent in the office, telecommuters are still able to manage important faceto-face work relationships […] at relatively high levels of telecommuting, a significant loss of face time and more social isolation […] ” • Hypothesis 1: The relationship between extent of telecommuting and job satisfaction is curvilinear in the shape of an inverted U.

“Although the literature suggests that telecommuters may enjoy greater job flexibility than non telecommuters

“Although the literature suggests that telecommuters may enjoy greater job flexibility than non telecommuters (Dubrin, 1991; Guimaraes&Dallow, 1999), whether individuals can fully benefit from telecommuting is likely to be influenced by the way in which they must perform their work activities. Hence, we posit that the nature of a telecommuter’s job, or job context, plays a contingent role. Specifically, we expect that the telecommuting–job satisfaction relationship will be moderated by differences in three salient aspects of the telecommuter’s job, including task interdependence, job discretion, and workscheduling latitude. ” Si ipotizza la presenza di interazioni

 • Hypothesis 2: Task interdependence moderates the curvilinear relationship between extent of telecommuting

• Hypothesis 2: Task interdependence moderates the curvilinear relationship between extent of telecommuting and job satisfaction. Specifically, for telecommuters with high interdependence, the rise in job satisfaction associated with less extensive levels of telecommuting will be slower, the decline in job satisfaction associated with more extensive telecommuting will be faster and more pronounced, and the greatest difference in satisfaction will occur at extensive levels of telecommuting. • Hypothesis 3: […] • Hypothesis 4: […]

Metodologia • “To control for organizational differences in company telecommuting practices, we sought out

Metodologia • “To control for organizational differences in company telecommuting practices, we sought out a large firm that has a large and active telecommuting program. The high-tech firm that agreed to participate in our study employs more than 40, 000 people and actively encourages its professional employees to telecommute. A random sample of 1, 000 of the firm’s professionallevel telecommuters was contacted via e-mail […] ” • “We received usable responses from 321 respondents, representing a 32% response rate. Respondents spent on average 23% of their work-week […] ”

Metodologia – Variabili raccolte • Job satisfaction was assessed using the three-item scale of

Metodologia – Variabili raccolte • Job satisfaction was assessed using the three-item scale of Overall Job Satisfaction • Extent of telecommuting was assessed by asking respondents to indicate the average number of hours per week they consistently spent away from their office working as a telecommuter […] • Task interdependence was assessed using five items from the measure developed by Pearce and Gregersen (1991). • Job discretionwas assessed using a fouritem autonomy measure developed by […]

 • Work-scheduling latitude. Latitude was assessed using a five-item measure developed by […]

• Work-scheduling latitude. Latitude was assessed using a five-item measure developed by […] • Control variables. In all analyses, we controlled for – gender, – age, – functional specialization, – telecommuting tenure. • We controlled for gender because men and women may experience differing levels of work-family conflict […]

 • Functional specialization was dummy coded as follows: – 1 = system analysis,

• Functional specialization was dummy coded as follows: – 1 = system analysis, – 2 = marketing, – 3 = programming, – 4 = engineering, – 5 = accounting, – 6 = sales, – 7 = other.

Risultati

Risultati

Test F parziale M 2 vs. M 1

Test F parziale M 2 vs. M 1

Predictor effect plot

Predictor effect plot