Corso di Analisi Statistica per le imprese Esercitazione

  • Slides: 32
Download presentation
Corso di Analisi Statistica per le imprese Esercitazione: Modello di regressione lineare semplice e

Corso di Analisi Statistica per le imprese Esercitazione: Modello di regressione lineare semplice e multipla Prof. L. Neri a. a. 2016 -2017 1

Verifica di ipotesi per i singoli parametri del modello – Test t Il contributo

Verifica di ipotesi per i singoli parametri del modello – Test t Il contributo (marginale) della singola variabile Xj (j=2, …, k) alla previsione di Y si può verificare attraverso il sistema di ipotesi: Se si accetta H 0, si conclude che, al variare di Xj, quando tutte le altre X rimangono immutate, il valore medio di Y rimane costante In altre parole, l’ipotesi nulla afferma che Xj non fornisce informazione utile per stimare Y al di là di quella fornita dalle altre variabili esplicative 2

Statistica test Al livello di significatività α, si accetta H 0 se il valore

Statistica test Al livello di significatività α, si accetta H 0 se il valore della statistica test calcolato sul campione cade nell’area di accettazione dell’ipotesi nulla, cioè se 3

Esempio – Vendite di gelato Risultati ottenuti su un campione di n=10 osservazioni Intercetta

Esempio – Vendite di gelato Risultati ottenuti su un campione di n=10 osservazioni Intercetta Prezzo Temperatura Coefficienti 6, 770 -0, 201 0, 281 Errore standard 1, 165 0, 054 0, 032 Stat t 5, 812 -3, 706 8, 898 p-value 0, 001 0, 008 0, 000 Per ciascun coefficiente il valore della statistica test è sufficientemente elevato (in valore assoluto) da portare al rifiuto dell’ipotesi nulla (come si legge anche dai bassi valori del p-value) Ciascuna delle due var. X fornisce un’utile informazione aggiuntiva per spiegare le variazioni nei valori campionari della var. Y, oltre a quella fornita dall’altra var. esplicativa 4

Analisi della varianza - test F Il test F è una procedura per sottoporre

Analisi della varianza - test F Il test F è una procedura per sottoporre a verifica l’ipotesi che i parametri del modello siano congiuntamente uguali a zero Se si accetta H 0 vuol dire che nessuna variabile esplicativa Xj (j=2, …, k) ha un effetto significativo su Y Se si accetta H 1, si conclude che c’è almeno una variabile esplicativa Xj da cui Y dipende significativamente 5

Analisi varianza e test F Generalizzando il risultato ottenuto nel modello di regressione lineare

Analisi varianza e test F Generalizzando il risultato ottenuto nel modello di regressione lineare semplice, la statistica test per verificare questa ipotesi è data da: Nella regressione semplice era: 6

Tabella ANOVA Fk, n-k; α Regione di rifiuto sulla coda destra della distribuzione Se

Tabella ANOVA Fk, n-k; α Regione di rifiuto sulla coda destra della distribuzione Se il valore empirico della statistica test F > Fk, n-k; α si rifiuta H 0 al livello di significatività prescelto 7

Test F ANOVA - Output Excel Modello Errore Totale gdl 2 7 9 SQ

Test F ANOVA - Output Excel Modello Errore Totale gdl 2 7 9 SQ MQ F p-value 13, 10 6, 55 42, 23 0, 00 1, 09 0, 16 14, 18 Per verificare Al livello α=0, 05 42, 23 > 4, 737 Si rifiuta H 0 L’evidenza campionaria contraddice l’ipotesi nulla La quantità venduta di gelato dipende linearmente da almeno una delle due variabili esplicative (prezzo e temperatura) 8

Esercizio 1 Per un campione di clienti, il gestore di una pizzeria che effettua

Esercizio 1 Per un campione di clienti, il gestore di una pizzeria che effettua consegne a domicilio registra la distanza (in km) dalla pizzeria al cliente e il tempo (in minuti) necessario per consegnare la pizza. Si vuole studiare la dipendenza lineare del tempo (Y) dalla distanza (X). Sappiamo che: Dev(X)=7, 45; Dev(Y)=TSS=26, 18; n=12; R 2=0, 895 a) Stimare il coefficiente della variabile X b) Costruire l’intervallo di confidenza al 90% per il suddetto coefficiente. c) Conoscendo che il tempo medio di consegna quando la distanza è pari a 2 km è di 3, 4 minuti e che la distanza media percorsa è di 2, 4 km, ricavare l’intervallo di confidenza al 95% per il tempo medio di consegna quando la distanza è pari a 2 km 9

(a) Per calcolare il coefficiente di regressione, ricaviamo prima il coefficiente di correlazione lineare

(a) Per calcolare il coefficiente di regressione, ricaviamo prima il coefficiente di correlazione lineare ρXY a partire da R 2 Un km di distanza in più fa aumentare il tempo medio di percorrenza di 1, 77 minuti, fermo restando tutto il resto (b) Gli estremi dell’intervallo di confidenza sono dati da dove 10

Dalla relazione si ricava Allora Quindi l’intervallo ha per estremi cioè c) Gli estremi

Dalla relazione si ricava Allora Quindi l’intervallo ha per estremi cioè c) Gli estremi dell’intervallo sono dati da: 11

dove L’intervallo è 12

dove L’intervallo è 12

Esercizio 2 Si stima un modello di regressione lineare semplice del tipo Y= β

Esercizio 2 Si stima un modello di regressione lineare semplice del tipo Y= β 0+ β 1 X per indagare la dipendenza lineare delle vendite annuali (Y, in migliaia di euro) di una catena di n=14 negozi dalla superficie (X, in metri quadri) dei negozi stessi. La seguente tabella riporta i risultati della stima. Coefficiente β 0 β 1 Stima 0, 964 1, 670 Errore standard 0, 526 0, 157 (a) Stimare le vendite medie per i negozi con una superficie di 35 metri quadri (b) Al livello di significatività α=0, 10 verificare l’ipotesi di assenza di dipendenza lineare delle vendite dalla superficie (c) Al livello di significatività α=0, 05 verificare l’ipotesi che la retta di regressione passi per l’origine degli assi. 13

(a) Le vendite medie per X=35 sono date da: Questo indica che la media

(a) Le vendite medie per X=35 sono date da: Questo indica che la media delle vendite annuali dei negozi di 35 mq è pari a 59414 € (b) Il valore della statistica test è Poiché 10, 64>1, 7823 si rifiuta H 0: β 1=0 e si accetta H 1: β 1≠ 0 (p-value=0, 00). C’è evidenza di una relazione di dipendenza lineare delle vendite dalla superficie dei negozi -t 10; 0, 05=-1, 7823 t 10; 0, 05 =1, 7823 14

(c) Il valore della statistica test è Poiché -2, 2281 < 1, 83 <

(c) Il valore della statistica test è Poiché -2, 2281 < 1, 83 < 2, 2281 l’ipotesi H 0: β 0=0 contro l’alternativa bilaterale non può essere rifiutata (p-value=0, 097). Accettare l’ipotesi nulla corrisponde a considerare che la relazione di dipendenza lineare nella popolazione è descritta da una retta che passa per l’origine. -t 10; 0, 025=-2, 2281 t 10; 0, 025 =2, 2281 15

Esercizio 3 Sulla base di n= 17 osservazioni campionarie si è stimato un modello

Esercizio 3 Sulla base di n= 17 osservazioni campionarie si è stimato un modello di regressione lineare in cui il reddito familiare (Y) è espresso in funzione del numero di componenti (X). Completare la seguente tabella ANOVA: Fonte della variazione Regressione Errore Totale Somma dei quadrati (Devianza) 3, 8 ? ? Gradi Media dei di quadrati libertà (Varianza) ? ? ? 1, 8 ? Statistica F F=? a) Al livello α=0, 05 verificare la significatività della relazione di dipendenza lineare del reddito dal numero di componenti b) Ricavare R 2. 16

La tavola ANOVA risultante è Fonte della variazione Regressione Residuo Totale Somma dei Gradi

La tavola ANOVA risultante è Fonte della variazione Regressione Residuo Totale Somma dei Gradi di Media dei quadrati libertà quadrati (Devianza) (Varianza) 3, 8 1 3, 8 27, 0 15 1, 8 30, 8 16 Statistica F 2, 11 (a) Poiché 2, 11 < 4, 54 si accetta H 0: β 1=0 contro H 1: β 1≠ 0 (pvalue=0, 167). La relazione di dipendenza lineare di Y da X non è significativa. (b) F 1, 15; 0, 05=4, 54 17

Esercizio 4 Si stima un modello di regressione multipla dove la variabile risposta è

Esercizio 4 Si stima un modello di regressione multipla dove la variabile risposta è la media mensile di utilizzo del cellulare (in minuti) Le variabili esplicative sono: BOLLETTA (Costo medio mensile delle telefonate, in euro) LAVORO (Percentuale di utilizzo per uso lavoro) REDDITO (Reddito familiare mensile, in migliaia di euro) Si ottengono i seguenti risultati: Statistica della regressione R multiplo 0, 540 R al quadrato 0, 292 R al quadrato corretto 0, 283 Errore standard 39, 424 Osservazioni 250 ANALISI VARIANZA gdl Regressione 3 Residuo 246 Totale 249 SQ MQ F p-value 157695, 699 52565, 233 33, 821 0, 000 382340, 714 1554, 231 540036, 413 18

 Intercetta BOLLETTA LAVORO REDDITO Coefficienti 29, 625 0, 885 0, 536 0, 956

Intercetta BOLLETTA LAVORO REDDITO Coefficienti 29, 625 0, 885 0, 536 0, 956 Errore standard 15, 503 0, 147 0, 323 0, 233 Stat t 1, 911 6, 016 1, 662 4, 112 p. Inferiore Superiore value 95% 0, 057 -0, 910 60, 161 0, 000 0, 595 1, 175 0, 098 -0, 099 1, 172 0, 000 0, 498 1, 414 a) Aumentando di un euro il costo medio della bolletta (tenendo costante il valore delle altre variabili) di quanto aumenta la media mensile di utilizzo del cellulare? b) Considerando un livello di significatività α=0, 10 indicare quali sono le variabili esplicative che presentano un coefficiente di regressione significativamente diverso da zero c) Ad un livello di confidenza pari a 1 -α=0, 95 il coefficiente di regressione della var. BOLLETTA può essere pari a 1, 2? d) La bontà di adattamento del modello è molto elevata? e) Si può rifiutare l’ipotesi nulla che i coefficienti di regressione siano tutti uguali a zero per α=0, 05? 19

a) b) c) d) e) L’effetto di un aumento di un euro del costo

a) b) c) d) e) L’effetto di un aumento di un euro del costo medio della bolletta sulla media mensile di utilizzo del cellulare (tenendo costante il valore delle altre variabili) si legge dal valore del coefficiente della variabile BOLLETTA. In questo caso la media mensile di utilizzo del cellulare subisce un incremento di 0, 885 minuti Al livello di significatività α=0, 10 i coefficienti di tutte le variabili esplicative e anche quello dell’intercetta sono significativamente diversi da zero, poiché il loro p-value è minore di 0, 10 Al livello 1 -α=0, 95 il coefficiente di regressione della var. BOLLETTA non può essere pari a 1, 2. La stima intervallare di tale coefficiente (0, 595; 1, 175) non comprende, infatti, il valore 1, 2 La bontà di adattamento del modello non è molto elevata, in quanto la variabilità spiegata dal modello (misurata da R 2) è pari al 29, 2% L’ipotesi nulla che tutti i coefficienti di regressione siano simultaneamente uguali a zero si può rifiutare, visto che il valore F della tavola ANOVA ha associato un p-value pari a zero 20

Introduzione di una o più variabili dummy Per stimare la domanda di gelato possiamo

Introduzione di una o più variabili dummy Per stimare la domanda di gelato possiamo ipotizzare che, oltre al prezzo e alla temperatura, la quantità venduta di gelato dipenda anche dal giorno della settimana. Ci aspettiamo che le vendite siano maggiori nei fine settimana rispetto agli altri giorni. Questa indicazione ci sarebbe molto utile per fissare la produzione nei diversi giorni della settimana. Introduciamo nel modello come terza variabile esplicativa una variabile dummy X 3 (GIORNO) 21

Interpretazione del coefficiente della variabile dummy Modello stimato: finesettimana X 3 1 da lun

Interpretazione del coefficiente della variabile dummy Modello stimato: finesettimana X 3 1 da lun a ven 0 Modello stimato Il coefficiente , così come gli altri, è stimato con il metodo dei minimi quadrati. Rappresenta la differenza tra le vendite medie giornaliere di gelato quando X 3=1 (finesettimana) e le vendite medie giornaliere quando X 3=0 (dal lun al ven), se il prezzo e la temperatura rimangono costanti 22

Interpretazione del coefficiente della variabile dummy Coefficienti Errore standard Stat t Intercetta 6, 123

Interpretazione del coefficiente della variabile dummy Coefficienti Errore standard Stat t Intercetta 6, 123 0, 649 9, 433 PREZ (X 1) -0, 165 0, 031 -5, 395 TEMP (X 2) 0, 272 0, 017 15, 830 GIORNO (X 3) 0, 607 0, 144 4, 228 p-value 0, 000 0, 002 0, 000 0, 006 Il coefficiente della variabile dummy GIORNO è significativamente diverso da 0 (p-value=0, 006). Conoscere il giorno (se dal lun al ven oppure sab/dom) è utile per spiegare la variazione nei valori campionari delle vendite, se il prezzo e la temperatura sono noti A parità di prezzo e temperatura, le vendite stimate nei fine settimana sono in media superiori di 0, 607 kg rispetto agli altri giorni della settimana 23

13. 8 lun-ven 13. 3 sab-dom 12. 8 12. 3 11. 8 11. 3

13. 8 lun-ven 13. 3 sab-dom 12. 8 12. 3 11. 8 11. 3 10. 8 Differenza=0, 607 10. 3 Vendite stimate Interpretazione del coefficiente della variabile dummy 13. 8 13. 3 12. 8 12. 3 11. 8 Differenza= 0, 607 11. 3 10. 8 10. 3 9. 8 10 12 14 Prezzo 16 18 20 20 25 30 35 Temperatura A destra, la relazione tra A sinistra, la relazione tra VENDITE stimate e PREZZO TEMPERATURA quando TEMP=29. PREZ=15. In blu la retta quando GIORNO=1 (sab-dom), in rosso la retta quando GIORNO=0 (lun-ven) 24

Riepilogo output Statistica della regressione R multiplo 0, 990 R al quadrato 0, 981

Riepilogo output Statistica della regressione R multiplo 0, 990 R al quadrato 0, 981 R al quadrato corretto 0, 971 Errore standard 0, 213 Osservazioni 10 ANALISI VARIANZA gdl Regressione 3 Errore 6 Totale 9 Intercetta PREZ TEMP GIORNO SQ MQ F p-value 13, 911 4, 637 101, 986 0, 000 0, 273 0, 045 14, 184 Coefficie Errore Inferiore Superiore nti standard Stat t p-value 95% 6, 123 0, 649 9, 433 0, 000 4, 534 7, 711 -0, 165 0, 031 -5, 395 0, 002 -0, 240 -0, 090 0, 272 0, 017 15, 830 0, 000 0, 230 0, 314 0, 607 0, 144 4, 228 0, 006 0, 256 0, 959 25

Valutazione del modello con la variabile dummy Nel complesso, con l’inserimento della variabile qualitativa

Valutazione del modello con la variabile dummy Nel complesso, con l’inserimento della variabile qualitativa X 3 (GIORNO), il modello migliora il suo adattamento Rispetto al modello con solo prezzo e temperatura come variabili esplicative: § R 2 corretto è più alto § l’errore standard s della regressione è più piccolo § gli errori standard dei coefficienti stimati sono più piccoli 26

Se le modalità della variabile qualitativa sono più di due? Un altro fattore che

Se le modalità della variabile qualitativa sono più di due? Un altro fattore che potrebbe influenzare le vendite di gelato sono le condizioni del tempo. Immaginiamo di voler distinguere tra le tre condizioni di “sereno”, “coperto”, “piovoso”. Dobbiamo introdurre nel modello due variabili dummy 27

Due variabili dummy per un carattere con tre modalità Le due variabili X 4

Due variabili dummy per un carattere con tre modalità Le due variabili X 4 e X 5 servono per specificare le tre condizioni meteorologiche sereno X 4 1 X 5 0 coperto 0 1 piovoso 0 0 Modello stimato “piovoso” è la categoria di riferimento (quella per la quale le variabili dummy valgono entrambe 0) 28

Interpretazione dei coefficienti sereno X 4 1 X 5 0 coperto 0 1 piovoso

Interpretazione dei coefficienti sereno X 4 1 X 5 0 coperto 0 1 piovoso 0 0 Modello stimato stima la differenza nelle vendite medie tra giorni sereni (X 4=1) e giorni piovosi (la categoria di riferimento) stima la differenza nelle vendite medie tra giorni coperti (X 5=1) e giorni piovosi (la categoria di riferimento) 29

Esercizio – Regressione multipla Su un campione di n=391 automobili si stima un modello

Esercizio – Regressione multipla Su un campione di n=391 automobili si stima un modello di regressione multipla Var. risposta: CONSUMO (Km/l) Var. esplicative: • MOTORE (Cilindrata in cm 3) • CV (Potenza in Cavalli Vapore) • PESO • ACCEL (Accelerazione, secondi per passare da 0 a 100 km/h)) La var. ORIGINE (Nazione produttrice) presentava tre modalità: ITALIA, EUROPA, GIAPPONE Si introducono due variabili dummy • ORIGINE 1 (=1 per auto italiane) • ORIGINE 2 (=1 per auto europee non italiane) (la categoria di riferimento è “auto giapponesi” 30

Esercizio – Risultati regressione multipla Statistica della regressione R multiplo 0, 846 R al

Esercizio – Risultati regressione multipla Statistica della regressione R multiplo 0, 846 R al quadrato 0, 716 R al quadrato corretto 0, 712 Errore standard 4, 176 Osservazioni 391 ANALISI VARIANZA gdl SQ MQ Regressione 6 16882, 010 2813, 668 Residuo 384 6695, 402 17, 436 Totale 390 23577, 412 Intercetta MOTORE CV PESO ACCEL ORIGINE 1 ORIGINE 2 Coefficienti 41, 558 0, 002 -0, 067 -0, 014 -0, 123 -2, 805 -1, 751 Errore standard 2, 262 0, 007 0, 017 0, 002 0, 125 0, 695 0, 702 Stat t 18, 376 0, 214 -3, 899 -5, 738 -0, 987 -4, 034 -2, 495 F 161, 372 p-value 0, 000 0, 830 0, 000 0, 324 0, 000 0, 013 Inferiore Superiore 95% 37, 112 46, 005 -0, 013 0, 016 -0, 100 -0, 033 -0, 019 -0, 009 -0, 369 0, 122 -4, 171 -1, 438 -3, 131 -0, 371 31

Esercizio a) Considerando un livello di significatività α=0, 05 indicare quali sono le variabili

Esercizio a) Considerando un livello di significatività α=0, 05 indicare quali sono le variabili esplicative che presentano un coefficiente di regressione significativamente diverso da zero b) Ad un livello di confidenza pari a 1 -α=0, 95 il coefficiente di regressione della var. PESO può essere di segno positivo? c) La bontà di adattamento del modello è sufficientemente elevata? d) Si può accettare l’ipotesi nulla che i coefficienti di regressione siano tutti uguali a zero per α=0, 01? e) Tenendo fisse le altre var. esplicative, qual è la differenza nel consumo medio tra auto italiane e auto giapponesi? 32