Esercizi su regressione lineare semplice e multipla Per

  • Slides: 32
Download presentation
Esercizi su regressione lineare semplice e multipla Per l’esame di Psicometria con laboratorio di

Esercizi su regressione lineare semplice e multipla Per l’esame di Psicometria con laboratorio di SPSS 2 Corso di laurea in Scienze e tecniche psicologiche. A cura di Giulio Costantini giulio. costantini@unimib. it 1

I seguenti esercizi si svolgono sul dataset allegato, Dataset. Regressione. Chi 2. sav. Tutti

I seguenti esercizi si svolgono sul dataset allegato, Dataset. Regressione. Chi 2. sav. Tutti i dati sono stati inventati appositamente per questa esercitazione. Vi consiglio di provare a svolgere gli esercizi, da soli o anche in gruppo, ma senza guardare le soluzioni. Dopo aver provato a risolverli con impegno, guardare le soluzioni. Se anche dopo aver guardato le soluzioni incontrate qualche difficoltà, vi invito a usare il forum in modo che i vostri dubbi siano chiariti anche a beneficio dei colleghi. 2

Descrizione del dataset • ID = identificativo del soggetto • Genere • A ciascun

Descrizione del dataset • ID = identificativo del soggetto • Genere • A ciascun soggetto sono stati somministrati i seguenti test: Ansia, Ottimismo, Intelligenza, Memoria di Lavoro, Test di Attenzione. • A ciascun soggetto è stato chiesto di completare un difficilissimo Sudoku. Il punteggio (variabile Punteggio. Sudoku) è stato attribuito a seconda di quanto si è avvicinato alla soluzione • Per ciascun soggetto sono state rilevate anche le seguenti variabili: provenienza geografica, colore degli occhi e tipo di auto. 3

Esercizio 1 A) Svolgere in SPSS la regressione semplice di Test. Attenzione su Ansia

Esercizio 1 A) Svolgere in SPSS la regressione semplice di Test. Attenzione su Ansia e interpretarne i risultati. Per regressione di Y su X si intende che X è predittore e Y è predetto. Esaminare la relazione tra le varaibili con un grafico. Esaminare anche la relazione tra punteggi predetti e residui con un grafico. Trarre conclusioni sull’appropriatezza del modello. Svolgere anche le seguenti regressoni: B) Di Test. Attenzione su Genere C) Di Test. Attenzione su Ottimismo 4

Esercizio 2 A) Svolgere e interpretare la regressione multipla di Test. Attenzione su Intelligenza

Esercizio 2 A) Svolgere e interpretare la regressione multipla di Test. Attenzione su Intelligenza e Memoria di Lavoro. B) Svolgere la Regressione multipla di Test. Attenzione su Intelligenza + Memoria. Di. Lavoro + Ansia + Ottimismo + Genere. Interpretando i risultati riflettete su come questi possono cambiare quando si aggiungono predittori a una regressione. 5

Esercizio 3 A) Svolgere la regressione lineare semplice di Perormance. Sudoku su Intelligenza. Da

Esercizio 3 A) Svolgere la regressione lineare semplice di Perormance. Sudoku su Intelligenza. Da un’analisi del legame tra i residui e i predetti (basta un grafico) potete concludere che il modello che vi è stato chiesto di usare, la “regressione lineare” (cioè una linea retta), sia un buon modello della relazione tra le due variabili? Spiegate il perché. B) Esercizio bonus: dal grafico riuscite a intuire quale funzione potrebbe rappresentare meglio la relazione tra le due variabili? 6

Esercizio 4 La provenienza geografica e il colore degli occhi sono associati? Se sì,

Esercizio 4 La provenienza geografica e il colore degli occhi sono associati? Se sì, quali combinazioni di queste variabili sono particolarmente responsabili di questa associazione? 7

Esercizio 5 La provenienza geografica e il il tipo di automobile sono associati? Se

Esercizio 5 La provenienza geografica e il il tipo di automobile sono associati? Se sì, quali combinazioni di queste variabili sono particolarmente responsabili di questa associazione? 8

Soluzioni 9

Soluzioni 9

Esercizio 1 A Per svolgere le regressioni semplici e multiple in SPSS, aprire il

Esercizio 1 A Per svolgere le regressioni semplici e multiple in SPSS, aprire il menu Analizza > Regressione > Lineare. Il menu grafici permette di esaminare il grafico predetti/residui 10

Questi grafici permettono di esaminare se i residui si distribuiscono normalmente. “Istogramma” restituisce l’istogramma

Questi grafici permettono di esaminare se i residui si distribuiscono normalmente. “Istogramma” restituisce l’istogramma con curva normale sovraimposta per un’ispezione visiva. Il “Grafico di probabilità normale” restituisce un qq-plot: se i residui si distribuiscono normalmente, il grafico prende la forma di una retta, deviazioni significative dalla retta indicano una distribuzione non normale. ZPRED sono i punteggi predetti standardizzati, ZRESID sono i residui standarrdizzati. 11

R 2 =. 036, quindi il modello spiega il 3. 6% della varianza della

R 2 =. 036, quindi il modello spiega il 3. 6% della varianza della variabile dipendente Il test F indica che la porzione di varianza della varabile dipendente spiegata da tutti i predittori (in questo caso, uno solo) è significativamente diversa da zero, F(1, 198) = 7. 39, p =. 007 Guardiamo i coefficienti standardizzati, beta = -. 194 indica che all’aumentare di 1 deviazione standard di ansia, il punteggio predetto nel test di attenzione diminuisce di. 194 d. s. Il coefficiente è significativamente diverso da 0 (p =. 007) 12

I grafici non rivelano deviazioni significative dei residui dalla distribuzione normale. 13

I grafici non rivelano deviazioni significative dei residui dalla distribuzione normale. 13

Il grafico predetti-residui non indica un trend specifico, i punti sono distribuiti casualmente intorno

Il grafico predetti-residui non indica un trend specifico, i punti sono distribuiti casualmente intorno al valore zero a tutti i livelli dei punteggi predetti, quindi il modello sembra rappresentare bene i dati. 14

Esercizio 1 B Il genere non sembra essere un predittore significativo della performance nel

Esercizio 1 B Il genere non sembra essere un predittore significativo della performance nel test di attenzione Il coefficiente beta negativo indica che i maschi (codificati come 0) hanno una performance marginalmente migliore delle femmine (codificate come 1). Il coefficiente beta però non è significativo (p =. 10) 15

I grafici non rivelano deviazioni significative dei residui dalla distribuzione normale. Il grafico predetti-residui

I grafici non rivelano deviazioni significative dei residui dalla distribuzione normale. Il grafico predetti-residui non indica un trend specifico, i punti sono distribuiti casualmente intorno al valore zero a tutti i livelli dei punteggi predetti, quindi il modello sembra rappresentare bene i dati. In questo caso, notate che i punteggi predetti sono solo due, uno per i maschi e uno per le femmine 16

Esercizio 1 C R 2 =. 037, quindi il modello spiega il 3. 7%

Esercizio 1 C R 2 =. 037, quindi il modello spiega il 3. 7% della varianza della variabile dipendente Il test F indica che la porzione di varianza della varabile dipendente spiegata da tutti i predittori (in questo caso, uno solo) è significativamente diversa da zero, F(1, 198) = 7. 37, p =. 006 Guardiamo i coefficienti standardizzati, beta =. 192 indica che all’aumentare di 1 deviazione standard di ottimismo, il punteggio predetto nel test di attenzione aumenta di. 192 d. s. Il coefficiente è significativamente diverso da 0 (p =. 006) 17

I grafici non rivelano deviazioni significative dei residui dalla distribuzione normale. Il grafico predetti-residui

I grafici non rivelano deviazioni significative dei residui dalla distribuzione normale. Il grafico predetti-residui non indica un trend specifico, i punti sono distribuiti casualmente intorno al valore zero a tutti i livelli dei punteggi predetti, quindi il modello sembra rappresentare bene i dati. 18

Esercizio 2 A Per svolgere le regressioni multiple è sufficiente inserire più di una

Esercizio 2 A Per svolgere le regressioni multiple è sufficiente inserire più di una variabile indipendente 19

R 2 =. 255, quindi il modello spiega il 22. 5% della varianza della

R 2 =. 255, quindi il modello spiega il 22. 5% della varianza della variabile dipendente Il test F indica che la porzione di varianza della varabile dipendente spiegata da tutti i predittori (in questo caso, due) è significativamente diversa da zero, F(1, 197) = 35. 09, p <. 001 Guardiamo i coefficienti standardizzati, beta =. 420 indica che, mantenendo costanti gli altri predittori (memoria di lavoro), all’aumentare di 1 d. s. di intelligenza il punteggio predetto nel test di attenzione aumenta di. 420 d. s. ; similmente all’aumentare di 1 d. s. di memoria di lavoro, al netto dell’intelligenza, il punteggio predetto nel test di attenzione aumenta di. 184 ds. Intelligenza è quindi un predittore migliore di memoria di lavoro in questo caso. Entrambi i coefficienti sono significativi. 20

I grafici non rivelano deviazioni significative dei residui dalla distribuzione normale. Il grafico predetti-residui

I grafici non rivelano deviazioni significative dei residui dalla distribuzione normale. Il grafico predetti-residui non indica un trend specifico, i punti sono distribuiti casualmente intorno al valore zero a tutti i livelli dei punteggi predetti, quindi il modello sembra rappresentare bene i dati. 21

Esercizio 2 B R 2 =. 319, quindi il modello spiega il 31. 9%

Esercizio 2 B R 2 =. 319, quindi il modello spiega il 31. 9% della varianza della variabile dipendente Il test F indica che la porzione di varianza della varabile dipendente spiegata da tutti i predittori (in questo caso, cinque) è significativamente diversa da zero, F(1, 194) = 18. 202, p <. 001 22

Solo tre su cinque delle variabili indipendenti predicono significativamente Test. Attenzione e sono Intelligenza

Solo tre su cinque delle variabili indipendenti predicono significativamente Test. Attenzione e sono Intelligenza (β =. 442, p <. 001), memoria di lavoro (β =. 197, p =. 002) e Ansia (β = -. 222, p =. 001). Ottimismo, che pure era un predittore significativo, non predice più la variabile dipendente una volta tenuti sotto controllo l’effetto degli altri predittori. 23

I grafici non rivelano deviazioni significative dei residui dalla distribuzione normale. Il grafico predetti-residui

I grafici non rivelano deviazioni significative dei residui dalla distribuzione normale. Il grafico predetti-residui non indica un trend specifico, i punti sono distribuiti casualmente intorno al valore zero a tutti i livelli dei punteggi predetti, quindi il modello sembra rappresentare bene i dati. 24

Esercizio 3 R 2 =. 237, quindi il modello spiega il 23. 7% della

Esercizio 3 R 2 =. 237, quindi il modello spiega il 23. 7% della varianza della variabile dipendente Il test F indica che la porzione di varianza della varabile dipendente spiegata da tutti i predittori (in questo caso, uno solo) è significativamente diversa da zero, F(1, 198) = 61. 558, p <. 001 Guardiamo i coefficienti standardizzati, beta =. 487 indica che all’aumentare di 1 deviazione standard di intelligenza, il punteggio predetto della performance sudoku aumenta d di. 487 d. s. Il coefficiente è significativamente diverso da 0 (p <. 001) 25

Sebbene la distribuzione dei residui sia meno chiaramente normale rispetto ai casi precedenti, non

Sebbene la distribuzione dei residui sia meno chiaramente normale rispetto ai casi precedenti, non si evincono violazioni eccessive. 26

Il grafico predetti-residui questa volta indica un trend specifico: i residui sembrano distribuirsi come

Il grafico predetti-residui questa volta indica un trend specifico: i residui sembrano distribuirsi come in modo assolutamente non uniforme ai diversi livelli dei punteggi predetti, in particolare assumono la forma di una parabola. Bonus: la forma della relazione tra intelligenza e performance nel sudoku è proprio una parabola, espressa dall’equazione Y = b 0 + b 1 X + b 2 X^2 Non avete al momento gli strumenti per svolgere questo tipo di regressione in SPSS, l’importante è riconoscere dall’ispezione visiva che la relazione tra le due varaibili non è ben rappresentata da una retta. 27

Esercizio 4 Poiché le due variabili colore degli occhi e provenienza geografica sono nominali,

Esercizio 4 Poiché le due variabili colore degli occhi e provenienza geografica sono nominali, è necessario svolgere un’analisi del chiquadrato sulla loro tabella di contingenza. Trovate questo tipo di analisi in Analizza > Statistiche descrittive > Tabelle di contingenza 28

Nella scheda “statistiche” possiamo chiedere il chi quadrato, mentre nella scheda celle chiediamo di

Nella scheda “statistiche” possiamo chiedere il chi quadrato, mentre nella scheda celle chiediamo di avere i conteggi previsti (le frequenze attese), i conteggi osservati e i residui standardizzati 29

30

30

Nessuna cella ha conteggio previsto inferiore a 5, quindi possiamo procedere con il test

Nessuna cella ha conteggio previsto inferiore a 5, quindi possiamo procedere con il test del chi quadrato senza problemi. Il test del chi-quadrato è significativo, quindi le due variabili sono associate, χ2(6) = 38. 285, p <. 001 Esaminiamo le celle i cui residui standardizzati sono in valore assoluto > 2. Indicano che l’associazione tra le variabili provenienza e colore degli occhi è dovuta a una presenza di Finlandesi con gli occhi blu e di Italiani con gli occhi verdi superiore a quanto ci si aspetterebbe se non ci fosse associazione e a una presenza di Italiani con occhi blu inferiore alle attese. 31

Esercizio 5 Nessuna cella ha conteggio previsto inferiore a 5, quindi possiamo procedere con

Esercizio 5 Nessuna cella ha conteggio previsto inferiore a 5, quindi possiamo procedere con il test del chi quadrato senza problemi. Il test del chi-quadrato non è significativo. Questo indica che non possiamo rifiutre l’ipotesi nulla che non ci sia associazione tra le due varaibili , χ2(6) = 9. 199, p =. 163 Poiché il test non è significativo, non interpretiamo le discrepanze tra punteggi e residui. Non possiamo infatti escludere che queste siano dovute alla semplice fluttuazione campionaria. 32