Esercizi su regressione lineare semplice e multipla Per

I seguenti esercizi si svolgono sul dataset allegato, Dataset. Regressione. Chi 2. sav. Tutti

Descrizione del dataset • ID = identificativo del soggetto • Genere • A ciascun

Esercizio 1 A) Svolgere in SPSS la regressione semplice di Test. Attenzione su Ansia

Esercizio 2 A) Svolgere e interpretare la regressione multipla di Test. Attenzione su Intelligenza

Esercizio 3 A) Svolgere la regressione lineare semplice di Perormance. Sudoku su Intelligenza. Da

Esercizio 4 La provenienza geografica e il colore degli occhi sono associati? Se sì,

Esercizio 5 La provenienza geografica e il il tipo di automobile sono associati? Se

Esercizio 1 A Per svolgere le regressioni semplici e multiple in SPSS, aprire il

Questi grafici permettono di esaminare se i residui si distribuiscono normalmente. “Istogramma” restituisce l’istogramma

R 2 =. 036, quindi il modello spiega il 3. 6% della varianza della

I grafici non rivelano deviazioni significative dei residui dalla distribuzione normale. 13

Il grafico predetti-residui non indica un trend specifico, i punti sono distribuiti casualmente intorno

Esercizio 1 B Il genere non sembra essere un predittore significativo della performance nel

I grafici non rivelano deviazioni significative dei residui dalla distribuzione normale. Il grafico predetti-residui

Esercizio 1 C R 2 =. 037, quindi il modello spiega il 3. 7%

Esercizio 2 A Per svolgere le regressioni multiple è sufficiente inserire più di una

R 2 =. 255, quindi il modello spiega il 22. 5% della varianza della

Esercizio 2 B R 2 =. 319, quindi il modello spiega il 31. 9%

Solo tre su cinque delle variabili indipendenti predicono significativamente Test. Attenzione e sono Intelligenza

Esercizio 3 R 2 =. 237, quindi il modello spiega il 23. 7% della

Sebbene la distribuzione dei residui sia meno chiaramente normale rispetto ai casi precedenti, non

Il grafico predetti-residui questa volta indica un trend specifico: i residui sembrano distribuirsi come

Esercizio 4 Poiché le due variabili colore degli occhi e provenienza geografica sono nominali,

Nella scheda “statistiche” possiamo chiedere il chi quadrato, mentre nella scheda celle chiediamo di

Nessuna cella ha conteggio previsto inferiore a 5, quindi possiamo procedere con il test

Esercizio 5 Nessuna cella ha conteggio previsto inferiore a 5, quindi possiamo procedere con

Slides: 32

Download presentation

Esercizi su regressione lineare semplice e multipla Per l’esame di Psicometria con laboratorio di SPSS 2 Corso di laurea in Scienze e tecniche psicologiche. A cura di Giulio Costantini giulio. costantini@unimib. it 1

I seguenti esercizi si svolgono sul dataset allegato, Dataset. Regressione. Chi 2. sav. Tutti i dati sono stati inventati appositamente per questa esercitazione. Vi consiglio di provare a svolgere gli esercizi, da soli o anche in gruppo, ma senza guardare le soluzioni. Dopo aver provato a risolverli con impegno, guardare le soluzioni. Se anche dopo aver guardato le soluzioni incontrate qualche difficoltà, vi invito a usare il forum in modo che i vostri dubbi siano chiariti anche a beneficio dei colleghi. 2

Descrizione del dataset • ID = identificativo del soggetto • Genere • A ciascun soggetto sono stati somministrati i seguenti test: Ansia, Ottimismo, Intelligenza, Memoria di Lavoro, Test di Attenzione. • A ciascun soggetto è stato chiesto di completare un difficilissimo Sudoku. Il punteggio (variabile Punteggio. Sudoku) è stato attribuito a seconda di quanto si è avvicinato alla soluzione • Per ciascun soggetto sono state rilevate anche le seguenti variabili: provenienza geografica, colore degli occhi e tipo di auto. 3

Esercizio 1 A) Svolgere in SPSS la regressione semplice di Test. Attenzione su Ansia e interpretarne i risultati. Per regressione di Y su X si intende che X è predittore e Y è predetto. Esaminare la relazione tra le varaibili con un grafico. Esaminare anche la relazione tra punteggi predetti e residui con un grafico. Trarre conclusioni sull’appropriatezza del modello. Svolgere anche le seguenti regressoni: B) Di Test. Attenzione su Genere C) Di Test. Attenzione su Ottimismo 4

Esercizio 2 A) Svolgere e interpretare la regressione multipla di Test. Attenzione su Intelligenza e Memoria di Lavoro. B) Svolgere la Regressione multipla di Test. Attenzione su Intelligenza + Memoria. Di. Lavoro + Ansia + Ottimismo + Genere. Interpretando i risultati riflettete su come questi possono cambiare quando si aggiungono predittori a una regressione. 5

Esercizio 3 A) Svolgere la regressione lineare semplice di Perormance. Sudoku su Intelligenza. Da un’analisi del legame tra i residui e i predetti (basta un grafico) potete concludere che il modello che vi è stato chiesto di usare, la “regressione lineare” (cioè una linea retta), sia un buon modello della relazione tra le due variabili? Spiegate il perché. B) Esercizio bonus: dal grafico riuscite a intuire quale funzione potrebbe rappresentare meglio la relazione tra le due variabili? 6

Esercizio 4 La provenienza geografica e il colore degli occhi sono associati? Se sì, quali combinazioni di queste variabili sono particolarmente responsabili di questa associazione? 7

Esercizio 5 La provenienza geografica e il il tipo di automobile sono associati? Se sì, quali combinazioni di queste variabili sono particolarmente responsabili di questa associazione? 8

Soluzioni 9

Esercizio 1 A Per svolgere le regressioni semplici e multiple in SPSS, aprire il menu Analizza > Regressione > Lineare. Il menu grafici permette di esaminare il grafico predetti/residui 10

Questi grafici permettono di esaminare se i residui si distribuiscono normalmente. “Istogramma” restituisce l’istogramma con curva normale sovraimposta per un’ispezione visiva. Il “Grafico di probabilità normale” restituisce un qq-plot: se i residui si distribuiscono normalmente, il grafico prende la forma di una retta, deviazioni significative dalla retta indicano una distribuzione non normale. ZPRED sono i punteggi predetti standardizzati, ZRESID sono i residui standarrdizzati. 11

R 2 =. 036, quindi il modello spiega il 3. 6% della varianza della variabile dipendente Il test F indica che la porzione di varianza della varabile dipendente spiegata da tutti i predittori (in questo caso, uno solo) è significativamente diversa da zero, F(1, 198) = 7. 39, p =. 007 Guardiamo i coefficienti standardizzati, beta = -. 194 indica che all’aumentare di 1 deviazione standard di ansia, il punteggio predetto nel test di attenzione diminuisce di. 194 d. s. Il coefficiente è significativamente diverso da 0 (p =. 007) 12

I grafici non rivelano deviazioni significative dei residui dalla distribuzione normale. 13

Il grafico predetti-residui non indica un trend specifico, i punti sono distribuiti casualmente intorno al valore zero a tutti i livelli dei punteggi predetti, quindi il modello sembra rappresentare bene i dati. 14

Esercizio 1 B Il genere non sembra essere un predittore significativo della performance nel test di attenzione Il coefficiente beta negativo indica che i maschi (codificati come 0) hanno una performance marginalmente migliore delle femmine (codificate come 1). Il coefficiente beta però non è significativo (p =. 10) 15

I grafici non rivelano deviazioni significative dei residui dalla distribuzione normale. Il grafico predetti-residui non indica un trend specifico, i punti sono distribuiti casualmente intorno al valore zero a tutti i livelli dei punteggi predetti, quindi il modello sembra rappresentare bene i dati. In questo caso, notate che i punteggi predetti sono solo due, uno per i maschi e uno per le femmine 16

Esercizio 1 C R 2 =. 037, quindi il modello spiega il 3. 7% della varianza della variabile dipendente Il test F indica che la porzione di varianza della varabile dipendente spiegata da tutti i predittori (in questo caso, uno solo) è significativamente diversa da zero, F(1, 198) = 7. 37, p =. 006 Guardiamo i coefficienti standardizzati, beta =. 192 indica che all’aumentare di 1 deviazione standard di ottimismo, il punteggio predetto nel test di attenzione aumenta di. 192 d. s. Il coefficiente è significativamente diverso da 0 (p =. 006) 17

Esercizio 2 A Per svolgere le regressioni multiple è sufficiente inserire più di una variabile indipendente 19

R 2 =. 255, quindi il modello spiega il 22. 5% della varianza della variabile dipendente Il test F indica che la porzione di varianza della varabile dipendente spiegata da tutti i predittori (in questo caso, due) è significativamente diversa da zero, F(1, 197) = 35. 09, p <. 001 Guardiamo i coefficienti standardizzati, beta =. 420 indica che, mantenendo costanti gli altri predittori (memoria di lavoro), all’aumentare di 1 d. s. di intelligenza il punteggio predetto nel test di attenzione aumenta di. 420 d. s. ; similmente all’aumentare di 1 d. s. di memoria di lavoro, al netto dell’intelligenza, il punteggio predetto nel test di attenzione aumenta di. 184 ds. Intelligenza è quindi un predittore migliore di memoria di lavoro in questo caso. Entrambi i coefficienti sono significativi. 20

Esercizio 2 B R 2 =. 319, quindi il modello spiega il 31. 9% della varianza della variabile dipendente Il test F indica che la porzione di varianza della varabile dipendente spiegata da tutti i predittori (in questo caso, cinque) è significativamente diversa da zero, F(1, 194) = 18. 202, p <. 001 22

Solo tre su cinque delle variabili indipendenti predicono significativamente Test. Attenzione e sono Intelligenza (β =. 442, p <. 001), memoria di lavoro (β =. 197, p =. 002) e Ansia (β = -. 222, p =. 001). Ottimismo, che pure era un predittore significativo, non predice più la variabile dipendente una volta tenuti sotto controllo l’effetto degli altri predittori. 23

Esercizio 3 R 2 =. 237, quindi il modello spiega il 23. 7% della varianza della variabile dipendente Il test F indica che la porzione di varianza della varabile dipendente spiegata da tutti i predittori (in questo caso, uno solo) è significativamente diversa da zero, F(1, 198) = 61. 558, p <. 001 Guardiamo i coefficienti standardizzati, beta =. 487 indica che all’aumentare di 1 deviazione standard di intelligenza, il punteggio predetto della performance sudoku aumenta d di. 487 d. s. Il coefficiente è significativamente diverso da 0 (p <. 001) 25

Sebbene la distribuzione dei residui sia meno chiaramente normale rispetto ai casi precedenti, non si evincono violazioni eccessive. 26

Il grafico predetti-residui questa volta indica un trend specifico: i residui sembrano distribuirsi come in modo assolutamente non uniforme ai diversi livelli dei punteggi predetti, in particolare assumono la forma di una parabola. Bonus: la forma della relazione tra intelligenza e performance nel sudoku è proprio una parabola, espressa dall’equazione Y = b 0 + b 1 X + b 2 X^2 Non avete al momento gli strumenti per svolgere questo tipo di regressione in SPSS, l’importante è riconoscere dall’ispezione visiva che la relazione tra le due varaibili non è ben rappresentata da una retta. 27

Esercizio 4 Poiché le due variabili colore degli occhi e provenienza geografica sono nominali, è necessario svolgere un’analisi del chiquadrato sulla loro tabella di contingenza. Trovate questo tipo di analisi in Analizza > Statistiche descrittive > Tabelle di contingenza 28

Nella scheda “statistiche” possiamo chiedere il chi quadrato, mentre nella scheda celle chiediamo di avere i conteggi previsti (le frequenze attese), i conteggi osservati e i residui standardizzati 29

Nessuna cella ha conteggio previsto inferiore a 5, quindi possiamo procedere con il test del chi quadrato senza problemi. Il test del chi-quadrato è significativo, quindi le due variabili sono associate, χ2(6) = 38. 285, p <. 001 Esaminiamo le celle i cui residui standardizzati sono in valore assoluto > 2. Indicano che l’associazione tra le variabili provenienza e colore degli occhi è dovuta a una presenza di Finlandesi con gli occhi blu e di Italiani con gli occhi verdi superiore a quanto ci si aspetterebbe se non ci fosse associazione e a una presenza di Italiani con occhi blu inferiore alle attese. 31

Esercizio 5 Nessuna cella ha conteggio previsto inferiore a 5, quindi possiamo procedere con il test del chi quadrato senza problemi. Il test del chi-quadrato non è significativo. Questo indica che non possiamo rifiutre l’ipotesi nulla che non ci sia associazione tra le due varaibili , χ2(6) = 9. 199, p =. 163 Poiché il test non è significativo, non interpretiamo le discrepanze tra punteggi e residui. Non possiamo infatti escludere che queste siano dovute alla semplice fluttuazione campionaria. 32