Corso di Laurea in Scienze e Tecniche psicologiche

  • Slides: 35
Download presentation
Corso di Laurea in Scienze e Tecniche psicologiche Esame di Psicometria La regressione lineare

Corso di Laurea in Scienze e Tecniche psicologiche Esame di Psicometria La regressione lineare semplice A cura di Matteo Forgiarini Matteo. forgiarini@unimib. it (modificate da Giulio Costantini) 1

Covarianza e correlazione 2

Covarianza e correlazione 2

Relazioni tra variabili Esercitazione N° 2 – La regressione lineare semplice Quando siamo interessati

Relazioni tra variabili Esercitazione N° 2 – La regressione lineare semplice Quando siamo interessati a studiare la relazione tra due variabili, occorre prendere in considerazione 3 caratteristiche principali: -La forma che assume la relazione. -La sua direzione. -L’entità osservata. In questo contesto verranno analizzate solo relazioni lineari, cioè che possono essere descritte con una retta. La direzione della relazione può essere positiva (i valori delle due variabili crescono in modo concorde) o negativa (al crescere dei valori di una variabile diminuiscono i valori dell’altra). L’entità della relazione fa riferimento alla quantificazione della relazione stessa: la relazione può essere molto forte o modesta; oppure può essere pari a zero, in questo caso si parla di relazione nulla, le variabili sono dunque indipendenti. 3

Correlazione positiva 4 Lezione: II

Correlazione positiva 4 Lezione: II

Correlazione negativa 5 Lezione: II

Correlazione negativa 5 Lezione: II

Correlazione (lineare) nulla 6 Lezione: II

Correlazione (lineare) nulla 6 Lezione: II

Linearità La correlazione cattura solo relazioni “lineari” tra i dati, cioè rappresentabili con una

Linearità La correlazione cattura solo relazioni “lineari” tra i dati, cioè rappresentabili con una linea retta. Se l’associazione è perfetta, ma non lineare, il coefficiente di correlazione non la riflette r=0 r=1 r=-1 7 Lezione: II

Covarianza e correlazione Esercitazione N° 2 – La regressione lineare semplice Formula della covarianza

Covarianza e correlazione Esercitazione N° 2 – La regressione lineare semplice Formula della covarianza per variabili non standardizzate. Variabili standardizzate (dette anche punti z): variabili con media M = 0 e deviazione standard s = 1 La correlazione è semplicemente la covarianza tra variabili standardizzate, si può calcolare anche come covarianza divisa per il prodotto delle deviazioni standard delle due variabili. La correlazione può variare solo tra -1 ed 1; l’entità della relazione è quindi agevole da comprendere ed è possibile confrontare 2 o più valori fra loro. La direzione della relazione è indicata dal segno del valore della correlazione: una correlazione positiva indica che le variabili si “muovono” in modo concorde; una correlazione negativa indica che quando i valori di una variabile crescono, i valori dell’altra diminuiscono. 8

Scatter plot Esercitazione N° 2 – La regressione lineare semplice Menù: grafici -> finestre

Scatter plot Esercitazione N° 2 – La regressione lineare semplice Menù: grafici -> finestre di dialogo legacy -> dispersione / punti Spesso è utile costruire una matrice di grafici che permette di visualizzare la natura delle relazioni tra due o più variabili; ogni cerchietto rappresenta un’osservazione che viene posizionata sul grafico usando i valori delle due variabili come coordinate cartesiane. Con questo strumento è possibile studiare la forma della relazione tra le coppie di variabili. Per quantificare la relazione lineare tra due variabili occorre calcolare la loro correlazione. 9

Test di ipotesi sulla correlazione in SPSS Esercitazione N° 2 – La regressione lineare

Test di ipotesi sulla correlazione in SPSS Esercitazione N° 2 – La regressione lineare semplice Calcolate la correlazione tra peso e lunghezza La correlazione risulta significativa (p-value<0, 001); Possiamo quindi rifiutare l’ipose nulla H 0: r(peso, lunghezza)=0 ed accettare H 1: r(peso, lunghezza)≠ 0 Si noti che la matrice di correlazione prodotta è quadrata e simmetrica: infatti r(x, y)=r(y, x). 10

I punteggi z in SPSS Esercitazione N° 2 – La regressione lineare semplice Costruiamo

I punteggi z in SPSS Esercitazione N° 2 – La regressione lineare semplice Costruiamo 2 nuove variabili con i valori z delle variabili “lunghezza” e “peso”; Ora calcoliamo la varianza e la correlazione tra queste due nuove variabili. 11

Proprietà dei punteggi z Esercitazione N° 2 – La regressione lineare semplice Come ci

Proprietà dei punteggi z Esercitazione N° 2 – La regressione lineare semplice Come ci si attendeva M = 0, s = 1 e la covarianza tra le due variabili è pari alla correlazione 12

Regressione lineare semplice 13

Regressione lineare semplice 13

La retta di regressione semplice Esercitazione N° 2 – La regressione lineare semplice Regressione

La retta di regressione semplice Esercitazione N° 2 – La regressione lineare semplice Regressione lineare semplice: esprime una variabile «dipendente» Y con l’equazione di una retta che include una intercetta (b 0) e una variabile «indipendente» X moltiplicata per il coefficiente di regressione b 1. La regressione, come la correlazione, cattura la relazione tra due variabili, ma questa volta i punteggi di una variabile sono espressi nei termini dei punteggi dell’altra. b 0 = intercetta; b 1 = pendenza della retta, e = errore R 2 = porzione della varianza di Y «spiegata» da X L’intercetta si può calcolare con la formula: Nella regressione lineare semplice, se le due variabili sono standardizzate b è detto β e corrisponde alla correlazione tra x e y Se x e y non sono standardizzate, b corrisponde alla covarianza tra x e y divisa per la varianza di x 14

Il coefficiente di regressione Esercitazione N° 2 – La regressione lineare semplice b =

Il coefficiente di regressione Esercitazione N° 2 – La regressione lineare semplice b = cambiamento atteso della Y al variare di un’unità della X. È espresso in unità della variabile dipendente Y. β= cambiamento atteso della Y al variare di una deviazione standard della X. È espresso in deviazioni standard. 15

La retta di regressione semplice Esercitazione N° 2 – La regressione lineare semplice 16

La retta di regressione semplice Esercitazione N° 2 – La regressione lineare semplice 16

La retta di regressione semplice Intercetta (costante in SPSS) Coefficiente b Esercitazione N° 2

La retta di regressione semplice Intercetta (costante in SPSS) Coefficiente b Esercitazione N° 2 – La regressione lineare semplice Beta = coefficiente b tra variabili standardizzate. Uguale alla correlazione (vedi slides precedenti), ma solo nella regressione lineare semplice (cioè con una sola variabile indipendente) Intercetta (a) e pendenza (b) risultano diversi da zero: entrambi i p-values < 0. 05. La significatività non cambia tra i coefficienti standardizzati e non. Nella regressione lineare semplice, La proporzione di varianza della y spiegata dalla x corrisponde al quadrato della correlazione r(x, y), per cui si chiama R 2. 17

La retta di regressione semplice Esercitazione N° 2 – La regressione lineare semplice Chiediamo

La retta di regressione semplice Esercitazione N° 2 – La regressione lineare semplice Chiediamo a spss di costruire il grafico della retta di regressione semplice con x=lunghezza e y=peso. 18

La retta di regressione semplice Esercitazione N° 2 – La regressione lineare semplice Equazione

La retta di regressione semplice Esercitazione N° 2 – La regressione lineare semplice Equazione retta Peso (in kg) = -927, 67 + 4, 87 * lunghezza b 0 = -927, 67 (intercetta) b 1 = 4, 87 (coefficiente angolare) R 2 = 0. 58 Le frecce rosse indicano gli errori di predizione. Si può dimostrare che la retta di regressione è quella retta che minimizza l’errore totale, definito come la somma dei quadrati degli errori di predizione. La retta è quindi anche detta «retta dei minimi quadrati» 19

La retta di regressione semplice Esercitazione N° 2 – La regressione lineare semplice Rifare

La retta di regressione semplice Esercitazione N° 2 – La regressione lineare semplice Rifare il grafico con le variabili standardizzate Equazione della retta Y=βX Zpeso = 0, 76*Zlunghezza R 2 =. 58 Nota che: • L’intercetta è sempre zero per variabili standardizzate. • Quindi la retta passa sempre dall’origine degli assi (il punto x = 0, y = 0). • β è uguale al coefficiente di correlazione 20

Correlazione e causazione Esercitazione N° 2 – La regressione lineare semplice La matrice di

Correlazione e causazione Esercitazione N° 2 – La regressione lineare semplice La matrice di correlazione delle 6 variabili mostra che la correlazione tra “capienza del serbatoio” e “prezzo” è significativamente diversa da 0. Quindi lo è anche il corrispondente coefficiente di regressione. È possibile ipotizzare un legame causale tra queste variabili? 21

Correlazione e causazione Esercitazione N° 2 – La regressione lineare semplice Occorre riflettere: una

Correlazione e causazione Esercitazione N° 2 – La regressione lineare semplice Occorre riflettere: una correlazione significativa tra due variabili non è mai una condizione sufficiente perché vi sia un legame causale tra le due variabili. Può succedere che vi siano altre variabili che intervengono nella relazione e rendono più complesso il legame: in questi casi un modello di causalità lineare non è sufficiente a spiegare la correlazione osservata. 22

Regressione multipla 23

Regressione multipla 23

La regressione multipla La regressione lineare multipla Nelle precedenti analisi abbiamo ipotizzato che una

La regressione multipla La regressione lineare multipla Nelle precedenti analisi abbiamo ipotizzato che una variabile dipendente venga spiegata – prevista – da una sola variabile indipendente: abbiamo analizzato il modello di regressione semplice. Ma non sempre la realtà è semplice… In alcuni casi occorre utilizzare più di una variabile indipendente per spiegare (la varianza di) una variabile dipendente. Un modello di regressione che preveda 2 o più variabili indipendenti e una sola variabile dipendete è chiamato modello di regressione multipla. 24

La regressione multipla Come nella regressione semplice, la costante b 0 rappresenta l’intercetta della

La regressione multipla Come nella regressione semplice, la costante b 0 rappresenta l’intercetta della retta, ovvero il valore di y quando tutte le x hanno valore 0. La regressione lineare multipla I coefficienti di regressione b 1 b 2 etc. cosa rappresentano? Nella regressione semplice i coefficienti b esprimono l’intero legame tra la x e la y. Nella regressione multipla la loro interpretazione è più complessa… Nella regressione multipla, il coefficiente bi di ogni xi esprime la variazione attesa della y al variare di un’unità della xi quando tutti gli altri predittori x assumono un valore costante (potete osservarlo facilmente dall’equazione immaginando cosa succede se tutte le X tranne una assumono un certo valore, ad esempio 0 è il caso più semplice). Si interpreta come l’effetto di una certa variabile indipendente X al netto di tutte le altre. Il coefficiente b di ogni X è chiamato coefficiente parziale di regressione tra la VI e y ed è ottenuto parzializzando l’effetto delle altre VI su y. 25

La regressione lineare multipla La regressione multipla Con spss è possibile stimare i parametri

La regressione lineare multipla La regressione multipla Con spss è possibile stimare i parametri della retta di regressione multipla… Nell’esempio proposto, la variabile “peso” viene considerata variabile dipendente. Il modello prevede due VI. Selezioniamo questa opzione per ottenere le stime dei coefficienti di un modello di regressione sia con una sola VI sia con le due VI. 26

La regressione multipla La regressione lineare multipla Modello 1: regressione semplice: y=“peso”, x=“potenza del

La regressione multipla La regressione lineare multipla Modello 1: regressione semplice: y=“peso”, x=“potenza del motore”. Modello 1: regressione multipla: y=“peso”, x 1=“potenza”, x 2=“lunghezza”. I parametri del modello di regressione multipla sono tutti significativi (p-value<0. 05). Il modello con due VI infatti ottiene una proporzione di varianza spiegata (0, 916) maggiore del modello con una sola VI (0, 622). Possiamo concludere che utilizzare anche “lunghezza” per spiegare “peso” migliora significativamente il modello; infatti il coefficiente parziale di regressione stimato per “lunghezza” risulta significativamente diverso da 0 Notiamo come il metodo “stepwise” permetta di confrontare la bontà dei due modelli ottenuti e di verificare la significatività dei parametri di tutti i modelli. Al contrario, con il metodo “enter” vengono considerate contemporaneamente tutte le VI inserite.

La regressione multipla La regressione lineare multipla Continuiamo l’analisi degli output del modello di

La regressione multipla La regressione lineare multipla Continuiamo l’analisi degli output del modello di regressione multiplo… I coefficienti parziali di regressione indicano solo l’effetto diretto che ogni VI produce sulla y e vengono infatti stimati parzializzando l’effetto delle altre VI. Il segno della loro stima permette di capire la direzione della relazione (positiva o negativa) tra la VI e la y. Se il segno è positivo al crescere della VI, anche la y cresce; se il segno è negativo, ad un aumento della VI corrisponde una diminuzione della y. In particolare nel modello proposto i coefficienti indicano che il crescere della potenza del motore e della lunghezza, producono un aumento del peso dell’auto. Ma… La stima dei coefficienti parziali non ci permette di comprendere in modo chiaro il contributo unico di ogni VI: per l’analisi di un modello di regressione multipla è importante avere anche una stima della quantità di varianza della y che ogni VI permette di spiegare… 28

Il contributo unico delle VI La regressione lineare multipla In particolare occorre distinguere due

Il contributo unico delle VI La regressione lineare multipla In particolare occorre distinguere due indici che permettono di comprendere il contributo unico di ogni VI: Il contributo unico di una VI può essere stimato grazie al quadrato della correlazione parziale: ipotizzando che y venga spiegata da x e w, Pr 2 yw. x indica l’effetto di w dopo aver rimosso tutta la variabilita’ spiegata da x. Pr 2 yw. x indica la proporzione di varianza spiegata da w rispetto alla parte di varianza di y che non viene spiegata dalle altre variabili indipendenti. Il contributo unico di una VI, es. w, può anche essere valutato come la varianza della y spiegata unicamente da w e non dalle altre variabili indipendenti: ipotizzando che y venga spiegata da x e w, il quadrato della correlazione semiparziale (SPSS lo chiama “parte”) tra y e w Sr 2 yw. x indica la varianza di y spiegata unicamente da w e non da x. La correlazione semiparziale al quadrato Sr 2 yw. x corrisponde anche all’incremento di R 2 passando da un modello in cui x è l’unico predittore ad un modello in cui sia x sia w predicono y. 29

La regressione lineare multipla Il contributo unico delle VI e b a c W

La regressione lineare multipla Il contributo unico delle VI e b a c W X 30

La correlazione parziale La regressione lineare multipla Per stimare i contributi unici di ogni

La correlazione parziale La regressione lineare multipla Per stimare i contributi unici di ogni VI in un modello di regressione multipla risulta quindi importante calcolare la matrice di correlazioni parziali tra un set di variabili. . . 31

La correlazione parziale La regressione lineare multipla Correlazione r di ordine zero | Correlazione

La correlazione parziale La regressione lineare multipla Correlazione r di ordine zero | Correlazione parziale pr | Correlazione semiparziale sr Nell’esempio proposto, pr peso lunghezza. potenza = 0. 881. È la correlazione parziale tra lunghezza e peso, tolto l’effetto di potenza. pr 2=(0. 881)2=0. 776 indica che la porzione di varianza della variabile dipendente «potenza» spiegata da «lunghezza» una volta rimosso l’effetto di «peso» , sul totale della varianza non spiegata dall’altro predittore è il 77. 6%. sr peso lunghezza. potenza = 0. 542 è la correlazione semiparziale tra lunghezza e peso, tolto l’effetto di peso. sr 2=(0. 542)2=0. 294 indica la proporzione di varianza di «peso» spiegata unicamente da «lunghezza» , sul totale della varianza della variabile dipendente «peso» , è il 29. 4%. Questo significa anche la differenza di R 2 se «lunghezza» è incluso o escluso come predittore è il 29. 4% (vedi prossima slide). 32

La regressione lineare multipla Questa tabellina è stata calcolata in precedenza e mostra il

La regressione lineare multipla Questa tabellina è stata calcolata in precedenza e mostra il valore di R 2 includendo solo potenza o anche lunghezza come predittori R 2 con solo potenza come predittore =. 622 R 2 con anche lunghezza come predittore =. 916 Differenza =. 294 Quant’è la sr 2 peso lunghezza. potenza? È proprio. 294! 33

L’R 2 del modello La regressione lineare multipla Regr. Sempl. Regr. Mult. Notiamo come

L’R 2 del modello La regressione lineare multipla Regr. Sempl. Regr. Mult. Notiamo come nel modello di regressione semplice la proporzione di varianza spiegata dalla VI sia coincidente con il quadrato della correlazione semplice corr(xy): R 2=0, 7892=0, 622. Nel modello di regressione multipla è più complesso: la proporzione di varianza spiegata R 2 del modello è formata dai contributi di ogni variabile… R 2=r 2 potenza peso + sr 2 lunghezza peso. potenza=(0, 789)2 + (0, 542)2=0, 622 + 0, 294=0, 916 R 2=r 2 lunghezza peso + sr 2 potenza peso. lunghezza=(0, 762)2 + (0, 579)2=0, 581 + 0, 335=0, 916 34

Una particolarità La regressione lineare multipla Notiamo che se ipotizziamo un modello di regressione

Una particolarità La regressione lineare multipla Notiamo che se ipotizziamo un modello di regressione semplice la correlazione semplice, parziale e semi-parziale sono uguali… perché!? ! Perché in un modello di regressione semplice il legame diretto tra x e y è l’unico che vi sia… non esiste altro legame che si debba parzializzare: la proporzione di varianza spiegata di y da parte di x coincide con il contributo unico di x poiché non occorre parzializzare nessun effetto di altre VI: r 2 xy=pr 2 xy=sr 2 xy 35