AMD 2017 Esercitazione 1 Giulio Costantini 1 Aprire

  • Slides: 35
Download presentation
AMD 2017 - Esercitazione 1 Giulio Costantini 1

AMD 2017 - Esercitazione 1 Giulio Costantini 1

Aprire il file Dati completi. sav I dati si riferiscono a 10 soggetti; per

Aprire il file Dati completi. sav I dati si riferiscono a 10 soggetti; per ogni soggetto sono stati inseriti il genere, l’età, il titolo di studio, la zona di residenza, il reddito del nucleo familiare in € e il numero di componenti che compongono il nucleo familiare. 2

Barra degli strumenti - visualizzazione dati Variabili I dati vengono inseriti all’interno di una

Barra degli strumenti - visualizzazione dati Variabili I dati vengono inseriti all’interno di una matrice Casi (o soggetti o osserbazioni) x variabili: ogni riga contiene i dati relativi ad un caso per tutte le variabili, ogni colonna contiene i valori di una variabile per tutti i soggetti. Casi In SPSS esistono 2 differenti finestre che consentono la visualizzazione dei dati e la visualizzazione delle variabili. Cliccando sulle due “linguette” in basso a sinistra è sempre possibile passare da una modalità all’altra. (Cfr. diapositive successive. ) 3

Barra degli strumenti - visualizzazione dati Apre files di SPSS già esistenti. Salva il

Barra degli strumenti - visualizzazione dati Apre files di SPSS già esistenti. Salva il file. Mostra le informazioni relative alla variabile selezionata. Permette di inserire un nuovo soggetto. Permette di inserire una nuova variabile. Permette la selezione di alcuni casi sulla base di criteri specificabili dall’utente; (cfr. diapositive successive. ) Permette di visualizzare i valori delle variabili o le “etichette dei valori” assegnate; (cfr. diapositive successive. ) N. B. 1 Alcuni dei pulsanti descritti sono attivi solamente nella finestra “visualizza dati” e non nella modalità “visualizza variabili”. N. B. 2 In SPSS riferendosi ad una specifica riga è indifferente usare i termini “caso n°. . . ” oppure “soggetto n°. . . ”; in questo contesto i termini sono equivalenti, il loro uso dipende dal tipo di dati che si sta analizzando; comunque si fa riferimento ai valori contenuti in una specifica riga della matrice soggetti x variabili. 4

Barra degli strumenti - visualizzazione variabili Nella schermata “visualizza variabili” è possibile definire le

Barra degli strumenti - visualizzazione variabili Nella schermata “visualizza variabili” è possibile definire le variabili di cui verranno inseriti i valori osservati. Per ogni variabile, oltre al nome, è possibile impostare numerose caratteristiche facilitano l’inserimento dei dati e la lettura degli output. Contiene il nome assegnato ad ogni variabile; deve iniziare con una lettera dell’alfabeto. Permette di definire il tipo di variabile: numerica, di testo, ecc. . . Se la variabile è numerica, indica il numero di cifre decimali previste. Permette di definire l’etichetta della variabile: una “breve frase” che esprime il significato della variabile. Viene usata da SPSS nella produzione degli out-put Contiene le etichette dei valori: permette di associare ad ogni valore numerico inserito un nome che ne esprime il significato; le etichette assegnate vengono usate nella produzione degli output. Cfr. diapositiva seguente. 5

Etichette valori - Visualizzazione variabili Cliccando sul bottone … è possibile aggiungere le etichette

Etichette valori - Visualizzazione variabili Cliccando sul bottone … è possibile aggiungere le etichette dei valori. Appare un box in cui è possibile inserire il valore a cui associare l’etichetta: nell’esempio mostrato al valore “ 2” premendo il tasto “aggiungi” viene associata l’etichetta “Femmina”. Come si può vedere, in precedenza era già stata impostata l’etichetta “maschio” per il valore “ 1”. Premendo il tasto “ok” le due etichette vengono salvate e saranno utilizzate per la produzione degli output che si riferiscono alla vriabile “Genere”. 6

Etichette valori - Visualizzazione dati Per la variabile genere, titolo di studio e residenza

Etichette valori - Visualizzazione dati Per la variabile genere, titolo di studio e residenza sono state impostate delle etichette dei valori. Per la comprensione delle regole di attribuzione occorre passare alla modalità “visualizza variabili” e cliccare nelle celle della colonna “valori” corrispondenti alle 3 variabili in esame. Con il tasto “etichette dei valori” è possibile visualizzare le etichette in sostituzione dei valori numerici. Mostra il n°riga e nome della colonna ovvero n° soggetto e il nome della variabile. Mostra il valore selezionato. È possibile inserire i dati sia i valori numerici sia le etichette, ma in entrambe le modalità è obbligatorio inserire i valori numerici nelle celle e non le etichette verbali; all’atto dell’inserimento sarà SPSS a provvedere alla sostituzione se si è scelto di visualizzare le etichette. 7

Produzione di un output Le etichette delle variabili e quelle dei valori vengono usate

Produzione di un output Le etichette delle variabili e quelle dei valori vengono usate nella produzione degli output; chiediamo di calcolare le frequenze della variabile “titolo di studio” Analizza > Statistiche Descrittive > Frequenze Scegliamo la variabile Titolo di studio e fra i grafici «Grafici a barre» . 8

Finestra degli output Otteniamo le frequenze per ogni livello della variabile selezionata e il

Finestra degli output Otteniamo le frequenze per ogni livello della variabile selezionata e il grafico che riassume i risultati. N. B. SPSS usa di default l’etichetta della variabile (e non il nome) per intitolare i grafici (queste opzioni si possono modificare). N. B. 2 Le etichette dei valori che erano state impostate nella modalità “visualizza variabili” vengono usate per indicare in modo chiaro il significato di ogni colonna del grafico. 9

Selezione di casi Dati > seleziona casi Regole per la selezione dei casi; Nell’esempio

Selezione di casi Dati > seleziona casi Regole per la selezione dei casi; Nell’esempio mostrato è stato scelto di selezionare i casi sulla base di una condizione che dovrà essere soddisfatta; in particolare è stato scelto di selezionare i casi – ovvero i soggetti – che hanno un’età maggiore di 35. 10

Selezione di casi Dati > seleziona casi SPSS segnala graficamente che 3 casi sono

Selezione di casi Dati > seleziona casi SPSS segnala graficamente che 3 casi sono stati deselezionati; Le analisi che si effettueranno a partire da questa condizione non terranno in considerazione i 3 casi “sbarrati” Esercizio: ripetere l’analisi di frequenza già svolta con i casi selezionati e poi usate la funzione seleziona casi per selezionare nuovamente tutti i casi 11

Ricodifica variabili trasforma > ricodifica in variabili differenti Una variabile può venire ricodificata per

Ricodifica variabili trasforma > ricodifica in variabili differenti Una variabile può venire ricodificata per formare una nuova variabile; la trasformazione dei valori della variabile “origine” avviene secondo regole impostate dall’utente. Nell’esempio, la variabile reddito viene ricodificata per formare una nuova variabile chiamata “redd_f ed etichettata come “fasce di reddito” (il nome va confermato premento «cambia» ). Le fasce di reddito sono meno e più di 150000. 12

Ricodifica variabili - esito Mediante la ricodifica nella nuova variabile è stata creata la

Ricodifica variabili - esito Mediante la ricodifica nella nuova variabile è stata creata la variabile “redd_f”; i nuovi valori sono stati prodotti sulle base delle regole impostate. 13

Calcola variabile Trasforma > calcola variabile La funzione calcola permette di eseguire operazioni matematiche

Calcola variabile Trasforma > calcola variabile La funzione calcola permette di eseguire operazioni matematiche sui valori di una o più variabili e di creare una nuova variabile con i valori calcolati. Nell’esempio proposto viene creata una nuova variabile di nome “red_med” – con etichetta “Reddito medio persona del nucleo familiare” – eseguendo il rapporto tra i valori della variabile reddito e i corrispondenti valori della variabile famiglia. 14

La sintassi di SPSS La funzione “incolla” permette di produrre un file di testo

La sintassi di SPSS La funzione “incolla” permette di produrre un file di testo contenente la sintassi che descrive l’operazione che si sta eseguendo; successivamente è possibile salvare il file così creato per poter eseguire la sintassi nuovamente ed effettuare la medesima operazione. Risulta una funzione importante se si ha bisogno di tenere traccia delle analisi eseguite o se si deve descrivere in modo efficace e trasparente ad altri ricercatori le operazioni eseguite. 15

Covarianza e Correlazione 16

Covarianza e Correlazione 16

Aprite il file auto. sav Il file contiene le caratteristiche di un certo numero

Aprite il file auto. sav Il file contiene le caratteristiche di un certo numero di modelli di automobili, come potenza, lunghezza, peso, numero di cavalli, prezzo, etc. 17

Relazioni lineari Quando siamo interessati a studiare la relazione tra due variabili, occorre prendere

Relazioni lineari Quando siamo interessati a studiare la relazione tra due variabili, occorre prendere in considerazione 3 caratteristiche principali: - La forma che assume la relazione: In questo contesto verranno analizzate solo relazioni lineari. - La sua direzione: può essere positiva (i valori delle due variabili crescono in modo concorde) o negativa (al crescere dei valori di una variabile diminuiscono i valori dell’altra). - L’entità osservata: la relazione può essere molto forte o modesta; oppure può essere pari a zero, in questo caso si parla di relazione nulla, le variabili sono dunque indipendenti. 18

Varianza e correlazione La correlazione può variare solo tra -1 ed 1; l’entità della

Varianza e correlazione La correlazione può variare solo tra -1 ed 1; l’entità della relazione è quindi agevole da comprendere ed è possibile confrontare 2 o più valori fra loro. La direzione della relazione è indicata dal segno del valore della correlazione: una correlazione positiva indica che le variabili si “muovono” in modo concorde; una correlazione negativa indica che quando i valori di una variabile crescono, i valori dell’altra dimininuiscono. 19

Visualizzazione Grafici > Finestre di dialogo legacy > Dispersione/punti > Matrice di dispersione >

Visualizzazione Grafici > Finestre di dialogo legacy > Dispersione/punti > Matrice di dispersione > definisci costruire una matrice di grafici di dispersione che includa le variabili peso (in Kg), prezzo da catalogo (lire) e potenza del motore Inserire le variabili come «variabili matrice» 20

Correlazione Usando il menu Analizza > Correlazione > Bivariata Costruire una matrice di correlazione

Correlazione Usando il menu Analizza > Correlazione > Bivariata Costruire una matrice di correlazione delle stesse variabili - peso (in Kg), prezzo da catalogo (lire) e potenza in opzioni richiedere anche la covarianza, flaggando «Deviazioni e covarianza cross-product» 21

Standardizzare variabili (punti Z) Per standardizzare le variabili usare il menu Analizza > Statistiche

Standardizzare variabili (punti Z) Per standardizzare le variabili usare il menu Analizza > Statistiche descrittive > Descrittive Inserire le variabili (le stesse di prima) e flaggare “Salva valori standardizzati come variabili” Verranno salvate tre nuove variabili, con gli stessi nomi di quelle originali, ma precedute da “Z”: Zprezzo, Zpeso e Zcavalli. Calcolare nuovamente la matrice di correlazione e covarianza, usando le variabili standardizzate: cosa vi aspettate di trovare? 22

Regressione lineare semplice 23

Regressione lineare semplice 23

Equazioni regressione semplice Una variabile Y, detta «dipendente» , è espressa in funzione di

Equazioni regressione semplice Una variabile Y, detta «dipendente» , è espressa in funzione di una varaibile X, detta «indipendente» . Formula del coefficiente b, che determina la pendenza della retta e coglie l’entità della relazione. Le seguenti formule permettono di calcolare la retta «dei minimi quadrati» , cioè quella che minimizza la somma degli errori al quadrato. 24

Formule per variabili standardizzate Se le variabili sono standardizzate, cioè espresse in punti Z

Formule per variabili standardizzate Se le variabili sono standardizzate, cioè espresse in punti Z con media = 0 e deviazione standard = 1, è facile dimostrare con poca algebra che le equazioni diventano In questo caso, l’intercetta è sempre nulla 25

Significatività ed dimensione dell’effetto SPSS testa la significatività dei coefficienti e restituisce un p-value.

Significatività ed dimensione dell’effetto SPSS testa la significatività dei coefficienti e restituisce un p-value. Il p-value è definito come la probabilità di ottenere un parametro grande o più grande di quello osservato se l’ipotesi nulla è vera. Tipicamente l’ipotesi nulla H 0 è che un certo parametro sia uguale a zero. Per convenzione, si accetta come «significativo» un parametro associato ad un valore di p <. 05 L’R-quadrato esprime la quantità di varianza della variabile dipendente spiegata dall’insieme delle variabili indipendenti in una regressione (nel caso della regressione lineare semplice, una variabile indipendente). L’R 2 varia tra 0 e 1, più è grande, più è la varianza spiegata. Nel caso della regressione lineare semplice, l’R 2 è semplicemente il coefficiente di correlazione o il coefficiente beta al quadrato. 26

In SPSS Analizza > Regressione > Lineare In questo caso inserire la variabile dipendente

In SPSS Analizza > Regressione > Lineare In questo caso inserire la variabile dipendente in “Dipendente” e la variabile indipendente in “indipendenti”. In alternativa Analizza > Modello lineare generale > Univariata Inserire la variabile dipendente in “Variabile dipendente” e la variabile indipendente in “Covariate”. 27

Esempio: il prezzo dell’auto è predetto dalla potenza? Equazione di regressione Prezzo_predetto = -33.

Esempio: il prezzo dell’auto è predetto dalla potenza? Equazione di regressione Prezzo_predetto = -33. 684. 758, 7 + 576. 859, 494 * Potenza Z_Prezzo_predetto = , 837 * Z_Potenza 28

Interpretazione - All’aumentare di un’unità di X (nell’unità di misura in cui è espressa,

Interpretazione - All’aumentare di un’unità di X (nell’unità di misura in cui è espressa, es. cavalli), il valore predetto della variabile dipendente Y varia di b unità (nell’unità di misura in cui è espressa, es. lire). In questo caso, all’aumentare di 1 cavallo, l’equazione di regression predice che il prezzo aumenta di 576. 859 lire. - All’aumentare di una deviazione standard di X, la variabile dipendente Y varia di βdeviazioni standard, in questo caso. 837 deviazioni standard. - Quando la variabile indipendente X è uguale a zero (nella sua unità di misura), il valore predetto della variabile dipendente Y è uguale ad a (espresso nell’unità di misura di Y). In questo caso, se una macchina ha 0 cavalli, prediciamo che il suo prezzo sarà 33. 684. 758, 7 lire. Prezzi negativi? Risultati paradossali? Perché? 29

L’R quadrato e il suo p-value associato SPSS riporta anche l’Rquadrato, in questo caso

L’R quadrato e il suo p-value associato SPSS riporta anche l’Rquadrato, in questo caso R 2 =. 701, e un test ANOVA associato, in questo caso F(1, 22) = 51. 598, p <. 001 Nel caso della regressioen lineare semplice, il p value associato ai coefficient b, beta ed R 2 è identico. 30

Riassumere i risultati in modo discorsivo Ho svolto un’analisi di regressione lineare semplice per

Riassumere i risultati in modo discorsivo Ho svolto un’analisi di regressione lineare semplice per predire il prezzo delle auto a partire dalla loro potenza in cavalli. La Potenza prediceva in modo significativo il prezzo, β=. 837, p <. 001. La potenza spiega il 70. 1 % della varianza del prezzo (R 2 =. 701, p <. 001) 31

Grafico Grafici > finestre di dialogo legacy > dispersion/punti > a dispersione semplice >

Grafico Grafici > finestre di dialogo legacy > dispersion/punti > a dispersione semplice > definisci Asse Y = prezzo Asse X = Potenza Fare doppio-click sul grafico in output e cliccare il simbolo della retta di regressione. 32

Esercizi - Predire il peso dell’auto a partire dalla lunghezza - Predire il prezzo

Esercizi - Predire il peso dell’auto a partire dalla lunghezza - Predire il prezzo dell’auto a partire dal peso - Predire il peso dell’auto a partire dal prezzo Annotare le rette di regression standardizzate e non. 33

Soluzione Peso_predetto = -927, 675 + 4. 874 * Lunghezza Z_Peso_predetto =, 762*Z_lunghezza Prezzo_predetto

Soluzione Peso_predetto = -927, 675 + 4. 874 * Lunghezza Z_Peso_predetto =, 762*Z_lunghezza Prezzo_predetto = -84300345, 6 + 98422, 176 * Peso Z_Prezzo_predetto = , 770* Z_Peso_predetto = -1018, 092+ (6, 017*10 -6) * Prezzo Z_Peso_predetto = , 770* Z_Prezzo 34

Correlazione, regressione e causalità Correlazione e regressione testano solo relazioni funzionali, NON relazioni causali.

Correlazione, regressione e causalità Correlazione e regressione testano solo relazioni funzionali, NON relazioni causali. es. Il beta associato alle regressioni di prezzo su peso e di peso su prezzo è identico. 35