Analisi Bivariata Test Statistici Metodi Quantitativi per Economia
Analisi Bivariata & Test Statistici Metodi Quantitativi per Economia, Finanza e Management Esercitazione n° 3
Auto formazione obbligatoria • • SAS® Programming 1: Essentials – 1. Getting Started with SAS Programming – 2. Navigating and Using the SAS Interface – 3. Working with SAS Code – 4. Working with SAS Libraries and SAS Data Sets – 5. Creating SAS Data Sets – 6. Creating SAS Data Sets from Microsoft Excel Worksheets – 8. Validating and Cleaning Data Statistics I: Introduction to ANOVA, Regression, and Logistic Regression – Lesson 5: Categorical Data Analysis • Describing Categorical Data (PROC FREQ) • Tests of Association (CHI SQUARE, V DI CRAMER)
Lavoro di gruppo • Inviare il questionario via mail a epallini@liuc. it e fcalabretti@liuc. it • Attendere la validazione del questionario e procedere alla somministrazione dello stesso • Argomenti da trattare nel lavoro di gruppo: – Analisi univariata – Analisi bivariata – Test statistici Tre argomenti a scelta tra – Analisi fattoriale – Regressione lineare utilizzando come regressori i fattori – Regressione Logistica – Serie storiche
Metodi Quantitativi per Economia, Finanza e Management Obiettivi di questa esercitazione: 1 Breve Ripasso Teorico 4 3 2 Proc Freq Proc Corr Proc Anova
Test per lo studio dell’associazione tra variabili • Nella teoria dei test, il ricercatore fornisce ipotesi riguardo la distribuzione della popolazione; tali ipotesi sono parametriche se riguardano il valore di uno o più parametri della popolazione conoscendone la distribuzione a meno dei parametri stessi; non parametriche se prescindono dalla conoscenza della distribuzione della popolazione. • Obiettivo dei test: come decidere se accettare o rifiutare un’ipotesi statistica alla luce di un risultato campionario. Esistono due ipotesi: – H 0 l’ipotesi nulla, cioè l’ipotesi che deve essere verificata – H 1 l’ipotesi alternativa la quale rappresenta, di fatto, l’ipotesi che il ricercatore sta cercando di dimostrare.
Test per lo studio dell’associazione tra variabili • Si può incorrere in due tipologie di errore: Possibili Risultati Verifica di Ipotesi Stato di Natura Decisione H 0 Vera Non Rifiutare H 0 No errore (1 - ) Rifiutare H 0 Errore Primo Tipo ( ) H 0 Falsa Errore Secondo Tipo ( β ) No Errore ( 1 - β ) Legenda: Risultato (Probabilità)
Test per lo studio dell’associazione tra variabili • Errore di Primo Tipo – Rifiutare un’ipotesi nulla vera – Considerato un tipo di errore molto serio La probabilità dell’errore di primo tipo è • Chiamato livello si significatività del test • Fissato a priori dal ricercatore (i valori comuni sono 0. 01, 0. 05, 0. 10) • Errore di Secondo Tipo – Non rifiutare un’ipotesi nulla falsa La probabilità dell’errore di secondo tipo è β • (1 – β) è definito come la potenza del test Potenza = 1 – β = probabilità che un’ipotesi nulla falsa venga rifiutata
Lettura di un test statistico (1) Esempio: H 0: b 1= b 2 =. . =bk = 0 1) Ipotesi H 1: almeno un bi≠ 0 2) Statistica test 3) p-value Statistica F Rappresenta la probabilità di commettere l’errore di prima specie. Può essere interpretato come la probabilità che H 0 sia “vera” in base al valore osservato della statistica test
Lettura di un test statistico (2) Fissato un livello di significatività : Se p-value piccolo (< ) RIFIUTO H 0 Altrimenti (>= ) ACCETTO H 0 Il p-value è il più piccolo valore di per il quale H 0 può essere rifiutata
Analisi Bivariata In base alla natura delle due variabili in esame si utilizzato Test Statistici differenti. Due Variabili Qualitative • Indipendenza Statistica • Test Chi-Quadro Due Variabili Quantitative • Indipendenza Lineare • Test t Una Qualitative e Una Quantitativa continua • Indipendenza in media • Test F
Metodi Quantitativi per Economia, Finanza e Management Obiettivi di questa esercitazione: 1 Breve Ripasso Teorico 4 3 2 Proc Freq Proc Corr Proc Anova
PROC FREQ - Descrizione La PROC FREQ permette di • calcolare le distribuzioni di frequenza univariate per variabili qualitative e quantitative discrete • creare tabelle di contingenza a due o più dimensioni per variabili qualitative e quantitative discrete
PROC FREQ – Sintassi generale Distribuzione di frequenza bivariata proc freq data= dataset; tables variabile 1 * variabile 2 /option(s); run; OPTIONS: • /missing considera anche i missing nel calcolo delle frequenze
PROC FREQ – Esempio 1 Variabili qualitative: sesso e operatore telefonico proc freq data=corso. telefonia; table sesso * operatore; run;
Output PROC FREQ - Esempio 1 Frequenze congiunte assolute e relative Frequency Percent Row Pct Col Pct Frequenze subordinate di riga e colonna Distribuzioni marginali: frequenze marginali assolute e relative Table of sesso by operatore sesso Vodafone Total Tre Tim Wind F 7 2. 97 7. 00 58. 33 27 11. 44 27. 00 49. 09 63 26. 69 63. 00 40. 91 3 1. 27 3. 00 20. 00 100 42. 37 M 5 2. 12 3. 68 41. 67 28 11. 86 20. 59 50. 91 91 38. 56 66. 91 59. 09 12 5. 08 8. 82 80. 00 136 57. 63 Total 12 5. 08 55 23. 31 154 65. 25 15 6. 36 236 100. 00
Output PROC FREQ – Esempio 1 freq. congiunta relativa =(7/236)*100 Frequency Percent Row Pct Col Pct freq. subordinate: freq. marginale assoluta=7+27+63+3 Table of sesso by operatore sesso Tre Tim Vodafone Total Wind F 7 27 63 3 100 2. 97 11. 44 26. 69 1. 27 42. 37 7. 00 27. 00 63. 00 58. 33 freq. marginale relativa=(7+27+63+3)/236*100 49. 09 40. 91 20. 00 M 5 2. 12 3. 68 41. 67 28 11. 86 20. 59 50. 91 91 38. 56 66. 91 59. 09 12 5. 08 8. 82 80. 00 136 57. 63 Total 12 5. 08 55 23. 31 154 65. 25 15 6. 36 236 100. 00 % di riga=5/136*100 % di col=5/12*100
Output PROC FREQ – Esempio 2 C’è indipendenza statistica tra le variabili sesso del rispondente (SESSO) e possesso del computer (COMPUTER)? proc freq data=corso. telefonia; table sesso * computer /missing; run;
Output PROC FREQ – Esempio 2 Le frequenze della variabile COMPUTER subordinata a SESSO: Cosa sono le frequenze subordinate? Le frequenze della variabile di SESSO subordinata a COMPUTER:
PROC FREQ - Descrizione La PROC FREQ permette di • calcolare le distribuzioni di frequenza univariate per variabili qualitative e quantitative discrete • creare tabelle di contingenza a due o più dimensioni per variabili qualitative e quantitative discrete • calcolare indici di dipendenza relativi a tabelle di contingenza
Test chi-quadro – Indipendenza statistica • Si applica alle tabelle di contingenza a due dimensioni • Per testare l’hp di indipendenza statistica tra le due variabili della tabella (ossia, la distribuzione di X non è influenzata da Y e viceversa) • Si calcola con la PROC FREQ (opzione CHISQ) Due Variabili Qualitative • Indipendenza Statistica • Test Chi-Quadro
PROC FREQ – Sintassi generale Calcolo dell’indice chi-quadro proc freq data= dataset; tables variabile 1 * variabile 2 /option(s); run; OPTIONS: • /missing considera anche i missing nel calcolo delle frequenze • /chisq calcola l’indice chi-quadro e altre misure di associazione basate sul chi-quadro
Esempio n° 1 - Test chi-quadro – Indipendenza statistica C’è indipendenza statistica tra le variabili sesso del rispondente (SESSO) e possesso del computer (COMPUTER)? proc freq data=corso. telefonia; table sesso * computer /chisq; run;
Esempio n° 1 - Test chi-quadro – Indipendenza statistica Le frequenze subordinate (di SESSO subordinata a COMPUTER e viceversa) sono diverse denota influenza di ognuna delle due variabili sulla distribuzione dell’altra (=dipendenza statistica)
Esempio n° 1 - Test chi-quadro – Indipendenza statistica Possiamo concludere che le due variabili sono statisticamente dipendenti? Si considera la distribuzione χ², con un numero di gradi di libertà pari a (k-1)(h-1), dove k è il numero di righe e h il numero di colonne della tabella di contingenza. Qui: H 0 : indipendenza statistica tra X e Y H 1 : dipendenza statistica tra X e Y Il p-value del test chi-quadro è basso (<0. 05) rifiuto l’hp nulla di indipendenza statistica le due variabili sono statisticamente dipendenti
Esempio n° 2 - Test chi-quadro – Indipendenza statistica C’è indipendenza statistica tra le variabili SESSO e MARCA? proc freq data=corso. telefonia; table sesso * marca /chisq; run;
Esempio n° 2 - Test chi-quadro – Indipendenza statistica Attenzione: molte celle con frequenze congiunte assolute molto basse test non molto affidabile
Esempio n° 2 - Test chi-quadro – Indipendenza statistica Il p-value del test chi-quadro è alto accetto l’hp di indipendenza statistica le due variabili sono statisticamente indipendenti
Metodi Quantitativi per Economia, Finanza e Management Obiettivi di questa esercitazione: 1 Breve Ripasso Teorico 4 3 2 Proc Freq Proc Corr Proc Anova
PROC CORR - Descrizione La PROC CORR permette di • calcolare la correlazione tra due o più variabili quantitative proc corr data= dataset; variabile 1 variabile 2 … variabilen; run; Due Variabili Quantitative • Indipendenza Lineare • Test t
PROC CORR - Esempio Correlazione tra il numero medio di ore di utilizzo del telefono cellulare e del fisso al giorno. proc corr data=corso. telefonia; var cell_h fisso_h; run;
Output PROC CORR - Esempio Coefficiente di correlazione lineare ρ(X, Y): è un indice relativo, assume valori compresi tra -1 e 1. Se ρ >0 (ρ <0) la relazione tra X e Y è lineare positiva (negativa), se ρ =0 non c’è relazione lineare.
PROC CORR - Esempio Correlazione tra la durata media delle chiamate effettuate [durata_chiamate_e] e: • durata media delle chiamate ricevute [durata_chiamate_r] • numero medio di ore di utilizzo del telefono cellulare al giorno [cell_h] • numero medio di ore di utilizzo del telefono fisso al giorno [fisso_h] proc corr data=corso. telefonia; var durata_chiamate_e durata_chiamate_r cell_h fisso_h; run;
Output PROC CORR - Esempio
Test t – Indipendenza lineare • Si applica a variabili quantitative • Per testare l’hp di indipendenza lineare tra due variabili (ossia, il coefficiente di correlazione lineare tra X e Y è nullo) • Si calcola con la PROC CORR
Esempio n° 1 - Test t – Indipendenza lineare C’è indipendenza lineare tra il numero medio ore utilizzo cellulare al giorno(CELL_H ) e il numero medio ore utilizzo telefono fisso al giorno (FISSO_H)? proc corr data=corso. telefonia; var cell_h fisso_h; run;
Esempio n° 1 - Test t – Indipendenza lineare Il p-value del test t è basso rifiuto l’hp di indipendenza lineare esiste una relazione lineare tra le due variabili, anche se non molto forte (il coefficiente di correlazione lineare è non nullo ma ha valore non molto elevato) Il p-value del test chi-quadro è basso (<0. 05) rifiuto l’hp nulla di indipendenza lineare, le due variabili sono linearmente dipendenti
Esempio n° 2 - Test t – Indipendenza lineare C’è indipendenza lineare tra il numero medio ore utilizzo telefono fisso (FISSO_H ) e il numero medio di email inviate al giorno (EMAIL_H)? proc corr data=corso. telefonia; var fisso_h email_h; run;
Esempio n° 2 - Test t – Indipendenza lineare Il p-value del test t è alto accetto l’hp di indipendenza lineare non esiste una relazione lineare tra le due variabili Il p-value del test chi-quadro è alto (>0. 05) accetto l’hp nulla di indipendenza lineare, le due variabili sono linearmente indipendenti
Metodi Quantitativi per Economia, Finanza e Management Obiettivi di questa esercitazione: 1 Breve Ripasso Teorico 4 3 2 Proc Freq Proc Corr Proc Anova
Test F – Indipendenza in media • test per indagare la relazione esistente tra una variabile quantitativa Y e una variabile qualitativa X, confrontando le distribuzioni di Y condizionate ai valori assunti dalla variabile X • la metodologia consiste nel verificare la significatività delle differenze tra le medie aritmetiche della variabile continua dei gruppi di osservazioni generati dalle modalità assunte dalla variabile qualitativa ( ANOVA : ANalysis Of Variance) • il confronto tra le medie avviene tramite il test F, basato sulla scomposizione della varianza H 0: μ 1 = μ 2 = … = μk (le medie sono tutte uguali tra loro ) H 1: le μi non sono tutte uguali (esistono almeno due medie diverse tra loro)
Test F – Indipendenza in media Devianza Totale gdl = n-1 somma dei quadrati degli scarti di ogni (n = num. dati) valore dalla media generale Devianza tra i gruppi somma dei quadrati degli scarti di ogni media di gruppo dalla media generale gdl = p-1 Varianza tra (p= num. gruppi) Devianza interna ai gruppi (o entro i gruppi ) gdl = n-p somma degli scarti al quadrato di ogni valore dalla media del suo gruppo Varianza nei (o entro) F= Var. TRA/ Var. NEI Significatività del test p-value : - se il p-value del test F è basso (<α) le differenze riscontrate tra le medie sono significative rifiuto l’ipotesi nulla posso affermare l’esistenza di una relazione tra la variabile Y e la variabile X.
PROC ANOVA – Sintassi generale Sia Y una variabile quantitativa e X una variabile qualitativa PROC ANOVA DATA=dataset; CLASS X; MODEL Y=X; MEANS X; RUN; Una Qualitative e Una Quantitativa continua • Indipendenza in media • Test F
Esempio (1/2) C’è relazione tra la soddisfazione del cliente (SODDISFAZIONE_GLOBALE) e l’operatore telefonico da lui scelto (OPERATORE)? PROC ANOVA DATA =corso. telefonia; CLASS operatore; MODEL soddisfazione_globale=operatore; MEANS operatore; RUN;
Esempio (2/2) Output proc anova: Source Tra Nei (Entro) DF Sum of Squares Model 3 8. 9317803 Error 231 427. 8086453 Corrected Total 234 436. 7404255 R-Square eta quadro Devianza Coeff Var 0. 020451 Level of operatore Tim Tre Vodafone Wind Varianza Mean Square F Value Pr > F 2. 9772601 1. 61 0. 1884 1. 8519855 Root MSE 20. 9571 N 55 12 153 15 soddisfazione_globale Mean 1. 360877 6. 493617 soddisfazione_globale Mean Std Dev 6. 16363636 1. 33004645 6. 41666667 1. 31137217 6. 62745098 1. 29209313 6. 4 2. 06328448 Il p-value del test F è alto (>α) accetto l’hp nulla di indipendenza in media non esiste una relazione di dipendenza in media tra le due variabili p-value
Dataset Il dataset DENTI contiene dati sul consumo di dentifricio (di marca A e di marca B). Le variabili sono:
Esercizi 1. Testare se le variabili area geografica e sesso del data set DENTI sono statisticamente indipendenti 2. Testare l’ipotesi di indipendenza lineare tra le variabili consumo di dentifrici della marca A e numero di contatti pubblicitari totali del data set DENTI 3. Testare l’ipotesi di indipendenza in media tra la variabile consumo di dentifrici della marca A e area geografica e confrontarla con quella tra consumo di dentifrici della marca A e dimensione della città di residenza.
- Slides: 46