Analisi e Interpretazione di dati quantitativi Metodologia della

  • Slides: 74
Download presentation
Analisi e Interpretazione di dati quantitativi Metodologia della ricerca sociale A. A. 2018 -2019

Analisi e Interpretazione di dati quantitativi Metodologia della ricerca sociale A. A. 2018 -2019 Prof. Sergio Mauceri

MATRICE DEI DATI ‘CASI PER VARIABILI’ • È lo strumento attraverso cui si organizzano

MATRICE DEI DATI ‘CASI PER VARIABILI’ • È lo strumento attraverso cui si organizzano in forma di dati le informazioni raccolte tramite questionario, o tramite accesso a fonti statistico-anagrafiche, sulle caratteristiche di un campione di popolazione, rispondenti al fabbisogno cognitivo dell’indagine. Essa consiste in una sorta di tabella, le cui colonne sono costituite dalle variabili, cioè dalle proprietà dell’oggetto che sono state operativizzate ai fini della rilevazione e della registrazione degli stati che su esse presentano i casi studiati, e le cui righe sono costituite dai casi stessi, cioè dagli esemplari dell’unità di analisi relativamente ai quali le informazioni sono state raccolte e registrate. Nella cella prodotta dall’intersezione di ciascuna colonna con ciascuna riga viene riportato il codice assegnato alla modalità secondo cui quella variabile si è presentata in quel caso, ovvero il valore che vi corrisponde. Il contenuto della cella della matrice è propriamente il dato, vale a dire un’informazione interpretata e organizzata secondo un criterio. 2

La lettura della matrice nella direzione delle righe – dette anche vettori di riga

La lettura della matrice nella direzione delle righe – dette anche vettori di riga – consentirà di esplorare i profili dei casi studiati, quali emergono dagli stati o modalità che essi presentano su tutte le variabili rilevate. Al contrario, la lettura della matrice nella direzione delle colonne – vettori di colonna – consentirà di esplorare l’andamento di ciascuna variabile relativamente a tutti i casi osservati. Condizioni necessarie alla costruzione di una matrice di dati ‘casi per variabili’ sono che le informazioni raccolte siano riferite ad esemplari di una stessa unità di analisi (omogeneità) e che per tutti i casi siano raccolte le stesse informazioni (completezza). 3

Modalità di costruzione di una matrice quando l’unità di analisi è l’individuo (ad es.

Modalità di costruzione di una matrice quando l’unità di analisi è l’individuo (ad es. si è proceduto alla somministrazione di un questionario semi-standardizzato ad un campione di individui): bisognerà trasferire in matrice le informazioni presenti in ogni questionario seguendo le regole di codifica che sono esplicitate nella definizione operativa di ogni proprietà considerata; per ogni quesito presente nel questionario, al fine di progettare il giusto numero di colonne nella matrice dei dati, ci si domanderà quante informazioni per caso esso abbia prodotto. Qui di seguito si riportano una serie di utili indicazioni: 4

1. prevedere una prima colonna per il codice identificativo del caso (da 1 ad

1. prevedere una prima colonna per il codice identificativo del caso (da 1 ad n); 2. prevedere, variabile per variabile, il/i codici di mancata risposta (dovuta/non dovuta) nel rispetto del campo della variabile e della sequenza dei codici prescelti per ciascuna modalità di risposta; 3. prevedere eventuali codici per gli errori di compilazione; 4. nel caso ciò abbia un senso, stabilire il numero di decimali dopo la virgola; 5. prevedere opportuni codici per le modalità delle variabili nominali e ordinali presenti in matrice (in particolare, per le ordinali, scegliere codici coerenti con la sequenza delle modalità, disposte in ordine crescente o decrescente); 6. prevedere la registrazione puntuale o meno (nel caso, ad es. di semplificazione in classi dell’originaria variabile analitica) degli stati (valori) sulle variabili cardinali e quasi-cardinali (es. punteggi di scala); 5

7. definire il numero di variabili che è opportuno costruire a fronte di una

7. definire il numero di variabili che è opportuno costruire a fronte di una domanda a risposta multipla (l’intervistato può segnalare anche tutte le opzioni di risposta/l’intervistato può selezionare un numero definito di risposte con o senza ordine di priorità – codifica disgiuntiva completa = tante dicotomie quante sono le modalità di risposta/costruzione di tante variabili caratterizzate dalla medesima strutturazione in modalità, quante sono le chances di risposta predefinite)→ N. B. : a una domanda semplice, a cui per mutua esclusività delle modalità di risposta, o per una precisa indicazione alla compilazione da parte del ricercatore/rilevatore, sia lecito fornire una sola risposta, corrisponde una sola variabile nella matrice dei dati; 8. definire il numero di variabili che è opportuno costruire a fronte di una batteria di domande (tante quanti sono gli items/stesse modalità per tutte); 9. definire il formato della variabile (numerico, stringa, data…); 6

10. decidere il tipo di caricamento dei dati in presenza di domande semi-chiuse (ad

10. decidere il tipo di caricamento dei dati in presenza di domande semi-chiuse (ad es. , con la modalità altro-specificare): immagazzinare il dato grezzo così come si presenta (parole, espressioni verbali…) e riservarsi di trattarlo e analizzarlo successivamente sulla base della qualità e della consistenza numerica delle specificazioni raccolte/procedere allo spoglio dei questionari e, da un lato, sulla base di eventuali affinità semantiche ricondurre le specificazioni ottenute a modalità già presenti nel piano di codifica, dall’altro, predisporre nuove modalità con annessi codici; 7

11. decidere il tipo di caricamento dei dati in presenza di domande aperte (v.

11. decidere il tipo di caricamento dei dati in presenza di domande aperte (v. sopra – nel caso di testi corposi, significativi rispetto agli obiettivi dell’indagine ed eterogenei dal punto di vista lessicale, nonché di un numero congruo di casi validi, è possibile procedere ad analisi ad hoc del materiale testuale rilevato: analisi del contenuto come inchiesta, analisi lessicometrica); 12. stabilire opportune etichette verbali per ciascuna variabile (formulazione indiretta rispetto alle domande originarie/intestazioni tabellari in fase di analisi); 13. stabilire opportune etichette verbali per ciascuna modalità (nel caso di variabili categoriali); 14. procedere alla codifica più opportuna nel caso di domande-filtro, seguite da domande a risposta condizionata (riservate a specifici segmenti del campione). 8

Il package statistico SPSS (Statistical Package for the Social Sciences) è attualmente il programma

Il package statistico SPSS (Statistical Package for the Social Sciences) è attualmente il programma più diffuso per l’elaborazione dei dati nelle scienze sociali, sia in quanto semplice da utilizzare – è implementato su piattaforma Windows -, sia per le sue potenzialità sul piano statistico, grafico e tabellare. Sul piano operativo, l’uso di un software come SPSS si colloca lungo tre fasi (precedute dalla predisposizione del disegno della ricerca e dalla costruzione della base empirica) dell’iter tipico di una ricerca empirica: 1. organizzazione dei dati: le informazioni raccolte vengono trasformate in dati, ovvero vengono organizzate e immagazzinate nella matrice dei dati casi × variabili, griglia in cui i casi rispetto ai quali sono state rilevate le informazioni sono disposti in riga, mentre in colonna compaiono le variabili; 2. analisi dei dati (ad un livello mono-, bi- e multi-variato); 3. esposizione dei risultati (stesura di un rapporto di ricerca). 9

I dati da elaborare possono essere primari (costruiti nell’ambito della ricerca sulla base di

I dati da elaborare possono essere primari (costruiti nell’ambito della ricerca sulla base di opportuni strumenti di rilevazione) e secondari (prodotti da altra fonte - ad esempio, l’ISTAT – e acquisiti con obiettivi d’analisi spesso diversi rispetto a quelli originari). La costruzione della matrice dei dati può avvenire seguendo due percorsi differenti: 1. immissione dei dati (primari) in ambiente SPSS previa predisposizione e immagazzinamento del code-book; 2. importazione dei dati da database esterni (analisi secondaria) e selezione delle variabili su cui si intende condurre il lavoro di analisi. 10

Definizione delle variabili e immissione dei dati • Un file di SPSS comprende sia

Definizione delle variabili e immissione dei dati • Un file di SPSS comprende sia dati organizzati in una matrice casi × variabili (ambiente di visualizzazione dei dati o editor dei dati), sia informazioni complete sulle variabili trattate – il cosiddetto code-book (ambiente di visualizzazione delle variabili). 11

Con specifico riferimento all’ambiente di visualizzazione delle variabili, le informazioni da registrare per ciascuna

Con specifico riferimento all’ambiente di visualizzazione delle variabili, le informazioni da registrare per ciascuna di esse sono (cfr. file): Il nome o etichetta breve; Il tipo; La lunghezza o campo; L’eventuale presenza di decimali/il numero di decimali da considerare; • L’etichetta estesa; • I valori (etichette delle modalità e relativi valori); • I codici selezionati per il trattamento delle mancate risposte (mancante). • • 12

Domande semplici e domande complesse: l’etichetta breve di una variabile • Nell’assegnazione delle etichette

Domande semplici e domande complesse: l’etichetta breve di una variabile • Nell’assegnazione delle etichette brevi, è opportuno seguire la numerazione delle domande del questionario (il riferimento è ovviamente a dati primari, generalmente acquisiti nel corso di inchieste con questionario): in tal senso alla d 1 (prima domanda) corrisponderà nella matrice dei dati la v 1 (traduzione della prima domanda nella variabile corrispondente). Ma, a questo proposito, è bene ricordare che non sempre ad una domanda si associa una sola variabile; anzi, accade più spesso che una domanda complessa generi numerose variabili. E’ questo il caso delle domande a risposta multipla (l’intervistato può indicare più di una risposta alla singola domanda) e delle batterie di domande (blocchi di domande posti sotto un’unica intestazione e aventi il medesimo sistema di risposte). 13

Tipo, lunghezza, decimali • Tra le informazioni da immagazzinare nel corso della costruzione del

Tipo, lunghezza, decimali • Tra le informazioni da immagazzinare nel corso della costruzione del code-book vi è quella relativa al tipo; in altri termini, è necessario specificare la natura di ciascuna variabile con l’obiettivo di ottimizzare l’inserimento dei dati in matrice (o la stessa importazione) nella fase successiva. • Generalmente, nel corso dell’analisi di dati di ricerca sociale empirica si lavora con due i tipi di variabile: numerica (si tratta dell’opzione di default in SPSS) e stringa (oltre a questi tipi, si possono selezionare “date”, “valute”…). Vengono trattate come numeriche tutte le variabili, categoriali e cardinali, rispetto alle quali possano essere utilizzati numeri (meri codici simbolici o valori aventi pieno significato numerico) nel corso del caricamento delle informazioni nelle singole celle. In tal senso, si pensi al vantaggio di introdurre nelle celle relative ad una variabile categoriale numeri-codice; d’altro canto, l’alternativa sarebbe quella di digitare per esteso le espressioni verbali che corrispondono alle singole modalità. 14

 • Nel momento in cui figurano nel questionario domande che contemplano l’alternativa “altro”

• Nel momento in cui figurano nel questionario domande che contemplano l’alternativa “altro” o domande aperte scatta la necessità di predisporre spazi idonei per la registrazione di materiale qualitativo, di digitare fedelmente e per esteso il materiale testuale raccolto (specificazioni fornite alla modalità “altro”, risposte a domande aperte…). 15

 • La lunghezza o campo di una variabile consiste nel numero di cifre

• La lunghezza o campo di una variabile consiste nel numero di cifre che occorrono per registrare, all’interno di ogni cella, dati riferiti ad una certa variabile. A titolo esemplificativo, la variabile “genere” avrà campo 1, considerando che nella singola cella della colonna considerata si dovrà inserire il codice 1 (= “maschile”) o il codice 2 (= “femminile”); la variabile età, applicata ad un campione di soggetti che frequentano la scuola media superiore, avrà, invece, campo 2, in considerazione del fatto che dovremo inserire in matrice valori che oscillano tra 14 e 19 anni. Per le variabili numeriche SPSS fornisce di default lunghezza 8 (il campo può essere, per l’appunto, ampliato o diminuito). • Infine, il software – sempre per le variabili numeriche – predispone automaticamente due decimali; è opportuno eliminare questi ultimi, sia se si lavora con variabili cardinali e il campione di riferimento è di piccole dimensioni (ad es. , lo 0, 2% di 100 individui non rappresenta neanche un individuo intero; pertanto, piuttosto che ricorrere ai decimali, è bene procedere ad opportuni arrotondamenti), sia se si lavora con variabili categoriali, per le quali, come è noto, i numeri-codice utilizzati hanno puro valore simbolico (è comunque ovvio che, nel caso non si modifichi l’opzione di default, un codice 5 sia del tutto identico al codice 5, 00). 16

L’etichetta estesa di una variabile, le modalità, i valori • L’etichetta estesa di una

L’etichetta estesa di una variabile, le modalità, i valori • L’etichetta estesa di una variabile è il suo principale segno di riconoscimento in sede di presentazione dei dati in un report di ricerca. Essa, difatti, va a coincidere, con l’intestazione di una tabella; come è noto, quest’ultima, per essere efficace, deve rinviare esplicitamente e fedelmente al contenuto della domanda/modalità, presentare in modo chiaro al lettore i dati sottostanti. Rispetto alla domanda – attraverso la quale si interroga l’intervistato in modo diretto -, l’etichetta estesa si presenta in modo indiretto (cfr. esempi precedenti). • Nel caso di variabili categoriali (nominali e ordinali) è necessario procedere anche all’etichettamento delle modalità, nonché all’attribuzione di numeri-codice di riconoscimento a queste ultime (cfr. la colonna valori nel foglio di visualizzazione delle variabili; per ciascuna variabile è possibile inserire una alla volta le modalità codificate col tasto aggiungi, nonché procedere a modifiche con i tasti cambia e rimuovi); è buona regola utilizzare i codici in ordine progressivo; sarà di certo più semplice memorizzare e usare, ai fini dell’inserimento dei dati, i codici 1 e 2 per le modalità “maschile” e “femminile” del genere, piuttosto che, ad es. , i codici 3 e 7. 17

Il trattamento dei dati mancanti • In fase di allestimento del code-book, è opportuno

Il trattamento dei dati mancanti • In fase di allestimento del code-book, è opportuno procedere anche alla predisposizione di codici di riconoscimento delle mancate risposte (cfr. assunto della completezza). Queste ultime si possono distinguere in dovute (l’intervistato avrebbe dovuto fornire risposta, ma non lo ha fatto) e non dovute (l’intervistato, in virtù di alcuni “percorsi” di compilazione del questionario innescati dalla presenza di “domande-filtro”, non ha risposto ad una o più domande). Al fine di distinguere questi due tipi di mancate risposte (l’uno indicatore del funzionamento/fallimento di una data domanda, l’altro elemento progettato ad hoc dal ricercatore allo scopo di ottenere informazioni specifiche su un particolare sub-campione), è opportuno utilizzare codici differenti (ad es. , 9 per le mancate risposte dovute e 0 per quelle non dovute). E’ ovvio che il numero 9 rappresenta un codice adeguato solo se non coincide con un’altra modalità (ad es. 9 = “ 9 anni” oppure “nazionalità italiana”…); un modo semplice per evitare errori è utilizzare il codice 99 tutte le volte che la variabile ha 9 o più modalità, 999 se ne ha 99 o più, e così via. Allo stesso modo, il codice 0 risulta essere inadeguato se va a coincidere con una modalità della variabile (0 = “punteggio 0 di scala” oppure “nessuna macchina posseduta”…). 18

Le funzioni dell’analisi dei dati Possiamo definire l’analisi dei dati come un insieme di

Le funzioni dell’analisi dei dati Possiamo definire l’analisi dei dati come un insieme di operazioni finalizzate al raggiungimento di uno dei seguenti obiettivi: 1. L’esplorazione del fenomeno oggetto di studio; 2. La descrizione del fenomeno oggetto di studio; 3. La sintesi e la classificazione delle informazioni che riguardano l’oggetto di studio; 4. La spiegazione, l’interpretazione e la specificazione delle relazioni tra le variabili, che sono, in via ipotetica, ritenute rilevanti in connessione con il fenomeno oggetto di studio; 5. La previsione di stati futuri che riguardano il fenomeno oggetto di studio.

Tipi operazioni di analisi dei dati • Operazioni di trattamento e di analisi monovariata;

Tipi operazioni di analisi dei dati • Operazioni di trattamento e di analisi monovariata; • Operazioni e procedure di sintesi di più variabili in un indice; • Operazioni e procedure di analisi bivariata (tabelle di contingenza, analisi della varianza, etc. ); • Operazioni e procedure di analisi trivariata; • Operazioni e procedure di analisi multivariata, a loro volta distinguibili in funzione dello scopo: tecniche (sintesi e classificazione) e modelli (spiegazione e previsione).

Interpretazione • Qualsiasi esito delle procedure di analisi dei dati richiede che il ricercatore

Interpretazione • Qualsiasi esito delle procedure di analisi dei dati richiede che il ricercatore compia operazioni di interpretazione. • Interpretare, in questo senso, significa attribuire un significato (nel nostro caso sociologico) ai risultati intermedi o finali delle procedure di analisi dei dati, attraverso il riferimento a teorie o ipotesi ad hoc.

I diversi momenti dell’interpretazione • Possiamo distinguere, a scopi analitici, tre momenti in cui

I diversi momenti dell’interpretazione • Possiamo distinguere, a scopi analitici, tre momenti in cui i processi di interpretazione interagiscono con i processi di analisi dei dati: • Ex-ante – L’analisi dei dati può essere orientata dall’introduzione di ipotesi derivate dalla teoria. In questo l’analisi dei dati si limita al controllo di ipotesi formulate ex-ante. E’ come se l’interpretazione dei risultati fosse in qualche modo “costruita” prima ancora della raccolta dei dati; • In itinere – Vi possono essere momenti interpretativi che sono strumentali all’assunzione di determinate scelte che sono funzionali e co-essenziali allo svolgimento delle procedure di elaborazione dei dati (ad es. come aggregare una variabile in vista del controllo di una relazione bivariata con una seconda variabile); • Ex-post – Infine vi sono forme di interpretazione post factum che sorgeranno con la scoperta di relazioni nuove e/o inaspettate.

I criteri che devono orientare i processi di interpretazione dei dati Il riferimento agli

I criteri che devono orientare i processi di interpretazione dei dati Il riferimento agli obiettivi dell’indagine; Il riferimento alle teorie già enunciate; Il riferimento al contesto d’indagine; Il riferimento alle conoscenze statistiche (ad es. dei coefficienti volti a stabilire la significatività di una relazione tra variabili). • Il riferimento alle procedure di costruzione del dato seguite e alle scelte compiute in relazione a ciascuna fase; • La tendenza a prestare attenzione non solo ai risultati previsti e prevedibili ma anche a quelli anomali che possano stimolare la nascita di nuove teorie (serendipity). • Il riferimento alla generica conoscenza tacita del ricercatore, insieme alla sua sagacia e intuizione. • •

Analisi e interpretazione • • • I procedimenti di analisi e interpretazione dei dati

Analisi e interpretazione • • • I procedimenti di analisi e interpretazione dei dati sono così intrecciati che ben pochi ricercatori, nella prassi di ricerca, distinguono questi due processi; Ma è importante imparare a distinguerli perché altrimenti il rischio è che si finisca con lo schiacciare l’interpretazione sull’analisi, pensando che sia sufficiente applicare degli algoritmi automatizzati o delle regole prestabilite alla nostra base empirica per produrre in modo altrettanto automatico risultati dotati di senso. Non si hanno risultati (automaticamente) dotati di senso se il ricercatore non coniuga la sua padronanza delle tecniche di analisi con una sensibilità sociologica derivata dalla conoscenza delle teorie e dal suo sforzo interpretativo. La rilevanza sociologica dei risultati delle procedure di analisi è data dall’abilità del ricercatore di riportarli all’interno di un quadro interpretativo internamente coerente che attribuisca ad essi significato. La competenza metodologica, in questo senso include anche la capacità retorica di argomentare le scelte compiute e di interpretare ed esporre efficacemente (codificazione) i risultati più significativi, instaurando un rapporto circolare di fecondazione reciproca tra teoria e ricerca empirica. Chi enuncia teorie astratte non controllabili o chi riduce la ricerca ad un processo tecnico-ingegneristico, pur collocandosi apparentemente su posizioni antitetiche, sono entrambi suscettibili della medesima critica: di non implementare il processo di sviluppo della conoscenza scientifica.

I rischi che corre l’ “empirista astratto” • • a) b) c) d) e)

I rischi che corre l’ “empirista astratto” • • a) b) c) d) e) Anzi, il rischio è che se il ricercatore svilupperà solo la conoscenza tecnica diventi una sorta di “apprendista stregone” o un “empirista astratto” che elabora dati fino a che i coefficienti statistici non gli segnaleranno che ha finalmente trovato qualcosa che è significativo. Non affinando le capacità interpretativa i rischi sono di: interpretare un risultato che potrebbe essere rilevante sociologicamente ricorrendo ad argomentazioni di senso comune ed annullandone così il potere euristico ; attribuire rilevanza ad un risultato che in realtà è del tutto fittizio (si pensi alle relazioni spurie); non prestare alcuna attenzione ai risultati che statisticamente non sono significativi, ma che potrebbero assumere una rilevanza del tutto particolare (relazioni soppresse; risultati anomali, …); dare luogo a dei risultati frammentati, che non restituiscano un senso unitario; compiere scelte in fase di trattamento e di sintesi delle informazioni che, rispondendo a criteri puramente statistici (ad es. le esigenze di equidistribuzione delle frequenze tra le modalità di una variabile) rischiano di dare luogo a risultati finali privi di senso. In questo senso una relazione tra variabili può essere creata artificiosamente o soppressa anche a causa delle scelte compiute durante queste fasi intermedie del procedimento di analisi.

La natura delle variabili Rispetto ai fini dell’analisi dei dati, le distinzioni che è

La natura delle variabili Rispetto ai fini dell’analisi dei dati, le distinzioni che è utile operare è tra i seguenti tipi di variabili: - Variabili categoriali nominali: sono variabili con stati discreti non ordinabili e derivano da operazioni di classificazione degli stati della proprietà (genere, confessione religiosa, stato civile, etc. ); - Variabili categoriali ordinali: sono variabili con stati discreti ordinabili e derivano da un’operazione classificatoria, in cui è però possibile ordinare gli stati della proprietà (titolo di studio, status professionale, etc. ); - Variabili cardinali: sono variabili che dispongono di un’unità di misura o di conto e si ottengono mediante un’operazione di misurazione (proprietà continue: reddito, età, etc. ) o di conteggio (proprietà discrete: numero di figli, il numero delle macchine possedute, il numero delle volte che la persona va ogni mese in chiesa, etc. ). - Variabili quasi-cardinali: sono variabili con un’unità di misura convenzionale o implicita e derivano da operazioni di misurazione di proprietà pensabili come continue ed è, quindi, possibile presupporre un’unità di misura assunta convenzionalmente dal ricercatore (tecniche di scaling autoancoranti, …). Ai fini dell’analisi dei dati possono essere considerate equivalenti alle variabili cardinali.

Dibattito aperto • E’ possibile trattare le variabili ordinali come se fossero cardinali? •

Dibattito aperto • E’ possibile trattare le variabili ordinali come se fossero cardinali? • Il dibattito è aperto soprattutto con riferimento a tecniche di scaling come le scale Likert • C’è chi propone di considerare legittima l’applicazione delle operazioni generalmente applicate solo alle variabili cardinali o quasi-cardinali, presupponendo che gli intervalli tra le categorie siano uguali. • Autori come Blalock ritengono del tutto arbitraria questi tipi di operazione perché si presuppone che la distanza tra gli stati delle variabili siano uguali, quando invece non lo sono. • In effetti alcun controlli operati sulle scale Likert hanno dimostrato che l’assunto di equidistanza tra le categorie è infondato.

Operazioni possibili sui diversi tipi variabili Tipi di variabile Operazioni fra le modalità Misure

Operazioni possibili sui diversi tipi variabili Tipi di variabile Operazioni fra le modalità Misure di tendenza centrale Misure di dispersione Nominale = ≠ Moda Indice di omogeneità Ordinale > < Mediana Differenza interquartile Cardinale + - x : Media Deviazione standard Quasicardinale + - x : Media Deviazione standard

Le funzioni dell’analisi monovarita • Controllare la plausibilità dei valori (errori di inserimento: wild-codes);

Le funzioni dell’analisi monovarita • Controllare la plausibilità dei valori (errori di inserimento: wild-codes); • Consente un primo approccio ai dati in vista di procedimenti più complessi di analisi bi- e multivariate (è un passaggio inevitabile); • Visualizzare come un certo carattere si distribuisca all’interno del campione: fornisce di per sé dei risultati interessanti che saranno presentati e commentati nel rapporto di ricerca; • Segnalare squilibri nella distribuzione e opportunità di aggregazione; • Permette di scoprire andamenti delle distribuzioni inattesi, diversi da quelli ipotizzati; • Consentire una valutazione critica del proprio lavoro.

 • • • - L’aggregazione delle singole variabili Una delle funzioni dell’analisi monovariata

• • • - L’aggregazione delle singole variabili Una delle funzioni dell’analisi monovariata è quella di procedere al trattamento delle singole variabili in vista delle elaborazioni successive. Trattare la variabile di solito significa ridurre il numero delle modalità di una variabile, aggregandola e ricodificandola (aggregando più modalità e attribuendo a questa classe una nuova denominazione). E’ un’operazione necessaria, ad esempio, laddove ho a che fare con variabili categoriali con molte modalità, che richiederebbero di frammentare eccessivamente le frequenze di cella già in sede di analisi bivariata o che comunque creerebbero problemi in funzione delle operazioni di sintesi. L’aggregazione della variabile e la sua ricodifica richiedono operazioni di interpretazione ad un doppio livello: 1) valutazione del grado di prossimità semantica tra le modalità; 2) interpretazione del significato assunto dalla nuova classe, così costruita. L’abilità del ricercatore dovrà essere quella di coniugare considerazioni di ordine interpretativo e statistico (evitare classi residuali con frequenze troppo basse), che spesso entrano in rapporto di collisione. Per variabili cardinali e quasi-cardinali (ad es. indici costruiti come media), in funzione delle analisi successive, può essere opportuno trasformarla in variabile categoriale ordinale, identificando diversi livelli (es. Basso, Medio-basso, Medio-alto, Alto). Anche qui dovrò combinare considerazioni di ordine statistico (equilibrio delle frequenze relative alle diverse categorie) e sostantivo (significato da attribuire ai valori che si aggregano). Questa operazione può comportare: l’abbassamento del livello di sensibilità della classificazione (rapporto tra il numero degli stati e il numero degli stati possibili su una proprietà); Il mutamento della proprietà rispetto alla quale si stanno classificando i casi (si pensi al passaggio dal titolo di studio al livello di scolarizzazione): modificando l’estensione e l’intensione di una classe, si modifica anche la definizione del concetto sotteso; se non viene condotta in modo appropriato (ad es. accorpando stati che assumono un significato sociologico molto diverso), può comportare la perdita del potere discriminante della classificazione. Vedere es. call center

Misure di tendenza centrale: la moda • La moda è la modalità di una

Misure di tendenza centrale: la moda • La moda è la modalità di una variabile che si presenta con maggiore frequenza (la modalità maggiormente diffusa in variabili categoriali nominali o ordinali) • E’ l’unica misura di tendenza centrale che si può determinare se la variabile è categoriale nominale

Misure di tendenza centrale: la mediana • E’ calcolabile per le variabili ordinali. •

Misure di tendenza centrale: la mediana • E’ calcolabile per le variabili ordinali. • La modalità assunta dal caso che si trova al centro della distribuzione è la mediana. • Si calcola ordinando dapprima i casi dal minore al maggiore. • Se i casi sono ad esempio 251 il valore mediano è la modalità assunto dalla variabile sul 126° caso • Se N è dispari: Md=(N+1)/2; se N è pari ci sono due casi centrali, cioè quelli che occupano le posizioni N/2 e (N/2+1)

Misure di tendenza centrale: la media • E’ calcolabile solo per variabili cardinali o

Misure di tendenza centrale: la media • E’ calcolabile solo per variabili cardinali o quasi-cardinali • Media aritmetica = somma di tutti i valori della variabile x diviso il numero di casi

Misure di variabilità: indici di omogeneità •

Misure di variabilità: indici di omogeneità •

Misure di variabilità: differenza interquartile (variabili categoriali ordinali) • I quartili si ottengono dividendo

Misure di variabilità: differenza interquartile (variabili categoriali ordinali) • I quartili si ottengono dividendo la distribuzione in quattro parti di uguale numerosità. I valori che segnano i confini tra i quattro quarti sono detti quartili. • Il primo quartile è quel valore che ha sotto di sé il 25 della distribuzione e sotto il 75% • Il secondo quartile coincide con la mediana; • Il terzo quartile è quello che ha sotto di sé il 75% della distribuzione e il 25% sopra di sé • Differenza interquartile Q= Q 3 – Q 1 • Dove Q 3 è il valore assegnato alla modalità che corrisponde al terzo quartile • Q 1 è il valore assegnato alla modalità che corrisponde al primo quartile • Più è alto il valore di Q più significa che vi è una dispersione dei casi attorno al valore centrale

Misure di variabilità per variabili cardinali o quasi-cardinali •

Misure di variabilità per variabili cardinali o quasi-cardinali •

Come interpretare le misure di variabilità Statistiche Valutazione della Pulizia della Silenziosità Illuminazione Temperatura

Come interpretare le misure di variabilità Statistiche Valutazione della Pulizia della Silenziosità Illuminazione Temperatura N Validi 1696 1695 1691 1684 Mancanti 19 20 24 31 Media 4, 74 6, 29 5, 49 3, 92 Deviazione std. 2, 657 2, 414 2, 597 2, 362 Varianza 7, 059 5, 825 6, 744 5, 579 Dalla media vediamo che la soddisfazione più bassa si ha per la silenziosità e la pulizia La valutazione della pulizia e della temperatura hanno una variabilità superiore rispetto all’illuminazione e alla silenziosità

CONTROLLI DI AFFIDABILITA’ DELLE SCALE E COSTRUZIONE DI INDICI

CONTROLLI DI AFFIDABILITA’ DELLE SCALE E COSTRUZIONE DI INDICI

Controlli di affidabilità delle risposte • Con riferimento alla scala Likert, che è il

Controlli di affidabilità delle risposte • Con riferimento alla scala Likert, che è il tipo di scala più frequentemente utilizzato nella ricerca sociale, prima di costruire l’indice dobbiamo procedere attraverso controlli di unidimensionalità e di congruenza interna della scala. • I tipi di controllo proposti sono: - Correlazione elemento-scala (al variare del valore complessivo sulla scala variano significativamente anche i valori sui singoli items? ); - Controllo della congruenza interna mediante alfa di Cronbach (valore soglia proposto da Nunnally: 0, 70); - A questi controlli può essere aggiunta un’analisi in componenti principali o analisi delle corrispondenze multiple (a seconda che decidiamo di trattare le variabili come ordinali o come quasi-cardinali) per controllare ulteriormente l’unidimensionalità della scala.

Correlazione elemento-scala • Si calcola per ogni soggetto il punteggio su tutta la scala

Correlazione elemento-scala • Si calcola per ogni soggetto il punteggio su tutta la scala (somma o valore medio) e si calcola il coefficiente di correlazione fra questo punteggio e il punteggio su ogni singolo item; • Se le due variabili covariano il coefficiente assume un valore elevato (variabile tra -1 e 1), altrimenti i valori del coefficiente si approssimano allo 0. • Il valore di correlazione elemento-scala è accettabile se superiore allo 0. 40

Alfa di Cronbach Si basa sulla media della correlazione fra tutti gli elementi e

Alfa di Cronbach Si basa sulla media della correlazione fra tutti gli elementi e sul loro numero. • La sua formula è: − − α = n r /1 + r (n-1) • Assume un valore compreso tra 0 e 1; più alti sono i punteggi più è alta la coerenza interna della scala (valore soglia: 0, 70); • Si noti che con l’eliminazione di un item poco correlato con il punteggio totale, aumenta la correlazione media, ma farà abbassare anche n. •

Quali items eliminare? – Dal computo dell’indice, il ricercatore eliminerà gli elementi con minore

Quali items eliminare? – Dal computo dell’indice, il ricercatore eliminerà gli elementi con minore correlazione elemento-scala finché questa operazione produrrà un aumento di alfa, fermandosi non appena questo intervento produrrà invece un sua diminuzione.

Controllo dell’unidimensionalità • Nella ricerca “Stranieri nella metropoli” la scala Likert è stata considerata

Controllo dell’unidimensionalità • Nella ricerca “Stranieri nella metropoli” la scala Likert è stata considerata come scala ad intervalli apparentemente uguali e quindi considerata una variabile quasi-cardinale. • Per questo per il controllo dell’unidimensionalità si è adottata una tecnica fattoriale denominata analisi delle componenti principali che può essere applicata in caso di variabili cardinali

Analisi in componenti principali (ACP) • L’ACP è una tecnica che consente di ridurre

Analisi in componenti principali (ACP) • L’ACP è una tecnica che consente di ridurre le k variabili originarie in numero inferiore (p<<k) di nuove variabili/indici dette componenti principali, tra loro ortogonali (indipendenti) e tali che sia minima la perdita di informazione misurata dalla variabilità (detta anche inerzia) da esse riprodotta rispetto alla variabilità totale posseduta dalle k variabili originarie.

Caratteristiche dei fattori • Sono ortogonali tra loro, quindi sono indipendenti l’uno dall’altro; •

Caratteristiche dei fattori • Sono ortogonali tra loro, quindi sono indipendenti l’uno dall’altro; • Sono combinazioni delle modalità delle variabili originarie; • Riproducono, ciascuno in ordine decrescente, il massimo della variabilità della matrice originale dei dati; • Il numero dei fattori prodotti è pari al numero delle variabili-modalità utilizzate, meno uno.

Parametri da considerare per l’interpretazione • Autovalore: consente di stabilire quali componenti considerare significative

Parametri da considerare per l’interpretazione • Autovalore: consente di stabilire quali componenti considerare significative ai fini dell’analisi (componenti con autovalore superiore a 1); • Percentuale di inerzia spiegata: proporzionale all’autovalore, consente di stabilire quale percentuale della varianza complessiva è riprodotta da ciascuna componente; • Factor loadings (Pesi fattoriali): indicano in che misura ciascuna variabile attiva è correlata con la componente estratta.

Ulteriori controlli • Response set: i casi che hanno dato la stessa risposta su

Ulteriori controlli • Response set: i casi che hanno dato la stessa risposta su tutti gli items, possono essere classificati come missing, perché è altamente probabile che abbiano risposto in modo meccanico senza porre la dovuta attenzione nel fornire la risposta.

Tecniche di sintesi delle informazioni: la costruzione degli indici - L’indice è l’espediente fisico

Tecniche di sintesi delle informazioni: la costruzione degli indici - L’indice è l’espediente fisico di cui si avvale il ricercatore per combinare insieme il contributo di più indicatori riferibili al concetto di partenza o ad una sua dimensione. - In sede di analisi dei dati, per indice intendiamo una sorta di super-variabile che sintetizza le informazioni contenute nelle singole variabili che costituiscono l’esito di un processo di operativizzazione di un concetto complesso. - Esistono di diverse tecniche di sintesi delle informazioni, che possono implicare operazioni aritmetiche e/o operazioni logico-combinatorie. - Per le variabili categoriali nominali le uniche operazioni possibili sono quelle di tipo logico. - In tutti i casi il nostro scopo è di giungere a classificare i casi in ordine al concetto operativizzato.

Indice additivo con variabili con lo stesso range di variazione • Si parte da

Indice additivo con variabili con lo stesso range di variazione • Si parte da un insieme di variabili, che generalmente presenta lo stesso range di variazione. • I passaggi procedurali sono: - Trattamento delle variabili; - Controlli di affidabilità delle risposte; - Somma dei punteggi ottenuti sulle singole variabili. Può essere consigliabile fare la media piuttosto che la semplice somma; - Aggregazione del punteggio totale in classi dotate del livello di analiticità che risponde al nostro fabbisogno informativo e compatibile con la distribuzione dei casi sull’indice.

Trattamento delle variabili • Poiché generalmente gli items delle scale sono a polarità invertita

Trattamento delle variabili • Poiché generalmente gli items delle scale sono a polarità invertita (per evitare i problema dei response set), bisogna ricodificare le variabili, in modo tale che i punteggi assegnati in fase di codifica possano essere riportati allo stesso continuum (per es. da bassi ad alti valori di pregiudizio); Per le variabili cardinali, se l’unità di misura delle variabili che dobbiamo combinare è diversa, si procede preliminarmente alla standardizzazione delle variabili (rapporto tra la differenza tra il punteggio sulla variabile X e il suo valore medio e lo scarto tipo).

Somma o media? • La media consente di riportare il range di variazione dell’indice

Somma o media? • La media consente di riportare il range di variazione dell’indice al range di variazione delle singole variabili, facilitando l’interpretazione dei valori assunti dall’indice. • Occorre fare attenzione, nel fare la media, ai missing values. La media deve essere infatti rapportata al numero delle risposte valide.

Aggregazione dei punteggi • Si può utilizzare il punteggio così ottenuto in tutta la

Aggregazione dei punteggi • Si può utilizzare il punteggio così ottenuto in tutta la sua estensione per particolari tipi di analisi (ad es. analisi della varianza), oppure procedere all’aggregazione dell’indice ottenuto. • Nell’operare le aggregazioni è opportuno combinare considerazioni di ordine statistico considerazioni di ordine sostantivo.

Costruzione riduzione di spazio di attributi • Laddove dobbiamo combinare insieme variabili categoriali, è

Costruzione riduzione di spazio di attributi • Laddove dobbiamo combinare insieme variabili categoriali, è utile ricorrere alla procedura proposta da Lazarsfeld e Barton di costruzione e riduzione dello spazio di attributi. • L’esito della procedura è un indice tipologico, articolato in una serie di tipi. • Ciascun tipo nasce dalla combinazione di un insieme di attributi (stati sulle variabili). • Lo spazio di attributi è rappresentato dall’insieme delle combinazioni possibili tra gli attributi. • La riduzione consiste nell’eliminazione o nell’aggregazione di alcuni tipi che, per molti versi, possono essere considerati equivalenti.

Esempio di costruzione e riduzione di spazio di attributi per la costruzione di un

Esempio di costruzione e riduzione di spazio di attributi per la costruzione di un indice di status socio-culturale Alto Medio Basso Alto A-A A-M A-B Medio M-A M-M M-B Basso B-A B-M B-B

Riduzioni possibili • Lazarsfeld e Barton identificano tre tipi di riduzione possibile: • Funzionale:

Riduzioni possibili • Lazarsfeld e Barton identificano tre tipi di riduzione possibile: • Funzionale: consiste nell’eliminazione delle combinazioni teoricamente impossibili o empiricamente inesistenti. • Arbitraria numerica: consiste nell’assegnare dei punteggi a delle combinazioni e nell’accorpare i tipi con uguale punteggio. • Pragmatica: alcune combinazioni vengono accorpate in un tipo, in vista degli scopi della ricerca.

Procedura più breve in SPSS (prodotto) Basso (1) Medio (2) Alto (3) Basso (3)

Procedura più breve in SPSS (prodotto) Basso (1) Medio (2) Alto (3) Basso (3) B-B (3) B-M (6) B-A (9) Medio (5) M-B (5) M-M (10) M-A (15) Alto (7) A-B (7) A-M (14) A-A (21)

Ceto alto (3) Alto (1) M-A (2) M (3) Congr. (3) Sovrasti ma (6)

Ceto alto (3) Alto (1) M-A (2) M (3) Congr. (3) Sovrasti ma (6) ma (9) ma (12) ma (15) Ceto m- Sottosti Congr. a (7) ma (7) (14) M-B (4) B (5) Sovrasti ma (21) ma (28) ma (35) Ceto m Sottosti Congr. (11) ma (22) (33) Sovrasti ma (44) ma (55) Ceto m- Sottosti Congr. b (13) ma (26) ma (39) (52) Ceto basso (17) Sovrasti ma (65) Sottosti Congr. ma (17) ma (34) ma (51) ma (68) (85)

Tecniche di sintesi multivariate • Per costruire la tipologia degli operatori di call center

Tecniche di sintesi multivariate • Per costruire la tipologia degli operatori di call center si è proceduto con due tecniche di analisi multivariata in sequenza: • Analisi in componenti principali (inserendo come variabile gli indici cardinali sulle diverse dimensioni della qualità della vita lavorativa); • Cluster analysis (analisi dei gruppi): gli operatori sono stati suddifisi in quattro gruppi quanto più omogenei al loro interno e quanto più eterogenei tra loro.

L’ANALISI BIVARIATA

L’ANALISI BIVARIATA

Analisi bivariata • Analisi di due variabili per volta finalizzata ad evidenziare se fra

Analisi bivariata • Analisi di due variabili per volta finalizzata ad evidenziare se fra loro esista o meno, che forma e che forza abbia, una relazione di associazione, ovvero una qualche forma di sistematicità nel modo in cui le rispettive modalità sono legate. • Distinzione tra i due casi estremi di INDIPENDENZA STATISTICA (la variabile assume dei valori indipendentemente dai valori assunti dall’altra) e MASSIMA ASSOCIAZIONE fra due variabili

Analisi bivariata Variabile indipendente Variabile categoriale nominale/ordinale Variabile cardinale-quasi cardinale Variabile categoriale Tabelle di

Analisi bivariata Variabile indipendente Variabile categoriale nominale/ordinale Variabile cardinale-quasi cardinale Variabile categoriale Tabelle di contingenza ___ (Chi quadrato) Variabile cardinale/quasi cardinale Analisi della varianza (F Coefficiente di di Fischer) correlazione lineare (r di Pearson)

Chi quadrato (variabili categoriali) •

Chi quadrato (variabili categoriali) •

Significatività del Chi quadrato • Gradi di libertà = (n. righe -1) (n. colonne

Significatività del Chi quadrato • Gradi di libertà = (n. righe -1) (n. colonne – 1) • In base al valore del Chi quadrato e dei gradi di libertà si calcola il livello di significatività (p) del Chi quadrato, che è la probabilità che la relazione statistica ottenuta s ia dovuta ala caso in caso di ipotesi nulla • Quindi più il livello di significatività è vicino allo 0 più significa che la relazione statistica ottenuta è significativa perché è pressoché 0 la probabilità che la relazione statistica sia dovuta al caso e prossima all’ipotesi nulla • Si assume un Chi quadrato significativo per un valore critico di p< 0, 05

Limiti del chi-quadrato: • Le frequenze attese per ogni cella non devono essere inferiori

Limiti del chi-quadrato: • Le frequenze attese per ogni cella non devono essere inferiori a 5, pena l’inaffidabilità del test; • Esso cresce all’aumentare del numero dei casi, per cui, per campioni consistenti tende ad essere generalmente significativo. 64

Analisi della varianza – Anova (VARIABILE CARDINALE PER VARIABILE CATEGORIALE) • E’ un modello

Analisi della varianza – Anova (VARIABILE CARDINALE PER VARIABILE CATEGORIALE) • E’ un modello di analisi dei dati che consente di verificare ipotesi relative a differenze tra le medie di due o più popolazioni/campioni/subcampioni su determinati fenomeni. Ciò significa che, nella sua forma più semplice, l’analisi della varianza è una tecnica adatta a controllare se esista e che intensità abbia la relazione tra una variabile categoriale (tale, quindi, da definire diverse classi o gruppi di soggetti) – in ipotesi indipendente - ed una cardinale – in ipotesi dipendente. • Essa consiste nell'esaminare la varianza di ciascun gruppo (corrispondente ad una modalità della variabile categoriale) rispetto alla media del gruppo stesso (interna) e, comparativamente, la varianza fra i gruppi rispetto alla media del campione complessivo (esterna). • Una volta impostati gli incroci tra variabili ritenuti interessanti ai fini della ricerca, scopo dell’analisi è quello di misurare la significatività statistica della differenza fra le medie delle categorie. 65

Esempi: • relazione tra zona geografica (modalità: Nord, Centro, Sud e Isole) e percentuale

Esempi: • relazione tra zona geografica (modalità: Nord, Centro, Sud e Isole) e percentuale di voto della coalizione di centro-sinistra – riferimento temporale: elezioni politiche del 2006/casi: province italiane • relazione tra capitale culturale familiare (modalità: basso, medio, alto) e rendimento scolastico (media dei voti/voto per singola materia) – casi: studenti di scuola media superiore 66

MISURE STATISTICHE UTILIZZATE: Media aritmetica = somma di tutti i valori di x diviso

MISURE STATISTICHE UTILIZZATE: Media aritmetica = somma di tutti i valori di x diviso il numero di casi Varianza (e Devianza) = somma dei quadrati degli scarti di tutti i valori di x dalla media aritmetica, diviso il numero di casi. La devianza è il numeratore di questo rapporto 67

L’ANOVA (Analysis of Variance) è basata sulla scomposizione della variabilità totale dei dati tra

L’ANOVA (Analysis of Variance) è basata sulla scomposizione della variabilità totale dei dati tra due fonti di variazione: • una dovuta alla differenza tra i gruppi (la varianza between), ovvero alla differente modalità del fattore che determina i gruppi; • una dovuta alla diversità dei soggetti nei gruppi (la varianza entro i gruppi – within), generata essenzialmente da differenze individuali casualmente distribuite nella popolazione. DOMANDA: • La variabilità tra i gruppi è sufficientemente diversa dalla variabilità entro i gruppi da poter considerare significativamente diverse le medie dei due gruppi? 68

Ricapitolando… Nel contesto dell’Anova possiamo definire diverse devianze: - devianza totale: somma dei quadrati

Ricapitolando… Nel contesto dell’Anova possiamo definire diverse devianze: - devianza totale: somma dei quadrati degli scarti tra i singoli punteggi e la media generale; - devianza tra i gruppi (o between o spiegata): somma dei quadrati degli scarti tra i punteggi medi di gruppo e la media generale (equivale alla variabilità tra i diversi gruppi; essa riflette l’effetto del trattamento sperimentale o del raggruppamento preesistente → es. modalità del genere); - devianza entro i gruppi (o within o residua): somma dei quadrati degli scarti tra i punteggi di ogni soggetto e la relativa media di gruppo (differenze intra-gruppo sulla variabile dipendente). In altri termini, la devianza totale può essere scomposta in una parte dovuta alla deviazione delle medie di ogni gruppo dalla media generale e in una dovuta alla deviazione dei punteggi dei soggetti dalla media del gruppo cui appartengono. Se la variabilità della variabile dipendente è minima entro le categorie della variabile indipendente, e massima fra le categorie della variabile indipendente, allora potremo dire che esiste una relazione fra le due variabili. 69

DEVIANZA TOTALE (SOMMA DEI QUADRATI) = DEV. NON SPIEGATA + DEV. SPIEGATA • Se

DEVIANZA TOTALE (SOMMA DEI QUADRATI) = DEV. NON SPIEGATA + DEV. SPIEGATA • Se variabilità interna = 0 siamo in presenza di relazione perfetta • Se variabilità esterna = 0 vi è assenza di relazione 70

MISURA DI SIGNIFICATIVITÁ: RAPPORTO F • F di Fisher è direttamente prporzionale alla devianza

MISURA DI SIGNIFICATIVITÁ: RAPPORTO F • F di Fisher è direttamente prporzionale alla devianza esterna e inversamente proporzionale alla devianza interna • Può essere utilizzato per esaminare ipotesi sulla significatività della differenza tra la variabilità dovuta al trattamento e quella residua. La F esamina le seguenti ipotesi: 1. H 0: i gruppi i dentificati dalla variabili categoriale indipendente hanno medie uguali sulla variabile dipendente; 2. H 1: almeno due gruppi hanno medie significativamente diverse tra loro; • Se non si può rifiutare H 0 le varianze tra i gruppi ed entro i gruppi saranno tra loro molto simili ed il rapporto F assumerà valori molto bassi (vicini o inferiori a 1). Ciò significherà che la variabilità tra i gruppi è sostanzialmente equivalente alla variabilità all’interno dei gruppi. Se, invece, il trattamento produce effetti, quindi si può rifiutare l’ipotesi nulla, la varianza tra i gruppi (trattamento) sarà maggiore della varianza entro i gruppi (errore casuale) ed il rapporto F assumerà valori elevati. 71

Analisi bivariata delle variabili quasi-cardinali e cardinali • Una volta rappresentate le coppie di

Analisi bivariata delle variabili quasi-cardinali e cardinali • Una volta rappresentate le coppie di variabili selezionate attraverso opportuni grafici (es. grafici a dispersione), è possibile calcolare diversi coefficienti di associazione: coefficiente di correlazione lineare r di Pearson, coefficiente di regressione b (asimmetrico). 72

Formule Covarianza = = cov(x, y) Campo di variazione: – 1/+1 PROCEDURE INFORMATICHE: 1.

Formule Covarianza = = cov(x, y) Campo di variazione: – 1/+1 PROCEDURE INFORMATICHE: 1. ANALIZZA→CORRELAZIONE→BIVARIATA; 2. ANALIZZA→REGRESSIONE→LINEARE 73

Come si interpreta rxy • Il segno del coefficiente sta ad indicare la direzione

Come si interpreta rxy • Il segno del coefficiente sta ad indicare la direzione della correlazione: se la correlazione è positiva significa che c’è una proporzionalità diretta tra le due variabili (al crescere dell’una cresce anche l’altra); se il segno è negativo c’è una proporzionalità inversa. • Quanto è più alto il valore assoluto di r e quanto è più forte la correlazione.