Leggiamo la realt attraverso la statistica LE BASI
Leggiamo la realtà attraverso la statistica LE BASI DELLA STATISTICA Scuola Secondaria di 1°grado; Argomento: Leggiamo - Basi (30. 09. 13); Pacchetto: S 1. A. 1
INDICE 1) 2) 3) 4) 5) 6) 7) Cosa studia la statistica? Fenomeni collettivi Carattere e modalità Unità statistica e popolazione Frequenze (assolute, relative, percentuali)… Indici di posizione (moda, mediana, media) Indici di variabilità (campo di variazione)
Cosa studia la statistica? La funzione principale della Statistica è quella di rendere comprensibile ciò che nella massa delle informazioni appare indifferenziato. Quando si raccolgono le informazioni di un certo fenomeno, si ha a che fare con una mole notevole di dati grezzi. Il primo problema da affrontare, quindi, è quello di sintetizzare la massa di dati grezzi in indicatori particolarmente informativi, utilizzando metodiche numeriche o grafiche, che siano in grado di descrivere le informazioni raccolte senza alternarne il senso complessivo.
Fenomeni collettivi La statistica dunque si occupa di quei fenomeni il cui studio richiede l’osservazione di una pluralità di manifestazioni individuali (fenomeni collettivi) e ne fa una sintesi La statistica cerca in altre parole di estrarre il “succo” da enorme quantità di informazioni, di dar voce ai numeri! Ma è proprio indispensabile, non è meglio guardare dettagliatamente tutte le informazioni a disposizione?
Ma serve la statistica? In una scuola secondaria di primo grado, gli insegnanti hanno realizzato una indagine sui viaggi e le vacanze estive degli alunni. Hanno chiesto a ciascun ragazzo di esprimersi tra sei tipologie di possibili scelte: nessun viaggio, mare, montagna, campagna, città d'arte, e altro mare città d'arte mare altro città d'arte montagna nessun viaggio mare altro nessun viaggio montagna mare nessun viaggio mare montagna nessun viaggio mare campagna montagna nessun viaggio altro campagna città d'arte nessun viaggio altro città d'arte montagna nessun viaggio mare montagna altro mare nessun viaggio città d'arte Ma quanti sono? Qual è stata la meta preferita? … Siamo in grado di rispondere in pochi secondi?
Ma se mettiamo tutto in tabella…. I dati che prima erano in una successione ora sono ben riassunti da una tabella! Gli studenti in totale sono 50. Mentre la meta preferita è stata il mare! Tipo di vacanza mare nessun viaggio montagna altro città d'arte campagna Totale complessivo Totale 17 12 7 6 5 3 50
E ora si comincia prima di fare cose “divertenti” con i dati è necessario conoscere le cose con il nome giusto!! BISOGNA IMPARARE UN PO’ DI LESSICO SETTORIALE parole nuove o parole “vecchie” con nuovi significati
CARATTERE E MODALITA’ CARATTERE o VARIABILE o FENOMENO: è una caratteristica di interesse viene rilevata / misurata / osservata MODALITA’: sono manifestazioni del carattere, sono numeriche o non numeriche, e devono essere: Ø Esaustive: devono includere tutti i modi di essere del carattere considerato Ø Non sovrapponibili: esattamente individuate o mutuamente escludenti. es. il carattere rilevato dagli insegnanti è il TIPO DI VACANZA e le modalità sono: nessun viaggio, mare, montagna, campagna, città d'arte, e altro
UNITA’ STATISTICA e POPOLAZIONE L’UNITA’ STATISTICA e’ l’unita’ elementare su cui vengono osservati i caratteri Nell’indagine sulla variabile TIPO di VACANZA le unità statistiche sono i 50 studenti Può essere “naturale” o convenzionale es. un essere umano, un’auto es. la famiglia E’ necessario sempre definire in modo preciso l’unità statistica o in altre parole l’unità elementare di indagine LA POPOLAZIONE e’ l’insieme delle unita’ statistiche di interesse, omogenee rispetto a uno o più caratteri. Con n si indica il numero totale delle unità statistiche considerate.
E adesso passiamo alla pratica. . .
A seconda del tipo di modalità… Discreti Quantitativi Esprimibili mediante numeri (valori) riferiti ad una unità di misura. Sono misurabili Assumono un numero limitato di valori corrispondenza biunivoca con i numeri interi (es. : numero di fratelli) Continui Assumono un numero illimitato di valori corrispondenza biunivoca con i numeri reali (es. : Età) Caratteri Ordinali Qualititativi Esprimibili mediante attributi. Sono non misurabili Ordine naturale di successione (es. : Livello di istruzione) Sconnessi Nessun ordine tra le modalità (es. : Sesso)
Strumenti della statistica Attraverso la statistica la molteplicità dei dati di una rilevazione viene tradotta in forma sintetica e facilmente interpretabile per evidenziare la composizione della popolazione con riferimento ai caratteri osservati e trarre indicazioni per le successive elaborazioni. Quali sono gli strumenti della statistica di cui parleremo? Ø Frequenze Ø Tabelle di frequenza Ø Semplici costanti caratteristiche (indici di centralità, misure di variabilità. . . )
Le frequenze Le più semplici tecniche di misurazione sono i conteggi, cioè il numero di volte che si presenta ciascuna modalità assunta da una variabile Ogni unità statistica - deve poter essere classificata classi esaustive - deve appartenere ad una sola classe classi disgiunte Per calcolare le frequenze serve la distribuzione unitaria del carattere cioè l’elencazione delle modalità osservate unità per unità, nella popolazione di interesse Tipo di vacanza Totale mare città d'arte mare montagna 17 mare altro città d'arte nessun viaggio 12 Partendo damarei dati in altro nessunaltroviaggio nessun viaggio montagna mare montagna 7 serie, conteggiando mare nessun viaggio mare montagna altro mare 6 quante siviaggio nessun viaggio volte nessun viaggio campagna altro campagna città d'arte 5 verifica ognimontagna modalità nessun viaggio città d'arte nessun viaggio altro città d'arte montagna 3 si arriva alla tabella di mare campagna nessun viaggio mare montagna altro mare viaggio città d'arte frequenza! mare Totale nessun complessivo 50
Le frequenze assolute La tabella statistica è un prospetto di due colonne: Ønella prima colonna sono elencate le modalità (distinte o raggruppate in classi) con cui si manifesta il carattere Ønella seconda sono riportate le frequenze La parte che sovrasta le colonne è detta testata. Frequenze Modalità Tipo di vacanza Frequenze assolute x n 1 mare 17 1 x n 2 nessun viaggio 12 2 … … montagna 7 x n 6 j altro j … … città d'arte 5 x n 3 k campagna k Totale n 50 Le frequenze assolute sono il numero di volte che ciascuna modalità si presenta nella popolazione osservata Con nj si indicano le frequenze, e con xj le modalità, con l’indice j=1, 2, …, K dove K è il numero di modalità
Le frequenze relative Dividendo le frequenze assolute per n il numero totale delle unità statistiche si ottengono le frequenze relative Tipo di vacanza mare nessun viaggio montagna altro città d'arte campagna Totale Frequenze assolute 17 12 7 6 5 3 50 Frequenze relative 0, 34 0, 24 0, 12 0, 1 0, 06 1 Le FREQUENZE ASSOLUTE, di due distribuzioni di dati, anche della stessa specie, non sono confrontabili in quanto si riferiscono, in generale, ad un diverso numero di casi complessivi
Perché si calcolano le frequenze relative? Perché le frequenze assolute dipendono da n, hanno significati diversi a seconda del numero totale di unità Il fatto è rilevante soprattutto quando si confrontano le distribuzioni di frequenza di 2 o più gruppi di unità Consideriamo due gruppi classificati per il sesso (M maschi e F femmine), con le frequenze relative possiamo capire il gruppo con la presenza maschile più elevata! Gruppo 1 M F Tot. Frequenze assolute relative 2 0, 333 4 0, 667 6 1 Gruppo 2 M F Tot. Frequenze assolute 12 46 58 Frequenze relative 0, 207 0, 793 1
Le frequenze percentuali La frequenza percentuale di una certa modalità è data dal rapporto tra la frequenza assoluta di tale modalità ed il numero totale dei casi moltiplicato per 100: Tipo di vacanza mare nessun viaggio montagna altro città d'arte campagna Totale Frequenze assolute 17 12 7 6 5 3 50 Frequenze relative 0, 34 0, 24 0, 12 0, 1 0, 06 1 Frequenze percentuali 34% 24% 12% 10% 6% 100% Con le frequenze percentuali è semplicissimo fare confronti!
Calcolo delle frequenze percentuali! Gli studenti di una classe sono classificati per la variabile qualitativa COLORE DEI CAPELLI, ecco la tabella di frequenza Colore capelli (carattere) neri frequenze assolute 10 castani 6 rossi 1 biondi 5 TOTALE Calcolo frequenze percentuali 22 Colore capelli frequenze assolute frequenze percentuali 10 45, 46% castani 6 27, 27% rossi 1 4, 55% biondi 5 22, 72% 22 100% neri TOTALE
Un dettaglio sulle MODALITA’ Per le variabili discrete, le modalità si lasciano individuare abbastanza facilmente, ma per le variabili CONTINUE, occorre attuare un processo di DISCRETIZZAZIONE cioè individuare delle CLASSI di valori assunti dal carattere che ci interessa PESO (Kg) N° STUDENTI (frequenze) Rappresentazione per classi di peso CLASSI DI PESO N° STUDENTI (frequenze) 52 1 54 1 50 – 60 Kg 4 55 2 60 – 70 Kg 7 61 1 70 – 80 Kg 3 63 1 totale 14 68 2 69 3 71 1 73 1 75 1 TOTALE 14
qualche informazione sulle CLASSI Il processo di CLASSIFICAZIONE deve rispettare certe regole Ø il numero di classi deve essere equilibrato né troppe, né troppo poche Ø le classi devono, in genere, avere la stessa ampiezza Ø evitare il più possibile le classi aperte L’ informazione, diviene meno precisa nel caso di una distribuzione per classi, tuttavia la visione della distribuzione diventa più semplice e rapida
INDICI DI POSIZIONE Per sintetizzare con un unico valore una distribuzione è possibile utilizzare un indice di posizione, tali indici danno informazioni sull’ordine di grandezza presentato dal carattere nel complesso delle unità statistiche. I più noti sono la media aritmetica, la moda e la mediana, ma ne esistono molti altri. Ognuno ha le proprie peculiarità …. es. Qual è il colore medio dei vostri capelli ? Attenzione non tutti i caratteri sono uguali e dovremo agire di conseguenza. . (vi ricordate caratteri qualitativi e quantitativi? ? )
MODA La MODA di una distribuzione di dati è il termine corrispondente alla MASSIMA FREQUENZA. In sostanza si tratta del termine più comune In questa tabella i 19 studenti sono classificati per il carattere VOTO, la moda è la modalità più frequente: è il voto 6! VOTO Frequenze assolute 5 4 6 8 7 4 8 2 9 1 Totale 19 Può essere calcolata per qualsiasi tipo di carattere anche se qualitativo sconnesso
MEDIANA La MEDIANA è il termine che occupa il POSTO CENTRALE di una distribuzione di dati ordinati in modo crescenti In questa tabella i 19 studenti sono classificati per il carattere VOTO, per determinare la mediana si ordinano i dati in modo crescente, e si individua il TERMINE CENTRALE che è quello che lascia alla sua destra e alla sua sinistra un VOTO Frequenze eguale numero di termini assolute 5 4 6 8 7 4 8 2 9 1 Totale 19 555566666 6667777889 Se i dati sono in numero pari, allora si hanno due termini centrali, in tal caso come mediana si prende la loro media aritmetica
MEDIA ARITMETICA La MEDIA è una media analitica quindi può essere calcolata solo per caratteri QUANTITATIVI. Si ottiene sommando tutti valori osservati e dividendo per il numero totale delle unità statistiche Nell’esempio precedente 55556666 6 6667777889 Può sembrare paradossale presentare un valore decimale come sintesi di dati discreti, ma ciò è giustificato dal fatto che la media è un valore rappresentativo di tutte le osservazioni e non si riferisce a una singola misura!
MEDIA ARITMETICA Se i dati sono in tabella la formula cambia, ogni valore osservato va pesato con la relativa frequenza assoluta, tutto diviso per n! VOTO xj 5 6 7 8 9 Totale Frequenze assolute nj 4 8 4 2 1 19 xj x n j 20 48 28 16 9 121
VARIABILITA’ Una MEDIA NON BASTA a dare un’immagine della distribuzione di un carattere! Servono degli indici che descrivano la DIVERSITA’ delle unità osservate, cioè la loro ETEROGENEITA’ es. due distribuzioni con media aritmetica uguale, ma molto diverse tra loro Queste misure sono gli indici di VARIABILITA’ La VARIABILITA’ di una distribuzione è la tendenza delle unità ad assumere diverse modalità del carattere
CAMPO DI VARIAZIONE Per comprendere cos’è la VARIABILITA’ di un fenomeno statistico consideriamo la tabella che segue, nella quale vengono indicati quanti televisori sono stati venduti da un commerciante nei primi tre mesi degli ultimi tre anni. Mediamente nel primo trimestre sono state vendute sempre 30 TV, ma… per valutare la variabilità possiamo considerare il CAMPO DI VARIAZIONE tra il massimo e il minimo osservato! Mese 2011 2012 2013 gennaio 30 40 60 2011 Campo variazione=30 -30=0 quindi NON SI HA VARIABILITÀ febbraio 30 20 10 2013 Campo variazione=60 -10=50 marzo 30 30 20 totale 90 90 90 Le vendite hanno presentato più variabilità nel 2013! 0 20 50 Campo variazione
…e adesso… buon lavoro! Rete per la promozione della cultura statistica
- Slides: 28