Statistica descrittiva Come descrivere una variabile in un
Statistica descrittiva Come descrivere una variabile in un insieme di osservazioni 1. Utilizzare rappresentazioni grafiche dei dati 2. Sintetizzare i dati con degli indici Tendenza centrale Variabilità 1
Rappresentazione grafica di una variabile quantitativa Esempio: misura dell’altezza di 400 alberi 15. 1, 17. 2, 18, 21, 22, 25, 24, 15, 25. 5, 16, 25, 24, 14, 26, 24. 3, 27, 23, 22. 3 , 25, 20, 18, 21. 4, 24, 28, 26, 22, 27. 3, 21, 26 , 18 , 25, 20. 4, 14, 25, 24, 19, 17, 15. 4, 27, 23. 7, 19 , 18 , 15, 25. 3, 18, 13. 1, 24, 26, 22. . . 2
Rappresentazione grafica di una variabile quantitativa Esempio: misura dell’altezza di 400 alberi 15. 1, 17. 2, 18, 21, 22, 25, 24, 15, 25. 5, 16, 25, 24, 14, 26, 24. 3, 27, 23, 22. 3 , 25, 20, 18, 21. 4, 24, 28, 26, 22, 27. 3, 21, 26 , 18 , 25, 20. 4, 14, 25, 24, 19, 17, 15. 4, 27, 23. 7, 19 , 18 , 15, 25. 3, 18, 13. 1, 24, 26, 22. . . Posso creare delle classi di altezze: 13 -14: 14 -15: 15 -16: 17 -18: . . . Frequenze assolute 3
Istogramma delle frequenze assolute Frequenza assoluta Numero di individui con altezza 19 -20 m Altezza (m) 4
Frequenza assoluta Posso variare la dimensione delle classi di frequenza Frequenza assoluta Istogramma delle frequenze assolute Altezza (m) 5
Istogramma delle frequenze assolute Se sommo le frequenza assolute ottengo un frequenza cumulata 6
Rappresentazione grafica di una variabile quantitativa Distribuzione di frequenza La frequenza assoluta rappresenta il numero di osservazioni ottenute per un certo valore della variabile La frequenza relativa (%) rappresenta il numero di osservazioni ottenute per un certo valore della variabile diviso per il numero totale di osservazioni 7
Frequenza assoluta Istogramma delle frequenze Altezza (m) La forma dell’istogramma descrive la forma della distribuzione della variabile altezza albero 8
Asimmetria dell’istrogramma
Indici di tendenza centrale
Indici di tendenza centrale e dispersione Indici di posizione: Descrivono il valore centrale di un gruppo di osservazioni Indici di dispersione o variabilità: quanto si discostano le singole osservazione dal valore centrale? Altezza (m) 25 20 Ogni popolazione presenta un certo grado di variabilità!!! 15 Abete Larice 11
Indici di tendenza centrale: min a max Intervallo dei valori Massimo 50 Altezza (m) 40 30 20 Minimo 10 12
Indici di tendenza centrale: media La media aritmetica Intera popolazione Campione 40 Uso della media: quando i valori si distribuiscono in modo più o meno simmentrico attorno ad un valore centrale Numero di alberi 35 30 25 20 15 10 5 0 10 15 20 25 30 35 Altezza 40 45 50 13
Indici di tendenza centrale: moda La moda rappresenta il valore della variabile a cui è associata la frequenza più alta MODA 40 Nel caso in cui la classe non è discreta si prende il valore centrale della classe Numero di alberi 35 30 25 20 15 10 5 0 10 15 20 25 30 Altezza 35 40 45 50 14
Indici di tendenza centrale: mediana La mediana: la mediana costituisce il valore centrale di una serie di misure Serie di 19 misure di altezza Altezza (m) 40 30 10° valore 30 20 Si usa quando la distribuzione dei valori non è simmetrica 9 misure sotto 25 Numero di alberi 50 9 misure sopra 20 15 10 5 0 10 10 15 20 25 30 35 Altezza 40 45 50 15
Indici di tendenza centrale: mediana Se il numero di osservazione è pari la mediana è la media dei due valori centrali Serie di 12 misure di altezza 50 Altezza (m) 40 30 20 10 Ranking 1° 2° 3° 4° 5° 6° 7° 8° 9° 10° 11° 12° Valore 10 12 19 27 29 32 Mediana=33. 5 35 38 39 40 51 16 52
Indici di tendenza centrale: quantili Quantili: la mediana costituisce un caso specifico di quantile 50 Altezza (m) 40 30 20 Q 75 (Q 3) Q 50 (MEDIANA) Q 25 (Q 1) Il quantile è un valore qα che divide le osservazioni in due parti, proporzionali ad α e (1 -α) e caratterizzate da valori rispettivamente minori e maggiori di qα 10 17
Indici di tendenza centrale: quantile 25% (primo quartile) q 25 È il valore che divide la serie in due parti: la prima contiene il 25% delle osservazioni mentre la seconda il restante 75% 50 Altezza (m) 40 100 -25% q 25 30 20 25% 10 18
Indici di tendenza centrale: quantile 75% (terzo quartile) q 75 È il valore che divide la serie in due parti: la prima contiene il 75% delle osservazioni mentre la seconda il restante 25% 50 Altezza (m) 40 100 -75% q 75 30 20 75% 10 19
Formule per i quartili (Q 1 e Q 3) Formule per ottenere le posizioni di Q 1 E Q 3 Le tre regole: 1. Se Q 1 o Q 3 sono un numero intero: OK 2. Se Q 1 o Q 3 sono. . . , 5: media dei due valori 3. Se Q 1 o Q 3 è. . . , XX: si approssima al più vicino Esempio con Q 1=4 si prende il 4° valore Q 1=3. 5 si media il 3° e 4° valore Q 1=3. 45 si prende il 3° valore Q 1=3. 89 si prende il 4° valore 20
Box-plot MAX 75% quantile (Q 3) Mediana Range interquartile (IQR) 25% quantile (Q 1) MIN 21
Box-plot 22
MAX Q 3 MEDIANA Q 1 MIN Altezza (m) I 5 valori di sintesi + MEDIA ARITMETICA Abete Larice 23
Indici di tendenza di dispersione
Indici di variabilità Altezza (m) Tutte le popolazioni hanno un grado più o meno alto di variabilità! 25 20 15 Abete Larice 25
Indici di variabilità Gli indici di posizione non sono sufficienti per descrivere una variabile quantitativa 50 Altezza (m) 40 30 Gli indici di variabilità misurano il grado di dispersione dei dati attorno al valore centrale 20 10 Foresta A Foresta B 26
Indici di variabilità: Intervallo di variazione L’intervallo di variazione è la più cruda misura di variabilità 50 Intervallo 40 Altezza (m) Intervallo =Max-Min Max 30 Maggiore l’intervallo maggiore la variabilità Min 20 10 Foresta A Foresta B 27
Indici di variabilità: Deviazione standard (I) La deviazione standard si basa sulla misura degli scarti Media Osservazione (xi) 50 Scarto o residuo=xi-media 30 20 Scarto Altezza (m) 40 Maggiori gli scarti maggiore la variabilità 10 Foresta A 28
Indici di variabilità: Deviazione standard (II) Posso sommare gli scarti per misurare la variabilità? Media Osservazione (xi) 50 + Qual è il problema di questa misura? 30 20 Scarto Altezza (m) 40 Somma dei quadrati=∑(xi-media)2 - 10 Foresta A 29
Indici di variabilità: Deviazione standard (III) VARIANZA Media Osservazione (xi) 50 + 30 20 Scarto Altezza (m) 40 CAMPIONE POPOLAZIONE - 10 Foresta A 30
Indici di variabilità: Deviazione standard (IV) Media Osservazione (xi) 50 + 30 20 Scarto Altezza (m) 40 CAMPIONE POPOLAZIONE - 10 Foresta A 31
Indici di variabilità: Coefficiente di variazione La deviazione standard misura la variabilità di una popolazione o campione La deviazione standard dipende dal valore assoluto delle media Il coefficiente di variazione ci permette di valutare la variabilità fra popolazioni con medie molto diverse 32
Indici di variabilità: Coefficiente di variazione È più variabile l’altezza o l’etá degli studenti? Altezza media=1. 70 (s=0. 20) 11. 7% Età media=22 anni (s=1) 4. 5% 33
- Slides: 33