Preparazione e caratteristiche dei Dati per Data Mining

  • Slides: 140
Download presentation
Preparazione e caratteristiche dei Dati per Data Mining Fosca Giannotti Mirco Nanni f. giannotti@isti.

Preparazione e caratteristiche dei Dati per Data Mining Fosca Giannotti Mirco Nanni f. giannotti@isti. cnr. it nanni@isti. cnr. it ISTI-CNR Pisa

Materiale Lucidi delle lezioni (Slides Power. Point): n Primo autore: G. Manco Revisione: M.

Materiale Lucidi delle lezioni (Slides Power. Point): n Primo autore: G. Manco Revisione: M. Nanni n Versione attuale: In distribuzione Testi di Riferimento n J. Han, M. Kamber. Data Mining: Concepts and Techniques. Morgan Kaufmann, 2000. n Dorian Pyle. Data Preparation for Data Mining. Morgan Kaufmann, 1999. n D. Hand, H. Mannila, P. Smyth. Principles of Data Mining. MIT Press, 2001. Anno accademico, 2004/2005 Preparazione di Dati per Data Mining

Il Processo di KDD Interpretation and Evaluation Data Mining Knowledge Selection and Preprocessing Data

Il Processo di KDD Interpretation and Evaluation Data Mining Knowledge Selection and Preprocessing Data Consolidation p(x)=0. 02 Patterns & Models Warehouse Prepared Data Consolidated Data Anno accademico, 2004/2005 Data Sources Preparazione di Dati per Data Mining

I Contenuti Introduzione e Concetti di Base n n Data reduction Motivazioni Il punto

I Contenuti Introduzione e Concetti di Base n n Data reduction Motivazioni Il punto di partenza: dati consolidati, Data Marts n n Data transformation Data Selection n n Manipolazione di Tabelle n Information Gathering n n n Normalizzazioni aggregazione Discretizzazione Data Similarity Misurazioni Visualizzazioni Statistiche Similarity and Dissimilarity (on Single attribute) n Distance (Many attributes) n Distance on Binary data (Simple matching; Jaccard) n Distance on Document Data Esploration (lumtidimensional array) n Data cleaning n Campionamento Riduzione di Dimensionalità Trattamento di valori anomali Identificazione di Outliers Risoluzione di inconsistenze n Anno accademico, 2004/2005 Preparazione di Dati per Data Mining

Problemi tipici Troppi dati n n dati sbagliati, rumorosi dati non rilevanti dimensione intrattabile

Problemi tipici Troppi dati n n dati sbagliati, rumorosi dati non rilevanti dimensione intrattabile mix di dati numerici/simbolici Pochi dati n n n attributi mancanti valori mancanti dimensione insufficiente Anno accademico, 2004/2005 Preparazione di Dati per Data Mining

Il Data Preprocessing è un Processo Accesso ai Dati Esplorazione dei Dati n n

Il Data Preprocessing è un Processo Accesso ai Dati Esplorazione dei Dati n n n Sorgenti Quantità Qualità Ampliamento e arricchimento dei dati Applicazione di tecniche specifiche Anno accademico, 2004/2005 Preparazione di Dati per Data Mining

Il Data Preprocessing dipende (ma non sempre) dall’Obiettivo Alcune operazioni sono necessarie n n

Il Data Preprocessing dipende (ma non sempre) dall’Obiettivo Alcune operazioni sono necessarie n n n Studio dei dati Pulizia dei dati Campionamento Altre possono essere guidate dagli obiettivi n n Trasformazioni Selezioni Anno accademico, 2004/2005 Preparazione di Dati per Data Mining

Outline del Modulo Introduzione e Concetti di Base Data Selection Anno accademico, 2004/2005 Preparazione

Outline del Modulo Introduzione e Concetti di Base Data Selection Anno accademico, 2004/2005 Preparazione di Dati per Data Mining

E’ sempre necessario SQL? I moderni tools raggruppano una serie di operazioni in maniera

E’ sempre necessario SQL? I moderni tools raggruppano una serie di operazioni in maniera uniforme La metafora di interazione è visuale n Esempi che vedremo: w Clementine w Weka SQL è più generico n Ma anche più difficile da usare Anno accademico, 2004/2005 Preparazione di Dati per Data Mining

Es. due piattaforme per DM Clementine Weka Anno accademico, 2004/2005 Preparazione di Dati per

Es. due piattaforme per DM Clementine Weka Anno accademico, 2004/2005 Preparazione di Dati per Data Mining

Outline del Modulo Introduzione e Concetti di Base Data Selection Information Gathering Anno accademico,

Outline del Modulo Introduzione e Concetti di Base Data Selection Information Gathering Anno accademico, 2004/2005 Preparazione di Dati per Data Mining

Oggetti, Proprietà, Misurazioni Il mondo reale consiste di oggetti n Automobili, Vigili, Norme, …

Oggetti, Proprietà, Misurazioni Il mondo reale consiste di oggetti n Automobili, Vigili, Norme, … Ad ogni oggetto è associabile un insieme di proprietà (features) n Colore, Cilindrata, Proprietario, … Su ogni proprietà è possibile stabilire delle misurazioni n Colore = rosso, Cilindrata = 50 cc, Proprietario = luigi, … Anno accademico, 2004/2005 Preparazione di Dati per Data Mining

La Nostra Modellazione La realtà è descritta da una tabella Proprietà (feature) Oggetti da

La Nostra Modellazione La realtà è descritta da una tabella Proprietà (feature) Oggetti da studiare Anno accademico, 2004/2005 Name Age John 21 Carl Max 31 Tom Louis Edna Height 181 169 Variabile Misurazione 42 14 176 171 Preparazione di Dati per Data Mining

Tipi di misure Misure Discrete (simboliche, categoriche, qualitative) n n n Nominali Ordinali Binarie

Tipi di misure Misure Discrete (simboliche, categoriche, qualitative) n n n Nominali Ordinali Binarie identificatori univoci (Cod. Fiscale) è definito un ordine (low < high) due soli valori (T/F, 1/0, . . . ) Misure Continue n n Interval-Based Scalabili di fattore costante (es. : misure in MKS e CGS) Ratio-Scaled Scalabili linearmente (ax+b) (es. : temperature °C e °F) Anno accademico, 2004/2005 Preparazione di Dati per Data Mining

Caratteristiche delle Variabili (dei data sets) Sparsità n Mancanza di valore associato ad una

Caratteristiche delle Variabili (dei data sets) Sparsità n Mancanza di valore associato ad una variabile w Un attributo è sparso se contiene molti valori nulli Monotonicità n Crescita continua dei valori di una variabile w Intervallo [- , ] (o simili) n Non ha senso considerare l’intero intervallo Outliers n n Valori singoli o con frequenza estremamente bassa Possono distorcere le informazioni sui dati Dimensionalità delle variabili n Il numero di valori che una variabile può assumere può essere estremamente alto w Tipicamente riguarda valori categorici Dimensionalità degli oggetti n Il numero di attributi che un oggetto ha può essere estremamente alto w Es. prodotti di un market basket Anacronismo Una variabile può essere contingente: abbiamo i valori in una sola porzione dei dati 2004/2005 Anno accademico, n Preparazione di Dati per Data Mining

Bias Un fattore esterno significativo e rilevante nei dati n n Comporta problemi (espliciti

Bias Un fattore esterno significativo e rilevante nei dati n n Comporta problemi (espliciti o impliciti) nei dati Molti valori della variabile Velocità in una tabella Infrazioni è alto Il problema è sistematico n Appare con una certa persistenza w Il misuratore della velocità è tarato male Il problema può essere trattato n Il valore è suscettibile di una distorsione, che deve essere considerata w Considera solo i valori che vanno oltre una certa tolleranza Anno accademico, 2004/2005 Preparazione di Dati per Data Mining

Descrizione dei dati Grafici n n n Distribuzione frequenze Correlazione Dispersione Misure n n

Descrizione dei dati Grafici n n n Distribuzione frequenze Correlazione Dispersione Misure n n n Media, mediana, quartili Varianza, deviazione standard Forma, simmetria, curtosi Anno accademico, 2004/2005 Preparazione di Dati per Data Mining

Visualizzazione dati qualitativi Rappresentazione delle frequenze n n n Diagrammi a barre Ortogrammi Aerogrammi

Visualizzazione dati qualitativi Rappresentazione delle frequenze n n n Diagrammi a barre Ortogrammi Aerogrammi Correlazione n Web diagrams Ciclicità n Diagrammi polari Anno accademico, 2004/2005 Preparazione di Dati per Data Mining

Diagrammi di Pareto Diagammi a barre distanziate Un assortimento di eventi presenta pochi picchi

Diagrammi di Pareto Diagammi a barre distanziate Un assortimento di eventi presenta pochi picchi e molti elementi comuni Anno accademico, 2004/2005 Preparazione di Dati per Data Mining

Ortogrammi Ogni colonna indica la la distribuzione interna per un dato valore e la

Ortogrammi Ogni colonna indica la la distribuzione interna per un dato valore e la frequenza Anno accademico, 2004/2005 Preparazione di Dati per Data Mining

Aerogrammi Rappresentazioni a torta frequenza della distribuzioni Anno accademico, 2004/2005 Preparazione di Dati per

Aerogrammi Rappresentazioni a torta frequenza della distribuzioni Anno accademico, 2004/2005 Preparazione di Dati per Data Mining

Web Visualizzano correlazioni tra valori simbolici Anno accademico, 2004/2005 Preparazione di Dati per Data

Web Visualizzano correlazioni tra valori simbolici Anno accademico, 2004/2005 Preparazione di Dati per Data Mining

Diagrammi polari Rappresentano fenomeni ciclici n E. g. , concentrazione delle vendite nell’arco settimanale

Diagrammi polari Rappresentano fenomeni ciclici n E. g. , concentrazione delle vendite nell’arco settimanale Anno accademico, 2004/2005 Preparazione di Dati per Data Mining

Dati Quantitativi Istogrammi Poligoni Stem and leaf Dot Diagrams Diagrammi quantili Anno accademico, 2004/2005

Dati Quantitativi Istogrammi Poligoni Stem and leaf Dot Diagrams Diagrammi quantili Anno accademico, 2004/2005 Preparazione di Dati per Data Mining

Istogrammi Rappresentazioni a barre Evidenziano la frequenza su intervalli adiacenti n n La larghezza

Istogrammi Rappresentazioni a barre Evidenziano la frequenza su intervalli adiacenti n n La larghezza di ogni rettangolo misura l’ampiezza degli intervalli Quale larghezza? Anno accademico, 2004/2005 Preparazione di Dati per Data Mining

Poligoni Per la descrizione di frequenze cumulative I punti sono uniti tramite linee Anno

Poligoni Per la descrizione di frequenze cumulative I punti sono uniti tramite linee Anno accademico, 2004/2005 Preparazione di Dati per Data Mining

Rappresentazione “Stem & Leaf” Simile a istogrammi Evita la perdita di informazione Utile per

Rappresentazione “Stem & Leaf” Simile a istogrammi Evita la perdita di informazione Utile per pochi dati Anno accademico, 2004/2005 Preparazione di Dati per Data Mining

Dot Diagrams, Scatters Weka Visualizza la Dispersione plot dei dat Anno accademico, 2004/2005 Preparazione

Dot Diagrams, Scatters Weka Visualizza la Dispersione plot dei dat Anno accademico, 2004/2005 Preparazione di Dati per Data Mining

Rappresentazioni Boxplot Rappresentano n n n il grado di dispersione o variabilità dei dati

Rappresentazioni Boxplot Rappresentano n n n il grado di dispersione o variabilità dei dati (w. r. t. mediana e/o media) la simmetria la presenza di valori anomali Le distanze tra i quartili definiscono la dispersione dei dati Anno accademico, 2004/2005 Preparazione di Dati per Data Mining Max Terzo Quartile Mediana Primo Quartile Min

Misure descrittive dei dati Tendenza centrale o posizione n Media aritmetica, geometrica e armonica,

Misure descrittive dei dati Tendenza centrale o posizione n Media aritmetica, geometrica e armonica, mediana, quartili, percentili, moda Dispersione o variabilità n Range, scarto medio, varianza, deviazione standard Forma della distribuzione n Simmetria (medie interquartili, momenti centrali, indice di Fisher) e curtosi (indice di Pearson, coefficiente di curtosi) Anno accademico, 2004/2005 Preparazione di Dati per Data Mining

Outline del Modulo Introduzione e Concetti di Base Data Selection Information Gathering Data cleaning

Outline del Modulo Introduzione e Concetti di Base Data Selection Information Gathering Data cleaning Anno accademico, 2004/2005 Preparazione di Dati per Data Mining

Data Cleaning Trattamento di valori anomali Trattamento di outliers Trattamento di tipi impropri Anno

Data Cleaning Trattamento di valori anomali Trattamento di outliers Trattamento di tipi impropri Anno accademico, 2004/2005 Preparazione di Dati per Data Mining

Valori Anomali Valori mancanti n NULL Valori sconosciuti n Privi di significato Valori non

Valori Anomali Valori mancanti n NULL Valori sconosciuti n Privi di significato Valori non validi n Con valore noto ma non significativo Anno accademico, 2004/2005 Preparazione di Dati per Data Mining

Outline del Modulo Introduzione e Concetti di Base Data Selection Information Gathering Data cleaning

Outline del Modulo Introduzione e Concetti di Base Data Selection Information Gathering Data cleaning Data reduction Anno accademico, 2004/2005 Preparazione di Dati per Data Mining

Trattamento di valori nulli 1. Eliminazione delle tuple 2. Sostituzione dei valori nulli N.

Trattamento di valori nulli 1. Eliminazione delle tuple 2. Sostituzione dei valori nulli N. B. : può influenzare la distribuzione dei dati numerici n Utilizzare media/mediana/moda n Predirre i valori mancanti utilizzando la distribuzione dei valori non nulli n Segmentare i dati e utilizzare misure statistiche (media/moda/mediana) di ogni segmento n Segmentare i dati e utilizzare le distribuzioni di probabilità all’interno dei segmenti n Costruire un modello di classificazione/regressione e utilizzare il modello per calcolare i valori nulli Anno accademico, 2004/2005 Preparazione di Dati per Data Mining

Data Reduction Riduzione del volume dei dati n Verticale: riduzione numero di tuple w

Data Reduction Riduzione del volume dei dati n Verticale: riduzione numero di tuple w Data Sampling w Clustering n Orizzontale: riduzione numero di colonne w Seleziona un sottinsieme di attributi w Crea un nuovo (e piccolo) insieme di attributi Anno accademico, 2004/2005 Preparazione di Dati per Data Mining

Sampling (Riduzione verticale) Riduce la complessità di esecuzione degli algoritmi di Mining Problema: scegliere

Sampling (Riduzione verticale) Riduce la complessità di esecuzione degli algoritmi di Mining Problema: scegliere un sottoinsieme rappresentativo dei dati n La scelta di un campionamento casuale può essere problematica per la presenza di picchi Alternative: Schemi adattativi n n Stratified sampling: w Approssimiamo la percentuale di ogni classe (o sottopopolazione di interesse rispetto all’intero database) w Adatto a distribuzioni con picchi: ogni picco è in uno strato Possiamo combinare le tecniche random con la stratificazione N. B. : Il Sampling potrebbe non ridurre I tempi di risposta se i dati risiedono su disco (page at a time). Anno accademico, 2004/2005 Preparazione di Dati per Data Mining

Sampling Raw Data Cluster/Stratified Sample Anno accademico, 2004/2005 Preparazione di Dati per Data Mining

Sampling Raw Data Cluster/Stratified Sample Anno accademico, 2004/2005 Preparazione di Dati per Data Mining

Riduzione Dimensionalità (Riduzione orizzontale) Selezione di un sotto-insieme di attributi n Manuale w In

Riduzione Dimensionalità (Riduzione orizzontale) Selezione di un sotto-insieme di attributi n Manuale w In seguito a analisi di significatività e/o correlazione con altri attributi n Automatico w Selezione incrementale degli attributi “migliori” w “Migliore” = rispetto a qualche misura di significatività statistica (es. : information gain). Anno accademico, 2004/2005 Preparazione di Dati per Data Mining

Riduzione Dimensionalità (Riduzione orizzontale) Creazione di nuovi attributi con i quali rappresentare le tuple

Riduzione Dimensionalità (Riduzione orizzontale) Creazione di nuovi attributi con i quali rappresentare le tuple n Principal components analysis (PCA) w Trova le combinazioni lineari degli attributi nei k vettori ortonormali più significativi w Proietta le vecchie tuple sui nuovi attributi n Altri metodi w Factor Analysis w Decomposizione SVD Anno accademico, 2004/2005 Preparazione di Dati per Data Mining

Outline del Modulo Introduzione e Concetti di Base Data Selection Information Gathering Data cleaning

Outline del Modulo Introduzione e Concetti di Base Data Selection Information Gathering Data cleaning Data reduction Data transformation Anno accademico, 2004/2005 Preparazione di Dati per Data Mining

Data Transformation: Motivazioni Dati con errori o incompleti Dati mal distribuiti n n Forte

Data Transformation: Motivazioni Dati con errori o incompleti Dati mal distribuiti n n Forte asimmetria nei dati Molti picchi La trasformazione dei dati può alleviare questi problemi Anno accademico, 2004/2005 Preparazione di Dati per Data Mining

Obiettivi Vogliamo definire una trasformazione T sull’attributo X: Y = T(X) tale che: n

Obiettivi Vogliamo definire una trasformazione T sull’attributo X: Y = T(X) tale che: n Y preserva l’informazione “rilevante” di X n Y elimina almeno uno dei problemi di X n Y è più “utile” di X Anno accademico, 2004/2005 Preparazione di Dati per Data Mining

Obiettivi Scopi principali: n n n stabilizzare le varianze normalizzare le distribuzioni linearizzare le

Obiettivi Scopi principali: n n n stabilizzare le varianze normalizzare le distribuzioni linearizzare le relazioni tra variabili Scopi secondari: n n semplificare l'elaborazione di dati che presentano caratteristiche non gradite rappresentare i dati in una scala ritenuta più adatta. Anno accademico, 2004/2005 Preparazione di Dati per Data Mining

Perché normalità, linearità, ecc. ? Molte metodologie statistiche richiedono correlazioni lineari, distribuzioni normali, assenza

Perché normalità, linearità, ecc. ? Molte metodologie statistiche richiedono correlazioni lineari, distribuzioni normali, assenza di outliers Molti algoritmi di Data Mining hanno la capacita` di trattare automaticamente nonlinearita’ e non-normalita’ n Gli algoritmi lavorano comunque meglio se tali problemi sono trattati Anno accademico, 2004/2005 Preparazione di Dati per Data Mining

Metodi Trasformazioni esponenziali con a, b, c, d e p valori reali n n

Metodi Trasformazioni esponenziali con a, b, c, d e p valori reali n n n Preservano l’ordine Preservano alcune statistiche di base sono funzioni continue ammettono derivate sono specificate tramite funzioni semplici Anno accademico, 2004/2005 Preparazione di Dati per Data Mining

Migliorare l’interpretabilita` Trasformazioni lineari 1€ = 1936. 27 Lit. n p=1, a= 1936. 27

Migliorare l’interpretabilita` Trasformazioni lineari 1€ = 1936. 27 Lit. n p=1, a= 1936. 27 , b =0 ºC= 5/9(ºF -32) n p = 1, a = 5/9, b = -160/9 Anno accademico, 2004/2005 Preparazione di Dati per Data Mining

Normalizzazioni min-max normalization z-score normalization tramite decimal scaling dove j è il più piccolo

Normalizzazioni min-max normalization z-score normalization tramite decimal scaling dove j è il più piccolo intero tale che Max(| Anno accademico, 2004/2005 Preparazione di Dati per Data Mining |)<1

Stabilizzare varianze Trasformazione logaritmica n n n Si applica a valori positivi omogeneizza varianze

Stabilizzare varianze Trasformazione logaritmica n n n Si applica a valori positivi omogeneizza varianze di distribuzioni lognormali E. g. : normalizza picchi stagionali Anno accademico, 2004/2005 Preparazione di Dati per Data Mining

Trasformazione logaritmica: esempio Dati troppo dispersi!!! Anno accademico, 2004/2005 Preparazione di Dati per Data

Trasformazione logaritmica: esempio Dati troppo dispersi!!! Anno accademico, 2004/2005 Preparazione di Dati per Data Mining

Trasformazione Logaritmica: esempio Anno accademico, 2004/2005 Preparazione di Dati per Data Mining

Trasformazione Logaritmica: esempio Anno accademico, 2004/2005 Preparazione di Dati per Data Mining

Stabilizzare varianze Trasformazione in radice n n p = 1/c, c numero intero per

Stabilizzare varianze Trasformazione in radice n n p = 1/c, c numero intero per omogeneizzare varianze di distribuzioni particolari, e. g. , di Poisson Trasformazione reciproca n n p<0 per l’analisi di serie temporali, quando la varianza aumenta in modo molto pronunciato rispetto alla media Anno accademico, 2004/2005 Preparazione di Dati per Data Mining

Simmetria Si ha simmetria quando media, moda e mediana coincidono n n n condizione

Simmetria Si ha simmetria quando media, moda e mediana coincidono n n n condizione necessaria, non sufficiente Asimmetria sinistra: moda, mediana, media Asimmetria destra: media, mediana, moda Anno accademico, 2004/2005 Preparazione di Dati per Data Mining

Asimmetria dei dati Simmetria e Media interpercentile Se la media interpercentile è sbilanciata, allora

Asimmetria dei dati Simmetria e Media interpercentile Se la media interpercentile è sbilanciata, allora la distribuzione dei dati è asimmetrica w sbilanciata a destra w sbilanciata a sinistra Anno accademico, 2004/2005 Preparazione di Dati per Data Mining

Asimmetria nei dati: esempio Verifichiamo la simmetria (valori di un unico attributo) Anno accademico,

Asimmetria nei dati: esempio Verifichiamo la simmetria (valori di un unico attributo) Anno accademico, 2004/2005 Preparazione di Dati per Data Mining

Asimmetria : esempio I valori della media interpercentile crescono col percentile considerato Distribuzione sbilanciata

Asimmetria : esempio I valori della media interpercentile crescono col percentile considerato Distribuzione sbilanciata a destra Anno accademico, 2004/2005 Preparazione di Dati per Data Mining

Creare simmetria nei dati: Trasformation plot Trovare una trasformazione Tp che crei simmetria n

Creare simmetria nei dati: Trasformation plot Trovare una trasformazione Tp che crei simmetria n n Consideriamo i percentili x. U e x. L I valori c ottenuti tramite la formula suggeriscono dei valori adeguati per p w Intuitivamente, compariamo la differenza assoluta e relativa tra mediana e medie interpercentili w il valore medio (mediano) dei valori di c è il valore della trasformazione Anno accademico, 2004/2005 Preparazione di Dati per Data Mining

Trasformation plot: esempio Calcolando la mediana dei valori c otteniamo p=0. 5188 Proviamo con

Trasformation plot: esempio Calcolando la mediana dei valori c otteniamo p=0. 5188 Proviamo con p=1/2. . . Anno accademico, 2004/2005 Preparazione di Dati per Data Mining

Trasformazione 1: radice quadrata Anno accademico, 2004/2005 • La curva si tempera, ma i

Trasformazione 1: radice quadrata Anno accademico, 2004/2005 • La curva si tempera, ma i valori alti continuano a produrre differenze notevoli • Proviamo a diminuire p. . . Preparazione di Dati per Data Mining

Trasformazione 2: radice quarta I valori alti continuano ad influenzare Proviamo con il logaritmo.

Trasformazione 2: radice quarta I valori alti continuano ad influenzare Proviamo con il logaritmo. . . Anno accademico, 2004/2005 Preparazione di Dati per Data Mining

Trasformazione 3: logaritmo Abbiamo ottenuto simmetria! Anno accademico, 2004/2005 Preparazione di Dati per Data

Trasformazione 3: logaritmo Abbiamo ottenuto simmetria! Anno accademico, 2004/2005 Preparazione di Dati per Data Mining

Semplificare le relazioni tra attributi Esempio: caso della regressione n La formula puo’ essere

Semplificare le relazioni tra attributi Esempio: caso della regressione n La formula puo’ essere individuata studiando la relazione dove z = log y e w = log x Anno accademico, 2004/2005 Preparazione di Dati per Data Mining

Discretizzazione Unsupervised vs. Supervised Globale vs. Locale Statica vs. Dinamica Task difficile n Difficile

Discretizzazione Unsupervised vs. Supervised Globale vs. Locale Statica vs. Dinamica Task difficile n Difficile capire a priori qual’è la discretizzazione ottimale w bisognerebbe conoscere la distribuzione reale dei dati Anno accademico, 2004/2005 Preparazione di Dati per Data Mining

Discretizzazione: Vantaggi I dati originali possono avere valori continui estremamente sparsi I dati discretizzati

Discretizzazione: Vantaggi I dati originali possono avere valori continui estremamente sparsi I dati discretizzati possono essere più semplici da interpretare Le distribuzioni dei dati discretizzate possono avere una forma “Normale” I dati discretizzati possono essere ancora estremamente sparsi n Eliminazione della variabile in oggetto Anno accademico, 2004/2005 Preparazione di Dati per Data Mining

Unsupervised Discretization Caratteristiche: n n Non etichetta le istanze Il numero di classi è

Unsupervised Discretization Caratteristiche: n n Non etichetta le istanze Il numero di classi è noto a priori Tecniche di binning: n n n Natural binning Intervalli di identica ampiezza Equal Frequency binning Intervalli di identica frequenza Statistical binning Uso di informazioni statistiche (Media, varianza, Quartili) Anno accademico, 2004/2005 Preparazione di Dati per Data Mining

Natural Binning Semplice Ordino i valori, quindi divido il range di valori in k

Natural Binning Semplice Ordino i valori, quindi divido il range di valori in k parti della stessa dimensione l’elemento xj appartiene alla classe i se xj [xmin + i , xmin + (i+1) ) Puo` produrre distribuzioni molto sbilanciate Anno accademico, 2004/2005 Preparazione di Dati per Data Mining

Esempio =(160 -100)/4 = 15 classe 1: [100, 115) classe 2: [115, 130) classe

Esempio =(160 -100)/4 = 15 classe 1: [100, 115) classe 2: [115, 130) classe 3: [130, 145) classe 4: [145, 160] Anno accademico, 2004/2005 Preparazione di Dati per Data Mining

Equal Frequency Binning Ordino e Conto gli elementi, quindi definisco k intervalli di f

Equal Frequency Binning Ordino e Conto gli elementi, quindi definisco k intervalli di f elementi, dove: (N è il numero di elementi del campione) l’elemento xi appartiene alla classe j f i < (j+1) f Non sempre adatta ad evidenziare correlazioni interessanti Anno accademico, 2004/2005 Preparazione di Dati per Data Mining

Esempio f = 12/4 = 3 classe 1: {100, 110} classe 2: {120, 125}

Esempio f = 12/4 = 3 classe 1: {100, 110} classe 2: {120, 125} classe 3: {130, 135} classe 4: {140, 150, 160} Anno accademico, 2004/2005 Preparazione di Dati per Data Mining

Quante classi? Se troppo poche => perdita di informazione sulla distribuzione Se troppe =>

Quante classi? Se troppo poche => perdita di informazione sulla distribuzione Se troppe => disperde i valori e non manifesta la foma della distribuzione Il numero ottimale C di classi è funzione del numero N di elementi (Sturges, 1929) L’ampiezza ottimale delle classi dipende dalla varianza e dal numero dei dati (Scott, 1979) Anno accademico, 2004/2005 Preparazione di Dati per Data Mining

Supervised Discretization Caratteristiche: n La discretizzazione ha un obiettivo quantificabile n Il numero di

Supervised Discretization Caratteristiche: n La discretizzazione ha un obiettivo quantificabile n Il numero di classi non è noto a priori Tecniche: n n n Chi. Merge Discretizzazione basata sull’Entropia Discretizzazione basata sui percentili Anno accademico, 2004/2005 Preparazione di Dati per Data Mining

Supervised Discretization: Chi. Merge Procedimento Bottom-up: n n n Inizialmente, ogni valore è un

Supervised Discretization: Chi. Merge Procedimento Bottom-up: n n n Inizialmente, ogni valore è un intervallo a se’ Intervalli adiacenti sono iterativamente uniti se sono simili La similitudine è misurata sulla base dell’attributo target, contando quanto i due intervalli sono “diversi” Anno accademico, 2004/2005 Preparazione di Dati per Data Mining

Labels Data Equal interval width Equal frequency Anno accademico, 2004/2005 K-means Preparazione di Dati

Labels Data Equal interval width Equal frequency Anno accademico, 2004/2005 K-means Preparazione di Dati per Data Mining

Discretization Using Class Labels Entropy based approach 3 categories for both x and y

Discretization Using Class Labels Entropy based approach 3 categories for both x and y 5 categories for both x and y Anno accademico, 2004/2005 Preparazione di Dati per Data Mining

Similarity and Dissimilarity Similarity n n n Numerical measure of how alike two data

Similarity and Dissimilarity Similarity n n n Numerical measure of how alike two data objects are. Is higher when objects are more alike. Often falls in the range [0, 1] Dissimilarity n n Numerical measure of how different are two data objects Lower when objects are more alike Minimum dissimilarity is often 0 Upper limit varies Proximity refers to a similarity or dissimilarity Anno accademico, 2004/2005 Preparazione di Dati per Data Mining

Similarity/Dissimilarity for ONE Attribute p and q are the attribute values for two data

Similarity/Dissimilarity for ONE Attribute p and q are the attribute values for two data objects. Anno accademico, 2004/2005 Preparazione di Dati per Data Mining

Many attributes: Euclidean Distance Where n is the number of dimensions (attributes) and pk

Many attributes: Euclidean Distance Where n is the number of dimensions (attributes) and pk and qk are, respectively, the value of kth attributes (components) or data objects p and q. Standardization is necessary, if scales differ. Anno accademico, 2004/2005 Preparazione di Dati per Data Mining

Euclidean Distance Matrix Anno accademico, 2004/2005 Preparazione di Dati per Data Mining

Euclidean Distance Matrix Anno accademico, 2004/2005 Preparazione di Dati per Data Mining

Minkowski Distance is a generalization of Euclidean Distance Where r is a parameter, n

Minkowski Distance is a generalization of Euclidean Distance Where r is a parameter, n is the number of dimensions (attributes) and pk and qk are, respectively, the kth attributes (components) or data objects p and q. Anno accademico, 2004/2005 Preparazione di Dati per Data Mining

Minkowski Distance: Examples r = 1. City block (Manhattan, taxicab, L 1 norm) distance.

Minkowski Distance: Examples r = 1. City block (Manhattan, taxicab, L 1 norm) distance. n A common example of this is the Hamming distance, which is just the number of bits that are different between two binary vectors r = 2. Euclidean distance r . “supremum” (Lmax norm, L norm) distance. n This is the maximum difference between any component of the vectors Do not confuse r with n, i. e. , all these distances are defined for all numbers of dimensions. Anno accademico, 2004/2005 Preparazione di Dati per Data Mining

Minkowski Distance Matrix Anno accademico, 2004/2005 Preparazione di Dati per Data Mining

Minkowski Distance Matrix Anno accademico, 2004/2005 Preparazione di Dati per Data Mining

Curse of Dimensionality When dimensionality increases, data becomes increasingly sparse in the space that

Curse of Dimensionality When dimensionality increases, data becomes increasingly sparse in the space that it occupies Definitions of density and distance between points, which is critical for clustering and outlier detection, become less meaningful • Randomly generate 500 points • Compute difference between max and min distance between any pair of points Anno accademico, 2004/2005 Preparazione di Dati per Data Mining

Common Properties of a Distances, such as the Euclidean distance, have some well known

Common Properties of a Distances, such as the Euclidean distance, have some well known properties. 1. 2. 3. d(p, q) 0 for all p and q and d(p, q) = 0 only if p = q. (Positive definiteness) d(p, q) = d(q, p) for all p and q. (Symmetry) d(p, r) d(p, q) + d(q, r) for all points p, q, and r. (Triangle Inequality) where d(p, q) is the distance (dissimilarity) between points (data objects), p and q. A distance that satisfies these properties is a metric Anno accademico, 2004/2005 Preparazione di Dati per Data Mining

Outline del Modulo Introduzione e Concetti di Base Data Selection Information Gathering Data cleaning

Outline del Modulo Introduzione e Concetti di Base Data Selection Information Gathering Data cleaning Data reduction Data transformation Data similarity Anno accademico, 2004/2005 Preparazione di Dati per Data Mining

Common Properties of a Similarity Similarities, also have some well known properties. 1. 2.

Common Properties of a Similarity Similarities, also have some well known properties. 1. 2. s(p, q) = 1 (or maximum similarity) only if p = q. s(p, q) = s(q, p) for all p and q. (Symmetry) where s(p, q) is the similarity between points (data objects), p and q. Anno accademico, 2004/2005 Preparazione di Dati per Data Mining

Binary Data Anno accademico, 2004/2005 Preparazione di Dati per Data Mining

Binary Data Anno accademico, 2004/2005 Preparazione di Dati per Data Mining

Similarity Between Binary Vectors Common situation is that objects, p and q, have only

Similarity Between Binary Vectors Common situation is that objects, p and q, have only binary attributes Compute similarities using the following quantities M 01 = the number of attributes where p was 0 and q was 1 M 10 = the number of attributes where p was 1 and q was 0 M 00 = the number of attributes where p was 0 and q was 0 M 11 = the number of attributes where p was 1 and q was 1 Simple Matching and Jaccard Coefficients SMC = number of matches / number of attributes = (M 11 + M 00) / (M 01 + M 10 + M 11 + M 00) J = number of 11 matches / number of not-both-zero attributes values = (M 11) / (M 01 + M 10 + M 11) Anno accademico, 2004/2005 Preparazione di Dati per Data Mining

SMC versus Jaccard: Example p= 100000 q= 0000001001 M 01 = 2 M 10

SMC versus Jaccard: Example p= 100000 q= 0000001001 M 01 = 2 M 10 = 1 M 00 = 7 M 11 = 0 (the number of attributes where p was 0 and q was 1) (the number of attributes where p was 1 and q was 0) (the number of attributes where p was 0 and q was 0) (the number of attributes where p was 1 and q was 1) SMC = (M 11 + M 00)/(M 01 + M 10 + M 11 + M 00) = (0+7) / (2+1+0+7) = 0. 7 J = (M 11) / (M 01 + M 10 + M 11) = 0 / (2 + 1 + 0) = 0 Anno accademico, 2004/2005 Preparazione di Dati per Data Mining

Document Data Anno accademico, 2004/2005 Preparazione di Dati per Data Mining

Document Data Anno accademico, 2004/2005 Preparazione di Dati per Data Mining

Cosine Similarity If d 1 and d 2 are two document vectors, then cos(

Cosine Similarity If d 1 and d 2 are two document vectors, then cos( d 1, d 2 ) = (d 1 d 2) / ||d 1|| ||d 2|| , where indicates vector dot product and || is the length of vector d. Example: d 1 = 3 2 0 5 0 0 0 2 0 0 d 2 = 1 0 0 0 1 0 2 d 1 d 2= 3*1 + 2*0 + 0*0 + 5*0 + 0*0 + 2*1 + 0*0 + 0*2 = 5 ||d 1|| = (3*3+2*2+0*0+5*5+0*0+0*0+2*2+0*0) 0. 5 = (42) 0. 5 = 6. 481 ||d 2|| = (1*1+0*0+0*0+0*0+1*1+0*0+2*2) 0. 5 = (6) 0. 5 = 2. 245 cos( d 1, d 2 ) =. 3150 Anno accademico, 2004/2005 Preparazione di Dati per Data Mining

Correlation measures the linear relationship between objects (binary or continuos) To compute correlation, we

Correlation measures the linear relationship between objects (binary or continuos) To compute correlation, we standardize data objects, p and q, and then take their dot product (covariance/standard deviation) Anno accademico, 2004/2005 Preparazione di Dati per Data Mining

General Approach for Combining Similarities Sometimes attributes are of many different types, but an

General Approach for Combining Similarities Sometimes attributes are of many different types, but an overall similarity is needed. Anno accademico, 2004/2005 Preparazione di Dati per Data Mining

Using Weights to Combine Similarities May not want to treat all attributes the same.

Using Weights to Combine Similarities May not want to treat all attributes the same. n Use weights wk which are between 0 and 1 and sum to 1. Anno accademico, 2004/2005 Preparazione di Dati per Data Mining

Outline del Modulo Introduzione e Concetti di Base Data Selection Information Gathering Data cleaning

Outline del Modulo Introduzione e Concetti di Base Data Selection Information Gathering Data cleaning Data reduction Data transformation Data similarity Data Exploration (Multidimensional array) Anno accademico, 2004/2005 Preparazione di Dati per Data Mining

OLAP On-Line Analytical Processing (OLAP) was proposed by E. F. Codd, the father of

OLAP On-Line Analytical Processing (OLAP) was proposed by E. F. Codd, the father of the relational database. Relational databases put data into tables, while OLAP uses a multidimensional array representation. n Such representations of data previously existed in statistics and other fields There a number of data analysis and data exploration operations that are easier with such a data representation. Anno accademico, 2004/2005 Preparazione di Dati per Data Mining

Creating a Multidimensional Array Two key steps in converting tabular data into a multidimensional

Creating a Multidimensional Array Two key steps in converting tabular data into a multidimensional array. n First, identify which attributes are to be the dimensions and which attribute is to be the target attribute (Measure) whose values appear as entries in the multidimensional array. w The attributes used as dimensions must have discrete values w The target value is typically a count or continuous value, e. g. , the cost of an item w Can have no target variable at all except the count of objects that have the same set of attribute values Anno accademico, 2004/2005 Preparazione di Dati per Data Mining

Creating a Multidimensional Array n Second, find the value of each entry in the

Creating a Multidimensional Array n Second, find the value of each entry in the multidimensional array by summing the values (of the target attribute) or count of all objects that have the attribute values corresponding to that entry. Anno accademico, 2004/2005 Preparazione di Dati per Data Mining

Example: Iris data The attributes, petal length, petal width, and species type can be

Example: Iris data The attributes, petal length, petal width, and species type can be converted to a multidimensional array n First, we discretized the petal width and length to have categorical values: low, medium, and high n n petal length, petal width, and species type are the dimensions Count is the measure Anno accademico, 2004/2005 Preparazione di Dati per Data Mining

Example: Iris data Anno accademico, 2004/2005 Preparazione di Dati per Data Mining

Example: Iris data Anno accademico, 2004/2005 Preparazione di Dati per Data Mining

Example: Iris data (continued) Each unique tuple of petal width, petal length, and species

Example: Iris data (continued) Each unique tuple of petal width, petal length, and species type identifies one element of the array. This element is assigned the corresponding count value. The figure illustrates the result. All non-specified tuples are 0. Anno accademico, 2004/2005 Preparazione di Dati per Data Mining

Slices of the multidimensional array are shown by the following cross-tabulations What do these

Slices of the multidimensional array are shown by the following cross-tabulations What do these tables tell us? Anno accademico, 2004/2005 Preparazione di Dati per Data Mining

OLAP Operations: Data Cube The key operation of a OLAP is the formation of

OLAP Operations: Data Cube The key operation of a OLAP is the formation of a data cube A data cube is a multidimensional representation of data, together with all possible aggregates. By all possible aggregates, we mean the aggregates that result by selecting a proper subset of the dimensions and summing over all remaining dimensions. For example, if we choose the species type dimension of the Iris data and sum over all other dimensions, the result will be a one-dimensional entry with three entries, each of which gives the number of flowers of each type. Anno accademico, 2004/2005 Preparazione di Dati per Data Mining

Data Cube Example Consider a data set that records the sales of products at

Data Cube Example Consider a data set that records the sales of products at a number of company stores at various dates. This data can be represented as a 3 dimensional array There are 3 two-dimensional aggregates (3 choose 2 ), 3 one-dimensional aggregates, and 1 zero-dimensional aggregate (the overall total) Anno accademico, 2004/2005 Preparazione di Dati per Data Mining

Data Cube Example The following figure table shows one of the two dimensional aggregates,

Data Cube Example The following figure table shows one of the two dimensional aggregates, along with two of the one-dimensional aggregates, and the overall total Anno accademico, 2004/2005 Preparazione di Dati per Data Mining

OLAP Operations: Slicing and Dicing Slicing is selecting a group of cells from the

OLAP Operations: Slicing and Dicing Slicing is selecting a group of cells from the entire multidimensional array by specifying a specific value for one or more dimensions. Dicing involves selecting a subset of cells by specifying a range of attribute values. n This is equivalent to defining a subarray from the complete array. In practice, both operations can also be accompanied by aggregation over some dimensions. Anno accademico, 2004/2005 Preparazione di Dati per Data Mining

OLAP Operations: Roll-up and Drill-down Attribute values often have a hierarchical structure. n n

OLAP Operations: Roll-up and Drill-down Attribute values often have a hierarchical structure. n n n Each date is associated with a year, month, and week. A location is associated with a continent, country, state (province, etc. ), and city. Products can be divided into various categories, such as clothing, electronics, and furniture. Note that these categories often nest and form a tree or lattice n n A year contains months which contains day A country contains a state which contains a city Anno accademico, 2004/2005 Preparazione di Dati per Data Mining

OLAP Operations: Roll-up and Drilldown This hierarchical structure gives rise to the roll-up and

OLAP Operations: Roll-up and Drilldown This hierarchical structure gives rise to the roll-up and drill-down operations. n n n For sales data, we can aggregate (roll up) the sales across all the dates in a month. Conversely, given a view of the data where the time dimension is broken into months, we could split the monthly sales totals (drill down) into daily sales totals. Likewise, we can drill down or roll up on the location or product ID attributes. Anno accademico, 2004/2005 Preparazione di Dati per Data Mining

Multidimensional Data Sales volume as a function of product, month, and region Dimensions: Product,

Multidimensional Data Sales volume as a function of product, month, and region Dimensions: Product, Location, Time gi on Hierarchical summarization paths Re Industry Region Year Product Category Country Quarter Product City Office Month Anno accademico, 2004/2005 Preparazione di Dati per Data Mining Month Day Week

2 Qtr 3 Qtr 4 Qtr Total annual sales sum of TV in U.

2 Qtr 3 Qtr 4 Qtr Total annual sales sum of TV in U. S. A. od TV PC VCR sum 1 Qtr Date Pr U. S. A Canada Mexico sum Anno accademico, 2004/2005 Preparazione di Dati per Data Mining Country uc t A Sample Data Cube

Cuboids Corresponding to the Cube all 0 -D(apex) cuboid product date product, date country

Cuboids Corresponding to the Cube all 0 -D(apex) cuboid product date product, date country product, country 1 -D cuboids date, country 2 -D cuboids product, date, country Anno accademico, 2004/2005 Preparazione di Dati per Data Mining 3 -D(base) cuboid

Browsing a Data Cube Anno accademico, 2004/2005 Visualization OLAP capabilities Interactive manipulation Preparazione di

Browsing a Data Cube Anno accademico, 2004/2005 Visualization OLAP capabilities Interactive manipulation Preparazione di Dati per Data Mining

Typical OLAP Operations Roll up (drill-up): summarize data n by climbing up hierarchy or

Typical OLAP Operations Roll up (drill-up): summarize data n by climbing up hierarchy or by dimension reduction Drill down (roll down): reverse of roll-up n from higher level summary to lower level summary or detailed data, or introducing new dimensions Slice and dice: n project and select Pivot (rotate): n reorient the cube, visualization, 3 D to series of 2 D planes. Other operations drill across: involving (across) more than one fact table n drill through: through the bottom level of the cube to its back. Anno accademico, 2004/2005 end relational tables (using SQL) n Preparazione di Dati per Data Mining

Operazioni tipiche: Pivot Al All l Pivot Al l Pivot Sto re Product Time

Operazioni tipiche: Pivot Al All l Pivot Al l Pivot Sto re Product Time Drill-Down Anno accademico, 2004/2005 Preparazione di Dati per Data Mining Drill-Down

Operazioni tipiche: Roll-Up Re gio n Roll-up Sto re Product Year Product Drill-Down Roll-up

Operazioni tipiche: Roll-Up Re gio n Roll-up Sto re Product Year Product Drill-Down Roll-up Sto r e Year Product Month Drill-Down Anno accademico, 2004/2005 Preparazione di Dati per Data Mining

Operazioni tipiche: Slice and Dice Sto re Slice Month Sto re Product Month Anno

Operazioni tipiche: Slice and Dice Sto re Slice Month Sto re Product Month Anno accademico, 2004/2005 Preparazione di Dati per Data Mining Product

Chi. Merge: criterio di similitudine Basato sul test del Chi quadro k = numero

Chi. Merge: criterio di similitudine Basato sul test del Chi quadro k = numero di valori differenti dell’attributo target Aij = numero di casi della j-esima classe nell’i-esimo intervallo Ri = numero di casi nell’i-esimo intervallo ( ) Cj = numero di casi nella j-esima classe ( Eij = frequenza attesa di Aij (Ri* Cj /N) Anno accademico, 2004/2005 Preparazione di Dati per Data Mining )

Test del Chi Quadro per la discretizzazione Si individua quanto “distinti” sono due intervalli

Test del Chi Quadro per la discretizzazione Si individua quanto “distinti” sono due intervalli k-1 gradi di liberta` La significativita` del test è data da un threshold n Probabilita` che l’intervallo in questione e la classe siano indipendenti Anno accademico, 2004/2005 Preparazione di Dati per Data Mining

Esempio Discretizzazione w. r. t. Beer threshold 50% confidenza Vogliamo ottenere una discretizzazione del

Esempio Discretizzazione w. r. t. Beer threshold 50% confidenza Vogliamo ottenere una discretizzazione del prezzo che permetta di mantenere omogeneita` w. r. t. Beer Anno accademico, 2004/2005 Preparazione di Dati per Data Mining

Esempio: Chi Values Scegliamo gli elementi adiacenti con Chi-Value minimo Anno accademico, 2004/2005 Preparazione

Esempio: Chi Values Scegliamo gli elementi adiacenti con Chi-Value minimo Anno accademico, 2004/2005 Preparazione di Dati per Data Mining

Esempio: passo 1 Anno accademico, 2004/2005 Preparazione di Dati per Data Mining

Esempio: passo 1 Anno accademico, 2004/2005 Preparazione di Dati per Data Mining

Esempio: passo 2 Anno accademico, 2004/2005 Preparazione di Dati per Data Mining

Esempio: passo 2 Anno accademico, 2004/2005 Preparazione di Dati per Data Mining

Esempio: passo 3 Anno accademico, 2004/2005 Preparazione di Dati per Data Mining

Esempio: passo 3 Anno accademico, 2004/2005 Preparazione di Dati per Data Mining

Esempio: passo 4 Anno accademico, 2004/2005 Preparazione di Dati per Data Mining

Esempio: passo 4 Anno accademico, 2004/2005 Preparazione di Dati per Data Mining

Esempio: passo 5 Tutti i valori sono oltre il 50% di confidenza (1. 38)

Esempio: passo 5 Tutti i valori sono oltre il 50% di confidenza (1. 38) Anno accademico, 2004/2005 Preparazione di Dati per Data Mining

Esercitazione Clementine Allegato Esercitazioni Esercitazione 2 Anno accademico, 2004/2005 Preparazione di Dati per Data

Esercitazione Clementine Allegato Esercitazioni Esercitazione 2 Anno accademico, 2004/2005 Preparazione di Dati per Data Mining

Appendice Misure descrittive dei dati

Appendice Misure descrittive dei dati

Media Aritmetica Per effettuare la correzione di errori accidentali n permette di sostituire i

Media Aritmetica Per effettuare la correzione di errori accidentali n permette di sostituire i valori di ogni elemento senza cambiare il totale w Sostituzione di valori NULL Monotona crescente Anno accademico, 2004/2005 Preparazione di Dati per Data Mining

Media Geometrica Per bilanciare proporzioni dati moltiplicativi La media aritmetica dei logaritmi è il

Media Geometrica Per bilanciare proporzioni dati moltiplicativi La media aritmetica dei logaritmi è il logaritmo della media geometrica Monotona crescente Anno accademico, 2004/2005 Preparazione di Dati per Data Mining

Media Armonica Monotona decrescente Per misure su dimensioni fisiche E. g. , serie temporali

Media Armonica Monotona decrescente Per misure su dimensioni fisiche E. g. , serie temporali Anno accademico, 2004/2005 Preparazione di Dati per Data Mining

Mediana Il valore centrale in un insieme ordinato di dati Robusta n 1 7

Mediana Il valore centrale in un insieme ordinato di dati Robusta n 1 7 12 18 23 34 54 poco influenzata dalla presenza di dati anomali Anno accademico, 2004/2005 Preparazione di Dati per Data Mining

Mediana e Quartili Divide un insieme di dati a meta` n n statistica robusta

Mediana e Quartili Divide un insieme di dati a meta` n n statistica robusta (non influenzata da valori con rilevanti differenze) ulteriori punti di divisione interquartili n n mediane degli intervalli dei dati superiore e inferiore Un quarto dei dati osservati è sopra/sotto il quartile percentili n n di grado p: il p% dei dati osservati è sopra/sotto il percentile mediana: 50 -esimo percentile primo quartile: 25 -esimo percentile secondo quartile: 75 -esimo percentile max, min n range = max-min Anno accademico, 2004/2005 Preparazione di Dati per Data Mining

Percentili Rappresentati con xp Utilizziamo le lettere per esprimerli Anno accademico, 2004/2005 Preparazione di

Percentili Rappresentati con xp Utilizziamo le lettere per esprimerli Anno accademico, 2004/2005 Preparazione di Dati per Data Mining

Moda Misura della frequenza dei dati aabbccadbcaecbaa moda = a (f = 6) Significativo

Moda Misura della frequenza dei dati aabbccadbcaecbaa moda = a (f = 6) Significativo per dati categorici Non risente di picchi Molto instabile Anno accademico, 2004/2005 Preparazione di Dati per Data Mining

Range, Deviazione media Intervallo di variazione r = max-min Scarti interquantili Scarto medio assoluto

Range, Deviazione media Intervallo di variazione r = max-min Scarti interquantili Scarto medio assoluto dalla mediana n In generale, S. 5 Sn Anno accademico, 2004/2005 Preparazione di Dati per Data Mining

Varianza, deviazione standard misure di mutua variabilità tra i dati di una serie Devianza

Varianza, deviazione standard misure di mutua variabilità tra i dati di una serie Devianza empirica Varianza Coefficiente di variazione n misura relativa Anno accademico, 2004/2005 Preparazione di Dati per Data Mining

Simmetria Si ha simmetria quando media, moda e mediana coincidono n n n condizione

Simmetria Si ha simmetria quando media, moda e mediana coincidono n n n condizione necessaria, non sufficiente Asimmetria sinistra: moda, mediana, media Asimmetria destra: media, mediana, moda Anno accademico, 2004/2005 Preparazione di Dati per Data Mining

Simmetria (Cont. ) Indici di asimmetria n medie interquartili n Momenti centrali indice di

Simmetria (Cont. ) Indici di asimmetria n medie interquartili n Momenti centrali indice di Fisher n n n nullo per distribuzioni simmetriche >0: sbilanciamenti a destra <0: sbilanciamento a sinistra Anno accademico, 2004/2005 Preparazione di Dati per Data Mining

Curtosi Grado di appiattimento della curva di distribuzione rispetto alla curva normale n n

Curtosi Grado di appiattimento della curva di distribuzione rispetto alla curva normale n n n mesocurtica: forma uguale alla distribuzione normale; leptocurtica: una frequenza minore delle classi intermedie, frequenza maggiore delle classi estreme e dei valori centrali; platicurtica: una frequenza minore delle classi centrali e di quelle estreme, con una frequenza maggiore di quelle intermedie w numero più ridotto di valori centrali. Anno accademico, 2004/2005 Preparazione di Dati per Data Mining

Curtosi (cont. ) Indice di Pearson n =3: distribuzione mesocurtica >3: distribuzione leptocurtica <3:

Curtosi (cont. ) Indice di Pearson n =3: distribuzione mesocurtica >3: distribuzione leptocurtica <3: distribuzione platicurtica Coefficiente di curtosi n n Una distribuzione leptocurtica ha K ~ 1/2 platicurtosi: k~0 Anno accademico, 2004/2005 Preparazione di Dati per Data Mining

Coefficienti di Correlazione Covarianza Coefficiente di Pearson Anno accademico, 2004/2005 Preparazione di Dati per

Coefficienti di Correlazione Covarianza Coefficiente di Pearson Anno accademico, 2004/2005 Preparazione di Dati per Data Mining