Corso di Laurea Specialistica in Ingegneria Gestionale Sistemi

  • Slides: 36
Download presentation
Corso di Laurea Specialistica in Ingegneria Gestionale Sistemi Informativi per le decisioni a. a.

Corso di Laurea Specialistica in Ingegneria Gestionale Sistemi Informativi per le decisioni a. a. 2008 -2009 Waikato Environment for Knowledge Analysis Data preprocessing e regole associative Cicolella Claudio, Minetti Elena, Triscari Dario

Argomenti • Weka • Formato. arff • Preprocess Non supervisionati Attributi: Discretize Remove Replace.

Argomenti • Weka • Formato. arff • Preprocess Non supervisionati Attributi: Discretize Remove Replace. Missing. Values Normalize Standardize Istanze: Resample Supervisionati Attributi: Discretize Attribute. Selection Istanze: Resample • Associate Apriori

Argomenti • Weka • Formato. arff • Preprocess Non supervisionati Attributi: Discretize Remove Replace.

Argomenti • Weka • Formato. arff • Preprocess Non supervisionati Attributi: Discretize Remove Replace. Missing. Values Normalize Standardize Istanze: Resample Supervisionati Attributi: Discretize Attribute. Selection Istanze: Resample • Associate Apriori

Weka

Weka

Weka Preprocess: permette di caricare e modificare i dati su cui eseguire le varie

Weka Preprocess: permette di caricare e modificare i dati su cui eseguire le varie elaborazioni Asssociate: permette l’elaborazione e valutazione di regole di associazione Weka: preprocess e associate

Weka

Weka

Argomenti • Weka • Formato. arff • Preprocess Non supervisionati Attributi: Discretize Remove Replace.

Argomenti • Weka • Formato. arff • Preprocess Non supervisionati Attributi: Discretize Remove Replace. Missing. Values Normalize Standardize Istanze: Resample Supervisionati Attributi: Discretize Attribute. Selection Istanze: Resample • Associate Apriori

Formato. arff • ARFF (Attribute Relationship File Format) Sezione Header Sezione Data

Formato. arff • ARFF (Attribute Relationship File Format) Sezione Header Sezione Data

Argomenti • Weka • Formato. arff • Preprocess Non supervisionati Attributi: Discretize Remove Replace.

Argomenti • Weka • Formato. arff • Preprocess Non supervisionati Attributi: Discretize Remove Replace. Missing. Values Normalize Standardize Istanze: Resample Supervisionati Attributi: Discretize Attribute. Selection Istanze: Resample • Associate Apriori

Preprocess

Preprocess

Preprocess

Preprocess

Preprocess

Preprocess

Filtri

Filtri

Filtri Supervisionati: esiste un attributo speciale, il class attribute, che viene usato per guidare

Filtri Supervisionati: esiste un attributo speciale, il class attribute, che viene usato per guidare le operazioni di filtraggio Non supervisionati: tratta tutti gli attributi allo stesso modo

Filtri Attribute: operano su un singolo o più attributi selezionati Istanze: operano a livello

Filtri Attribute: operano su un singolo o più attributi selezionati Istanze: operano a livello di tuple prendendo in considerazione la totalità degli attributi

Argomenti • Weka • Formato. arff • Preprocess Non supervisionati Attributi: Discretize Remove Replace.

Argomenti • Weka • Formato. arff • Preprocess Non supervisionati Attributi: Discretize Remove Replace. Missing. Values Normalize Standardize Istanze: Resample Supervisionati Attributi: Discretize Attribute. Selection Istanze: Resample • Associate Apriori

Filtri non supervisionati : Discretize • Questo tipo di filtro serve per convertire gli

Filtri non supervisionati : Discretize • Questo tipo di filtro serve per convertire gli attributi numerici in etichette stringa. attribute. Indices: permette di selezionare l’attributo o gli attributi da discretizzare desired. Weight. Of. Insta nces. Per. Interval: larghezza dell’intervallo nella divisione in bin di uguale profondità ignore. Class: se settato “true” ignora la classificazione prima di applicare il filtro make. Binary: se settato “true”rende gli attributi finali in formato binario bins: permette di scegliere il numero di bin find. Num. Bins: ottimizza il numero di bin di uguale larghezza utilizzando il metodo leave-one-out; non è applicabile con use. Equal. Frequency invert. Selection: se settato “true” il filtro verrà applicato a tutti i campi tranne a quello/i selezionato/i nel box attributeindices use. Equal. Frequency: se settato “true”verranno formati bin di uguale frequenza invece che di uguale larghezza

Filtri non supervisionati : Remove • Questo tipo di filtro serve per eliminare dal

Filtri non supervisionati : Remove • Questo tipo di filtro serve per eliminare dal dataset un attributo con tutti i relativi valori. attribute. Indices: permette di selezionare l’attributo da rimuovere invert. Selection: se settato “true” il filtro verrà applicato a tutti i campi tranne a quello/i selezionato/i nel box attributeindices

Filtri non supervisionati : Replace. Missing. Value • Questo tipo di filtro serve per

Filtri non supervisionati : Replace. Missing. Value • Questo tipo di filtro serve per sostituire i valori mancanti all’interno del dataset con la moda nel caso di dati categorici e con la media nel caso di dati numerici. ignore. Class: se settato “true” ignora la classificazione prima di applicare il filtro

Filtri non supervisionati : Normalize • Questo tipo di filtro agisce sui range di

Filtri non supervisionati : Normalize • Questo tipo di filtro agisce sui range di variazione degli attributi uniformandoli a [0, 1] (default) o ad altri intervalli. ignore. Class: se settato “true” ignora la classificazione prima di applicare il filtro translation: fattore di scala scale: fattore di scala

Filtri non supervisionati : Standardize • Questo tipo di filtro applica un altro tipo

Filtri non supervisionati : Standardize • Questo tipo di filtro applica un altro tipo di normalizzazione ottenendo che gli attributi numerici siano distribuiti con valor medio nullo e deviazione standard unitaria. ignore. Class: se settato “true” ignora la classificazione prima di applicare il filtro μ= valor medio statistico σ= deviazione standard

Filtri non supervisionati : Resample • Questo tipo di filtro attua una riduzione verticale

Filtri non supervisionati : Resample • Questo tipo di filtro attua una riduzione verticale producendo un sottoinsieme casuale delle istanze del data set sia sostituendo i valori originale che mantenendo quelli già presenti. invert. Selection: permette di invertire la selezione di istanze (solo se sampling senza replacement) random. Seed: permette di scegliere il “seme” alla base della generazione dei numeri casuali No. Replacement : permette di disabilitare la sostituzione dei valori originali sample. Size. Percent: permette di scegliere la percentuale del data set originale fornita in output

Argomenti • Weka • Formato. arff • Preprocess Non supervisionati Attributi: Discretize Remove Replace.

Argomenti • Weka • Formato. arff • Preprocess Non supervisionati Attributi: Discretize Remove Replace. Missing. Values Normalize Standardize Istanze: Resample Supervisionati Attributi: Discretize Attribute. Selection Istanze: Resample • Associate Apriori

Filtri supervisionati : Discretize • Questo tipo di filtro serve per convertire gli attributi

Filtri supervisionati : Discretize • Questo tipo di filtro serve per convertire gli attributi numerici in etichette stringa. attribute. Indices: permette di selezionare l’attributo o gli attributi da discretizzare make. Binary: se settato “true”rende gli attributi finali in formato binario invert. Selection: se settato “true” il filtro verrà applicato a tutti i campi tranne a quello/i selezionato/i nel box attributeindices

Filtri supervisionati : Attribute. Selection • Questo tipo di filtro permette l’accesso alle funzioni

Filtri supervisionati : Attribute. Selection • Questo tipo di filtro permette l’accesso alle funzioni di selezione di attributi così come nella sezione Select attributes. evaluator: permette di selezionare il parametro su cui effettuare la valutazione search: metodo attraverso cui effettuare la valutazione num. Toselect: permette di scegliere numero di attributi da selezionare start. Set: permette di selezionare un elenco di attributi da ignorare threshold: valore soglia del valutatore

Filtri supervisionati : Resample • Questo tipo di filtro produce un sottoinsieme di valori

Filtri supervisionati : Resample • Questo tipo di filtro produce un sottoinsieme di valori casuali del data set originale con o senza replacement. In aggiunta rispetto alla versione non supervisionata, tenta di mantenere la distribuzione dell’attributo classe o di correggerne il bias. To. Uniform. Class: permette di settare un valore che varia da 0 (non variando la distribuzione) a 1 (rendendo la distribuzione uniforme) No. Replacement : permette di disabilitare la sostituzione dei valori originali sample. Size. Percent: permette di scegliere la percentuale del data set originale fornita in output invert. Selection: permette di invertire la selezione di istanze (solo se sampling senza replacement) random. Seed: permette di scegliere il “seme” alla base della generazione dei numeri casuali

Argomenti • Weka • Formato. arff • Preprocess Non supervisionati Attributi: Discretize Remove Replace.

Argomenti • Weka • Formato. arff • Preprocess Non supervisionati Attributi: Discretize Remove Replace. Missing. Values Normalize Standardize Istanze: Resample Supervisionati Attributi: Discretize Attribute. Selection Istanze: Resample • Associate Apriori

Associate Weka: preprocess e associate

Associate Weka: preprocess e associate

Associate

Associate

Algoritmi per regole associative Alcuni esempi: • Apriori: algoritmo Apriori per le regole associative

Algoritmi per regole associative Alcuni esempi: • Apriori: algoritmo Apriori per le regole associative • Predictive. Apriori: algoritmo Apriori che trova regole di associazione ordinate per accuratezza nella predizione; questo parametro è ricavato da una combinazione di confidenza e supporto • Tertius: algoritmo a conferma guidata durante la scoperta di regole di associazione

Regole associative: Apriori Come funziona Apriori in Weka ? Apriori in Weka comincia con

Regole associative: Apriori Come funziona Apriori in Weka ? Apriori in Weka comincia con il supporto minimo all'estremo superiore e diminuisce il supporto di Delta ad ogni iterazione. Si arresta quando è stato generato il numero richiesto di regole, oppure è stato raggiunto l'estremo inferiore per il supporto minimo.

Regole associative: Apriori car: settato “true” vengono generate regole associative dove il class attribute

Regole associative: Apriori car: settato “true” vengono generate regole associative dove il class attribute è conseguente delta: permette di settare il valore delta metric. Type: permette di scegliere la metrica secondo cui ordinare e selezionare i risultati class. Index: indice del class attribute; se settato a -1 l’ultimo attributo è preso come class attribute lower. Bound. Min. Supp ort: lower bound per il supporto

Apriori: metric. Type Data la regola L => R: • confidence = Pr(L, R)

Apriori: metric. Type Data la regola L => R: • confidence = Pr(L, R) / Pr(L) • lift = Pr(L, R) / Pr(L)*Pr(R) • leverage = Pr(L, R) - Pr(L)*Pr(R) • conviction = Pr(L)*Pr(not R) / Pr(L, R)

Regole associative: Apriori num. Rules: permette di selezionare il numero di regole che si

Regole associative: Apriori num. Rules: permette di selezionare il numero di regole che si vuole vengano generate remove. All. Missing. Cols: rimuove dal dataset le colonne con tutti i valori mancanti. verbose: se abilitato esegue l’algoritmo in modalità verbose min. Metric: considera solo le regole che superano questo valore output. Item. Sets: se settato “true”vengono mostrati gli itemset frequenti upper. Bound. Min. Supp ort: upper bound per il supporto minimo

Associate

Associate

Associate

Associate