Data Preprocessing 1 DWDM Data Preprocessing February 21
Data Preprocessing 1 DW/DM: Data Preprocessing February 21, 2021
Objectivos �Ter consciencia da importancia do pre- processoamento no mundo real antes de fazer Data Mining ou contrução do Data Warehouse. �Problemas do Pre-Processamento e tecnicas 2 DW/DM: Data Preprocessing February 21, 2021
Visão (4) DS DS OLAP (2) Data Preprocessing DS (3) DW DM Association (5) Classification (6) Clustering (7) DS = Data source DW = Data warehouse DM = Data Mining 3 DW/DM: Data Preprocessing February 21, 2021
Capitulo II (2. 3) (2. 4) (2. 5) 4 DW/DM: Data Preprocessing February 21, 2021
Ler os Capitulos 5 � Introduction (2. 1, 2. 2) � Data Cleaning (2. 3) � Data Integration (2. 4) � Data Transformation (2. 4) � Data Reduction (2. 5) � Concept Hierarchy (2. 6) DW/DM: Data Preprocessing February 21, 2021
- Introduction �Why Preprocess the Data (2. 1) �Where Preprocess Data �Identifying Typical properties of Data (2. 2) 6 DW/DM: Data Preprocessing February 21, 2021
Porque fazer o Pre-Processamento � Termos uma qualidade de dados multi-dimensional bem aceite: �precisão �plenitude �consistência �oportunidade �credibilidade �valor adicionado �interpretabilidade �acessibilidade 7 DW/DM: Data Preprocessing February 21, 2021
Porque fazer o Pre. Processamento � Razões para Limpeza de dados �Dados Incompletos (Falta de dados) �Noisy data (Dados contem erros) �Dados Inconsistentes (contem discrepancias) � Razões para integração de dados �Dados vindo de muitiplas fontes � Razões para transformação dos dados �Alguns dados devem ser transformados para uso em mining � Razões para redução de dados �Performance 8 � No quality data no quality mining results! DW/DM: Data Preprocessing February 21, 2021
Where Preprocess Data DS OLAP SD DS DW O Pre-processamento e feito aqui, No chamado Staging Database DS DS = Data source DW = Data warehouse DM = Data Mining SD = Staging Database 9 DW/DM: Data Preprocessing DM Association Classification Clustering February 21, 2021
-- Identifying Typical Properties of Data � As técnicas para fazer o resumo de dados pode ser utilizado para identificar as propriedades típicas de dados e decidir o que pode ser considerado como ruído. Para muitas tarefas de préprocessamento de dados é útil conhecer as seguintes medidas dos dados: �A tendencia Central �A Dispersão 10 DW/DM: Data Preprocessing February 21, 2021
Medindo a tendencia Central � Medindo Tendencias �Significado �Media �Modo �Valor Entre: (max() – min())/2 � Para fins de mineração de dados, é preciso saber como calcular essas medidas de forma eficiente em grandes bases de dados. É importante saber se a medida é: � Distributiva � Algébrica ou 11 � Holística DW/DM: Data Preprocessing February 21, 2021
Medindo a tendencia Central � Medidas Distributivas: Uma medida que pode ser calculada dividindo os dados, calcular a medida para cada partição, e juntar os resultados para chegar ao valor da medida para todos os dados. � ex. Sum(), count(), max(), min(). � Medidas Algebricas: é uma medida que pode ser calculada pela aplicação de uma função algébrica de uma ou mais medidas distribuídas. � eg. Avg() which is sum()/count() � Medida Homologica: Voce precisa de todos os dados para calcular uma medida 12 � DW/DM: ex mediana Data Preprocessing February 21, 2021
Medindo Dispersão � Dispersão ou variação é o grau em que os dados numéricos tende a espalhar-se. � The most common measures are: �Range: max() – min() 13 DW/DM: Data Preprocessing February 21, 2021
- Chapter Outline � Introduction 14 (2. 1, 2. 2) � Data Cleaning (2. 3) � Data Integration (2. 4) � Data Transformation (2. 4) � Data Reduction (2. 5) � Concept Hierarchy (2. 6) DW/DM: Data Preprocessing February 21, 2021
Limpeza de Dados � Importância �"A limpeza de dados é o problema número no armazenamento de dados" � Na limpeza de dados, os problemas são resolvidos de dados a seguir: �Dados incompletos (falta de dados) �Dados ruidosos (contém erros) �Dados inconsistentes (contendo discrepâncias) 15 DW/DM: Data Preprocessing February 21, 2021
Falta de Dados � Os dados não estão sempre disponíveis � Ex, Linhas duma tabela não têm valor registrado para vários atributos, como a renda do cliente em dados de vendas � Falta de dados pode ser devido a �mau funcionamento do equipamento �inconsistente com outros dados registados ou eliminados �dados não foram cadastrados devido à 16 incompreensão DW/DM: Data Preprocessing February 21, 2021
--- How to Handle Missing Data? � Fill in missing value manually (often unfeasible) � Fill in with a global constant. Unknown or n/a not recommended (data mining algorithm will see this as a normal value) � Fill in with attribute mean or median � Fill in with class mean or median (classes need to be known) � Fill in with most likely value (using regression, decision trees, most similar records, etc. ) � Use other attributes to predict value (e. g. if a postcode is missing use suburb value) � Ignore the record 17 DW/DM: Data Preprocessing February 21, 2021
-- Noisy Data � Noise: random error or variance in a measured variable � Incorrect attribute values may due to �faulty data collection �data entry problems �data transmission problems �data conversion errors �Data decay problems �technology limitations, e. g. buffer overflow or field size 18 limits DW/DM: Data Preprocessing February 21, 2021
--- How to Handle Noisy Data? � Binning � First sort data and partition into (equal-frequency) bins, then one can smooth by bin means, or by bin median, or by bin boundaries, etc. � Regression � smooth by fitting the data into regression functions � Clustering � detect and remove outliers � Combined computer and human inspection � detect suspicious values and check by human. 19 DW/DM: Data Preprocessing February 21, 2021
--- Binning Methods for Data Smoothing � Sorted data for price: 4, 8, 9, 15, 21, 24, 25, 26, 28, 29, 34 � Partition into equal-frequency (equi-depth) bins: � Bin 1: 4, 8, 9, 15 � Bin 2: 21, 24, 25 � Bin 3: 26, 28, 29, 34 � Smoothing by bin means: � Bin 1: 9, 9, 9, 9 � Bin 2: 23, 23, 23 � Bin 3: 29, 29, 29 � Smoothing by bin boundaries: � Bin 1: 4, 4, 4, 15 � Bin 2: 21, 25, 25 � Bin 3: 26, 26, 34 20 DW/DM: Data Preprocessing February 21, 2021
--- Regression y Y 1 y=x+1 Y 1’ X 1 21 DW/DM: Data Preprocessing x February 21, 2021
--- Cluster Analysis 22 DW/DM: Data Preprocessing February 21, 2021
-- Inconsistent data � Inconsistent data can be due to: �data entry errors �data integration errors (different formats, codes, etc. ) � Handling inconsistent data �Important to have data entry verification (check both format and values of data entered) �Correct with help of external reference data 23 DW/DM: Data Preprocessing February 21, 2021
End 24 DW/DM: Data Preprocessing February 21, 2021
- Slides: 24