Knowledge Discovery KDD Process Data Preprocessing n Why

Data Preprocessing n Why preprocess the data? n Data cleaning n Data integration n

Why Data Preprocessing? n Data pada kenyataannya tidak bersih n Tdk Lengkap: kurang nilai

Why Is Data Dirty? n data tdk Lengkap: n n data Noisy : n

Alasan penggunaan Data Preprocessing n Data tdk berkwalitas , hasil mining menjadi tdk berkwalitas!

Ukuran dari Kualitas Data n n n n Accuracy Completeness Consistency Timeliness Believability Value

Tugas Utama dlm Data Preprocessing n Pembersihan Data/Data Cleaning n n Integrasi Data n

Forms of Data Preprocessing November 26, 2020 Data Mining: Concepts and Techniques 8

Data Preprocessing n Why preprocess the data? n Data cleaning n Data integration and

DATA CLEANING n Remove Noise and Inconsistent Data November 26, 2020 Data Mining: Concepts

Data Cleaning n n Importance n “Data cleaning is one of the three biggest

Missing Data n Data tidak selalu tersedia n n n Banyak record tdk memiliki

Mengatasi Missing Data n Mengabaikan Record: utk dataset yg tdk memiliki class label (dlm

Noisy Data n n Noise: random error atau variance dlm variabel (measured variable) Penyebab

Mengatasi Noisy Data n n Binning n Urutkan data dan bagi menjadi beberapa bagian

Methods Binning untuk Smoothing Data Urutkan data harga (in dollars): 4, 8, 9, 15,

DATA INTEGRATION n Where multiple data sources may be combined November 26, 2020 Data

Integrasi Data n n n Integrasi Data: n Menggabungkan data dari berbagai sumber data

mengatasi Redudansi dalam Integrasi Data n Redudansi data terjadi ketika melakukan integrasi dari berbagai

DATA TRANSFORMATION n Where data are transformed and consolidated into forms appropriate for mining

Transformasi Data n n Aggregation: summarization Normalization: membuat skala menjadi lebih kecil, dengan range

Aggregation/Pengumpulan n Mengkombinasikan atribut-atribut/obyek-obyek ke dlm satu atribut tunggal/obyek. Cabang IDTX Tgl Total Kudus

Alasan Agregasi n n Dataset yang lebih kecil membutuhkan memory lebih kecil dan waktu

Transformasi Data: Normalisasi n Normalisasi Min-max : to [new_min. A, new_max. A] n n

Strategi Reduksi Data n n Alasan reduksi data? n database/data warehouse menampung data dg

Pengurangan Dimensi n n n Metode reduksi dimensi bekerja dengan cara menangkap karakateristik data

DATA SELECTION n Where data relevant to the analysis task are retrieved from the

Sampling n n n Teknik utama dalam seleksi data Proses ini sering digunakan utk

Teknik Sampling n n Random Sampling (kemungkinan ada suatu pemilihan item yang sama) Sampling

Feature subset selection n n Salah satu cara untuk mengurangi dimensi adalah dengan memilih

Feature subset selection n Teknik utk memilih subset fitur n n n Brute-force approach:

Contoh Induksi Decision Tree Initial attribute set: {A 1, A 2, A 3, A

Feature Creation n Merupakan proses membuat fitur/atribut baru yang dpt menangkap informasi penting dalam

Data Discretization n Beberapa algoritma datamining kususnya klasifikasi membutuhkan data dalam bentuk kategorikal, sedangkan

Discretization Menentukan berapa banyak kategori n Menentukan bgmn memetakan nilai-nilai dari atribut continue menjadi

Discretization Equal-frequency: Sort data: 60, 75, …, 220 ID Pajak Kategori range ID Pajak

Binerization n Jml bit yg dibutuhkan utk binerisasi N= Log 2(M) Kategori Int Nilai

Summary n n n Data preparation / preprocessing merupakan isu utama bagi data warehousing

References n D. P. Ballou and G. K. Tayi. Enhancing data quality in data

Slides: 43

Download presentation

Knowledge Discovery (KDD) Process

Data Preprocessing n Why preprocess the data? n Data cleaning n Data integration n Data transformation n Data reduction n Data Discretization n Summary November 26, 2020 Data Mining: Concepts and Techniques 2

Why Data Preprocessing? n Data pada kenyataannya tidak bersih n Tdk Lengkap: kurang nilai pada atribut hanya berisi data agregate. n n noisy: berisi errors /outliers n n misl. , jabatan=“”, Pendapatan. Tahunan=“” misl. , Gaji=“-1. 000” Tdk Konsisten: berisi kodes /nama yang berbeda n n n November 26, 2020 misl. , Umur=“ 42”, Tgl. Lhr=“ 03/07/1997” misl. , peringkat “ 1, 2, 3”, “A, B, C” misl. , beda pada duplicate records Data Mining: Concepts and Techniques 3

Why Is Data Dirty? n data tdk Lengkap: n n data Noisy : n n Nilai data yg “Not applicable” ketika dikumpulkan Beda pertimbangan antara ketika data dikumpulkan dan ketika dianalisis. Kesalahan Human/hardware/software Instrumen pengumpulan data yang salah Kesalahan Human/computer pada saat entry data Kesalahan dalam transmisi data Data tdk konsisten: n Sumber data yang berbeda November 26, 2020 Data Mining: Concepts and Techniques 4

Alasan penggunaan Data Preprocessing n Data tdk berkwalitas , hasil mining menjadi tdk berkwalitas! n Keputusan-keputusan yg berkwalitas harus berdasarkan pada data yang berkwalitas n n n misl. , duplicate / missing data mungkin bisa menyebabkan statistik yang salah/menyesatkan. Data warehouse memerlukan integrasi yang konsisten dari data yang berkwalitas Kebutuhan untuk mendapatkan dataset yang dapat diolah dengan cepat dan menghasilkan kesimpulan yang tepat. November 26, 2020 Data Mining: Concepts and Techniques 5

Ukuran dari Kualitas Data n n n n Accuracy Completeness Consistency Timeliness Believability Value added Interpretability Accessibility November 26, 2020 Data Mining: Concepts and Techniques 6

Tugas Utama dlm Data Preprocessing n Pembersihan Data/Data Cleaning n n Integrasi Data n n Normalsasi & Agregasi Reduksi Data n n Integrasi dari berbagai databases, data cubes, atau files Transformasi Data n n Pengisian pd data yg missing values, smoothing data noisy, identifikasi/membuang outliers, dan mengatasi ketidakkonsistenan data Mengurangi volume data namun tetap bisa menghasilkan analis sama/mirip Diskretisasi Data n Bagian dari reduksi data namun kusus pada data numerik November 26, 2020 Data Mining: Concepts and Techniques 7

Forms of Data Preprocessing November 26, 2020 Data Mining: Concepts and Techniques 8

Data Preprocessing n Why preprocess the data? n Data cleaning n Data integration and transformation n Data reduction n Summary November 26, 2020 Data Mining: Concepts and Techniques 9

DATA CLEANING n Remove Noise and Inconsistent Data November 26, 2020 Data Mining: Concepts and Techniques 10

Data Cleaning n n Importance n “Data cleaning is one of the three biggest problems in data warehousing”—Ralph Kimball n “Data cleaning is the number one problem in data warehousing”—DCI survey Tugas-tugas Data Cleaning n Melengkapi data missing values n Mengidentifikasi outliers dan smoothing data noisy n Mengatasi data yang tidak konsisten n mengatasi redudansi karena integrasi data November 26, 2020 Data Mining: Concepts and Techniques 11

Missing Data n Data tidak selalu tersedia n n n Banyak record tdk memiliki nilai pada beberapa atributnya, misl pendatan pelanggan pada data penjualan Penyebab Missing data : n Kerusakan pada peralatan n Dihapus krn tdk konsisten dengan data lainnya. n Tdk dimasukkan krn misunderstanding n data dianggap tdk penting pada saat entry data Missing data perlu untuk dilengkapi. November 26, 2020 Data Mining: Concepts and Techniques 12

Mengatasi Missing Data n Mengabaikan Record: utk dataset yg tdk memiliki class label (dlm kasus klasifikasi) n Mengisi missing value secara manual n Mengisi missing value secara otomatis n Menggunakan konstanta : “unknown” n Nilai rata-rata dari atribut n Nilai didapatkan dari inference-based spt formula Bayesian /decision tree November 26, 2020 Data Mining: Concepts and Techniques 13

Noisy Data n n Noise: random error atau variance dlm variabel (measured variable) Penyebab nilai atribut yang tdk benar: n Kesalahan pada Perangkat pengumpulan Data n Kesalahan pada data entry n Kesalahan transmisi data n Keterbatasan teknologi n Ketidak konsistenan pada konvensi penamaan November 26, 2020 Data Mining: Concepts and Techniques 14

Mengatasi Noisy Data n n Binning n Urutkan data dan bagi menjadi beberapa bagian (dg frekwensi yg sama) n Lakukan Data smooth dengan menentukan rata-rata, smooth dengan nilai median, smooth dengan nilai boundaries, dsb. Regression n Lakukan smooth dengan menggunakan fungsi-fungsi regresi Clustering n Mendeteksi dan menghilangkan outliers Kombinasi pemeriksaan manusia dan komputer n Memdeteksi nilai yg di dianggap noisy dan dilakukan pengecekan scr manual. November 26, 2020 Data Mining: Concepts and Techniques 15

Methods Binning untuk Smoothing Data Urutkan data harga (in dollars): 4, 8, 9, 15, 21, 24, 25, 26, 28, 29, 34 * Bagi shg memiliki frekwensi yg sama (equi-depth) : - class 1: 4, 8, 9, 15 - class 2: 21, 24, 25 - class 3: 26, 28, 29, 34 * Smoothing dg rata 2 (means): - class 1: 9, 9, 9, 9 - class 2: 23, 23, 23 - class 3: 29, 29, 29 * Smoothing deg nilai batas: - class 1: 4, 4, 15 - class 2: 21, 25, 25 - class 3: 26, 34, 34 q November 26, 2020 Data Mining: Concepts and Techniques 16

Data Preprocessing n Why preprocess the data? n Data cleaning n Data integration and transformation n Data reduction n Summary November 26, 2020 Data Mining: Concepts and Techniques 17

DATA INTEGRATION n Where multiple data sources may be combined November 26, 2020 Data Mining: Concepts and Techniques 18

Integrasi Data n n n Integrasi Data: n Menggabungkan data dari berbagai sumber data ke dlm suatu media penyimpanan. Permasalahan identifikasi Entitas: n Mengidentifikasi entitas-entitas riel dari berbagai data source, e. g. , Bill Clinton = William Clinton Mendeteksi dan menyelesaikan konflik nilai data n Alasan: representasi yg berbeda, skala yg berbeda, e. g. , meter vs. inch November 26, 2020 Data Mining: Concepts and Techniques 19

mengatasi Redudansi dalam Integrasi Data n Redudansi data terjadi ketika melakukan integrasi dari berbagai database n Identifikasi Obyek: obyek/atribut yang sama mungkin memiliki nama berbeda didalam database lain. n Derivable data: Satu atribut mungkin merupakan “derived” attribute dari tabel lain, e. g. , annual revenue n n Atribut yg redudan dpt diditeksi menggunakan analisis korelasi Integrasi data dari berbagai database bila dilakukan dg cara hati-hati dapat mengurangi redudansi & inkonsisternsi dan memperbaiki kecepatan dan kualitas mining. November 26, 2020 Data Mining: Concepts and Techniques 20

DATA TRANSFORMATION n Where data are transformed and consolidated into forms appropriate for mining by performing summary or aggregation operation November 26, 2020 Data Mining: Concepts and Techniques 21

Transformasi Data n n Aggregation: summarization Normalization: membuat skala menjadi lebih kecil, dengan range spesifik. n min-max normalization n z-score normalization November 26, 2020 Data Mining: Concepts and Techniques 22

Aggregation/Pengumpulan n Mengkombinasikan atribut-atribut/obyek-obyek ke dlm satu atribut tunggal/obyek. Cabang IDTX Tgl Total Kudus 102 29 -9 -2014 250, 000 Kudus 103 29 -9 -2014 300, 000 Smg 201 29 -9 -2014 500, 000 Smg 202 29 -9 -2014 450, 000 Smg 203 30 -9 -2014 350, 000 Cabang Tgl Total Kudus 29 -9 -2014 550, 000 Smg 29 -9 -2014 950, 000 Smg 30 -9 -2014 350, 000 November 26, 2020 Data Mining: Concepts and Techniques 23

Alasan Agregasi n n Dataset yang lebih kecil membutuhkan memory lebih kecil dan waktu pemrosesan yang lebih cepat. Agregasi berperan mengubah cara pandang thd data dari level rendah menjadi level tinggi. November 26, 2020 Data Mining: Concepts and Techniques 24

Transformasi Data: Normalisasi n Normalisasi Min-max : to [new_min. A, new_max. A] n n Ex. Let income range $12, 000 to $98, 000 normalized to [0. 0, 1. 0]. Then $73, 000 is mapped to Normalisasi Z-score (μ: mean, σ: standard deviation): n Ex. Let μ = 54, 000, σ = 16, 000. Then November 26, 2020 Data Mining: Concepts and Techniques 25

Data Preprocessing n Why preprocess the data? n Data cleaning n Data integration and transformation n Data reduction n Data Discretization n Summary November 26, 2020 Data Mining: Concepts and Techniques 26

Strategi Reduksi Data n n Alasan reduksi data? n database/data warehouse menampung data dg besaran terabytes n Analisis/Mining data kompleks membutuhkan waktu yg terlalu lama utk diproses pada dataset lengkap. Data reduction n Mengurangi volume dataset namun tetap harus memproduksi hasil analisis yang sama/mirip dengan dataset lengkap n Strategi Data reduction n n Reduksi Dimensi— e. g. , menghapus atribut-atribut yang tidak penting Kompresi Data November 26, 2020 Data Mining: Concepts and Techniques 27

Pengurangan Dimensi n n n Metode reduksi dimensi bekerja dengan cara menangkap karakateristik data dengan memetakan dataset dari dimensi semula ke dimensi baru yang relatif lebih rendah. Hasil dr pemetaan tsb berupa principal component yg kemudian dpt diambil komponen/fitur dari dimensi baru tsb yg mempunyai pengaruh besar thd dataset dan membuang komponen/fitur yg tdk berpengaruh(berpengaruh kecil) Teknik yang digunakan n n Principal Component Analysis (PCA) Single Value Decomposition November 26, 2020 Data Mining: Concepts and Techniques 28

DATA SELECTION n Where data relevant to the analysis task are retrieved from the data base November 26, 2020 Data Mining: Concepts and Techniques 29

Sampling n n n Teknik utama dalam seleksi data Proses ini sering digunakan utk persiapan penyelidikan awal dan analisis data akhir Alasan digunakan sampling: karena pengolahan dataset secara keseluruhan sangat mahal dan menghabiskan waktu. November 26, 2020 Data Mining: Concepts and Techniques 30

Teknik Sampling n n Random Sampling (kemungkinan ada suatu pemilihan item yang sama) Sampling without replacement (setiap item yg telah dipilih dikeluarkan dari populasinya) Sampling with replacement (obyek yang sama dpt terambil lebih dari satu kali) Stratified Sampling (membagi data menjadi beberapa partisi, kemudian menarik sampel dari tiap-tiap partisi ) November 26, 2020 Data Mining: Concepts and Techniques 31

Feature subset selection n n Salah satu cara untuk mengurangi dimensi adalah dengan memilih fitur yg tepat/hanya menggunakan fitur-fitur yang diperlukan saja. Menghilangkan fitur-fitur yang redundan fitur-fitur yang tidak relevan November 26, 2020 Data Mining: Concepts and Techniques 32

Feature subset selection n Teknik utk memilih subset fitur n n n Brute-force approach: mencoba semua kemungkinan fitur subset sbg input pada algoritma datamining Embeded approach: terjadi scr alamai sbg bagian dari algoritma data mining Fitler approach: Fitur-fitur dipilih sblm algoritma datamining dijalankan Wrapper aproach: menggunakan algoritma datamining sebagai sebuah blackbox utk mendapatkan subset fitur yg paling baik Metode Heuristic : n n Step-wise forward selection Step-wise backward elimination Combining forward selection and backward elimination Decision-tree induction November 26, 2020 Data Mining: Concepts and Techniques 33

Contoh Induksi Decision Tree Initial attribute set: {A 1, A 2, A 3, A 4, A 5, A 6} A 4 ? A 6? A 1? Class 1 > Class 2 Class 1 Class 2 Reduced attribute set: {A 1, A 4, A 6} November 26, 2020 Data Mining: Concepts and Techniques 34

Feature Creation n Merupakan proses membuat fitur/atribut baru yang dpt menangkap informasi penting dalam sebuah himpunan data yang lebih efisien daripada atribut-atribut yang ada. n Metode membuat fitur baru : n n n Feature Extraction Feature Mapping using fourier/wavelet transformation Feature Construction (dg cara menggabungkan fitur-fitur yang ada) November 26, 2020 Data Mining: Concepts and Techniques 35

Data Discretization n Beberapa algoritma datamining kususnya klasifikasi membutuhkan data dalam bentuk kategorikal, sedangkan algoritma asosiasi memerlukan data dalam bentuk atribut biner. Transformasi dari atribut continue kedalam bentuk kategorikal disebut discretization Transformasi dari atribut continue maupun diskrit kedalam bentuk biner disebut binerization November 26, 2020 Data Mining: Concepts and Techniques 37

Discretization Menentukan berapa banyak kategori n Menentukan bgmn memetakan nilai-nilai dari atribut continue menjadi atribut kategorikal ID Pajak n { equal-width: 1 125 n range data[60 - 220] 2 100 n } n 3 70 4 120 5 95 6 60 7 220 8 85 9 75 10 90 November 26, 2020 1 Sedang 2 Rendah 3 Rendah 4 Sedang Kategori range 5 Rendah 60 – 113 6 Rendah Sedang 114 – 167 7 Tinggi 168 - 220 8 Rendah 9 Rendah 10 Rendah Data Mining: Concepts and Techniques 38

Discretization Equal-frequency: Sort data: 60, 75, …, 220 ID Pajak Kategori range ID Pajak 1 125 Tinggi 100 60, 75 1 2 Rendah Tinggi 70 85, 90, 95 2 3 Sedang Rendah 120 100, 125, 220 3 4 Tinggi 5 95 5 Sedang 6 60 6 Rendah 7 220 7 Tinggi 8 85 8 Sedang 9 75 9 Rendah 10 90 10 Sedang November 26, 2020 Data Mining: Concepts and Techniques 39

Binerization n Jml bit yg dibutuhkan utk binerisasi N= Log 2(M) Kategori Int Nilai Biner X 1 X 2 X 3 Rusak 0 0 Jelek 1 0 0 1 Sedang 2 0 1 0 Bagus 3 0 1 1 Sempurna 4 1 0 0 Kategori Int Nilai Biner X 1 X 2 X 3 X 4 X 5 Rusak 0 1 0 0 Jelek 1 0 0 0 Sedang 2 0 0 1 0 0 Bagus 3 0 0 0 1 0 Sempurna 4 0 0 1 N=Log 2(5)=3 November 26, 2020 Data Mining: Concepts and Techniques 40

Summary n n n Data preparation / preprocessing merupakan isu utama bagi data warehousing dan data mining Data preparation n Data cleaning dan data integration n Data reduction dan feature selection n Discretization beberapa methods telah dikembangkan namun data preprocessing masih menjadi area riset yang aktif. November 26, 2020 Data Mining: Concepts and Techniques 42

References n D. P. Ballou and G. K. Tayi. Enhancing data quality in data warehouse environments. Communications of ACM, 42: 73 -78, 1999 n T. Dasu and T. Johnson. Exploratory Data Mining and Data Cleaning. John Wiley & Sons, 2003 n T. Dasu, T. Johnson, S. Muthukrishnan, V. Shkapenyuk. Mining Database Structure; Or, How to Build a Data Quality Browser. SIGMOD’ 02. n H. V. Jagadish et al. , Special Issue on Data Reduction Techniques. Bulletin of the Technical Committee on Data Engineering, 20(4), December 1997 n D. Pyle. Data Preparation for Data Mining. Morgan Kaufmann, 1999 n E. Rahm and H. H. Do. Data Cleaning: Problems and Current Approaches. IEEE Bulletin of the Technical Committee on Data Engineering. Vol. 23, No. 4 n V. Raman and J. Hellerstein. Potters Wheel: An Interactive Framework for Data Cleaning and Transformation, VLDB’ 2001 n T. Redman. Data Quality: Management and Technology. Bantam Books, 1992 n Y. Wand R. Wang. Anchoring data quality dimensions ontological foundations. Communications of ACM, 39: 86 -95, 1996 n R. Wang, V. Storey, and C. Firth. A framework for analysis of data quality research. IEEE Trans. Knowledge and Data Engineering, 7: 623 -640, 1995 November 26, 2020 Data Mining: Concepts and Techniques 43