Knowledge Discovery KDD Process Data Preprocessing n Why
- Slides: 43
Knowledge Discovery (KDD) Process
Data Preprocessing n Why preprocess the data? n Data cleaning n Data integration n Data transformation n Data reduction n Data Discretization n Summary November 26, 2020 Data Mining: Concepts and Techniques 2
Why Data Preprocessing? n Data pada kenyataannya tidak bersih n Tdk Lengkap: kurang nilai pada atribut hanya berisi data agregate. n n noisy: berisi errors /outliers n n misl. , jabatan=“”, Pendapatan. Tahunan=“” misl. , Gaji=“-1. 000” Tdk Konsisten: berisi kodes /nama yang berbeda n n n November 26, 2020 misl. , Umur=“ 42”, Tgl. Lhr=“ 03/07/1997” misl. , peringkat “ 1, 2, 3”, “A, B, C” misl. , beda pada duplicate records Data Mining: Concepts and Techniques 3
Why Is Data Dirty? n data tdk Lengkap: n n data Noisy : n n Nilai data yg “Not applicable” ketika dikumpulkan Beda pertimbangan antara ketika data dikumpulkan dan ketika dianalisis. Kesalahan Human/hardware/software Instrumen pengumpulan data yang salah Kesalahan Human/computer pada saat entry data Kesalahan dalam transmisi data Data tdk konsisten: n Sumber data yang berbeda November 26, 2020 Data Mining: Concepts and Techniques 4
Alasan penggunaan Data Preprocessing n Data tdk berkwalitas , hasil mining menjadi tdk berkwalitas! n Keputusan-keputusan yg berkwalitas harus berdasarkan pada data yang berkwalitas n n n misl. , duplicate / missing data mungkin bisa menyebabkan statistik yang salah/menyesatkan. Data warehouse memerlukan integrasi yang konsisten dari data yang berkwalitas Kebutuhan untuk mendapatkan dataset yang dapat diolah dengan cepat dan menghasilkan kesimpulan yang tepat. November 26, 2020 Data Mining: Concepts and Techniques 5
Ukuran dari Kualitas Data n n n n Accuracy Completeness Consistency Timeliness Believability Value added Interpretability Accessibility November 26, 2020 Data Mining: Concepts and Techniques 6
Tugas Utama dlm Data Preprocessing n Pembersihan Data/Data Cleaning n n Integrasi Data n n Normalsasi & Agregasi Reduksi Data n n Integrasi dari berbagai databases, data cubes, atau files Transformasi Data n n Pengisian pd data yg missing values, smoothing data noisy, identifikasi/membuang outliers, dan mengatasi ketidakkonsistenan data Mengurangi volume data namun tetap bisa menghasilkan analis sama/mirip Diskretisasi Data n Bagian dari reduksi data namun kusus pada data numerik November 26, 2020 Data Mining: Concepts and Techniques 7
Forms of Data Preprocessing November 26, 2020 Data Mining: Concepts and Techniques 8
Data Preprocessing n Why preprocess the data? n Data cleaning n Data integration and transformation n Data reduction n Summary November 26, 2020 Data Mining: Concepts and Techniques 9
DATA CLEANING n Remove Noise and Inconsistent Data November 26, 2020 Data Mining: Concepts and Techniques 10
Data Cleaning n n Importance n “Data cleaning is one of the three biggest problems in data warehousing”—Ralph Kimball n “Data cleaning is the number one problem in data warehousing”—DCI survey Tugas-tugas Data Cleaning n Melengkapi data missing values n Mengidentifikasi outliers dan smoothing data noisy n Mengatasi data yang tidak konsisten n mengatasi redudansi karena integrasi data November 26, 2020 Data Mining: Concepts and Techniques 11
Missing Data n Data tidak selalu tersedia n n n Banyak record tdk memiliki nilai pada beberapa atributnya, misl pendatan pelanggan pada data penjualan Penyebab Missing data : n Kerusakan pada peralatan n Dihapus krn tdk konsisten dengan data lainnya. n Tdk dimasukkan krn misunderstanding n data dianggap tdk penting pada saat entry data Missing data perlu untuk dilengkapi. November 26, 2020 Data Mining: Concepts and Techniques 12
Mengatasi Missing Data n Mengabaikan Record: utk dataset yg tdk memiliki class label (dlm kasus klasifikasi) n Mengisi missing value secara manual n Mengisi missing value secara otomatis n Menggunakan konstanta : “unknown” n Nilai rata-rata dari atribut n Nilai didapatkan dari inference-based spt formula Bayesian /decision tree November 26, 2020 Data Mining: Concepts and Techniques 13
Noisy Data n n Noise: random error atau variance dlm variabel (measured variable) Penyebab nilai atribut yang tdk benar: n Kesalahan pada Perangkat pengumpulan Data n Kesalahan pada data entry n Kesalahan transmisi data n Keterbatasan teknologi n Ketidak konsistenan pada konvensi penamaan November 26, 2020 Data Mining: Concepts and Techniques 14
Mengatasi Noisy Data n n Binning n Urutkan data dan bagi menjadi beberapa bagian (dg frekwensi yg sama) n Lakukan Data smooth dengan menentukan rata-rata, smooth dengan nilai median, smooth dengan nilai boundaries, dsb. Regression n Lakukan smooth dengan menggunakan fungsi-fungsi regresi Clustering n Mendeteksi dan menghilangkan outliers Kombinasi pemeriksaan manusia dan komputer n Memdeteksi nilai yg di dianggap noisy dan dilakukan pengecekan scr manual. November 26, 2020 Data Mining: Concepts and Techniques 15
Methods Binning untuk Smoothing Data Urutkan data harga (in dollars): 4, 8, 9, 15, 21, 24, 25, 26, 28, 29, 34 * Bagi shg memiliki frekwensi yg sama (equi-depth) : - class 1: 4, 8, 9, 15 - class 2: 21, 24, 25 - class 3: 26, 28, 29, 34 * Smoothing dg rata 2 (means): - class 1: 9, 9, 9, 9 - class 2: 23, 23, 23 - class 3: 29, 29, 29 * Smoothing deg nilai batas: - class 1: 4, 4, 15 - class 2: 21, 25, 25 - class 3: 26, 34, 34 q November 26, 2020 Data Mining: Concepts and Techniques 16
Data Preprocessing n Why preprocess the data? n Data cleaning n Data integration and transformation n Data reduction n Summary November 26, 2020 Data Mining: Concepts and Techniques 17
DATA INTEGRATION n Where multiple data sources may be combined November 26, 2020 Data Mining: Concepts and Techniques 18
Integrasi Data n n n Integrasi Data: n Menggabungkan data dari berbagai sumber data ke dlm suatu media penyimpanan. Permasalahan identifikasi Entitas: n Mengidentifikasi entitas-entitas riel dari berbagai data source, e. g. , Bill Clinton = William Clinton Mendeteksi dan menyelesaikan konflik nilai data n Alasan: representasi yg berbeda, skala yg berbeda, e. g. , meter vs. inch November 26, 2020 Data Mining: Concepts and Techniques 19
mengatasi Redudansi dalam Integrasi Data n Redudansi data terjadi ketika melakukan integrasi dari berbagai database n Identifikasi Obyek: obyek/atribut yang sama mungkin memiliki nama berbeda didalam database lain. n Derivable data: Satu atribut mungkin merupakan “derived” attribute dari tabel lain, e. g. , annual revenue n n Atribut yg redudan dpt diditeksi menggunakan analisis korelasi Integrasi data dari berbagai database bila dilakukan dg cara hati-hati dapat mengurangi redudansi & inkonsisternsi dan memperbaiki kecepatan dan kualitas mining. November 26, 2020 Data Mining: Concepts and Techniques 20
DATA TRANSFORMATION n Where data are transformed and consolidated into forms appropriate for mining by performing summary or aggregation operation November 26, 2020 Data Mining: Concepts and Techniques 21
Transformasi Data n n Aggregation: summarization Normalization: membuat skala menjadi lebih kecil, dengan range spesifik. n min-max normalization n z-score normalization November 26, 2020 Data Mining: Concepts and Techniques 22
Aggregation/Pengumpulan n Mengkombinasikan atribut-atribut/obyek-obyek ke dlm satu atribut tunggal/obyek. Cabang IDTX Tgl Total Kudus 102 29 -9 -2014 250, 000 Kudus 103 29 -9 -2014 300, 000 Smg 201 29 -9 -2014 500, 000 Smg 202 29 -9 -2014 450, 000 Smg 203 30 -9 -2014 350, 000 Cabang Tgl Total Kudus 29 -9 -2014 550, 000 Smg 29 -9 -2014 950, 000 Smg 30 -9 -2014 350, 000 November 26, 2020 Data Mining: Concepts and Techniques 23
Alasan Agregasi n n Dataset yang lebih kecil membutuhkan memory lebih kecil dan waktu pemrosesan yang lebih cepat. Agregasi berperan mengubah cara pandang thd data dari level rendah menjadi level tinggi. November 26, 2020 Data Mining: Concepts and Techniques 24
Transformasi Data: Normalisasi n Normalisasi Min-max : to [new_min. A, new_max. A] n n Ex. Let income range $12, 000 to $98, 000 normalized to [0. 0, 1. 0]. Then $73, 000 is mapped to Normalisasi Z-score (μ: mean, σ: standard deviation): n Ex. Let μ = 54, 000, σ = 16, 000. Then November 26, 2020 Data Mining: Concepts and Techniques 25
Data Preprocessing n Why preprocess the data? n Data cleaning n Data integration and transformation n Data reduction n Data Discretization n Summary November 26, 2020 Data Mining: Concepts and Techniques 26
Strategi Reduksi Data n n Alasan reduksi data? n database/data warehouse menampung data dg besaran terabytes n Analisis/Mining data kompleks membutuhkan waktu yg terlalu lama utk diproses pada dataset lengkap. Data reduction n Mengurangi volume dataset namun tetap harus memproduksi hasil analisis yang sama/mirip dengan dataset lengkap n Strategi Data reduction n n Reduksi Dimensi— e. g. , menghapus atribut-atribut yang tidak penting Kompresi Data November 26, 2020 Data Mining: Concepts and Techniques 27
Pengurangan Dimensi n n n Metode reduksi dimensi bekerja dengan cara menangkap karakateristik data dengan memetakan dataset dari dimensi semula ke dimensi baru yang relatif lebih rendah. Hasil dr pemetaan tsb berupa principal component yg kemudian dpt diambil komponen/fitur dari dimensi baru tsb yg mempunyai pengaruh besar thd dataset dan membuang komponen/fitur yg tdk berpengaruh(berpengaruh kecil) Teknik yang digunakan n n Principal Component Analysis (PCA) Single Value Decomposition November 26, 2020 Data Mining: Concepts and Techniques 28
DATA SELECTION n Where data relevant to the analysis task are retrieved from the data base November 26, 2020 Data Mining: Concepts and Techniques 29
Sampling n n n Teknik utama dalam seleksi data Proses ini sering digunakan utk persiapan penyelidikan awal dan analisis data akhir Alasan digunakan sampling: karena pengolahan dataset secara keseluruhan sangat mahal dan menghabiskan waktu. November 26, 2020 Data Mining: Concepts and Techniques 30
Teknik Sampling n n Random Sampling (kemungkinan ada suatu pemilihan item yang sama) Sampling without replacement (setiap item yg telah dipilih dikeluarkan dari populasinya) Sampling with replacement (obyek yang sama dpt terambil lebih dari satu kali) Stratified Sampling (membagi data menjadi beberapa partisi, kemudian menarik sampel dari tiap-tiap partisi ) November 26, 2020 Data Mining: Concepts and Techniques 31
Feature subset selection n n Salah satu cara untuk mengurangi dimensi adalah dengan memilih fitur yg tepat/hanya menggunakan fitur-fitur yang diperlukan saja. Menghilangkan fitur-fitur yang redundan fitur-fitur yang tidak relevan November 26, 2020 Data Mining: Concepts and Techniques 32
Feature subset selection n Teknik utk memilih subset fitur n n n Brute-force approach: mencoba semua kemungkinan fitur subset sbg input pada algoritma datamining Embeded approach: terjadi scr alamai sbg bagian dari algoritma data mining Fitler approach: Fitur-fitur dipilih sblm algoritma datamining dijalankan Wrapper aproach: menggunakan algoritma datamining sebagai sebuah blackbox utk mendapatkan subset fitur yg paling baik Metode Heuristic : n n Step-wise forward selection Step-wise backward elimination Combining forward selection and backward elimination Decision-tree induction November 26, 2020 Data Mining: Concepts and Techniques 33
Contoh Induksi Decision Tree Initial attribute set: {A 1, A 2, A 3, A 4, A 5, A 6} A 4 ? A 6? A 1? Class 1 > Class 2 Class 1 Class 2 Reduced attribute set: {A 1, A 4, A 6} November 26, 2020 Data Mining: Concepts and Techniques 34
Feature Creation n Merupakan proses membuat fitur/atribut baru yang dpt menangkap informasi penting dalam sebuah himpunan data yang lebih efisien daripada atribut-atribut yang ada. n Metode membuat fitur baru : n n n Feature Extraction Feature Mapping using fourier/wavelet transformation Feature Construction (dg cara menggabungkan fitur-fitur yang ada) November 26, 2020 Data Mining: Concepts and Techniques 35
Data Preprocessing n Why preprocess the data? n Data cleaning n Data integration and transformation n Data reduction n Data Discretization n Summary November 26, 2020 Data Mining: Concepts and Techniques 36
Data Discretization n Beberapa algoritma datamining kususnya klasifikasi membutuhkan data dalam bentuk kategorikal, sedangkan algoritma asosiasi memerlukan data dalam bentuk atribut biner. Transformasi dari atribut continue kedalam bentuk kategorikal disebut discretization Transformasi dari atribut continue maupun diskrit kedalam bentuk biner disebut binerization November 26, 2020 Data Mining: Concepts and Techniques 37
Discretization Menentukan berapa banyak kategori n Menentukan bgmn memetakan nilai-nilai dari atribut continue menjadi atribut kategorikal ID Pajak n { equal-width: 1 125 n range data[60 - 220] 2 100 n } n 3 70 4 120 5 95 6 60 7 220 8 85 9 75 10 90 November 26, 2020 1 Sedang 2 Rendah 3 Rendah 4 Sedang Kategori range 5 Rendah 60 – 113 6 Rendah Sedang 114 – 167 7 Tinggi 168 - 220 8 Rendah 9 Rendah 10 Rendah Data Mining: Concepts and Techniques 38
Discretization Equal-frequency: Sort data: 60, 75, …, 220 ID Pajak Kategori range ID Pajak 1 125 Tinggi 100 60, 75 1 2 Rendah Tinggi 70 85, 90, 95 2 3 Sedang Rendah 120 100, 125, 220 3 4 Tinggi 5 95 5 Sedang 6 60 6 Rendah 7 220 7 Tinggi 8 85 8 Sedang 9 75 9 Rendah 10 90 10 Sedang November 26, 2020 Data Mining: Concepts and Techniques 39
Binerization n Jml bit yg dibutuhkan utk binerisasi N= Log 2(M) Kategori Int Nilai Biner X 1 X 2 X 3 Rusak 0 0 Jelek 1 0 0 1 Sedang 2 0 1 0 Bagus 3 0 1 1 Sempurna 4 1 0 0 Kategori Int Nilai Biner X 1 X 2 X 3 X 4 X 5 Rusak 0 1 0 0 Jelek 1 0 0 0 Sedang 2 0 0 1 0 0 Bagus 3 0 0 0 1 0 Sempurna 4 0 0 1 N=Log 2(5)=3 November 26, 2020 Data Mining: Concepts and Techniques 40
Data Preprocessing n Why preprocess the data? n Data cleaning n Data integration and transformation n Data reduction n Data Discretization n Summary November 26, 2020 Data Mining: Concepts and Techniques 41
Summary n n n Data preparation / preprocessing merupakan isu utama bagi data warehousing dan data mining Data preparation n Data cleaning dan data integration n Data reduction dan feature selection n Discretization beberapa methods telah dikembangkan namun data preprocessing masih menjadi area riset yang aktif. November 26, 2020 Data Mining: Concepts and Techniques 42
References n D. P. Ballou and G. K. Tayi. Enhancing data quality in data warehouse environments. Communications of ACM, 42: 73 -78, 1999 n T. Dasu and T. Johnson. Exploratory Data Mining and Data Cleaning. John Wiley & Sons, 2003 n T. Dasu, T. Johnson, S. Muthukrishnan, V. Shkapenyuk. Mining Database Structure; Or, How to Build a Data Quality Browser. SIGMOD’ 02. n H. V. Jagadish et al. , Special Issue on Data Reduction Techniques. Bulletin of the Technical Committee on Data Engineering, 20(4), December 1997 n D. Pyle. Data Preparation for Data Mining. Morgan Kaufmann, 1999 n E. Rahm and H. H. Do. Data Cleaning: Problems and Current Approaches. IEEE Bulletin of the Technical Committee on Data Engineering. Vol. 23, No. 4 n V. Raman and J. Hellerstein. Potters Wheel: An Interactive Framework for Data Cleaning and Transformation, VLDB’ 2001 n T. Redman. Data Quality: Management and Technology. Bantam Books, 1992 n Y. Wand R. Wang. Anchoring data quality dimensions ontological foundations. Communications of ACM, 39: 86 -95, 1996 n R. Wang, V. Storey, and C. Firth. A framework for analysis of data quality research. IEEE Trans. Knowledge and Data Engineering, 7: 623 -640, 1995 November 26, 2020 Data Mining: Concepts and Techniques 43
- Data mining in data warehouse
- Kdd process
- Etl in data cleaning and preprocessing stands for
- Data integration in data preprocessing
- Kdd task manager
- Knowledge discovery process
- Knowledge discovery process
- Introduction to data mining and knowledge discovery
- Knowledge data discovery
- Outlier
- Data preparation and preprocessing
- Data preprocessing
- Neural network data preprocessing
- Major tasks in data preprocessing
- Pictures
- It is an active process of discovery
- Kdd cup 1998 solution
- Diatermi yanığı
- Kdd fayyad
- Kdd metodologia
- Proceso kdd
- Proceso kdd
- Systematic inquiry aimed at the discovery of new knowledge
- Systematic inquiry aimed at the discovery of new knowledge
- Knowledge discovery kit
- Image url to text
- Text operation
- Finite element example
- Image preprocessing
- Preprocessing fem
- Preprocessing in image processing
- Password hashing and preprocessing
- Password hashing and preprocessing
- Dti preprocessing
- Dont ask why why why
- Stages of critical reading
- Process discovery in bpm
- Qsar notes
- Shared and personal knowledge
- Knowledge shared is knowledge squared
- Knowledge shared is knowledge multiplied
- Knowledge creation and knowledge architecture
- Contoh shallow knowledge dan deep knowledge
- A priori and a posteriori knowledge