KONSEP DATA MINING Disusun Oleh Dr Lily Wulandari

  • Slides: 62
Download presentation
KONSEP DATA MINING Disusun Oleh : Dr Lily Wulandari Universitas Gunadarma Logo Seminar

KONSEP DATA MINING Disusun Oleh : Dr Lily Wulandari Universitas Gunadarma Logo Seminar

Buku Referensi

Buku Referensi

RENCANA PEMBELAJARAN SEMESTER PROGRAM STUDI Sistem Informasi FAKULTAS - IKTI UNIVERSITAS GUNADARMA (RPS FILE)

RENCANA PEMBELAJARAN SEMESTER PROGRAM STUDI Sistem Informasi FAKULTAS - IKTI UNIVERSITAS GUNADARMA (RPS FILE)

Konsep Data Mining & Aplikasinya Pada Bidang Informasi

Konsep Data Mining & Aplikasinya Pada Bidang Informasi

Outline 1. 2. 3. 4. 5. Pengenalan Data Mining Proses Data Mining Evaluasi dan

Outline 1. 2. 3. 4. 5. Pengenalan Data Mining Proses Data Mining Evaluasi dan Validasi pada Data Mining Metode dan Algoritma Data Mining Penelitian Data Mining 5

Mining? Warehousing? 6

Mining? Warehousing? 6

The World of Data 7 7

The World of Data 7 7

8

8

Heterogeneous Data

Heterogeneous Data

Kaya Data tetapi Miskin Informasi

Kaya Data tetapi Miskin Informasi

Business Intelligence 11

Business Intelligence 11

Data Integration & Analysis

Data Integration & Analysis

From Data To Intelligence Decision Models Decision Support Data Mining Preprocessing Database Knowledge Information

From Data To Intelligence Decision Models Decision Support Data Mining Preprocessing Database Knowledge Information Data 13

It is all about data … Retail WWW Consulting Companies Government Telecommunication

It is all about data … Retail WWW Consulting Companies Government Telecommunication

Big Data

Big Data

16

16

Interdisciplinary Machine Learning Artificial Intelligenc e Data Mining Statistics Pattern Recognitio n

Interdisciplinary Machine Learning Artificial Intelligenc e Data Mining Statistics Pattern Recognitio n

Keterhubungan Big Data Analytics Business Intelligence Decision Support Data Mining Customer Relationship Management

Keterhubungan Big Data Analytics Business Intelligence Decision Support Data Mining Customer Relationship Management

Pengenalan Data Mining 1. Apa itu Data Mining? 2. Peran Utama Data Mining 3.

Pengenalan Data Mining 1. Apa itu Data Mining? 2. Peran Utama Data Mining 3. Algoritma Data Mining

Apa itu Data Mining?

Apa itu Data Mining?

Mengapa Data Mining? • Manusia dalam suatu organisasi, sadar atau tidak sadar telah memproduksi

Mengapa Data Mining? • Manusia dalam suatu organisasi, sadar atau tidak sadar telah memproduksi berbagai data yang jumlahnya sangat besar – Contoh data: bisnis, kedokteran, ekonomi, geografi, olahraga, … • Pada dasarnya, data adalah entitas yang tidak memiliki arti, meskipun kemungkinan memiliki nilai di dalamnya

Apa itu Data Mining? 22

Apa itu Data Mining? 22

Apa itu Data Mining? • Disiplin ilmu yang mempelajari metode untuk mengekstrak pengetahuan atau

Apa itu Data Mining? • Disiplin ilmu yang mempelajari metode untuk mengekstrak pengetahuan atau menemukan pola dari suatu data 1. Data: fakta yang terekam dan tidak membawa arti 2. Pengetahuan: pola, aturan atau model yang muncul dari data • Sehingga Data mining sering disebut Knowledge Discovery in Database (KDD) • Konsep Transformasi Data Informasi Pengetahuan

Pengetahuan • Gabungan dari suatu pengalaman, nilai, informasi kontekstual dan juga pandangan pakar yang

Pengetahuan • Gabungan dari suatu pengalaman, nilai, informasi kontekstual dan juga pandangan pakar yang memberikan suatu framework untuk mengevaluasi dan menciptakan pengalaman dan informasi baru (Thomas H. Davenport, Laurence Prusak) • Bisa berupa solusi pemecahan suatu masalah, petunjuk suatu pekerjaan dan ini bisa ditingkatkan nilainya, dipelajari dan juga bisa diajarkan kepada yang lain

Definisi Data Mining • Melakukan ekstraksi untuk mendapatkan informasi penting yang sifatnya implisit dan

Definisi Data Mining • Melakukan ekstraksi untuk mendapatkan informasi penting yang sifatnya implisit dan sebelumnya tidak diketahui, dari suatu data (Witten et al. , 2011) • Kegiatan yang meliputi pengumpulan, pemakaian data historis untuk menemukan keteraturan, pola dan hubungan dalam set data berukuran besar (Santosa, 2007)

Definisi Data Mining • Analisis set data pengamatan (sering besar) untuk menemukan hubungan yang

Definisi Data Mining • Analisis set data pengamatan (sering besar) untuk menemukan hubungan yang tidak terduga dan untuk meringkas data dalam cara-cara baru yang dapat dimengerti dan berguna bagi pemilik data (Han & Kamber, 2001) • Proses menemukan korelasi, pola, dan tren baru yang bermakna dengan memilah-milah sejumlah besar data yang disimpan dalam repositori, menggunakan teknologi pengenalan pola serta teknik statistik dan matematika (Gartner Group)

Data – Informasi - Pengetahuan Data Kehadiran Pegawai NIP TGL DATANG PULANG 1103 02/12/2004

Data – Informasi - Pengetahuan Data Kehadiran Pegawai NIP TGL DATANG PULANG 1103 02/12/2004 07: 20 15: 40 1142 02/12/2004 07: 45 15: 33 1156 02/12/2004 07: 51 16: 00 1173 02/12/2004 08: 00 15: 15 1180 02/12/2004 07: 01 16: 31 1183 02/12/2004 07: 49 17: 00

Data – Informasi - Pengetahuan Informasi Akumulasi Bulanan Kehadiran Pegawai NIP Masuk Alpa 1103

Data – Informasi - Pengetahuan Informasi Akumulasi Bulanan Kehadiran Pegawai NIP Masuk Alpa 1103 22 1142 18 2 1156 10 1 1173 12 5 1180 10 Cuti Sakit Telat 2 11 5 12

Data – Informasi - Pengetahuan Informasi Kondisi kehadiran Mingguan Pegawai Senin Selasa Rabu Kamis

Data – Informasi - Pengetahuan Informasi Kondisi kehadiran Mingguan Pegawai Senin Selasa Rabu Kamis Jumat Terlambat 7 0 1 0 5 Pulang Cepat Izin 0 1 1 1 8 3 0 0 1 4 Alpa 1 0 2

Data – Informasi - Pengetahuan § Pengetahuan tentang kebiasaan pegawai dalam jam datang/pulang kerja

Data – Informasi - Pengetahuan § Pengetahuan tentang kebiasaan pegawai dalam jam datang/pulang kerja § Pengetahuan tentang bagaimana teknik meningkatkan kehadiran pegawai kebijakan

Data - Informasi - Pengetahuan - Kebijakan • Kebijakan penataan jam kerja karyawan khusus

Data - Informasi - Pengetahuan - Kebijakan • Kebijakan penataan jam kerja karyawan khusus untuk hari senin dan jumat • Peraturan jam kerja: – Hari Senin dimulai jam 10: 00 – Hari Jumat diakhiri jam 14: 00 – Sisa jam kerja dikompensasi ke hari lain: 1. Senin pulang setelah maghrib, toh jalanan Jakarta macet total di sore hari (bayar hutang 2 jam) 2. Rabu dan kamis bayar hutang setengah jam di pagi hari dan setengah jam di sore hari (bayar hutang 2 jam)

Apa itu (bukan) Data Mining? • Apa yang bukan merupakan Data Mining? – Cari

Apa itu (bukan) Data Mining? • Apa yang bukan merupakan Data Mining? – Cari nomor telepon di direktori telepon – Meminta mesin pencari Web untuk informasi tentang "Amazon" • Apa itu data mining? – Nama-nama tertentu lebih lazim di lokasi AS tertentu (O'Brien, O'Rourke, O'Reilly. . . di daerah Boston) – Kelompokkan dokumen serupa yang dikembalikan oleh mesin pencari sesuai konteksnya (mis. , Hutan hujan Amazon, Amazon. com)

Proses Utama pada Data Mining Input (Data) Metode (Algoritma Data Mining) Output (Pola/Model)

Proses Utama pada Data Mining Input (Data) Metode (Algoritma Data Mining) Output (Pola/Model)

Contoh • Midwest grocery chain menggunakan DM untuk menganalisis pola pembelian: saat pria membeli

Contoh • Midwest grocery chain menggunakan DM untuk menganalisis pola pembelian: saat pria membeli roti di hari Kamis dan Sabtu, mereka juga membeli minuman. • Analisis lebih lanjut: pembeli ini belanja di hari kamis dan sabtu, tapi di hari kamis jumlah item lebih sedikit. Kesimpulan yang diambil: pembeli minuman untuk dihabiskan saat weekend. • Tindak lanjut: menjual minuman dengan harga full di hari Kamis dan Sabtu. Mendekatkan posisi roti dan minuman.

Lanjutan • CONTOH KASUS : Jika Anda mempunyai kartu kredit, sudah pasti Anda bakal

Lanjutan • CONTOH KASUS : Jika Anda mempunyai kartu kredit, sudah pasti Anda bakal sering menerima surat berisi brosur penawaran barang atau jasa. Jika Bank pemberi kartu kredit Anda mempunyai 1. 000 nasabah, dan mengirimkan sebuah (hanya satu) penawaran dengan biaya pengiriman sebesar Rp. 1. 000 per buah maka biaya yang dihabiskan adalah Rp. 1 Milyar!! Jika Bank tersebut mengirimkan penawaran sekali sebulan yang berarti 12 x dalam setahun maka anggaran yang dikeluarkan per tahunnya adalah Rp. 12 Milyar!! Dari dana Rp. 12 Milyar yang dikeluarkan, berapa persenkah konsumen yang benar-benar membeli? Mungkin hanya 10 %-nya saja. Secara harfiah, berarti 90% dari dana tersebut terbuang sia-sia.

Lanjutan • Dari contoh kasus di atas merupakan salah satu persoalan yang dapat diatasi

Lanjutan • Dari contoh kasus di atas merupakan salah satu persoalan yang dapat diatasi oleh data mining dari sekian banyak potensi permasalahan yang ada. Data mining dapat menambang data transaksi belanja kartu kredit untuk melihat manakah pembeli -pembeli yang memang potensial untuk membeli produk tertentu. Mungkin tidak sampai presisi 10%, tapi bayangkan jika kita dapat menyaring 20% saja, tentunya 80% dana dapat digunakan untuk hal lainnya.

Irisan Bidang Ilmu Data Mining 1. Statistik: – Lebih bersifat teori – Fokus ke

Irisan Bidang Ilmu Data Mining 1. Statistik: – Lebih bersifat teori – Fokus ke pengujian hipotesis 2. Machine Learning: – Lebih bersifat heuristik – Fokus pada perbaikan performansi dari suatu teknik learning 3. Data Mining: – Gabungan teori dan heuristik – Fokus pada seluruh proses penemuan knowledge dan pola – Termasuk data cleaning, learning dan visualisasi hasilnya

Peran Utama Data Mining

Peran Utama Data Mining

Tugas-tugas Data Mining • Metode Prediksi Gunakan beberapa variabel untuk memprediksi nilai variabel lain

Tugas-tugas Data Mining • Metode Prediksi Gunakan beberapa variabel untuk memprediksi nilai variabel lain yang tidak diketahui atau di masa mendatang. • Metode Deskripsi Temukan pola yang bisa ditafsirkan manusia yang menggambarkan data. 39

Peran Utama Data Mining 1. Estimation 2. Prediction Estimation Association Prediction 3. Classification 4.

Peran Utama Data Mining 1. Estimation 2. Prediction Estimation Association Prediction 3. Classification 4. Clustering 5. Association Clustering Classification

Algoritma Data Mining (DM) 1. Estimation (Estimasi): – Linear Regression, Neural Network, Support Vector

Algoritma Data Mining (DM) 1. Estimation (Estimasi): – Linear Regression, Neural Network, Support Vector Machine, etc Prediction/Forecasting (Prediksi/Peramalan): – Linear Regression, Neural Network, Support Vector Machine, etc Classification (Klasifikasi): – Naive Bayes, K-Nearest Neighbor, C 4. 5, ID 3, CART, Linear Discriminant Analysis, etc Clustering (Klastering): – K-Means, K-Medoids, Self-Organizing Map (SOM), Fuzzy CMeans, etc Association (Asosiasi): 2. 3. 4. 5. – FP-Growth, A Priori, etc

Metode Learning Pada Algoritma DM Supervised Learning Unsupervised Learning Association Learning

Metode Learning Pada Algoritma DM Supervised Learning Unsupervised Learning Association Learning

Metode Learning Pada Algoritma DM 1. Supervised Learning (Pembelajaran dengan Guru): – Sebagian besar

Metode Learning Pada Algoritma DM 1. Supervised Learning (Pembelajaran dengan Guru): – Sebagian besar algoritma data mining (estimation, prediction/forecasting, classification) adalah supervised learning – Variabel yang menjadi target/label/class ditentukan – Algoritma melakukan proses belajar berdasarkan nilai dari variabel target yang terasosiasi dengan nilai dari variable prediktor

Dataset dengan Attribute & Class Attribute Class/Label

Dataset dengan Attribute & Class Attribute Class/Label

Metode Learning Pada Algoritma DM 2. Unsupervised Learning (Pembelajaran tanpa Guru): – Algoritma data

Metode Learning Pada Algoritma DM 2. Unsupervised Learning (Pembelajaran tanpa Guru): – Algoritma data mining mencari pola dari semua variable (atribut) – Variable (atribut) yang menjadi target/label/class tidak ditentukan (tidak ada) – Algoritma clustering adalah algoritma unsupervised learning

Dataset with Attribute (No Class) Attribute

Dataset with Attribute (No Class) Attribute

Metode Learning Pada Algoritma DM 3. Association Learning (Pembelajaran untuk Asosiasi Atribut) – Proses

Metode Learning Pada Algoritma DM 3. Association Learning (Pembelajaran untuk Asosiasi Atribut) – Proses learning pada algoritma asosiasi (association rule) agak berbeda karena tujuannya adalah untuk mencari atribut yang muncul bersamaan dalam satu transaksi – Algoritma asosiasi biasanya untuk analisa transaksi belanja, dengan konsep utama adalah mencari “produk/item mana yang dibeli bersamaan” – Pada pusat perbelanjaan banyak produk yang dijual, sehingga pencarian seluruh asosiasi produk memakan cost tinggi, karena sifatnya yang kombinatorial – Algoritma association rule seperti apriori algorithm, dapat memecahkan masalah ini dengan efisien

Output/Pola/Model/Knowledge 1. Formula/Function (Rumus atau Fungsi Regresi) – WAKTU TEMPUH = 0. 48 +

Output/Pola/Model/Knowledge 1. Formula/Function (Rumus atau Fungsi Regresi) – WAKTU TEMPUH = 0. 48 + 0. 6 JARAK + 0. 34 LAMPU + 0. 2 PESANAN 2. Decision Tree (Pohon Keputusan) 3. Rule (Aturan) – IF ips 3=2. 8 THEN lulustepatwaktu 4. Cluster (Klaster)

Dataset Transaction

Dataset Transaction

Association Rules

Association Rules

Association Rules

Association Rules

Contoh Klasifikasi: Rekomendasi Main Golf • Input: • Output (Rules): If outlook = sunny

Contoh Klasifikasi: Rekomendasi Main Golf • Input: • Output (Rules): If outlook = sunny and humidity = high then play = no If outlook = rainy and windy = true then play = no If outlook = overcast then play = yes If humidity = normal then play = yes If none of the above then play 52 = yes

Contoh: Rekomendasi Main Golf 53

Contoh: Rekomendasi Main Golf 53

Contoh Klasifikasi a ric t ca o eg l l ir ca t ca

Contoh Klasifikasi a ric t ca o eg l l ir ca t ca o eg e iv at qu tit n a s s cla Test Set Training Set Learn Classifier Model 54

Contoh Tugas-Tugas Klasifikasi • Mengklasifikasikan transaksi kartu kredit sebagai sah atau curang • Klasifikasi

Contoh Tugas-Tugas Klasifikasi • Mengklasifikasikan transaksi kartu kredit sebagai sah atau curang • Klasifikasi tutupan lahan (badan air, daerah perkotaan, hutan, dll. ) Menggunakan data satelit • Mengkategorikan berita sebagai keuangan, cuaca, hiburan, olahraga, dll • Mengidentifikasi penyusup di dunia maya • Memprediksi sel tumor sebagai jinak atau ganas • Mengklasifikasikan struktur sekunder protein sebagai alpha-helix, beta-sheet, atau col acak 55

Penentuan Kelulusan Mahasiswa NIM Gend er Nilai UN Asal IPS 1 IPS 2 Sekolah

Penentuan Kelulusan Mahasiswa NIM Gend er Nilai UN Asal IPS 1 IPS 2 Sekolah IPS 3 IPS 4 . . . Lulus Tepat Waktu 10001 L 28 SMAN 2 3. 3 3. 6 2. 89 2. 9 Ya 10002 P 27 SMA DK 4. 0 3. 2 3. 8 3. 7 Tidak 10003 P 24 SMAN 1 2. 7 3. 4 4. 0 3. 5 Tidak 10004 L 26. 4 SMAN 3 3. 2 2. 7 3. 6 3. 4 Ya L 23. 4 SMAN 5 3. 3 2. 8 3. 1 3. 2 Ya . . . 11000

Klastering Bunga Iris Dataset Tanpa Label Pembelajaran dengan Metode Klastering (K-Means) 57

Klastering Bunga Iris Dataset Tanpa Label Pembelajaran dengan Metode Klastering (K-Means) 57

Pengetahuan Berupa Klaster 58

Pengetahuan Berupa Klaster 58

Input – Metode – Output – Evaluation Input (Data) Metode (Algoritma Data Mining) Output

Input – Metode – Output – Evaluation Input (Data) Metode (Algoritma Data Mining) Output (Pola/Model) Evaluation (Akurasi, AUC, RMSE, etc)

Referensi 1. Ian H. Witten, Frank Eibe, Mark A. Hall, Data mining: Practical Machine

Referensi 1. Ian H. Witten, Frank Eibe, Mark A. Hall, Data mining: Practical Machine Learning Tools and Techniques 3 rd Edition, Elsevier, 2011 2. Santosa Budi, Teknik Pemanfaatan Data Untuk Keperluan Bisnis, Graha Ilmu, 2007 3. Slide Materi Romi Satrio Wahono (www. ilmukomputer. com)

TUGAS 1 URAIAN TUGAS : 1. Tugas memilih artikel yang membahas hasil yang diperoleh

TUGAS 1 URAIAN TUGAS : 1. Tugas memilih artikel yang membahas hasil yang diperoleh dari melakukan data mining. 2. Berdasarkan artikel yang dipilih, mahasiswa membuat ringkasan yang: – menjelaskan data yang digunakan: type data, atribut, type atribut masing-masing, dimensi – menjelaskan preprocessing yang digunakan – menjelaskan task mining yang dilakukan – menjelaskan hasil yang diperoleh – menjelaskan tools yang digunakan • Luaran tugas berupa tulisan yang berisi ringkasan pada poin 2 dengan format bebas. 61