Konsep dan Teknik Data Mining Edward Purba Konsep
Konsep dan Teknik Data Mining Edward Purba Konsep Deskripsi 1/90
Deskripsi Konsep: Karakterisasi dan Komparasi Apa Itu Konsep Deskripsi? Generalisasi Data dan Karakterisasi Berbasis Rangkuman Karakterisasi Analitis: Analisis Relevan Atribut Komparasi Kelas Mining: Perbedaan Antara Kelas Berbeda Ukuran Statistik Deskriptif Mining Dalam Database Besar Edward Purba Konsep Deskripsi 2/90
Apa Itu Konsep Deskripsi? • Dalam prakteknya, ada 2 goal utama “level tinggi” dari data mining: prediksi dan deskripsi. 1. Prediksi meliputi penggunaan beberapa variabel atau field dalam database untuk menaksir nilai-nilai yang tidak diketahui atau nilai yang akan datang dari variabel yang diminati lainnya. 2. Deskripsi memusatkan perhatian mencari pola yang menguraikan data yang bisa diinterpretasikan manusia • Dalam konteks KDD, deskripsi cenderung lebih penting ketimbang prediksi. • Untuk pengenalan pola dan aplikasi mesin pembelajaran, prediksi adalah goal utama proses KDD Edward Purba Konsep Deskripsi 3/90
Apa Itu Konsep Deskripsi? • Konsep deskripsi: – Karakterisasi: menyediakan suatu rangkuman yang ringkas dan singkat dari koleksi data yang diberikan – Komparasi: menyediakan deskripsi-deskripsi yang membandingkan 2 atau lebih koleksi data Edward Purba Konsep Deskripsi 4/90
Goal Prediksi dan Deskripsi: Tugas Utama Data Mining 1. Klasifikasi adalah pembelajaran suatu fungsi yang memetakan (mengklasifikasikan) suatu item data kedalam salah satu dari beberapa kelas yang didefinisikan sebelumnya (Prediksi) 2. Regresi adalah pembelajaran suatu fungsi yang memetakan suatu item data ke suatu variabel prediksi bernilai riil (Prediksi) 3. Clustering adalah suatu tugas umum deskripsi dimana seseorang mencoba mengenali suatu himpunan berhingga kategori atau cluster untuk menguraikan data (Deskripsi) – Yang dekat dengan clustering adalah tugas dari taksiran peluang densitas yang memuat teknik-teknik untuk penaksiran, dari data, gabungan fungsi peluang densitas multivariabel dari seluruh varabel/field didalam database Edward Purba Konsep Deskripsi 5/90
Goal Prediksi dan Deskripsi: Tugas Utama Data Mining 4. Rangkuman meliputi metoda-metoda untuk mencari suatu deksripsi kompak untuk suatu subset data 5. Pemodelan bergantung memuat pencarian suatu model yang menguraikan kebergantungan berarti antara variabel-variabel Model-model bergantung ada pada 2 level: i. Level struktural dari model merinci (sering secara grafis) variabel mana yang bergantung secara lokal pada setiap yang lain, dan ii. Level kuantitatif dari model merinci kekuatan dari kebergantungan menggunakan beberapa skala numerik Edward Purba Konsep Deskripsi 6/90
Goal Prediksi dan Deskripsi: Tugas Utama Data Mining 6. Deteksi perubahan deviasi memusatkan perhatian pada penemuan perubahan yang paling berarti dalam data dari nilai-nilai yang diukur atau normatif sebelumnya Edward Purba Konsep Deskripsi 7/90
Induksi Berorientasi Atribut • Diusulkan tahun 1989 (KDD ‘ 89 workshop) • Tidak dibatasi untuk kategori data tidak juga hanya untuk ukuran-ukuran khusus. • Bagaimana ini dilakukan? – Mengumpulkan data relevan tugas (relasi awal) menggunakan suatu query database relasional – Mengerjakan generalisasi dengan membuang atribut atau generalisasi atribut. – Menerapkan agregasi dengan menggabungkan atribut yang identik, tuple yang di generalisasikan dan mengumpulkan jumlahnya – Penyajian ke user yang interaktif Edward Purba Konsep Deskripsi 8/90
Atribut Yang Relevan Terhadap Analisis • Mengapa? – Dimensi mana yang harus disertakan? – Berapa tinggi level generalisasi? – Otomatis VS. Interaktif – Mengurangi jumlah atribut; mudah untuk memahami pola • Apa? – Metoda statistik untuk pemrosesan awal data • Menyaring atribut yang tak relevan atau relevan tetapi lemah • Menahan atau merangking atribut yang relevan – Relevansi terkait dengan dimensi dan level – Karakterisasi dan komparasi analitis Edward Purba Konsep Deskripsi 9/90
Atribut Yang Relevan Terhadap Analisis • Bagaimana? – Koleksi Data – Generalisasi Analitis • Menggunakan analisis information gain (misal, entropy atau ukuran lainnya) untuk mengenali dimensi dan level yang sangat relevan. – Analisis Relevansi • Mengurutkan dan memilih dimensi dan level yang paling relevan. – Induksi berorientasi atribut untuk kelas deskripsi • Atas dimensi/level terpilih – Operasi OLAP (misal, drilling, slicing) atas kaidah yang relevan Edward Purba Konsep Deskripsi 10/90
Ukuran Yang Relevan • Ukuran relevan kuantitatif menentukan kekuatan suatu atribut mengklasifikasikan sekumpulan data. • Metoda-metoda – Informasi gain (ID 3) – Rasio gain (C 4. 5) – Indeks gini – Tabel statistik kontingensi 2 – Koefisien ketakpastian Edward Purba Konsep Deskripsi 11/90
Information Gain • Suatu ukuran berharga dari suatu atribut adalah suatu properti statistik yang disebut information gain. • Information gain mengukur seberapa baik suatu atribut yang diberikan memisahkan sampel pelatihan menurut klasifikasi targetnya. – Ukuran ini digunakan untuk memilih diantara kandidat atribut pada setiap step waktu memelihara pohonnya Edward Purba Konsep Deskripsi 12/90
Information Gain • Information gain adalah reduksi yang diharapkan dalam entropy yang disebabkan oleh pempartisian sampel-sampel berdasarkan atribut ini. • Lebih tepatnya, information gain, Gain (S, A) dari suatu atribut A, relatif terhadap suatu koleksi sampel S yang didefinisikan sebagai: • dimana Values(A) adalah himpunan seluruh nilai-nilai yang mungkin untuk atribut A, dan Sv adalah subset dari S dimana atribut A memiliki nilai v (artinya, Sv = {s Î S | A(s) = v}). Edward Purba Konsep Deskripsi 13/90
Entropy • Entropy adalah suatu ukuran homogenitas dari sekumpulan sampel • Entropy adalah suatu ukuran yang umum digunakan dalam teori informasi • Entropy menggambarkan kemurnian (ketakmurnian) dari suatu koleksi sampel sebarang • Diberikan suatu himpunan S, memuat hanya contoh positif dan negatif dari suatu konsep target (suatu problem 2 kelas), entropy dari himpunan S relatif terhadap klasifikasi biner dan sederhana didefinisikan sebagai berikut: Edward Purba Konsep Deskripsi 14/90
Entropy • • Entropy(S) = - pplog 2 pp – pnlog 2 pn dimana pp adalah perbandingan dari contoh positip dalam S dengan jumlah S dan pn adalah perbandingan dari contoh negatif dalam S dengan jumlah S. Dalam seluruh kalkulasi yang melibatkan entropy kita mendefinisikan 0 log 0 bernilai 0. Contoh: Misalkan S adalah koleksi 25 sampel, yang melibatkan 15 sampel positip dan 10 sampel negatip. [15+, 10 -]. Tentukan entropy S relatif terhadap klasifikasi ini: Edward Purba Konsep Deskripsi 15/90
Entropy • • Entropy(S) = - (15/25) log 2 (15/25) - (10/25) log 2 (10/25) = 0. 970 Perhatikan bahwa entropy adalah 0 jika seluruh anggota dari S hanya pada satu kelas yang sama. Sebagai contoh, jika seluruh anggota positip (pp= 1 ), maka pn = 0, dan Entropy(S) = -1* log 2(1) – 0 * log 20 = -1* 0 – 0*log 20 = 0 – 0 = 0. Catatan, entropy adalah 1 (nilai maksimum!) saat koleksi memuat suatu jumlah yang sama dari sampel positip dan negatip. Edward Purba Konsep Deskripsi 16/90
Entropy • Jika koleksi memuat jumlah sampel positip dan negatip yang tak sama, entropy akan terletak diantara 0 dan 1. Gambar berikut menunjukkan bentuk fungsi entropy relatif terhadap klasifikasi biner, dimana p+ bervariasi antara 0 dan 1. Edward Purba Konsep Deskripsi 17/90
Entropy • • Entropy 0 bila himpunan S homogen sempurna Entropy 1 bila himpunan S tak homogen sempurna Edward Purba Konsep Deskripsi 18/90
Entropy dan Perolehan Informasi • S memuat tuple si dari kelas Ci untuk i = {1, …, m} • Informasi mengukur info yang diperlukan untuk mengklasifikasikan tuple sebarang apapun • Entropi dari atribut A dengan nilai-nilai {a 1, a 2, …, av} • Informasi diperoleh dengan pencabangan atas atribut A Edward Purba Konsep Deskripsi 19/90
Contoh Pohon Keputusan: Entropy Faktor-faktor yang mempengaruhi Sunburn Edward Purba Konsep Deskripsi 20/90
Contoh Pohon Keputusan: Entropy Fase 1: dari Data ke Pohon Melakukan kalkulasi entropy rata-rata pada data set lengkap untuk masing-masing dari ke-empat atribut blonde Warna rambut red 2 positip 2 negatip 1 positip Total sampel = 8 brown 3 negatip Edward Purba Konsep Deskripsi 21/90
Contoh Pohon Keputusan: Entropy Hitungan entropy rata-rata sampel untuk atribut “warna rambut” Edward Purba Konsep Deskripsi 22/90
Contoh Pohon Keputusan: Entropy Bila dilakukan juga untuk Height, Weight, dan Lotion Dengan cara yang sama, sekarang kita memilih uji lainnya untuk memisahkan individu sunburned dari subset tak homogen berambut blonde {Sarah, Dana, Annie, dan Katie}. Edward Purba Konsep Deskripsi 23/90
Contoh Pohon Keputusan: Entropy Bila dilakukan juga untuk Height, Weight, dan Lotion 1 positip, Sarah average Warna blonde tall 1 negatip, Dana short 1 positip, Annie, 1 negatip, Katie Edward Purba Konsep Deskripsi 24/90
Contoh Pohon Keputusan: Entropy Kalkulasi entropy rata-rata sampel rambut blonde untuk height Atribut lotion lah yang dipilih sebab atribut ini meminimalkan entropy dalam subset rambut blonde. Jadi, uji Hair dan Lotion bersama-sama menjamin pengenalan yang cocok untuk seluruh sampel. Edward Purba Konsep Deskripsi 25/90
Contoh Pohon Keputusan: Entropy Pohon keputusan lengkap. Edward Purba Konsep Deskripsi 26/90
Contoh: Karakterisasi Analitis • Tugas – Menambang karakteristik umum yang menerangkan graduate students menggunakan karakterisasi analitis • Diberikan – Atribut-atribut name, gender, major, birth_place, birth_date, phone#, dan gpa – Gen(ai) = konsep hierarki atas ai – Ui = atribut ambang analitis untuk ai – Ti = atribut ambang general untuk ai – R = atribut ambang yang relevan Edward Purba Konsep Deskripsi 27/90
Contoh: Karakterisasi Analitis 1. Koleksi data – Kelas target: graduate student – Kelas lawannya: undergraduate student 2. Generalisasi analitis menggunakan Ui – Penghapusan atribut • Menghapus name dan phone# – Generalisasi atribut • • Menggeneralisasi major, birth_place, birth_date dan gpa Mengumpulkan jumlah record – Kandidat relasi: gender, major, birth_country, age_range dan gpa Edward Purba Konsep Deskripsi 28/90
Contoh: Karakterisasi Analitis Kandidat relasi untuk kelas Target: Graduate students ( =120) Kandidat relasi untuk kelas lawan : Undergraduate students ( =130) Edward Purba Konsep Deskripsi 29/90
Contoh: Karakterisasi Analitis 3. Analisis Relevansi – Mengitung informasi yang diharapkan untuk mengklasifikasikan suatu tuple sebarang – Mengitung entropy untuk setiap atribut: misal, major 84 Graduate Science major Engineering Business Edward Purba 42 Undergraduate 36 Graduate 46 Undergraduate 0 Graduate 42 Undergraduate Konsep Deskripsi 30/90
Contoh: Karakterisasi Analitis 3. Analisis Relevansi Jumlah grad students dalam “Science” • Jumlah undergrad students dalam “Science” Menghitung info yang diharapkan yang diperlukan untuk mengklasifikasikan suatu sample yang diberikan jika S dipartisi berdasarkan atribut major Edward Purba Konsep Deskripsi 31/90
Contoh: Karakterisasi Analitis • Menghitung perolehan informasi untuk masing atribut – Information gain untuk seluruh atribut Edward Purba Konsep Deskripsi 32/90
Contoh: Karakterisasi Analitis 4. Initial working relation (W 0) derivation – – – R = 0. 1 Buang atribut yang tak relevan / relevan tapi lemah dari kandidat relasi => buang gender, birth_country remove contrasting class candidate relation 5. Melakukan induksi berorientasi atribut atas W 0 menggunakan Ti Edward Purba Konsep Deskripsi 33/90
Komparasi Kelas Mining Komparasi: membandingkan dua atau lebih kelas • Metoda: • – – – • Partisi himpunan data relevan kedalam kelas target dan kelas kontrasnya Generalisasi kedua kelas ke level tinggi konsep yang sama Membandingkan tuple dengan deskripsi level tinggi yang sama Memberikan setiap tuple deskripsinya dan 2 ukuran: • support – distribusi didalam kelas tunggal • komparasi – distribusi antara kelas Menonjolkan tuple dengan fitur deskriminan yang kuat Analisis Relevansi: – Tentukan atribut (fitur) yang terbaik membedakan kelas-kelas berbeda Edward Purba Konsep Deskripsi 34/90
Contoh: Komparasi Analitis • Diberikan – Atribut-atribut name, gender, major, birth_place, birth_date, residence, phone# dan gpa – Gen(ai) = konsep hierarki atas atribut-atribut ai – Ui = ambang analitis atribut untuk atribut ai – Ti = ambang generalisasi atribut untuk atribut ai – R = ambang relevan atribut Edward Purba Konsep Deskripsi 35/90
Contoh: Komparasi Analitis 1. Koleksi data – Kelas target dan kontrasnya 2. Analisis relevan atribut – Membuang atribut name, gender, major, phone# 3. Sinkronisasi generalisasi – Dikontrol oleh ambang dimensi yang diberikan user – Relasi/cuboid kelas target utama dan kelas kontrasnya Edward Purba Konsep Deskripsi 36/90
Contoh: Komparasi Analitis Relasi utama yang digeneralisasi untuk kelas target: Graduate students Relasi utama yang digeneralisasi untuk kelas target: Undergraduate students Edward Purba Konsep Deskripsi 37/90
Contoh: Komparasi Analitis 4. Operasi OLAP drill down, roll up dan operasi lainnya atas kelas target dan kontras untuk menyesuaikan level abstraksi dari hasil deskripsi 5. Presentasi – Sebagai generalisasi relasi, crosstabs, bar charts, pie charts, atau kaidah-kaidah – Ukuran kontras untuk merefleksikan komparasi antara kelas target dan kelas kontrasnya • Contoh count% Edward Purba Konsep Deskripsi 38/90
Kaidah-Kaidah Diskriminan Kuantitatif • Cj = kelas target • qa = suatu tuple yang digeneralisasi mencakup beberapa tuple dari kelas – Tetapi juga mencakup beberapa tuple dari kelas kontras • d-weight – range: [0, 1] Edward Purba Konsep Deskripsi 39/90
Contoh: Kaidah Diskriminan Kuantitatif Jumlah distribusi antara graduate student dan undergraduate students untuk suatu tuple yang digeneralisasi Edward Purba Konsep Deskripsi 40/90
Contoh: Kaidah Deskripsi Kuantitatif Crosstab menunjukkan nilai-nilai t-weight, d-weight terkait dan jumlah total (dalam ribu) dari TV dan komputer yang terjual pada All. Electronics tahun 1998 Edward Purba Konsep Deskripsi 41/90
Presentasi – Relasi Yang di Generalisasi Edward Purba Konsep Deskripsi 42/90
Presentasi – Crosstab Edward Purba Konsep Deskripsi 43/90
Karakteristik Penyembaran Data Mining • Motivasi – • Karakteristik penyebaran data – • Untuk memahami data lebih baik: tendensi sentral, variasi, dan sebaran median, max, min, quantiles, outliers, variansi, dsb. Dimensi numerik berhubungan dengan interval terurut Sebaran data: dianalisis dengan banyak granulariti dari presisi – Analisis Boxplot atau quantile pada interval terurut – • Analisis sebaran pada ukuran terhitung Peliatan ukuran kedalam dimensi numerik – Analisis Boxplot atau quantile pada kubus hasi transformasi – Edward Purba Konsep Deskripsi 44/90
Pengukuran Tendensi Sentral • Mean – • Aritmatika mean berpemberat Median: suatu ukuran menyeluruh Nilai tengah jika jumlah nilai ganjil, atau rata-rata 2 nilai tengah jika jumlah nilai genap – Ditaksir dengan interpolasi – • Mode Nilai yang muncul paling sering di dalam data – Unimodal, bimodal, trimodal – Rumus empiris: – Edward Purba Konsep Deskripsi 45/90
Pengukuran Penyebaran Data • Quartiles, outliers dan boxplots – – – • Quartiles: Q 1 (25 th percentile), Q 3 (75 th percentile) Inter-quartile range: IQR = Q 3 – Q 1 Five number summary: min, Q 1, M, Q 3, max Boxplot: Ujung-ujung dari kotak adalah quartiles, median ditandai, rambut jagung, dan mem-plot outlier secara individu Outlier: biasanya, suatu nilai besar/kurang dari 1. 5 x IQR Variansi dan deviasi standard – Variance s 2: (komputasi aljabar dan skalabel) Deviasi standard s adalah akar dari variansi s 2 Edward Purba Konsep Deskripsi – 46/90
Analisis Box. Plot • 5 jumlah rangkuman dari suatu distribusi: Minimum, Q 1, M, Q 3, Maximum • Boxplot – Data disajikan dengan suatu kotak – Ujung-ujung kotak adalah pada quartile pertama dan ketiga, artinya, tinggi kotak adalah IRQ – Median ditandai dengan suatu garis didalam kotak – Rambut jagung: dua garis diluar kotak diperbesar ke Minimum dan Maksimum Edward Purba Konsep Deskripsi 47/90
Visualisasi Data Dispersi: Analisis Boxplot Edward Purba Konsep Deskripsi 48/90
Ukuran Statistik Deskriptif Mining Dalam Database Besar • Variansi • Deviasi standard: akar kuadrat dari variansi – Mengukur sebaran disekitar mean – Nilainya nol jika dan hanya jika seluruh nilai adalah sama – Deviasi dan variansi adalah aljabar Edward Purba Konsep Deskripsi 49/90
Analisis Histogram • Tampilan grafik dari deskripsi kelas statistik dasar – Histogram frekuensi • Suatu metoda grafik univariat • Memuat suatu himpunan persegi empat yang menggambarkan jumlah atau frekuensi kehadiran kelas dalam data Edward Purba Konsep Deskripsi 50/90
Plot Quantile • Menampilkan seluruh data (memungkinkan user untuk mengakses perilaku keseluruhan dan kejadian yang tak biasa) • Mem-plot informasi quantile – Untuk suatu data xi, data diurutkan dalam urutan menaik, fi menunjukkan bahwa hampir 100 fi% dari data dibawah atau sama dengan nilai xi Edward Purba Konsep Deskripsi 51/90
Plot Quantile-Quantile • Grafik dari quantiles dari satu distribusi univariat terhadap quantile line yang terkait • Memungkinkan user untuk melihat apakah ada suatu pergeseran dari satu distribusi ke yang lain Edward Purba Konsep Deskripsi 52/90
Plot Scatter (Hamburan) • Menyediakan suatu tampilan awal pada data bivariat untuk melihat cluster dari titik-titik, outliers, dsb • Setaiap pasangan nilai diperlakukan sebagai suatu pasangan dari koordinat dan diplot sebagai titik dalam bidang Edward Purba Konsep Deskripsi 53/90
Kurva Loess • Menambahkan suatu kurva yang halus pada suatu plot hamburan dalam upaya menyediakan persepsi lebih baik dari pola kebergantungan • Kurva Loess di cocokkan dengan mengatur 2 parameter: suatu parameter penghalusan, dan derejat polinomial yang dicocokkan dengan regresi Edward Purba Konsep Deskripsi 54/90
Tampilan Grafik Dari Deskripsi Statistik Dasar • Histogram • Boxplot Plot quantile: setiap nilai xi dipasangkan dengan fi yang menunjukkan bahwa hampir 100 fi % dari data adalah xi • Plot quantile-quantile (q-q): grafik dari quantiles dari sauatu distribusi univariant terhadap quatile lain yang terkait • Edward Purba Konsep Deskripsi 55/90
Tampilan Grafik Dari Deskripsi Statistik Dasar • Plot scatter: setiap pasangan nilai adalah suatu pasangan koordinat dan diplot sebagai titik didalam bidang • Kurva Loess (regresi lokal): menambahkan suatu kurva halus pada suatu plot hamburan untuk menyediakan persepsi yang lebih baik dari pola kebergantungan Edward Purba Konsep Deskripsi 56/90
- Slides: 56