Data Mining Klasifikasi dan Prediksi Naive Bayesian Bayesian

Data Mining: Klasifikasi dan Prediksi Naive Bayesian & Bayesian Network. 19 February 2021 1

Chapter 6. Classification and Prediction n Apa itu klasifikasi ? Apa itu prediksi n Beberapa hal terkait dengan klassifikasi and prediksi n Klasifikasi Bayesian 19 February 2021 Data Mining: Concepts and Techniques 2

Supervised vs. Unsupervised Learning n Supervised learning (classification) n n Supervision (terawasi): Data training (observations, measurements, etc. ) ada kelas dalam data training Data baru diklasifikasikan didasarkan pada data training n Unsupervised learning (clustering) n Label kelas data training tidak diketahui n Measurements, pengamatan dengan tujuan pembentukan adanya kelas atau kelompok dalam data 19 February 2021 Data Mining: Concepts and Techniques 3

Classification vs. Prediction n Classification n Memprediksi label clas (diskrit atau kontinu) n mengklasifikasi data (membangun model) didasarkan pada data training dan nilai label class dalam mengklasifikasikan atribut dan menggunakannya saat mengklasifikasikan data baru Prediksi n Memodelkas fungsi bernilai kontinu; yaitu memprediksi nilai yang tidak diketahui Bentuk aplikasinya n Persetujuan pinjaman atau kredit: n Diagnosa medis: apakah hepatitis A atau B n Deteksi kegagalan: 19 February 2021 Data Mining: Concepts and Techniques 4

Process (1): Model Construction Classification Algorithms Training Data Classifier (Model) IF rank = ‘professor’ OR years > 6 THEN tenured = ‘yes’ 19 February 2021 Data Mining: Concepts and Techniques 5

Process (2): Using the Model in Prediction Classifier Testing Data Unseen Data (Jeff, Professor, 4) Tenured? 19 February 2021 Data Mining: Concepts and Techniques 6

Issues: Data Preparation n Data cleaning n n Analisa relevansi (seleksi fitur) n n Memproses awal data untuk mengurangi noise dan mengatasi nilai-nilai yang hilang Menghilangkan atribut-atribut yang tidak relevan atau atribut yang redundan Transformasi data n Membangun normalisasi data 19 February 2021 Data Mining: Concepts and Techniques 7

Issues: Evaluating Classification Methods n n n Akurasi n Keakuratan klasifikasi : memperkirakan label class n Keakurasisan prediksi: nilai yang ditebak dari atribut yang diprediksi Kecepatan n Waktu untuk membangun model (training time) n Waktu dalam menggunakan model (classification/prediction time) Kehandalan: mengatasi noise dan missing values 19 February 2021 Data Mining: Concepts and Techniques 8

Chapter 6. Classification and Prediction n What is classification? What is prediction? n Issues regarding classification and prediction n Classification by decision tree induction n Bayesian classification 19 February 2021 Data Mining: Concepts and Techniques 9

Bayesian Classification: Why? n n n A statistical classifier: membangun probabilistic prediction, yaitu memprediksi probabilitas keanggotaan kelas Didasarkan pada Bayes’ Theorem. Performance: A simple Bayesian classifier, naïve Bayesian classifier, has comparable performance with decision tree and selected neural network classifiers Incremental: Each training example can incrementally increase/decrease the probability that a hypothesis is correct — prior knowledge can be combined with observed data Standard: Even when Bayesian methods are computationally intractable, they can provide a standard of optimal decision making against which other methods can be measured 19 February 2021 Data Mining: Concepts and Techniques 10

Bayesian Theorem: Basics X adalah data sample (“evidence”): label kelas tidak diketahui n H adalah dugaan (hypothesis ) bahwa X adalah anggota C n Klasifikasi ditentukan P(H|X), (posteriori probability), probabilitas bahwa dugaan terhadap data sample X n P(H) (prior probability), initial probability n Misal X akan membeli computer, tidak memperhatikan age, income, … n P(X): probabilitas dari sample data yang diamatii n P(X|H) (likelyhood), probabilitas dari sample X, dengan the memperhatikan dugaan n Misal , X akan membeli computer, probabilitas bahwa X. Adalah 31. . 40, penghasilan sedang 19 February 2021 Data Mining: Concepts and Techniques n 11

Bayesian Theorem n n Dari training data X, posteriori probabilitas dari hypothesis H, P(H|X), teorema Bayes Ini dapat ditulis dengan posterior = likelihood x prior/evidence n Prediksi X anggota C 2 jika dan hanya jika probabilitas P(C 2|X) paling tinggi diantara semua P(Ck|X) dari semua kelas k n Prakteknya sulit : perlu pengetahuan awal dari banyak probabilitas , biaya komputasi yang signifikan 19 February 2021 Data Mining: Concepts and Techniques 12

Naïve Bayesian Classifier: Training Dataset 19 February 2021 Data Mining: Concepts and Techniques 13

Klasifikasi Naïve Bayesian n Perhatikan D adalah record training dan ditetapkan label kelasnya dan masing-masing record dinyatakan n atribut ( n field ) X = (x 1, x 2, …, xn) Misalkan terdapat m kelas C 1, C 2, …, Cm. Klassifikasi adalah diperoleh maximum posteriori yaitu maximum P(Ci|X) Ini dapat diperoleh dari teorema Bayes n Karena P(X) adalah konstan untuk semua kelas, hanya n n n Perlu dimaksimumkan 19 February 2021 Data Mining: Concepts and Techniques 14

Derivation of Naïve Bayes Classifier n n Diasumsikan: atribut dalam kondisi saling bebas (independent) yaitu tidak ada kebergantungan antara atribut-atribut : Ini sangat mengurangi biaya. Hanya menghitung distribusi dari kelas Ak adalah categorical, P(xk|Ci) adalah jumlah record dalam kelas Ci yang memiliki nilai xk untuk Ak dibagi dengan |Ci, D| jumlah record dalam Ci dalam D) Jika Ak bernilai kontinu , P(xk|Ci) biasanya dihitung berdasarkan pada distribusi Gausian dengan mean μ and standar deviasi σ Dan P(xk|Ci) adalah 19 February 2021 Data Mining: Concepts and Techniques 15

Naïve Bayesian Classifier: Training Dataset Class: C 1: buys_computer = ‘yes’ C 2: buys_computer = ‘no’ Data sample X = (age <=30, Income = medium, Student = yes Credit_rating = Fair) D= 14 19 February 2021 Data Mining: Concepts and Techniques 16

Naïve Bayesian Classifier: An Example n n P(Ci): P(buys_computer = “yes”) = 9/14 = 0. 643 P(buys_computer = “no”) = 5/14= 0. 357 Compute P(X|Ci) for each class P(age = “<=30” | buys_computer = “yes”) = 2/9 = 0. 222 P(age = “<= 30” | buys_computer = “no”) = 3/5 = 0. 6 P(income = “medium” | buys_computer = “yes”) = 4/9 = 0. 444 P(income = “medium” | buys_computer = “no”) = 2/5 = 0. 4 P(student = “yes” | buys_computer = “yes) = 6/9 = 0. 667 P(student = “yes” | buys_computer = “no”) = 1/5 = 0. 2 P(credit_rating = “fair” | buys_computer = “yes”) = 6/9 = 0. 667 P(credit_rating = “fair” | buys_computer = “no”) = 2/5 = 0. 4 X = (age <= 30 , income = medium, student = yes, credit_rating = fair) P(X|Ci) : P(X|buys_computer = “yes”) = 0. 222 x 0. 444 x 0. 667 = 0. 044 P(X|buys_computer = “no”) = 0. 6 x 0. 4 x 0. 2 x 0. 4 = 0. 019 P(X|Ci)*P(Ci) : P(X|buys_computer = “yes”) * P(buys_computer = “yes”) =0, 044*0. 643 = 0. 028 P(X|buys_computer = “no”) * P(buys_computer = “no”) = 0. 007 Sehingga , X belongs to class (“buys_computer = yes”) n 19 February 2021 Data Mining: Concepts and Techniques 17

Menghindari masalah Probabilitas 0 n n n Prediksi Naïve Bayesian membutuhkan masing-masing probabilitas tidak nol , Dengan kata lain. Probabilitas yang dihitung tidak menjadi nol Misalkan data dengan 1000 record , income=low (0), income= medium (990), and income = high (10), Menggunakan Laplacian correction (atau Laplacian estimator) n Tambahkan 1 untuk masing-masing case Prob(income = low) = 1/1003 Prob(income = medium) = 991/1003 Prob(income = high) = 11/1003 n The “corrected” prob. estimates are close to their “uncorrected” counterparts 19 February 2021 Data Mining: Concepts and Techniques 18

Penjelasan Naïve Bayesian Classifier: n n Keuntungan n Mudah diimplementasikan n Hasil baik dalam banyak kasus Kerugian n Asumsi : kondisi kelas saling bebas , sehingga kurang akurat n Pada prakteknya , kebergantungan anda diantara variabel Misal hospitals: patients: Profile: age, family history, etc. Gejala (symptom: demam (fever), batuk (cough) etc. , Disease: lung cancer, diabetes, etc. n Kebergantunagn diantara variabel ini tidak dapat dimodelkan dengan menggunakan Naïve Bayesian Classifier n How to deal with these dependencies? Data Mining: Concepts and Techniques n February 2021 19 19

Bayesian Belief Networks n Bayesian belief network memungkinkan sebagain variabel dalam kondisi saling bebas n Model grafik menyatakan keterhubungan sebab akibat n n Menyatakan kebergantungan (dependency) diantara variabel Gives a specification of joint probability distribution q Node (simpul ): variabel-variabel bebas q Links: kebergantungan Y X adalan parent dari P Z 19 February 2021 q X dan Y adalah parents dari Z, dan Y q tidak ada kebergantungan diantara Z dan P P q Tidak memiliki loop atau siklus Data Mining: Concepts and Techniques 20
- Slides: 20