Teknik Informatika UNIKOM NAVE BAYES SUPERVISED INTRO Data

Teknik Informatika - UNIKOM NAÏVE BAYES SUPERVISED

INTRO Data adalah kumpulan hasil pengukuran atau pengamatan yang memperhatikan suatu gejala tertentu dari variabel yang diamati Untuk mengumpulkan data dapat dilakukan percobaan, dimana percobaan ini adalah tiap proses yang menghasilkan data mentah.

Uncertainty • Ruang sampel adalah himpunan semua hasil yang mungkin dari suatu percobaan statistika dan dinyatakan dalam lambang T. • Unsur/anggota ruang sampel/titik sampel adalah tiap hasil dalam ruang sampel. • Kejadian adalah himpunan bagian ruang sampel. Peluang dari suatu kejadian A biasa dilambangkan dengan P(A). Untuk menghitung P(A) dapat menggunakan berikut n(A) = banyaknya titik sampel dalam kejadian A n(T) = banyaknya titik sampel dalam ruang sampel

Contoh kasus (data diskrit)

Contoh kasus (data kontinu)

Himpunan T AA B C

Bayes B

Bayes

Contoh bayes Kotak 1 Kotak 2 Jumlah Bola Merah 3 1 4 Bola Putih 0 2 2 Jumlah 3 3 6 Jika anda diminta mengambil sebuah bola, dan ternyata anda diketahui bola tersebut berwarna merah. Berapa peluang bola tersebut berasal dari kotak 1?

Jawaban bayes Kotak 1 Kotak 2 Jumlah Bola Merah 3 1 4 Bola Putih 0 2 2 Jumlah 3 3 6

Naïve Bayes Classifer

Contoh kasus penyelesaian Naïve Bayes Minuman Lama Pembuatan Jumlah Kafein Harga Layak direkomendasi kan M 1 Lama Tinggi Murah Ya M 2 Lama Tinggi Sangat Mahal Tidak M 3 Lama Sedang Mahal Ya M 4 Lama Rendah Mahal Tidak M 5 Cukup Tinggi Murah Ya M 6 Cukup Sedang Murah Tidak M 7 Cukup Sedang Sangat Mahal Ya M 8 Cukup Tinggi Murah Ya M 9 Sebentar Rendah Mahal Ya M 10 Sebentar Tinggi Murah Ya M 11 Sebentar Tinggi Sangat Mahal Tidak M 12 Sebentar Sedang Mahal Ya M 13 Sebentar Sedang Murah Ya Jika ada penjual minuman dimana lama pembuatan = lama, jumlah kafein = sedang, harga = murah, maka apakah layak atau tidak?

Tabel kontingensi Lama Pembuatan Jumlah Kafein ∑ Harga ∑ Layak ∑ Ya 9 2 3 4 9 4 4 1 9 1 3 5 9 Tidak 5 2 1 2 5 3 1 1 5 Lama Cukup Sebentar Tinggi Sedang Rendah Sangat Mahal Murah Mahal ∑

Langkah 2 Data Atribut Lama Layak Nilai Lama Pembuatan Jumlah Sedang Kafein Harga murah YA Tidak

Langkah 3:

Unsupervised learning Belajar dari pola yang tidak berkaitan dengan nilai output ◦ Tidak butuh data training ◦ Clustering ◦ Kmeans KK - COMPUTER SCIENCE

KK - COMPUTER SCIENCE

Clustering Tidak perlu melatih metoda tersebut atau dengan kata lain, tidak ada fase learning. Intra-cluster distances are minimized Mengelompokkan obyek-obyek data hanya berdasarkan pada informasi yang terdapat pada data, yang menjelaskan obyek dan relasinya KK - COMPUTER SCIENCE Inter-cluster distances are maximized

K-MEANS (CONTOH) UNSUPERVISED

K-means Belajar dengan mengelompokkan data menjadi sejumlah k cluster

Algoritma 1. Menentukan k (jumlah cluster) 2. Menentukan nilai centroid (centroid awal random atau ditentukan manual) 3. Menghitung kuadrat jarak Euclidean antara data uji dan centroid 4. Mengelompokkan data (berdasarkan nilai minimum jarak setiap data terhadap cluster) 5. Menghitung mean dari setiap cluster 6. Kembali ke tahap 2 (jika belum ada pembanding atau pola belum sama)

Contoh 1 Terdapat beberapa data yang berasal dari survei tentang klasifikasi kualitas kertas tissue apakah bagus atau tidak. Data masukan yang digunakan memiliki dua atribut yaitu daya tahan terhadap asam dan kekuatan. Maka, bagaimanakah pengelompokkan data tersebut?

Penentuan centroid 1. Menentukan jumlah cluster k = 2 2. Menentukan nilai awal centroid Cluster 1 : (8, 4) data 1 Cluster 2 : (4, 5) data 2 No 1 2 3 4 5 6 X 1 Daya Tahan Asam (detik) 8 4 4 7 5 6 X 2 Kekuatan (kg/m 2) 4 5 6 7 6 5

Hitung jarak 3. Menghitung kuadrat jarak Euclidean antara data uji dan pusat cluster 1 (8, 4) No 1 2 3 4 5 6 X 1 Daya Tahan Asam (detik) 8 4 4 7 5 6 X 2 Kekuatan (kg/m 2) 4 5 6 7 6 5

Hitung jarak 3. Menghitung kuadrat jarak Euclidean antara data uji dan pusat cluster 2 (4, 5) No 1 2 3 4 5 6 X 1 Daya Tahan Asam (detik) 8 4 4 7 5 6 X 2 Kekuatan (kg/m 2) 4 5 6 7 6 5

Kuadrat jarak 3. Menghitung kuadrat jarak Euclidean antara data uji dan pusat cluster No 1 C 1 0 C 2 2 0 3 1 4 5 6 2 No 1 2 3 4 5 6 C 1 0 17 18 10 13 5 C 2 17 0 1 13 1 2

Penentuan anggota cluster 4. Mengelompokkan data (berdasarkan nilai minimum jarak setiap data terhadap cluster) No C 1 C 2 1 2 3 4 5 6 0 17 18 10 13 5 17 0 1 13 1 2 Min Cluster (C 1, C 2) 0 C 1 0 C 2 10 C 1 1 C 2 2 C 2 No 1 2 3 4 5 6 C 1 1 0 0 C 2 0 1 1

Hitung Mean 5. Menghitung Mean dari setiap cluster C 1 1 4 Mean X 1 Daya Tahan Asam (detik) 8 7 7. 5 X 2 Kekuatan (kg/m 2) 4 7 5. 5 C 2 2 3 5 6 Mean X 1 Daya Tahan Asam (detik) 4 4 5 6 4. 75 X 2 Kekuatan (kg/m 2) 5 6 6 5 5. 5

Update centroid 6. Kembali ke Tahap 2 (Penentuan Centroid) C 1 1 4 Mean X 1 Daya Tahan Asam (detik) 8 7 7. 5 X 2 Kekuatan (kg/m 2) 4 7 5. 5 Centroid C 1 : (7. 5 , 5. 5) dari mean cluster 1 C 2 2 3 5 6 Mean X 1 Daya Tahan Asam (detik) 4 4 5 6 4. 75 X 2 Kekuatan (kg/m 2) 5 6 6 5 5. 5 Centroid C 2 : (4. 75 , 5. 5) dari mean cluster 2

Ulangi proses Lanjutkan proses : 3. Menghitung kuadrat jarak Euclidean antara data uji dan centroid baru 4. Mengelompokkan data (berdasarkan nilai minimum jarak setiap data terhadap cluster) 5. Menghitung mean dari setiap cluster 6. Kembali ke tahap 2 (jika belum ada pembanding atau pola belum sama)

TUGAS KELOMPOK Buat makalah tentang Supervised, Unsupervised, Semi-supervised, dan Reinforcement Learning dengan struktur berikut: - Pengertian - Sejarah - Penjelasan (contoh 1 algoritma) (logika algoritma, , contoh perhitungan)