Arsitektur dan Model Data Mining 10312021 1 Arsitektur

  • Slides: 22
Download presentation
Arsitektur dan Model Data Mining 10/31/2021 1

Arsitektur dan Model Data Mining 10/31/2021 1

Arsitektur Data Mining Keterangan : 1. Data cleaning (Pembersihan Data) : untuk membuang data

Arsitektur Data Mining Keterangan : 1. Data cleaning (Pembersihan Data) : untuk membuang data yang tidak konsisten dan noise) 2. Data integration : penggabungan data dari beberapa sumber 3. Data Mining Engine : Mentranformasikan data menjadi bentuk yang sesuai untuk di mining 4. Pattern evaluation : untuk menemukan yang bernilai melalui knowledge base 5. Graphical User Interface (GUI) : untuk mempermudah user berinteraksi dengan sistem data mining Semua tahap bersifat interaktif di mana user terlibat langsung atau dengan perantaraan knowledge base 10/31/2021 2

Model Data Mining • Prediction Methods –Menggunakan beberapa variabel untuk memprediksi sesuatu atau suatu

Model Data Mining • Prediction Methods –Menggunakan beberapa variabel untuk memprediksi sesuatu atau suatu nilai yang akan datang. • Description Methods – Mendapatkan pola penafsiran (humaninterpretable patterns) untuk menjelaskan data. 10/31/2021 3

Data Mining Prediktif Deskriptif ØKlasifikasi ØKlastering ØDecision tree ØSummarization ØAnalisis Time series ØAturan Asosiasi

Data Mining Prediktif Deskriptif ØKlasifikasi ØKlastering ØDecision tree ØSummarization ØAnalisis Time series ØAturan Asosiasi (Assosiation Rule) ØRegresi ØPrediksi ØSequence Discovery ØJaringan syaraf tiruan 10/31/2021 4

Prediktif 10/31/2021 5

Prediktif 10/31/2021 5

Klasifikasi q Proses untuk menemukan model atau fungsi yang menjelaskan atau membedakan konsep atau

Klasifikasi q Proses untuk menemukan model atau fungsi yang menjelaskan atau membedakan konsep atau kelas data dengan tujuan untuk dapat memprediksi kelas dari suatu objek yang labelnya tidak diketahui q Contoh : Mendeteksi Penipuan q Tujuan : Memprediksi kasus kecurangan transaksi kartu kredit. – Pendekatan : • Menggunakan transaksi kartu kredit dan informasi dilihat dari atribut account holder – Kapan cutomer melakukan pembelian, Dengan cara apa customer membayar, sebarapa sering customer membayar secara tepat waktu, dll • Beri nama/tanda transaksi yang telah dilaksanakan sebagai transaksi yang curang atau yang baik. Ini sebagai atribut klass ( the class attribute. ) • Pelajari model untuk class transaksi • Gunakan model ini untuk mendetekdi kecurangan dengan meneliti transaksi kartu kredit pada account. 10/31/2021 6

Decision tree (Pohon keputusan) q Salah satu model klasifikasi yang mudah di interpretasikan q

Decision tree (Pohon keputusan) q Salah satu model klasifikasi yang mudah di interpretasikan q Contoh : identifikasi pembeli komputer ( dari decision tree di bawah ini ternyata salah satu kelompok yang potensial adalah orang yang berusia < 30 dan pelajar age <=30 31 -40 >40 yes Credit rating studen no no 10/31/2021 yes excelent no fair yes 7

Predictive – Time Series Analysis • Time series data : sekuens data yang nilainya

Predictive – Time Series Analysis • Time series data : sekuens data yang nilainya berubah setiap interval waktu tertentu. • Time series data dapat dipresentasikan dalam bentuk grafik atau kurva yang menunjukkan fungsi sebuah variabel data terhadap satuan waktu. • Metode : Neural Network (model Backpropagation, multi layer perceptron) • Aplikasi : memprediksikan indeks harga saham 10/31/2021 8

Contoh : Prediksi dalam pasar saham • garis yang tegas adalah time-series data sebenarnya

Contoh : Prediksi dalam pasar saham • garis yang tegas adalah time-series data sebenarnya dari nilai saham Microsoft, dan garis putus-putus adalah time series model yang memprediksi nilai saham berdasarkan nilai saham pada masa lalu. 10/31/2021 9

Regression q Digunakan untuk memetakan data dengan prediksi atribut bernilai real q Contoh: –

Regression q Digunakan untuk memetakan data dengan prediksi atribut bernilai real q Contoh: – Memprediksi jumlah penjualan produk baru pada advertising expenditure. – Memprediksi kecepatan memutar (wind velocities) pada fungsi temperatur, tekanan udara , dll 10/31/2021 10

Neural Network (Jaringan syaraf tiruan) q Jaringan syaraf buatan di mulai dengan layer input,

Neural Network (Jaringan syaraf tiruan) q Jaringan syaraf buatan di mulai dengan layer input, dimana tiap simpul berkorespondensi dengan variabel prediktor. q Simpul- simpul input ini terhubung kebeberapa simpul dalam hidden layer. q Dan simpul dalam hidden layer dapat terhubung ke simpul lain dalam hidden layer atau ke output layer. q Output layer terdiri dari satu atau beberapa variable respon 1 3 4 2 input 6 output 5 Hidden layer 10/31/2021 11

Deskriptif 10/31/2021 12

Deskriptif 10/31/2021 12

Descriptive - Clustering • Mengidentifikasi kelompok alami dari data berdasarkan kemiripan atribut • Disebut

Descriptive - Clustering • Mengidentifikasi kelompok alami dari data berdasarkan kemiripan atribut • Disebut juga Segmentation • Unsupervised Method : tidak satupun atribut yang digunakan untuk memandu proses pembelajaran (tidak ada label) • Algoritma : k-Means, k-Medoid, Fuzzy CMeans, Subtractive, Mountain, Hierarki 10/31/2021 13

Contoh : Data Pelanggan • Terdiri dari dua atribut, yaitu Age (Umur) dan Income

Contoh : Data Pelanggan • Terdiri dari dua atribut, yaitu Age (Umur) dan Income (Pendapatan). • Algoritma Clustering mengelompokkan kelompok data kedalam tiga segment berdasarkan kedua atribut ini. – Cluster 1 : populasi berusia muda dengan pendapatan rendah – Cluster 2 : populasi berusia menengah dengan pendapatan yang lebih tinggi – Cluster 3 : populasi berusia tua dengan pendapatan yang relatif rendah. 10/31/2021 14

Descriptive – Association Rule • Disebut juga Market Basket Analysis. • Menganalisa tabel transaksi

Descriptive – Association Rule • Disebut juga Market Basket Analysis. • Menganalisa tabel transaksi penjualan dan mengidentifikasi produk-produk yang seringkali dibeli bersamaan oleh customer • Untuk mengidentifikasi kelompok kesamaan dari produk dan kebiasaan apa yang terjadi guna kepentingan cross-selling – Untuk mencari produk apa yang biasanya terjual bersamaan – Untuk mencari tahu apa aturan yang menyebabkan kesamaan tersebut. 10/31/2021 15

Contoh • Ketika orang membeli susu, dia biasanya membeli keju • Ketika orang membeli

Contoh • Ketika orang membeli susu, dia biasanya membeli keju • Ketika orang membeli pepsi atau coke, biasanya dia membeli juice 10/31/2021 16

Descriptive – Sequence Analysis • Digunakan untuk mencari pola pada serangkaian kejadian yang disebut

Descriptive – Sequence Analysis • Digunakan untuk mencari pola pada serangkaian kejadian yang disebut dengan Sequence. • Contoh rangkaian klik pada sebuah website berisi rentetan URL. • Implementasi : memodelkan pembelian oleh pelanggan sebagai sebuah sequence (rangkaian) data : – Pertama-tama seorang pelanggan membeli komputer – kemudian membeli speaker – dan akhirnya membeli sebuah webcam. 10/31/2021 17

Contoh : Rangkaian Klik pada Sebuah Website Berita • Setiap node adalah sebuah kategori

Contoh : Rangkaian Klik pada Sebuah Website Berita • Setiap node adalah sebuah kategori URL. • Garis melambangkan transisi antar kategori URL tersebut. • Setiap transisi dikelompokan dengan sebuah bobot yang menggambarkan kemungkinan transisi antara satu URL dan URL yang lain. 10/31/2021 18

Penggunaan Data Mining 10/31/2021 19

Penggunaan Data Mining 10/31/2021 19

q Telekomunikasi Data mining digunakan untuk melihat jutaan transaksi yang masuk dengan tujuan menambah

q Telekomunikasi Data mining digunakan untuk melihat jutaan transaksi yang masuk dengan tujuan menambah layanan otomatis q Keuangan Data mining digunakan untuk mendeteksi transaksi keuangan yang mencurigakan dimana akan susah dilakukan jika menggunakan analisis standar. q Asuransi Australian Health Insurance Commision menggunakan data mining untuk mengidentifikasi layanan kesehatan dan berhasil menghemat satu juta dollar pertahun 10/31/2021 20

q Olah raga IBM Advanced Scout menggunakan data mining untuk menganalisis statistik permainan NBA

q Olah raga IBM Advanced Scout menggunakan data mining untuk menganalisis statistik permainan NBA dalam rangka competitive advantage untuk tim New York Knicks q Astronomi Jet Propulsion Laboratory (JPL) di Pasadena dan Pulomar Observatory menemukan 22 quasar dengan bantuan data mining. q Internet Web Surf-Aid IBM Surf-Aid menggunakan algoritma data mining untuk mendata akses halaman Web khususnya berkaitan dengan pemasaran melalui web. 10/31/2021 21

Selesai 10/31/2021 22

Selesai 10/31/2021 22