Arsitektur dan Model Data Mining 10312021 1 Arsitektur
- Slides: 22
Arsitektur dan Model Data Mining 10/31/2021 1
Arsitektur Data Mining Keterangan : 1. Data cleaning (Pembersihan Data) : untuk membuang data yang tidak konsisten dan noise) 2. Data integration : penggabungan data dari beberapa sumber 3. Data Mining Engine : Mentranformasikan data menjadi bentuk yang sesuai untuk di mining 4. Pattern evaluation : untuk menemukan yang bernilai melalui knowledge base 5. Graphical User Interface (GUI) : untuk mempermudah user berinteraksi dengan sistem data mining Semua tahap bersifat interaktif di mana user terlibat langsung atau dengan perantaraan knowledge base 10/31/2021 2
Model Data Mining • Prediction Methods –Menggunakan beberapa variabel untuk memprediksi sesuatu atau suatu nilai yang akan datang. • Description Methods – Mendapatkan pola penafsiran (humaninterpretable patterns) untuk menjelaskan data. 10/31/2021 3
Data Mining Prediktif Deskriptif ØKlasifikasi ØKlastering ØDecision tree ØSummarization ØAnalisis Time series ØAturan Asosiasi (Assosiation Rule) ØRegresi ØPrediksi ØSequence Discovery ØJaringan syaraf tiruan 10/31/2021 4
Prediktif 10/31/2021 5
Klasifikasi q Proses untuk menemukan model atau fungsi yang menjelaskan atau membedakan konsep atau kelas data dengan tujuan untuk dapat memprediksi kelas dari suatu objek yang labelnya tidak diketahui q Contoh : Mendeteksi Penipuan q Tujuan : Memprediksi kasus kecurangan transaksi kartu kredit. – Pendekatan : • Menggunakan transaksi kartu kredit dan informasi dilihat dari atribut account holder – Kapan cutomer melakukan pembelian, Dengan cara apa customer membayar, sebarapa sering customer membayar secara tepat waktu, dll • Beri nama/tanda transaksi yang telah dilaksanakan sebagai transaksi yang curang atau yang baik. Ini sebagai atribut klass ( the class attribute. ) • Pelajari model untuk class transaksi • Gunakan model ini untuk mendetekdi kecurangan dengan meneliti transaksi kartu kredit pada account. 10/31/2021 6
Decision tree (Pohon keputusan) q Salah satu model klasifikasi yang mudah di interpretasikan q Contoh : identifikasi pembeli komputer ( dari decision tree di bawah ini ternyata salah satu kelompok yang potensial adalah orang yang berusia < 30 dan pelajar age <=30 31 -40 >40 yes Credit rating studen no no 10/31/2021 yes excelent no fair yes 7
Predictive – Time Series Analysis • Time series data : sekuens data yang nilainya berubah setiap interval waktu tertentu. • Time series data dapat dipresentasikan dalam bentuk grafik atau kurva yang menunjukkan fungsi sebuah variabel data terhadap satuan waktu. • Metode : Neural Network (model Backpropagation, multi layer perceptron) • Aplikasi : memprediksikan indeks harga saham 10/31/2021 8
Contoh : Prediksi dalam pasar saham • garis yang tegas adalah time-series data sebenarnya dari nilai saham Microsoft, dan garis putus-putus adalah time series model yang memprediksi nilai saham berdasarkan nilai saham pada masa lalu. 10/31/2021 9
Regression q Digunakan untuk memetakan data dengan prediksi atribut bernilai real q Contoh: – Memprediksi jumlah penjualan produk baru pada advertising expenditure. – Memprediksi kecepatan memutar (wind velocities) pada fungsi temperatur, tekanan udara , dll 10/31/2021 10
Neural Network (Jaringan syaraf tiruan) q Jaringan syaraf buatan di mulai dengan layer input, dimana tiap simpul berkorespondensi dengan variabel prediktor. q Simpul- simpul input ini terhubung kebeberapa simpul dalam hidden layer. q Dan simpul dalam hidden layer dapat terhubung ke simpul lain dalam hidden layer atau ke output layer. q Output layer terdiri dari satu atau beberapa variable respon 1 3 4 2 input 6 output 5 Hidden layer 10/31/2021 11
Deskriptif 10/31/2021 12
Descriptive - Clustering • Mengidentifikasi kelompok alami dari data berdasarkan kemiripan atribut • Disebut juga Segmentation • Unsupervised Method : tidak satupun atribut yang digunakan untuk memandu proses pembelajaran (tidak ada label) • Algoritma : k-Means, k-Medoid, Fuzzy CMeans, Subtractive, Mountain, Hierarki 10/31/2021 13
Contoh : Data Pelanggan • Terdiri dari dua atribut, yaitu Age (Umur) dan Income (Pendapatan). • Algoritma Clustering mengelompokkan kelompok data kedalam tiga segment berdasarkan kedua atribut ini. – Cluster 1 : populasi berusia muda dengan pendapatan rendah – Cluster 2 : populasi berusia menengah dengan pendapatan yang lebih tinggi – Cluster 3 : populasi berusia tua dengan pendapatan yang relatif rendah. 10/31/2021 14
Descriptive – Association Rule • Disebut juga Market Basket Analysis. • Menganalisa tabel transaksi penjualan dan mengidentifikasi produk-produk yang seringkali dibeli bersamaan oleh customer • Untuk mengidentifikasi kelompok kesamaan dari produk dan kebiasaan apa yang terjadi guna kepentingan cross-selling – Untuk mencari produk apa yang biasanya terjual bersamaan – Untuk mencari tahu apa aturan yang menyebabkan kesamaan tersebut. 10/31/2021 15
Contoh • Ketika orang membeli susu, dia biasanya membeli keju • Ketika orang membeli pepsi atau coke, biasanya dia membeli juice 10/31/2021 16
Descriptive – Sequence Analysis • Digunakan untuk mencari pola pada serangkaian kejadian yang disebut dengan Sequence. • Contoh rangkaian klik pada sebuah website berisi rentetan URL. • Implementasi : memodelkan pembelian oleh pelanggan sebagai sebuah sequence (rangkaian) data : – Pertama-tama seorang pelanggan membeli komputer – kemudian membeli speaker – dan akhirnya membeli sebuah webcam. 10/31/2021 17
Contoh : Rangkaian Klik pada Sebuah Website Berita • Setiap node adalah sebuah kategori URL. • Garis melambangkan transisi antar kategori URL tersebut. • Setiap transisi dikelompokan dengan sebuah bobot yang menggambarkan kemungkinan transisi antara satu URL dan URL yang lain. 10/31/2021 18
Penggunaan Data Mining 10/31/2021 19
q Telekomunikasi Data mining digunakan untuk melihat jutaan transaksi yang masuk dengan tujuan menambah layanan otomatis q Keuangan Data mining digunakan untuk mendeteksi transaksi keuangan yang mencurigakan dimana akan susah dilakukan jika menggunakan analisis standar. q Asuransi Australian Health Insurance Commision menggunakan data mining untuk mengidentifikasi layanan kesehatan dan berhasil menghemat satu juta dollar pertahun 10/31/2021 20
q Olah raga IBM Advanced Scout menggunakan data mining untuk menganalisis statistik permainan NBA dalam rangka competitive advantage untuk tim New York Knicks q Astronomi Jet Propulsion Laboratory (JPL) di Pasadena dan Pulomar Observatory menemukan 22 quasar dengan bantuan data mining. q Internet Web Surf-Aid IBM Surf-Aid menggunakan algoritma data mining untuk mendata akses halaman Web khususnya berkaitan dengan pemasaran melalui web. 10/31/2021 21
Selesai 10/31/2021 22
- Mining complex data types
- Arsitektur data mining
- Multimedia data mining
- Data mining dan data warehouse
- Data warehouse dan data mining
- Data mining dan data warehouse
- Strip mining vs open pit mining
- Chapter 13 mineral resources and mining
- Difference between strip mining and open pit mining
- Text and web mining
- Model sederhana dari arsitektur komunikasi data adalah
- Digunakan untuk komunikasi antar entitas
- Data reduction in data mining
- What is data mining and data warehousing
- What is missing data in data mining
- Data reduction in data mining
- Data reduction in data mining
- Data reduction in data mining
- Data cube technology in data mining
- Data reduction in data mining
- Multidimensional analysis and descriptive mining of complex
- Olap database
- Noisy data in data mining