Data Mining CRISPDM Standar Proses Datamining Materi Pengantar

  • Slides: 25
Download presentation
Data Mining

Data Mining

CRISP-DM Standar Proses Datamining

CRISP-DM Standar Proses Datamining

Materi • Pengantar Data Mining – Apa itu datamining – Macam data yang dapat

Materi • Pengantar Data Mining – Apa itu datamining – Macam data yang dapat di “mining” – Pola data yang dapat di “mining” – Teknik yang digunakan untuk “mining” – Dll

 • Memahami Data – Objek Data dan Type atribut – Statistik deskriptif dari

• Memahami Data – Objek Data dan Type atribut – Statistik deskriptif dari data – Visualisasi data – Mengukur Data Similarity dan Dissimilarity

 • Pre-proses data – Pengantar preproses data – Membersihkan data – Reduksi data

• Pre-proses data – Pengantar preproses data – Membersihkan data – Reduksi data – Tranformasi data dan diskritisasi data • Association Rule – Apriori Algorithm

 • Klasifikasi – Konsep dasar – Pohon Keputusan – Naive Bayes – Bayesian

• Klasifikasi – Konsep dasar – Pohon Keputusan – Naive Bayes – Bayesian Network – Backpropagation – EM – Evaluasi model klasifikasi

 • Analisa Kluster – Konsep dasar – Metode Partisi – Metode Hirarki

• Analisa Kluster – Konsep dasar – Metode Partisi – Metode Hirarki

 • Outlier Detection – Pendekatan Statistik

• Outlier Detection – Pendekatan Statistik

Referensi

Referensi

Tools

Tools

Pengantar n Mengapa data mining? n Apa datamining Data Mining? n A Multi-Dimensional View

Pengantar n Mengapa data mining? n Apa datamining Data Mining? n A Multi-Dimensional View of Data Mining n What Kinds of Data Can Be Mined? n What Kinds of Patterns Can Be Mined? n What Kinds of Technologies Are Used? n What Kinds of Applications Are Targeted? n Major Issues in Data Mining n A Brief History of Data Mining and Data Mining Society n Summary 12

Why Data Mining? n n n Pertumbuhan yang sangat besar: n Business: Web, e-commerce,

Why Data Mining? n n n Pertumbuhan yang sangat besar: n Business: Web, e-commerce, transactions, stocks, … n Science: Remote sensing, … n Society and everyone: Media sosial Banyak data miskin pengetahuan “Data mining—Analisa data secara otomatis dari data yang sangat besar. 13

Apa Data Mining? n Data mining ( mendapatkan pengetahuan dari data) n n Ektraksi

Apa Data Mining? n Data mining ( mendapatkan pengetahuan dari data) n n Ektraksi pola atau pengetahuan dari data yang besar. Nama lain n Knowledge discovery (mining) in databases (KDD), knowledge extraction, data/pattern analysis, business intelligence, dll. 14

Proses Knowledge Discovery (KDD) n Data mining sangat berperan dalam proses mendapatkan pengetahuan Pattern

Proses Knowledge Discovery (KDD) n Data mining sangat berperan dalam proses mendapatkan pengetahuan Pattern Evaluation Data Mining Task-relevant Data Warehouse Selection Data Cleaning Data Integration Databases 15

Data Mining dalam Business Intelligence Sangat berpotensi untuk Mendukung keputusan bisnis Decision Making Data

Data Mining dalam Business Intelligence Sangat berpotensi untuk Mendukung keputusan bisnis Decision Making Data Presentation Visualization Techniques End User Business Analyst Data Mining Information Discovery Data Analyst Data Exploration Statistical Summary, Querying, and Reporting Data Preprocessing/Integration, Data Warehouses Data Sources Paper, Files, Web documents, Scientific experiments, Database Systems DBA 16

KDD Process: Tinjauan dari ML dan Statistics Input Data Pre. Processing Data integration Normalization

KDD Process: Tinjauan dari ML dan Statistics Input Data Pre. Processing Data integration Normalization Feature selection Dimension reduction n Data Mining Pattern discovery Association & correlation Classification Clustering Outlier analysis ………… Post. Processing Pattern evaluation selection interpretation visualization This is a view from typical machine learning and statistics communities 17

Berbagai sudut pandang Data Mining n n “Data yang di “mining” n Database data

Berbagai sudut pandang Data Mining n n “Data yang di “mining” n Database data : data transactional data, time-series, text and web, multimedia, graphs & social dan networks Pengetahuan yang “mining” (or: Data mining functions) n Association, classification, clustering, outlier analysis, etc. n predictive data mining, dll Teknik yang digunakan n machine learning, statistics, pattern recognition, visualization, dll Aplikasi n Retail, telecommunication, banking, fraud analysis, bio-data mining, stock market analysis, text mining, Web mining, etc. 18

Fungsi Data Mining Function: (2) Association and Correlation Analysis n Frequent patterns (atau frequent

Fungsi Data Mining Function: (2) Association and Correlation Analysis n Frequent patterns (atau frequent itemsets) n n Item yang sering dibeli bersamaan Association, correlation causality Bagaimana untuk me”mining” suatu pola atau rule secara efisien dalam database yang besar? Bagaimana menggunakan suatu pola untuk classification, clustering, dan aplikasi lain? 19

Data Mining Function: (3) Classification n Classification dan label prediction n Memprediksi dari kelas

Data Mining Function: (3) Classification n Classification dan label prediction n Memprediksi dari kelas label yang tidak diketahui Metode yang umum n n Membangun suatu model (functions) didasarkan pada beberapa data training Decision trees, naïve Bayesian classification, support vector machines, neural networks, , logistic regression, … Aplikasi: n Credit card fraud detection, diseases, web-pages, … 20

Data Mining Function: (4) Cluster Analysis n Unsupervised learning (i. e. , Class label

Data Mining Function: (4) Cluster Analysis n Unsupervised learning (i. e. , Class label is unknown) n Mengelompokkan data (i. e. , clusters) n n Prinsip: Maximizing intra-class similarity & minimizing interclass similarity Banyaj metode yang digunakan 21

Data Mining Function: (5) Outlier Analysis n Outlier analysis n n n Outlier: Objrk

Data Mining Function: (5) Outlier Analysis n Outlier analysis n n n Outlier: Objrk data yang tidak mengikuti sifat secara umum dari data Metode: diperoleh dari hasil : clustering or regression analysis, … Kegunaan : fraud detection, rare events analysis 22

Data Mining: Confluence of Multiple Disciplines Machine Learning Applications Algorithm Pattern Recognition Data Mining

Data Mining: Confluence of Multiple Disciplines Machine Learning Applications Algorithm Pattern Recognition Data Mining Database Technology Statistics Visualization High-Performance Computing 23

Aplikasi Data Mining n Web page analysis: web page classification, clustering to Page. Rank

Aplikasi Data Mining n Web page analysis: web page classification, clustering to Page. Rank & HITS algorithms n Collaborative analysis & recommender systems n Basket data analysis to targeted marketing n Data mining systems/tools (e. g. , SAS, MS SQL-Server Analysis Manager, Oracle Data Mining Tools) untuk menerapkan data mining 24

Kesimpulan n n Data mining: Memperoleh pola pengetahuan dari data yang besar A KDD

Kesimpulan n n Data mining: Memperoleh pola pengetahuan dari data yang besar A KDD process : data cleaning, data integration, data selection, transformation, data mining, pattern evaluation, and knowledge presentation Data mining dapat dilakukan dari berbagai sumber data Fungsi Data mining : association, classification, clustering, trend and outlier analysis, dll. 25