KONSEP DATA MINING Disusun Oleh Dr Lily Wulandari

  • Slides: 42
Download presentation
KONSEP DATA MINING Disusun Oleh : Dr Lily Wulandari Universitas Gunadarma Logo Seminar

KONSEP DATA MINING Disusun Oleh : Dr Lily Wulandari Universitas Gunadarma Logo Seminar

DATA

DATA

Apa Itu Data? Attributes • Kumpulan objek data dan atributnya • Atribut adalah properti

Apa Itu Data? Attributes • Kumpulan objek data dan atributnya • Atribut adalah properti atau karakteristik dari suatu objek – Atribut juga dikenal sebagai variabel, field, karakteristik, dimensi, atau fitur • Kumpulan atribut menggambarkan objek – Objek juga dikenal sebagai record, point, case, sampel, entitas, atau instance Objects – Contoh: warna mata seseorang, suhu, dll.

 Pandangan Data Yang Lebih Lengkap • Data mungkin memiliki bagian • Berbagai bagian

Pandangan Data Yang Lebih Lengkap • Data mungkin memiliki bagian • Berbagai bagian data mungkin memiliki hubungan • Secara umum, data mungkin memiliki struktur • Data bisa tidak lengkap

Nilai Atribut • Nilai atribut adalah angka atau simbol yang ditetapkan ke sebuah objek

Nilai Atribut • Nilai atribut adalah angka atau simbol yang ditetapkan ke sebuah objek tertentu • Perbedaan antara atribut dan nilai atribut – Atribut yang sama dapat dipetakan ke nilai atribut yang berbeda • Contoh: tinggi dapat diukur dalam kaki atau meter – Atribut yang berbeda dapat dipetakan ke set nilai yang sama • Contoh: Nilai atribut untuk ID dan usia adalah bilangan bulat • Tetapi properti dari nilai atribut bisa berbeda

Tipe Atribut Ada berbagai jenis atribut • Nominal – Contoh: nomor ID, warna mata,

Tipe Atribut Ada berbagai jenis atribut • Nominal – Contoh: nomor ID, warna mata, kode pos, NPM, Jenis. Kelamin • Urut/Ordinal – Contoh: peringkat (mis. , Rasa keripik kentang pada skala 1 -10), nilai, tinggi [tinggi, sedang, pendek], tingkat kelulusan : [cumlaude, sangat memuaskan, memuaskan], suhu : [dingin, normal, panas]. • Selang/Interval – Contoh: tanggal kalender, suhu dalam Celcius atau Fahrenheit • Perbandingan/Ratio – Contoh: umur, tinggi, panjang, waktu

Properti Nilai Atribut • Jenis atribut tergantung pada properti / operasi berikut yang dimilikinya:

Properti Nilai Atribut • Jenis atribut tergantung pada properti / operasi berikut yang dimilikinya: – Distinctness: – Order: – Differences are meaningful : – Ratios are meaningful – – = < > + - * / Nominal attribute: distinctness Ordinal attribute: distinctness & order Interval attribute: distinctness, order & meaningful differences Ratio attribute: all 4 properties/operations

Perbedaan Antara Ratio dan Interval • Apakah secara fisik bermakna untuk mengatakan bahwa suhu

Perbedaan Antara Ratio dan Interval • Apakah secara fisik bermakna untuk mengatakan bahwa suhu 10° dua kali suhu 5° – skala Celsius? – skala Fahrenheit? – Skala Kelvin? • Pertimbangkan mengukur ketinggian di atas rata-rata – Jika tinggi Bill tiga inci di atas rata-rata dan tinggi Bob enam inci di atas rata-rata, maka dapatkah kita mengatakan bahwa Bob dua kali lebih tinggi dari Bill? – Apakah situasi ini analog dengan suhu?

Atribut Diskrit dan Kontinue • Atribut Diskrit – Hanya memiliki seperangkat nilai yang terbatas

Atribut Diskrit dan Kontinue • Atribut Diskrit – Hanya memiliki seperangkat nilai yang terbatas atau tak terhingga jumlahnya – Contoh: kode pos, jumlah, atau kumpulan kata dalam kumpulan dokumen – Sering direpresentasikan sebagai variabel integer. – Catatan: atribut biner adalah kasus khusus atribut diskrit • Atribut Kontinu – Memiliki bilangan riill untuk nilai atribut – Contoh : temperatur, tinggi atau berat – Nilai riil hanya dapat diukur dan diwakili dengan menggunakan jumlah digit yang terbatas – Atribute Kontinu biasanya direpresentasikan sebagai variabel floating-point.

Tipe Himpunan Data • Record – Data Matrix – Document Data – Transaction Data

Tipe Himpunan Data • Record – Data Matrix – Document Data – Transaction Data • Graph – World Wide Web – Molecular Structures • Ordered – Spatial Data – Temporal Data – Sequential Data – Genetic Sequence Data

Karakteristik Penting Data • Dimensi (jumlah atribut) – Data dimensi tinggi membawa sejumlah tantangan

Karakteristik Penting Data • Dimensi (jumlah atribut) – Data dimensi tinggi membawa sejumlah tantangan • Sparsity – Hanya kehadiran yang diperhitungkan • Resolusi – Pola tergantung pada skala • Ukuran – Jenis analisis mungkin tergantung pada ukuran data

Record Data • Data yang terdiri dari kumpulan record, yang masing terdiri dari himpunan

Record Data • Data yang terdiri dari kumpulan record, yang masing terdiri dari himpunan atribut tetap

Data Matrix • Jika objek data memiliki himpunan tetap atribut numerik yang sama, maka

Data Matrix • Jika objek data memiliki himpunan tetap atribut numerik yang sama, maka objek data dapat dianggap sebagai titik dalam ruang multi-dimensi, di mana setiap dimensi mewakili atribut yang berbeda • Kumpulan data tersebut dapat diwakili oleh matriks mxn, di mana ada baris m, satu untuk setiap objek, dan n kolom, satu untuk setiap atribut

Data Dokumen • Setiap dokumen menjadi vektor 'istilah’ • Setiap istilah adalah komponen (atribut)

Data Dokumen • Setiap dokumen menjadi vektor 'istilah’ • Setiap istilah adalah komponen (atribut) dari vektor • Nilai dari setiap komponen adalah berapa kali istilah yang sesuai terjadi dalam dokumen.

Data Transaksi • Jenis data record khusus, di mana – Setiap record (transaksi) melibatkan

Data Transaksi • Jenis data record khusus, di mana – Setiap record (transaksi) melibatkan serangkaian item. – Misalnya, pertimbangkan toko bahan makanan. Set produk yang dibeli oleh pelanggan selama satu perjalanan belanja merupakan transaksi, sedangkan produk individu yang dibeli adalah item.

Data Graf • Contoh: Grafik generik, molekul, dan halaman web Benzene Molecule: C 6

Data Graf • Contoh: Grafik generik, molekul, dan halaman web Benzene Molecule: C 6 H 6

Ordered Data • Urutan transaksi Items/Events An element of the sequence

Ordered Data • Urutan transaksi Items/Events An element of the sequence

Ordered Data • Data urutan genom

Ordered Data • Data urutan genom

Ordered Data • Data Spatio-Temporal Average Monthly Temperature of land ocean

Ordered Data • Data Spatio-Temporal Average Monthly Temperature of land ocean

Kualitas Data • Kualitas data yang buruk berdampak negatif pada banyak upaya pemrosesan data

Kualitas Data • Kualitas data yang buruk berdampak negatif pada banyak upaya pemrosesan data “Poin paling penting adalah kualitas data yang buruk adalah bencana yang sedang berlangsung. – Kualitas data yang buruk menyebabkan setidaknya sepuluh persen (10%) biaya perusahaan ; dua puluh persen (20%) mungkin merupakan perkiraan yang lebih baik. “ Thomas C. Redman, DM Review, August 2004

Kualitas Data • Kesalahan Pengukuran: Nilai yang dicatat berbeda dengan nilai sebenarnya (noise, bias,

Kualitas Data • Kesalahan Pengukuran: Nilai yang dicatat berbeda dengan nilai sebenarnya (noise, bias, precission, acuracy) • Kesalahan Pengumpulan: seperti hilangnya obyek data/nilai dari atribut/lingkup obyek data yang tidak tetap • Duplicate Data: obyek data ganda

Kesalahan Pengumpulan • Outliers: obyek data yg memiliki sifat yg berbeda sekali dari kebanyakan

Kesalahan Pengumpulan • Outliers: obyek data yg memiliki sifat yg berbeda sekali dari kebanyakan obyek data. • Missing Value: nilai pada suatu atribut yang tidak ditemukan/kosong. – Bisa karena responden menolak memberikan informasi – Atribut tidak bisa diterapkan ke semua kasus – Diatasi dengan mengurangi obyek data, memperkirakan missing value, mengganti dengan nilai yg memungkinkan

Kualitas Data • Contoh data mining: model klasifikasi untuk mendeteksi orang-orang yang berisiko dalam

Kualitas Data • Contoh data mining: model klasifikasi untuk mendeteksi orang-orang yang berisiko dalam pinjaman dibangun menggunakan data yang buruk – Beberapa kandidat yang layak mendapat kredit ditolak pinjamannya – Lebih banyak pinjaman diberikan kepada individu yang wanprestasi

Kualitas Data • Apa jenis masalah kualitas data? • Bagaimana bisa mendeteksi masalah dengan

Kualitas Data • Apa jenis masalah kualitas data? • Bagaimana bisa mendeteksi masalah dengan data? • Apa yang bisa dilakukan tentang masalah ini? • Contoh masalah kualitas data: – Noise dan outliers – Nilai yang hilang – Data rangkap – Data yang salah

Noise • Untuk objek, noise adalah yang tidak ada hubungannya dengan objek • Untuk

Noise • Untuk objek, noise adalah yang tidak ada hubungannya dengan objek • Untuk atribut, noise mengacu pada modifikasi nilai asli – Contoh: distorsi suara seseorang ketika berbicara di telepon yang buruk dan “bintik-bintik" di layar televisi Two Sine Waves + Noise

Outliers • Outliers adalah objek data dengan karakteristik yang sangat berbeda dari sebagian besar

Outliers • Outliers adalah objek data dengan karakteristik yang sangat berbeda dari sebagian besar objek data lainnya dalam kumpulan data – Kasus 1: Outliers adalah noise yang mengganggu analisis data – Kasus 2: Outliers adalah tujuan dari analisis • Penipuan kartu kredit • Deteksi gangguan • Penyebab?

Nilai Yang Hilang • Alasan hilangnya nilai – Informasi tidak dikumpulkan (mis. , Orang

Nilai Yang Hilang • Alasan hilangnya nilai – Informasi tidak dikumpulkan (mis. , Orang menolak memberikan usia dan berat badan mereka) – Atribut mungkin tidak berlaku untuk semua kasus (mis. , Pen dapatan tahunan tidak berlaku untuk anak-anak)

Nilai Yang Hilang • Menangani nilai yang hilang – Hilangkan objek atau variabel data

Nilai Yang Hilang • Menangani nilai yang hilang – Hilangkan objek atau variabel data – Perkirakan nilai yang hilang • Contoh: deret waktu temperatur • Contoh: hasil sensus – Abaikan nilai yang hilang selama analisis

Nilai yang Hilang • Hilang sepenuhnya secara acak (Missing completely at random / MCAR)

Nilai yang Hilang • Hilang sepenuhnya secara acak (Missing completely at random / MCAR) – Hilangnya nilai tidak tergantung pada atribut – Isi nilai berdasarkan atribut – Analisis mungkin tidak bias secara keseluruhan • Missing at Random (MAR) – Hilang terkait dengan variabel lain – Isi nilai berdasarkan nilai-nilai lain – Hampir selalu menghasilkan bias dalam analisis

Nilai yang Hilang • Missing Not at Random (MNAR) – Kehilangan terkait dengan pengukuran

Nilai yang Hilang • Missing Not at Random (MNAR) – Kehilangan terkait dengan pengukuran yang tidak teramati – Kehilangan yang informatif atau tidak dapat diabaikan • Tidak mungkin mengetahui situasi dari data

Data Duplikat • Kumpulan data dapat mencakup objek data yang merupakan duplikat, atau hampir

Data Duplikat • Kumpulan data dapat mencakup objek data yang merupakan duplikat, atau hampir duplikat satu sama lain – Masalah utama saat menggabungkan data dari sumber yang heterogen • Contoh: – Orang yang sama dengan banyak alamat email • Pembersihan data – Proses berurusan dengan masalah data duplikat • Kapan data duplikat tidak dihapus?

Pemrosesan Data Awal • Agregasi • Sampling • Binerisasi dan Diskretisasi • Pengurangan Dimensi

Pemrosesan Data Awal • Agregasi • Sampling • Binerisasi dan Diskretisasi • Pengurangan Dimensi • Pemilihan Fitur • Transformasi Variabel

Agregasi • Penggabungan obyek ke dalam sebuah obyek tunggal • Sum, average, min, max

Agregasi • Penggabungan obyek ke dalam sebuah obyek tunggal • Sum, average, min, max

Sampling • Pemilihan bagian obyek data yang akan dianalisis. • Sample harus representatif (mewakili

Sampling • Pemilihan bagian obyek data yang akan dianalisis. • Sample harus representatif (mewakili seluruh data) • Sample disebut resprentatif jika mempunyai sifat yang sama dengan seluruh data biasa diukur dengan rata/mean • Penggunaan sample yang baik tidak menjamin bahwa hasil pemrosesan data mining pada sample sama bagusnya dengan pemrosesan pada seluruh data asli

Binerisasi • Transformasi data dari tipe continue, diskret menjadi tipe biner. • Algoritma asosiasi

Binerisasi • Transformasi data dari tipe continue, diskret menjadi tipe biner. • Algoritma asosiasi membutuhkan data dengan atribut bertipe biner • Jumlah atribut yg dibutuhkan utk binerisasi adalah N=log 2(M), M= jml kelas kategori • Contoh: {rusak, jelek, sedang, bagus, sempurna}, M=5 • N=log 2(5) = 3, sehingga tdp 3 atribut x 1, x 2, x 3

Contoh Binerisasi

Contoh Binerisasi

Diskretisasi • Transformasi data dari tipe kontinu ke diskrit

Diskretisasi • Transformasi data dari tipe kontinu ke diskrit

Pengurangan Dimensi • Mengurangi jumlah waktu dan memory yg dibutuhkan • Membuat data lebih

Pengurangan Dimensi • Mengurangi jumlah waktu dan memory yg dibutuhkan • Membuat data lebih mudah divisualisasi • Membantu mengurangi fitur-fitur yang tdk relevan/mengurangi gangguan/derau • Teknik yang digunakan – Principal Component Analysis (PCA) – Singular Value Decomposition(SVD)

Pemilihan Fitur • Proses pencarian terhadap semua kemungkinan subset fitur. – Menghilangkan fitur yang

Pemilihan Fitur • Proses pencarian terhadap semua kemungkinan subset fitur. – Menghilangkan fitur yang redundan Misal: harga_jual, pajak, discount – Menghilangkan fitur-fitur yang tidak mengandung informasi yang berguna untuk pekerjaan data mining Misal: tinggi badan mhs pada pekerjaan prediksi kelulusan mhs , tidak relevan

Pemilihan Fitur • Teknik yang digunakan: – Brute-force • Pada proses data mining dilakukan

Pemilihan Fitur • Teknik yang digunakan: – Brute-force • Pada proses data mining dilakukan dengan mencoba semua fitur. – Filtering: • Memilih fitur sebelum proses data mining dilakukan – wrapper • Menggunakan algoritma data mining untuk memilih sub -set fitur yang paling baik.

Transformasi Fitur • Merupakan proses yang memetakan keseluruhan himpunan nilai dari fitur-fitur yang diberikan

Transformasi Fitur • Merupakan proses yang memetakan keseluruhan himpunan nilai dari fitur-fitur yang diberikan ke suatu subset nilai pengganti sedemikian sehingga nilai yang lama dapat dikenali dengan satu dari nilai-nilai yang baru tersebut. • Metode dalam transformasi fitur: – Standarisasi (median , standar deviasi). – Normalization, dimana data sebuah atribut diskalakan ke dalam rentang (kecil) yang ditentukan (Metode: Min-max Normalization, z-score Normalization, Normalization by Decimal Scaling).