Similarity Dissimilarity Various types of variable Data Mining
![Similarity/ Dissimilarity Various types of variable Data Mining: Concept and Techniques (Jiawei Han, Micheline Similarity/ Dissimilarity Various types of variable Data Mining: Concept and Techniques (Jiawei Han, Micheline](https://slidetodoc.com/presentation_image_h/a9dfeb6ed1e46a741213b881870fada8/image-1.jpg)
Similarity/ Dissimilarity Various types of variable Data Mining: Concept and Techniques (Jiawei Han, Micheline Kamber)
![Struktur data � Data � matrix (object-by-variable structure) Struktur ini dalam bentuk tabel relasional, Struktur data � Data � matrix (object-by-variable structure) Struktur ini dalam bentuk tabel relasional,](http://slidetodoc.com/presentation_image_h/a9dfeb6ed1e46a741213b881870fada8/image-2.jpg)
Struktur data � Data � matrix (object-by-variable structure) Struktur ini dalam bentuk tabel relasional, n objek x p variable: � Dissimilarity matrix (object-by-object structure) � Menyimpan kumpulan perkiraan dari seluruh pasangan n objek (nby-n tabel) � Struktur ini digunakan untuk menghitung klaster dari objek.
![� Macam-macam � Interval-scaled � Binary type data dalam suatu variabel: variable � Categorical � Macam-macam � Interval-scaled � Binary type data dalam suatu variabel: variable � Categorical](http://slidetodoc.com/presentation_image_h/a9dfeb6ed1e46a741213b881870fada8/image-3.jpg)
� Macam-macam � Interval-scaled � Binary type data dalam suatu variabel: variable � Categorical variable � Ratio variable
![Interval scaled variable � Interval scaled variable: ukuran 2 kontinu dari skala linear � Interval scaled variable � Interval scaled variable: ukuran 2 kontinu dari skala linear �](http://slidetodoc.com/presentation_image_h/a9dfeb6ed1e46a741213b881870fada8/image-4.jpg)
Interval scaled variable � Interval scaled variable: ukuran 2 kontinu dari skala linear � Contoh: tinggi, berat, koordinat latitude atau longitude (clustering rumah), temperatur cuaca
![Interval-scaled variables 1. Hitung mean absolute deviation, sf: 2. Hitung ukuran yg distandarisasikan (or Interval-scaled variables 1. Hitung mean absolute deviation, sf: 2. Hitung ukuran yg distandarisasikan (or](http://slidetodoc.com/presentation_image_h/a9dfeb6ed1e46a741213b881870fada8/image-5.jpg)
Interval-scaled variables 1. Hitung mean absolute deviation, sf: 2. Hitung ukuran yg distandarisasikan (or Z-score)
![� Euclidean Distance � Manhattan Distance � Euclidean Distance � Manhattan Distance](http://slidetodoc.com/presentation_image_h/a9dfeb6ed1e46a741213b881870fada8/image-6.jpg)
� Euclidean Distance � Manhattan Distance
![Contoh � Penghitungan dissimilarity tanpa standarisasi Contoh � Penghitungan dissimilarity tanpa standarisasi](http://slidetodoc.com/presentation_image_h/a9dfeb6ed1e46a741213b881870fada8/image-7.jpg)
Contoh � Penghitungan dissimilarity tanpa standarisasi
![Binary variable �Variabel yang memiliki dua nilai 0 dan 1, dimana 0 absent, 1 Binary variable �Variabel yang memiliki dua nilai 0 dan 1, dimana 0 absent, 1](http://slidetodoc.com/presentation_image_h/a9dfeb6ed1e46a741213b881870fada8/image-8.jpg)
Binary variable �Variabel yang memiliki dua nilai 0 dan 1, dimana 0 absent, 1 present �Bagaimana menghitung ketidaksamaan (dissimilarity) Dissimilarity (jarak)
![� Similarity: � Similarity:](http://slidetodoc.com/presentation_image_h/a9dfeb6ed1e46a741213b881870fada8/image-9.jpg)
� Similarity:
![Contoh variabel biner �Suatu tabel rekord pasien berisi atribut: nama, gender, fever, cough, test-1, Contoh variabel biner �Suatu tabel rekord pasien berisi atribut: nama, gender, fever, cough, test-1,](http://slidetodoc.com/presentation_image_h/a9dfeb6ed1e46a741213b881870fada8/image-10.jpg)
Contoh variabel biner �Suatu tabel rekord pasien berisi atribut: nama, gender, fever, cough, test-1, test-2, test-3, test-4 Nama object identifier Gender simetric atribute
![Categorical variable � Variabel kategori: secara umum sama dengan variabel biner namun mengambil lebih Categorical variable � Variabel kategori: secara umum sama dengan variabel biner namun mengambil lebih](http://slidetodoc.com/presentation_image_h/a9dfeb6ed1e46a741213b881870fada8/image-11.jpg)
Categorical variable � Variabel kategori: secara umum sama dengan variabel biner namun mengambil lebih dari 2 keadaan. � Contoh: map color (5 states): red, yellow, green, pink, and blue � Ukuran dissimilarity: � Dimana, sama p: jumlah variable, dan m: juml. variabel yg bernilai
![Contoh Dissimilarity Contoh Dissimilarity](http://slidetodoc.com/presentation_image_h/a9dfeb6ed1e46a741213b881870fada8/image-12.jpg)
Contoh Dissimilarity
![�Maka untuk categorical variable, test 1, p=1 dan d(i, j)=0 jika sama dan 1 �Maka untuk categorical variable, test 1, p=1 dan d(i, j)=0 jika sama dan 1](http://slidetodoc.com/presentation_image_h/a9dfeb6ed1e46a741213b881870fada8/image-13.jpg)
�Maka untuk categorical variable, test 1, p=1 dan d(i, j)=0 jika sama dan 1 jika beda. Sehingga dihasilkan matrik berikut:
![Ordinal Varible � Ordinal variable : mirip dengan categorical variable, namun memiliki arti dalam Ordinal Varible � Ordinal variable : mirip dengan categorical variable, namun memiliki arti dalam](http://slidetodoc.com/presentation_image_h/a9dfeb6ed1e46a741213b881870fada8/image-14.jpg)
Ordinal Varible � Ordinal variable : mirip dengan categorical variable, namun memiliki arti dalam urutan dan berguna bila tidak dapat diukur secara objektif. � Contoh: profesional rank: assistant, associate, and full for professor.
![�Jika ada nilai f dari suatu objek xif dan mempunyai states yg terurut dalam �Jika ada nilai f dari suatu objek xif dan mempunyai states yg terurut dalam](http://slidetodoc.com/presentation_image_h/a9dfeb6ed1e46a741213b881870fada8/image-15.jpg)
�Jika ada nilai f dari suatu objek xif dan mempunyai states yg terurut dalam rangking 1, …, Mf, maka bisa dituliskan rif є {1, …Mf} �Merubah nilai rf dengan menormalisasi : [0, 1] dengan rumusan: �Kemudian dicari nilai disimilarity- nya digunakan rumusan jarak
![Contoh ordinal variable (test-2) � Ada 3 state dalam test 2: fair, good dan Contoh ordinal variable (test-2) � Ada 3 state dalam test 2: fair, good dan](http://slidetodoc.com/presentation_image_h/a9dfeb6ed1e46a741213b881870fada8/image-16.jpg)
Contoh ordinal variable (test-2) � Ada 3 state dalam test 2: fair, good dan excellent, sehingga Mf=3 � Rubah nilai dlm objek tsb dengan 3(1, 2, dan 3). � Normalisasi sehingga: rank-1=0, rank-2=0. 5, rank-3=1 � Maka dengan rumusan Ecluidian Dist, didapatkan:
![Ratio-scaled variable � Biasanya digunakan untuk ukuran positip pada skala non linear seperti skala Ratio-scaled variable � Biasanya digunakan untuk ukuran positip pada skala non linear seperti skala](http://slidetodoc.com/presentation_image_h/a9dfeb6ed1e46a741213b881870fada8/image-17.jpg)
Ratio-scaled variable � Biasanya digunakan untuk ukuran positip pada skala non linear seperti skala exponensial dg rumusan: � Contoh: pertumbuhan populasi bakteri atau kerusakan akibat radioaktif � Menggunakan transformasi logaritmik dengan formula yif=log(xif), nilai yif yang digunakan sbg interval value
![Contoh ratio-scaled variable (test-3) �Maka dgn mengaplikasikan logaritmik dari tiap 2 nilai dalam test-3: Contoh ratio-scaled variable (test-3) �Maka dgn mengaplikasikan logaritmik dari tiap 2 nilai dalam test-3:](http://slidetodoc.com/presentation_image_h/a9dfeb6ed1e46a741213b881870fada8/image-18.jpg)
Contoh ratio-scaled variable (test-3) �Maka dgn mengaplikasikan logaritmik dari tiap 2 nilai dalam test-3: didapatkan nilai: 2. 65, 1. 34, 2. 21, dan 3. 08 untuk objek 1 -4 �Sehingga dengan rumus jarak didapatkan : Dinormalisasi , Dg membagi 1. 74
![Variable of Mixed Types �Dalam dunia nyata, sering dijumpai variable yg memiliki campuran, antara Variable of Mixed Types �Dalam dunia nyata, sering dijumpai variable yg memiliki campuran, antara](http://slidetodoc.com/presentation_image_h/a9dfeb6ed1e46a741213b881870fada8/image-19.jpg)
Variable of Mixed Types �Dalam dunia nyata, sering dijumpai variable yg memiliki campuran, antara lain: interval scaled, symmetric binary, categorical, ordinal atau ratioscaled. �Maka dapat digunakan rumusan berikut untuk mencari dissimilarity: Dimana: ∂ij=0 jikaxjf atau xjf kosong & ∂ij=1 jika ada nilainya
![Contoh perhitungan mix-variable �Jika didapatkan dari perhitungan sebelumnya didapatkan jarak dari tiap-tiap variabel (test Contoh perhitungan mix-variable �Jika didapatkan dari perhitungan sebelumnya didapatkan jarak dari tiap-tiap variabel (test](http://slidetodoc.com/presentation_image_h/a9dfeb6ed1e46a741213b881870fada8/image-20.jpg)
Contoh perhitungan mix-variable �Jika didapatkan dari perhitungan sebelumnya didapatkan jarak dari tiap-tiap variabel (test 1, test 2, dan test 3: �Maka dengan mengaplikasikan rumusan tersebut didapatkan
![Final result of dissimilarity (test 1, test 2 & test 3) Final result of dissimilarity (test 1, test 2 & test 3)](http://slidetodoc.com/presentation_image_h/a9dfeb6ed1e46a741213b881870fada8/image-21.jpg)
Final result of dissimilarity (test 1, test 2 & test 3)
- Slides: 21