Vector Space Models KELOMPOK 6 Anggota kelompok 1

  • Slides: 10
Download presentation
Vector Space Models KELOMPOK 6

Vector Space Models KELOMPOK 6

Anggota kelompok 1. Eko prasetyo 15. 11. 0104 2. Abdurahman 3. Chandra Setyawan 15.

Anggota kelompok 1. Eko prasetyo 15. 11. 0104 2. Abdurahman 3. Chandra Setyawan 15. 11. 0118 4. Achmad Ulfi 15. 11. 0121 5. Moh. Solahudin 15. 11. 0123 6. Novian Adi kusumo 15. 11. 0201 15. 11. 0114

Vector Space Models suatu model yang digunakan untuk mengukur kemiripan antara suatu dokumen dengan

Vector Space Models suatu model yang digunakan untuk mengukur kemiripan antara suatu dokumen dengan suatu query. Query dan dokumen dianggap sebagai vektor-vektor pada ruang ndimensi, dimana t adalah jumlah dari seluruh term yang ada dalam leksikon. Leksikon adalah daftar semua term yang ada dalam indeks. Selanjutnya akan dihitung nilai cosinus sudut dari dua vektor, yaitu W dari tiap dokumen dan W dari kata kunci.

Sifat-sifat Vektor 1. Vektor dikatakan sama jika memiliki besar dan arah yang sama 2.

Sifat-sifat Vektor 1. Vektor dikatakan sama jika memiliki besar dan arah yang sama 2. Pengurangan vektor dapat dilakukan dengan menjumlahkan dengan vektor negatif 3. Negatif dari suatu vektor memiliki besar yang sama namun berlawanan arah

Kelebihan kekurangan Kelebihan Model yang sedeerhana karena merupakan aljabar linier Term Weight tidak biner

Kelebihan kekurangan Kelebihan Model yang sedeerhana karena merupakan aljabar linier Term Weight tidak biner Memungkinkan menghitung berkelanjutan secara bersamaan antara query dan dookumen Perengkingan dokumen lebih relevan Memungkinkan pencocokan parsial Kekurangan Menghasilkan index yang beerdekatan Asumsi yang digunakan adalah independensi indexterm

Besar vektor dokumen berasal dari bobot kata pada dokumen. Pemberian bobot pada kata dapat

Besar vektor dokumen berasal dari bobot kata pada dokumen. Pemberian bobot pada kata dapat dilakukan dengan menghitung jumlah kemunclan kata atau term frequency. Semakin besar kemunculan suatu kata, akan semakin besar pula bobot dari kata tersebut. Terdapat beberapa metode untuk menghitung term frequency suatu kata, yaitu : 1. raw tf, menghitung jumlah kemunculan termpada dokumen. 2. logaritmic tf 3. binary tf, bobot dihitung berdasarkan ada atau tidak adanya termpada suatu dokumen yang direpresentasikan dengan nilai 0 atau 1 4. augmented tfdilakukan dengan memperkecil jarak nilai tf

Contoh Keyword: kpk dan icw Dokumen 5 (D 5): “ aktivis icw dianiaya aktivis

Contoh Keyword: kpk dan icw Dokumen 5 (D 5): “ aktivis icw dianiaya aktivis icw, tama satya langkun, dianiaya oleh segerombolan orang yang tak dikenal di kawasan duren tiga, jakarta selatan, kamis dini hari. ” Dokumen 6 (D 6) : “ cici tegal dipanggil kpk akan memeriksa pelawak cici tegal dan pesinetron meidiana hutomo terkait dugaan korupsi pengadaan alat rontgen portable di kementerian kesehatan pada 2007. ” Dua dokumen berita tersebut akan melalui proses token untuk menghilangkan tanda baca, angka, dan lainnya. Kemudian dilakukan pembuangan kata-kata yang termasuk stoplist. Tabel 1. adalah hasil stoplist dari contoh dua dokumen berita untuk proses pencarian. Tabel 1. Kata Stoplist Untuk Pencarian Pada D 5 Dan D 6 No. Stoplist Frekuensi 1 Oleh 1 2 Orang 1 3 Tak 1 4 Di 2 5 Tiga 1 6 Selatan 1 7 Kamis 1 8 Hari 1 9 Akan 1 10 Dan 1 11 Terkait 1

Tabel 2. Kemunculan Kata Pada Dokumen Pencarian Pada D 5 Dan D 6 Keyword(k

Tabel 2. Kemunculan Kata Pada Dokumen Pencarian Pada D 5 Dan D 6 Keyword(k k) D 5 D 6 icw 1 2 kpk 1 aktivis 0 Token duren 0 1 0 jakarta 0 1 0 0 dini 0 1 0 0 2 cici 0 0 2 0 0 tegal 0 2 panggil 0 a aniaya 0 2 0 tama 0 1 0 alat 0 0 1 rontgen 0 0 1 portable 0 0 1 2 menteri 0 0 1 sehat 0 0 1 1. 4142 4. 58 5. 09 lawak 0 0 1 q*d 4 2 sinetron 0 0 1 |q| * |d| 6. 480 6 7. 211 q * d/|q| * |d| 0. 617 2 0. 277 4 Tetha 51. 88 8 73. 89 49 memeriks satya 0 1 0 langkun 0 1 0 meidiana 0 0 1 gerombol 0 1 0 hutomo 0 0 1 kenal duga 0 0 1 0 korupsi 0 0 1 ada 0 0 1 kawasan 0 1 0 |q| dan |d|

Keterangan Tabel 2. adalah sebagai berikut: q = jumlah term keyword d = jumlah

Keterangan Tabel 2. adalah sebagai berikut: q = jumlah term keyword d = jumlah term dokumen |q| = akar dari keyword |d| = akar dari dokumen tetha = sudut tetha Maka dari perhitungan VSM, cosine D 5 adalah 0. 6172 sedangkan cosine D 6 adalah 0. 2774. Dari hasil akhir cosine tersebut maka dapat diketahui bahwa D 5 memiliki tingkat similiritas lebih tinggi dibandingkan D 6. Sehingga apabila diurut berdasarkan kemunculannya maka D 5 kemudian disusul D 6. Hasilnya akan terlihat pada Gambar 1.

Referensi https: //liyantanto. wordpress. com/2011/06/28/pencarian-dengan-metodevektor-space-model-vsm/ http: //informatika. stei. itb. ac. id/~rinaldi. munir/Aljabar. Geometri/20152016/Makalah-2015/Makalah-IF 2123

Referensi https: //liyantanto. wordpress. com/2011/06/28/pencarian-dengan-metodevektor-space-model-vsm/ http: //informatika. stei. itb. ac. id/~rinaldi. munir/Aljabar. Geometri/20152016/Makalah-2015/Makalah-IF 2123 -2015 -095. pdf