Latent Semantic Indexing LSI Latent Semantic Indexing LSI

  • Slides: 8
Download presentation
Latent Semantic Indexing (LSI)

Latent Semantic Indexing (LSI)

Latent Semantic Indexing (LSI) adalah metode pengindeksan dan pencarian yang menggunakan teknik matematika yang

Latent Semantic Indexing (LSI) adalah metode pengindeksan dan pencarian yang menggunakan teknik matematika yang disebut dekomposisi nilai singular (SVD) untuk mengidentifikasi pola-pola dalam hubungan antara istilah dan konsep yang terkandung dalam koleksi terstruktur dari teks LSI juga digunakan untuk melakukan kategorisasi dokumen secara otomatis, LSI menggunakan teknik aljabar linear untuk mempelajari kelerasi konseptual dalam kumpulan teks, secara umum, prosesnya meliputi pembuatan matrik kata dokumen berbobot, melakukan dekomposisi nilai singular pada matrik, dan menggunakan matrik untuk mengidentifikasi konsep-konsep yang terkandung di dalam teks.

Konsep Latent Semantic Indexing

Konsep Latent Semantic Indexing

Prinsip Latent Semantic Indexing � Latent Semantic Indexing (LSI) secara sederhana dengan cara mendeskripsikan

Prinsip Latent Semantic Indexing � Latent Semantic Indexing (LSI) secara sederhana dengan cara mendeskripsikan proses algoritma yang digunakan oleh search engine untuk mengidentifikasi kata-kata yang berhubungan � Pada dasarnya. LSI adalah sebuah prinsip algoritma yang digunakan serach engine untuk memproses persamaan kata atau sinonim dan memahami hubungan antar kata.

Algoritma LSI � Algoritma LSI Dilakukan beberapa tahapan untuk melakukan LSI pada dokumen latih

Algoritma LSI � Algoritma LSI Dilakukan beberapa tahapan untuk melakukan LSI pada dokumen latih dan dokumen uji, � Tahap 1 : lakukan serangkaian praproses yang akan mengubah semua dokumen uji dan dokumen latih, masing-masing matriks A dan B. � Tahap 2 : lakukan SVD pada matrik A menggunakan persamaan 1. Dengan pemilihan k-tertentu akan memperolh hasil reduksi k-rank. � Tahap 3 : gunakan persamaan 6 untuk mendapatkan matrik tereduksi reoresentase dokumen latih.

� Dengan demikian bahwa Persamaan 1 dan persamaan 6 dapat dituliskan dengan rumus sebagai

� Dengan demikian bahwa Persamaan 1 dan persamaan 6 dapat dituliskan dengan rumus sebagai berikut : � Persamaan 1 A=U. S. Dengan keterangan : A = Matriks A : dari TDM pembobotan corpus U = Matriks U hasil dekomposisi SVD matriks A S = Matriks singular hasil dekomposisi SVD matriks A = Matriks V transpose

� Persamaan 6 Dengan Keterangan : q’ = query vector representasi dari LSI =

� Persamaan 6 Dengan Keterangan : q’ = query vector representasi dari LSI = transpose dari TDM dari pembobotan ternormalisasi TF-IDF query = reduksi dimensi k dari matriks U = inverse dari reduksi dimensi k matriks S

Algoritma SVD LSI menggunakan SVD (Singular Value Decomposition)untuk memodelkan asosiatif antara term. Ide dasar

Algoritma SVD LSI menggunakan SVD (Singular Value Decomposition)untuk memodelkan asosiatif antara term. Ide dasar SVD adalah menerima kumpulan data dengan dimensi dan variabel tinggi serta mengurangi ke dalam ruang dimensi yang berukuran lebih kecil untuk menampakan lebih jelas sub struktur dari data asli dan mengurutkanya mulaidari bervariasi sampai dengan tidak bervariasi.