TEMU BALIK INFORMASI Modelmodel dalam sistem temu kembali
TEMU BALIK INFORMASI “Model-model dalam sistem temu kembali informasi”
1. Model Klasik • Boolean • Vector • Probabilistic 2. Model Terstruktur • Non Overlapping List • Proximal Nodes
• Model Boolean Dengan model boolean maka pencarian query dilakukan dengan fungsi-fungsi logika yang umum seperti OR, AND, XOR, NOT, NAND, NOR dan lain sebagainya diantara kata yang diinginkan. Contohnya jika query Q= ( K 1 AND K 2) OR ( K 3 AND ( NOT K 4)). • Kelebihan dan Kekurangan Model Boolean Kelebihannya adalah lebih mudah bagi user yang berpengalaman kelemahannya adalah kerumitan dalam penggunaan bahasa query dan akan membingungkan pengguna yang biasa
• Model Vector Dalam sistem IR, kemiripan antar dokumen didefinisikan berdasarkan representasi bag of words dan dikonversikan ke suatu model ruang vektor (vector space model – VSM). Pada VSM, setiap dokumen di dalam database dan query pengguna direpresentasikan oleh suatu vektor multi-dimensi.
• Model Probabilistic Model probabilistik adalah model sistem temu kembali informasi yang mengurutkan dokumen dalam urutan menurun terhadap peluang relevansi sebuah dokumen terhadap informasi yang dibutuhkan. Beberapa model yang juga dikembangkan berdasarkan perhitungan probabilistik yaitu, Binary Independence. Model, model Okapi BM 25, dan Bayesian Network Model (Manning dkk, 2009).
• Model Non Overlapping Sistem yang menggunakan model ini akan membagi-bagi dokumen sebagai wilayah teks tertentu misalnya dengan mengikuti stuktur dokumen (bab, subbab, judul, sub-judul, gambar, foto, tabel dan seterusnya) kemudian untuk masing-masing wilayah ini dilakukan pengindeksan yang tidak saling menindih (non overlapping)
• Model Proximal nodes Model IR ini menggunakan beberapa struktur indeks yang memiliki hirarki independen terhapap sebuah dokumen. Masing-masing dari indeks ini merujuk ke struktur dokumen (bab, sub-bab, judul, sub judul, gambar, foto tabel dan seterusnya)yang dinamakan nodes. Pada masing-masing node inilah ada rujukan ke bagian dari dokumen yang mengandung teks tertentu.
Metode Dalam Temu Balik Informasi • Metode TF-IDF TF adalah algoritma pembobotan heuristik yang menentukan bobot dokumen berdasarkan kemunculan term (istilah). Semakin sering sebuah istilah muncul, semakin tinggi bobot dokumen untuk istilah tersebut, dan sebaliknya.
• Metode BIM Binary Independence Model, query dianggap sebagai sebuah vector term. Jika pada model lain jumlah atau kemunculan term diperhitungkan, maka pada Model ini nilainya berupa biner, Yaitu ada atau tidak ada.
Konsep Dasar Temu balik informasi – Indexing – Searching – Perengkingan relevansi keyword query
Konsep dasar dalam Information Retrieval System terdiri dari Indexing, Searching dan perengkingan relevansi keyword query. proses indexing dilakukan untuk membentuk database index terhadap koleksi dokumen yang dimasukkan, atau dengan kata lain, indexing merupakan proses persiapan yang dilakukan terhadap dokumen sehingga dokumen siap untuk retrive. Proses indexing sendiri meliputi 2 proses, yaitu dokukmen indexing dan term indexing. Dari term indexing akan dihasilkan koleksi kata yang akan digunakan untuk meningkatkan performansi pencarian pada tahap selanjutnya.
TERIMA-KASIH
- Slides: 12