Model TemuBalik Informasi Pertemuan ke3 Sistem TemuBalik Informasi
Model Temu-Balik Informasi Pertemuan ke-3 Sistem Temu-Balik Informasi
Model Temu-Balik Informasi Sistem Temu-Balik Komputer 2010 Keamanan Informasi 2010 Informasi Model Information Retrieval • Suatu model retrieval menentukan detail dari : – Representasi dokumen – Representasi query – Mekanisme retrieval • Menetapkan suatu gagasan relevansi. • Gagasan relevansi dapat berupa binary atau continuous (yaitu retrieval teranking). 2
Model Temu-Balik Informasi Sistem Temu-Balik Komputer 2010 Keamanan Informasi 2010 Informasi Term Indeks • Sistem IR biasanya menggunakan term indeks (index term) untuk memroses query. • Index term: – suatu keyword atau kelompok kata terpilih – suatu kata (lebih umum) • Stemming dapat diterapkan: – connect: connecting, connections • Suatu inverted file dibangun untuk term indeks yang dipilih 3
Model Temu-Balik Informasi Sistem Temu-Balik Komputer 2010 Keamanan Informasi 2010 Informasi IR & Term Indeks 4
Model Temu-Balik Informasi Sistem Temu-Balik Komputer 2010 Keamanan Informasi 2010 Informasi Pencocokan Term Indeks • Pencocokan pada level index term sangat tidak tepat • Tidak heran mengapa pengguna sering tidak terpuaskan • Karena kebanyakan pengguna tidak belajar mengenai formasi query, bahkan bisa lebih buruk • Ketidakpuasan dari pengguna web • Masalah penentuan relevansi merupakan kritik bagi sistem IR: ranking 5
Model Temu-Balik Informasi Sistem Temu-Balik Komputer 2010 Keamanan Informasi 2010 Informasi Ranking • Ranking adalah pengurutan dokumen-dokumen yang diterima yang (sangat diharapkan) mencerminkan relevansi dari dokumen tersebut dengan query pengguna • Ranking didasarkan pada pemikiran fundamental mengenai relevansi, seperti: – Himpunan index term – Pemakaian term-term terbobot – Kemungkinan relevansi • Setiap himpunan dari pemikiran mengarahkan ke suatu model IR tertentu. 6
Model Temu-Balik Informasi Sistem Temu-Balik Komputer 2010 Keamanan Informasi 2010 Informasi Ikhtisar Model IR 7
Model Temu-Balik Informasi Sistem Temu-Balik Komputer 2010 Keamanan Informasi 2010 Informasi Model Klasik • Model Boolean (set theoretic) – Representasi: himpunan index term – Model alternatif : Fuzzy, Extended Boolean • Model Ruang Vektor (algebraic) – Representasi: vector dalam ruang t-dimensi – Model alternatif: Generalized VS, Latent Semantic Indexing, Neural network • Model Probabilistik (probabilistic) – Berpijak pada teori peluang – Model alternatif: Inference network, Belief network 8
Model Temu-Balik Informasi Sistem Temu-Balik Komputer 2010 Keamanan Informasi 2010 Informasi Model Terstruktur • Memungkinkan referensi ke struktur yang terdapat di dalam teks • Model Non-overlapping lists – Membagi teks ke dalam regional teks nonoverlapping yang dihimpun dalam lists (list of chapters, list of all sections, …) • Model Proximal nodes – Mengatur list non-overlapping ke dalam suatu hirarki • Text retrieval terstruktur menggabungkan informasi pada isi teks dengan informasi pada struktur dokumen 9
Model Temu-Balik Informasi Sistem Temu-Balik Komputer 2010 Keamanan Informasi 2010 Informasi Model Browsing • Model IR berdasarkan pada tugas browsing pengguna – Model Flat (tanpa struktur) – Model structure guided (seperti direktori Yahoo) – Model Hypertext (seperti navigasi halaman web) 10
Model Temu-Balik Informasi Sistem Temu-Balik Komputer 2010 Keamanan Informasi 2010 Informasi Dimensi Model Lain • Pandangan logik dari dokumen – Index term – Full text + Structure (misal: hypertext) • Tugas Pengguna – Retrieval – Browsing 11
Model Temu-Balik Informasi Sistem Temu-Balik Komputer 2010 Keamanan Informasi 2010 Informasi Model IR • Model IR, pandangan logik dokumen dan tugas retrieval merupakan aspek berbeda dari sistem 12
Model Temu-Balik Informasi Sistem Temu-Balik Komputer 2010 Keamanan Informasi 2010 Informasi Retrieval: Ad Hoc vs Filtering • Ad hoc retrieval: Corpus dokumen tetap, query bervariasi. • Filtering: Query tetap, aliran dokumen kontinu. – User Profile: Model preferensi yang relatif statis. – Keputusan biner dari relevant/not-relevant. • Routing: Sama deng as filterinn filtering tetapi secara berkelanjutan menyediakan list teranking bukan filtering biner. 13
Model Temu-Balik Informasi Sistem Temu-Balik Komputer 2010 Keamanan Informasi 2010 Informasi Retrieval: Ad Hoc vs Filtering • Ad hoc retrieval: 14
Model Temu-Balik Informasi Sistem Temu-Balik Komputer 2010 Keamanan Informasi 2010 Informasi Retrieval: Ad Hoc vs Filtering • Filtering 15
Model Temu-Balik Informasi Sistem Temu-Balik Komputer 2010 Keamanan Informasi 2010 Informasi Preprocessing • Potong karakter atau markup yang tak-diinginkan (misal: tag HTML, tanda baca, bilangan). • Pecahkan ke dalam token-token (keyword) berdasarkan whitespace. • Ubah token ke kata “root” (akar kata, stem) – computational compute • Hilangkan stopword umum (misal: a, the, it). • Deteksi frase umum (mungkin menggunakan kamus khusus domain). • Bangun inverted index (daftar keyword dari dokumen yang memuat keyword tersebut). 16
Model Temu-Balik Informasi Sistem Temu-Balik Komputer 2010 Keamanan Informasi 2010 Informasi Model Boolean • Dokumen direpresentasikan sebagai suatu himpunan dari keyword. • Query merupakan ekspresi boolean dari keyword, terhubung dengan AND, OR, dan NOT, termasuk menggunakan kurung siku untuk menandakan cakupan. – [ [Rio & Brazil] | [Hilo & Hawaii] ] & hotel & !Hilton ] • Output: Dokumen relevan atau tidak. Tidak ada pencocokan parsial atau ranking. 17
Model Temu-Balik Informasi Sistem Temu-Balik Komputer 2010 Keamanan Informasi 2010 Informasi Diagram Boolean 18
Model Temu-Balik Informasi Sistem Temu-Balik Komputer 2010 Keamanan Informasi 2010 Informasi Operator Adjacent & Near • abacus adj actor Term abacus & actor adalah terkait satu dengan lainnya, misal: "abacus actor" • abacus near 4 actor Term abacus & actor dalam 4 kata dari satu dengan lainnya, misal: "the actor has an abacus" • Beberapa sistem mendukung operator lain, seperti with (dua term dalam kalimat sama) atau same (dua term dalam paragraf sama). 19
Model Temu-Balik Informasi Sistem Temu-Balik Komputer 2010 Keamanan Informasi 2010 Informasi Query Boolean • Query boolean: dua atau lebih term pencarian, dihubungkan dengan operator boolean • Contoh: abacus AND actor abacus OR actor (abacus AND actor) OR (abacus AND atoll) NOT actor 20
Model Temu-Balik Informasi Sistem Temu-Balik Komputer 2010 Keamanan Informasi 2010 Informasi Evaluasi Operator Boolean • Precedence dari operator harus didefinisikan: adj, near and, not or tinggi rendah Contoh: A and B or C and B dievaluasi sebagai (A and B) or (C and B) 21
Model Temu-Balik Informasi Sistem Temu-Balik Komputer 2010 Keamanan Informasi 2010 Informasi Model Retrieval Boolean • Model retrieval yang populer karena: – Mudah memahami query sederhana – Bersih dari “formalisme” • Model boolean dapat diextend untuk menyertakan ranking. • Implementasi efisien layak mungkin bagi query normal. 22
Model Temu-Balik Informasi Sistem Temu-Balik Komputer 2010 Keamanan Informasi 2010 Informasi Model Boolean - Masalah • Terlalu kaku: AND berarti semua; OR berarti ada (bukan pencocokan parsial). • Sulit mengekspresikan permintaan pengguna yang kompleks. Query diformulasikan oleh pengguna kebanyakan terlalu sederhana • Sulit mengontrol jumlah dokumen yang diretrieve. – Semua dokumen yang cocok akan dikembalikan. • Sulit meranking output. – Semua dokumen yang cocok secara logis memenuhi query. • Sulit mengerjakan relevance feedback. – Jika suatu dokumen diidentifikasi oleh pengguna sebagai relevan atau tak-relevan, bagaimana query dimodifikasi? • Sering mengembalikan terlalu sedikit atau terlalu banyak 23 dokumen sebagai respon thdp query pengguna
Model Temu-Balik Informasi Sistem Temu-Balik Komputer 2010 Keamanan Informasi 2010 Informasi Model Statistik • Dokumen biasanya diwakilkan oleh bag of words (kata-kata dengan frekuensi, tak-terurut). • Bag = himpunan yang memungkinkan banyak kemunculan dari elemen yang sama. • Pengguna menentukan himpunan term yang diinginkan dengan bobot (weight) opsional: – Term query terbobot: Q = < database 0. 5; text 0. 8; information 0. 2 > – Term query tak-terbobot: Q = < database; text; information > – Tidak ada kondisi boolean ditetapkan dalam query. 24
Model Temu-Balik Informasi Sistem Temu-Balik Komputer 2010 Keamanan Informasi 2010 Informasi Retrieval Statistik • Retrieval didasarkan pada similarity (kemiripan) antara query dan dokumen. • Dokumen output diranking sesuai dengan kemiripan terhadap query. • Similarity didasarkan pada frekuensi kemunculan dari kata kunci (keyword) dalam query dan dokumen. • Mendukung Relevance feedback otomatis: – Dokumen relevan “ditambahkan” ke query. – Dokumen tak-relevan “dihilangkan” dari query. 25
Model Temu-Balik Informasi Sistem Temu-Balik Komputer 2010 Keamanan Informasi 2010 Informasi Isu pada Retrieval Statistik • Bagaimana menentukan kepentingan kata dalam suatu dokumen? – Pengertian kata? – Kata n-gram (dan frase, idiom, …) term • Bagaimana menentukan derajat kepentingan dari suatu term di dalam dokumen dan di dalam koleksi keseluruhan? • Bagaimana menentukan derajat kemiripan antara dokumen dan query? • Pada web, apa itu koleksi & apa efek dari link, informasi format, dll? 26
Model Temu-Balik Informasi Sistem Temu-Balik Komputer 2010 Keamanan Informasi 2010 Informasi Model Ruang Vektor • Setelah preprocessing diperoleh t term berbeda; dinamakan index term atau vocabulary. • Term ini membentuk suatu ruang vector. Dimensi = t = |vocabulary| • Setiap term, i, di dalam dokumen atau query, j, diberikan suatu nilai real weight, wij • Dokumen dan query diekspresikan sebagai vektor t-dimensi: dj = (w 1 j, w 2 j, …, wtj) • Definisikan fungsi bobot gi(dj) = wij 27
Model Temu-Balik Informasi Sistem Temu-Balik Komputer 2010 Keamanan Informasi 2010 Informasi Graphic Representation 28
Model Temu-Balik Informasi Sistem Temu-Balik Komputer 2010 Keamanan Informasi 2010 Informasi Koleksi Dokumen • Koleksi n dokumen dapat direpresentasikan dalam model ruang vektor dengan suatu matriks termdocument. • Entri di dalam matriks bersesuaian dengan “bobot” dari term di dalam dokumen; nol berarti term tidak berpengaruh atau tidak hadir di dalam dokumen. 29
Model Temu-Balik Informasi Sistem Temu-Balik Komputer 2010 Keamanan Informasi 2010 Informasi Contoh • Terdapat 3 dokumen berikut: 30
Model Temu-Balik Informasi Sistem Temu-Balik Komputer 2010 Keamanan Informasi 2010 Informasi Pembobotan Biner • Bobot (weight): tij = 1 jika dokumen i mengandung term j dan nol jika tidak 31
Model Temu-Balik Informasi Sistem Temu-Balik Komputer 2010 Keamanan Informasi 2010 Informasi Ruang Vektor dengan Bobot • Ruang vektor Term Ruang n-dimensi, dimana n adalah jumlah term berbeda yang digunakan untuk meng-indeks himpunan dokumen (yaitu ukuran dari daftar kata). • Vector Dokumen j direpresentasikan dengan vektor kolom. Besarnya dalam dimensi i adalah tij, dimana: tij > 0 jika term i muncul dalam dokumen j tij = 0 jika tidak tij adalah bobot dari term i dalam dokumen j. 32
Model Temu-Balik Informasi Sistem Temu-Balik Komputer 2010 Keamanan Informasi 2010 Informasi Matriks Jarang • Ruang vektor term merupakan matriks sangat jarang. • Inverted file adalah cara efisien untuk merepresentasikan suatu ruang vektor term. Juga menyediakan metode mudah untuk menyimpan data tambahan. • Kebanyakan metode penyimpanan matriks jarang dirancang untuk pemrosesan baris atau kolom. Inverted file dikelola untuk pemrosesan baris, yaitu semua informasi mengenai suatu term yang diberikan disimpan bersama. 33
Model Temu-Balik Informasi Sistem Temu-Balik Komputer 2010 Keamanan Informasi 2010 Informasi Inverted File • Inverted file merupakan daftar term pencarian yang diatur untuk associative look-up, untuk menjawab pertanyaan: – Dalam dokumen mana term pencarian tertentu hadir? – Dimana dalam setiap dokumen setiap term hadir? (mungkin beberapa kemunculan) • Dalam sistem pencarian teks bebas, daftar kata dan file posting bersama-sama menyediakan suatu sistem inverted file. Juga mengandung data yang diperlukan untuk menghitung bobot dan informasi yang digunakan untuk menampilkan hasil. 34
Model Temu-Balik Informasi Sistem Temu-Balik Komputer 2010 Keamanan Informasi 2010 Informasi Inverted File - Definisi • Daftar kata adalah daftar semua term berbeda dalam corpus setelah menghilangkan stop words & stemming. Kadang disebut pula vocabulary file. 35
Model Temu-Balik Informasi Sistem Temu-Balik Komputer 2010 Keamanan Informasi 2010 Informasi Inverted File - Definisi • Posting: Entri di dalam sistem inverted file yang mewakili instance term dari dalam suatu dokumen, misal: ada 3 posting untuk "abacus": "abacus" dalam dokumen 3 • Inverted List: Daftar semua posting dalam sistem inverted file yang menunjukkan kata tertentu, misal: "abacus" dalam dokumen 3, 19 & 22 • Ini merupakan representasi sparse dari suatu baris dalam matriks vektor term 36
Model Temu-Balik Informasi Sistem Temu-Balik Komputer 2010 Keamanan Informasi 2010 Informasi Inverted File & Query Boolean • Contoh: abacus and actor Posting abacus Posting actor • Hanya dokumen 19 yang mengandung term "abacus" dan "actor". 37
Model Temu-Balik Informasi Sistem Temu-Balik Komputer 2010 Keamanan Informasi 2010 Informasi Peningkatan Inverted File • Lokasi: Setiap posting memegang informasi mengenai lokasi dari setiap term di dalam dokumen. Penggunaan – Rancangan antarmuka pengguna - highlight lokasi dari term pencarian operator adjacency dan near (dalam pencarian boolean) • Frekuensi: Setiap inverted list menyertakan jumlah posting dari setiap term. Penggunaan – Pembobotan term – Optimisasi pemrosesan query 38
Model Temu-Balik Informasi Sistem Temu-Balik Komputer 2010 Keamanan Informasi 2010 Informasi Peningkatan Inverted File 39
Model Temu-Balik Informasi Sistem Temu-Balik Komputer 2010 Keamanan Informasi 2010 Informasi Evaluasi Operasi Adjacency • Contoh: abacus adj actor • Dokumen 19, lokasi 63 dan 64, lokasi munculnya term "abacus" dan "actor" adjacent. 40
Model Temu-Balik Informasi Sistem Temu-Balik Komputer 2010 Keamanan Informasi 2010 Informasi Pencocokan Query (Boolean) Query: (abacus or asp*) and actor 1. Dari file index (daftar kata), temukan file posting: "abacus" setiap kata yang diawali "asp" "actor" 2. Gabungkan posting list ini. Untuk setiap dokumen yang muncul dalam postings list, evaluasi ekspresi Boolean untuk melihat apakah true atau false. Langkah 2 sebaiknya diselesaikan dalam satu langkah 41
Model Temu-Balik Informasi Sistem Temu-Balik Komputer 2010 Keamanan Informasi 2010 Informasi Posting File & Pencocokan Query 42
Model Temu-Balik Informasi Sistem Temu-Balik Komputer 2010 Keamanan Informasi 2010 Informasi Kemiripan & Ranking • Metode yang didiskusikan sejauh ini hanya menangani query boolean • Dapatkah kita mengidentifikasi dokumen berdasarkan pada kemiripan? • Bagaimana kita meranking hasil pencarian? 43
Model Temu-Balik Informasi Sistem Temu-Balik Komputer 2010 Keamanan Informasi 2010 Informasi Revisi Ruang Vektor x = (x 1, x 2, . . . , xn) adalah vektor dalam ruang vektor n-dimensi • Panjang dari x diberikan oleh: |x|2 = x 12 + x 22 + x 32 +. . . + xn 2 Jika x 1 dan x 2 merupakan vektor: • Inner product (atau dot product): x 1. x 2 = x 11 x 21 + x 12 x 22 + x 13 x 23 +. . . + x 1 nx 2 n • Cosinus sudut antara vektor x 1 dan x 2: 44
Model Temu-Balik Informasi Sistem Temu-Balik Komputer 2010 Keamanan Informasi 2010 Informasi Kemiripan (Tanda Bobot) • Seberapa mirip dokumen-dokumen berikut? 45
Model Temu-Balik Informasi Sistem Temu-Balik Komputer 2010 Keamanan Informasi 2010 Informasi Ruang Vektor Term • tij = 1 jika term i dalam dokumen j dan nol jika tidak 46
Model Temu-Balik Informasi Sistem Temu-Balik Komputer 2010 Keamanan Informasi 2010 Informasi Contoh: Perbandingan Dokumen 47
Model Temu-Balik Informasi Sistem Temu-Balik Komputer 2010 Keamanan Informasi 2010 Informasi Kemiripan Query & Dokumen (Vektor 3 -Dimensi) 48
Model Temu-Balik Informasi Sistem Temu-Balik Komputer 2010 Keamanan Informasi 2010 Informasi Kemiripan Query & Dokumen 49
Model Temu-Balik Informasi Sistem Temu-Balik Komputer 2010 Keamanan Informasi 2010 Informasi Matriks Munculnya Term 50
Model Temu-Balik Informasi Sistem Temu-Balik Komputer 2010 Keamanan Informasi 2010 Informasi Hitung Ranking • Kemiripan query terhadap dokumen dalam contoh: • Jika query q dicarikan terhadap himpunan dokumen ini, hasil teranking adalah d 2, d 1, d 3 51
Model Temu-Balik Informasi Sistem Temu-Balik Komputer 2010 Keamanan Informasi 2010 Informasi Kemiripan Vektor dalam IR? • Ranking untuk setiap query q, kembalikan n dokumen paling mirip yang diranking sesuai kemiripannya. • [Ini merupakan praktis standard] 52
Model Temu-Balik Informasi Sistem Temu-Balik Komputer 2010 Keamanan Informasi 2010 Informasi Pembobotan Term Ukuran kemiripan perlu ditingkatkan: (a) Apakah term umum atau tak-biasa (b) Berapa kali setiap term muncul dalam suatu dokumen (c) Panjang dari dokumen (d) Tempat dalam dokumen dimana term muncul (e) Term-term yang adjacent satu dengan lainnya (frase) 53
Model Temu-Balik Informasi Sistem Temu-Balik Komputer 2010 Keamanan Informasi 2010 Informasi Bobot Term: Term Frequency • Makin sering term dalam dokumen maka makin penting, makin menunjukkan topik. fij = frekuensi term i dalam dokumen j • Term frequency (tf) ini dapat dinormalisasi terhadap corpus lengkap tfij = fij / max{fij} dimana max adalah terhadap semua term dalam dokumen j 54
Model Temu-Balik Informasi Sistem Temu-Balik Komputer 2010 Keamanan Informasi 2010 Informasi Bobot Term: Inverse Document frequency • Term-term yang munvul dalam banyak dokumen berbeda kurang menunjukkan topik keseluruhan. dfi = frekuensi dokumen dari term i = jumlah dokumen yang mengandung term i idfi = inverse document frequency dari term i, = log 2 (N / df i) (N: jumlah total dari dokumen) • Indikasi dari kekuatan diskriminasi term. • Log digunakan untuk memperkecil efek relatif terhadap tf. 55
Model Temu-Balik Informasi Sistem Temu-Balik Komputer 2010 Keamanan Informasi 2010 Informasi Pembobotan TF-IDF • Bobot yang OK harus diambil, karena: – Hitungan isi intra-document (kemiripan) • Faktor tf, term frequency dalam suatu dokumen – Hitungan inter-documents berbeda (ketidakmiripan) • Faktor idf, inverse document frequency • Indikator kepentingan term kombinasi adalah pembobotan tf-idf : wij = tfij idfi = tfij log 2 (N / dfi) 56
Model Temu-Balik Informasi Sistem Temu-Balik Komputer 2010 Keamanan Informasi 2010 Informasi Pembobotan TF-IDF • Suatu term sering muncul dalam dokumen tetapi jarang dalam sisa koleksi diberikan bobot tinggi. • Banyak cara lain menentukan bobot term diusulkan. • Pada eksperiment, tf-idf berkeja dengan baik. 57
Model Temu-Balik Informasi Sistem Temu-Balik Komputer 2010 Keamanan Informasi 2010 Informasi Menghitung TF-IDF • Diberikan suatu dokumen mengandung term dengan frekuensi: A(3), B(2), C(1) • Misal: koleksi memuat 10, 000 dokumen dan frekuensi dokumen dari term-term ini adalah A(50), B(1300), C(250) • Maka: A: tf = 3/3; idf = log(10000/50) = 5. 3; tf-idf = 5. 3 B: tf = 2/3; idf = log(10000/1300) = 2. 0; tf-idf = 1. 3 C: tf = 1/3; idf = log(10000/250) = 3. 7; tf-idf = 1. 2 58
Model Temu-Balik Informasi Sistem Temu-Balik Komputer 2010 Keamanan Informasi 2010 Informasi Menghitung TF-IDF 59
Model Temu-Balik Informasi Sistem Temu-Balik Komputer 2010 Keamanan Informasi 2010 Informasi Menghitung TF-IDF 60
Model Temu-Balik Informasi Keamanan Informasi Keamana Sistem Temu-Balik Komputer 2010 61
- Slides: 61