Pengenalan Enjin Gelintar l Pengenalan l Maksud Enjin

  • Slides: 69
Download presentation
Pengenalan Enjin Gelintar l Pengenalan l Maksud Enjin Gelintar l Tiga Jenis Enjin Gelintar

Pengenalan Enjin Gelintar l Pengenalan l Maksud Enjin Gelintar l Tiga Jenis Enjin Gelintar l Senibina Enjin Gelintar l Komponen Asas Enjin Gelintar

Pengenalan Enjin Gelintar • 2003 16. 5 bil Laman web • 3 bil laman

Pengenalan Enjin Gelintar • 2003 16. 5 bil Laman web • 3 bil laman / 59 GB teks dimuat setiap hari • Hayat 44 hari • 10 MB/s teks : connection capable to downloading 2

Pengenalan Enjin Gelintar • Nov 97 : Alta. Vista handle 20 bil queries per

Pengenalan Enjin Gelintar • Nov 97 : Alta. Vista handle 20 bil queries per day 3

Apa itu enjin gelintar ? Enjin gelintar ialah suatu program yang digunakan untuk mencari

Apa itu enjin gelintar ? Enjin gelintar ialah suatu program yang digunakan untuk mencari dan mencapai maklumat berdasarkan kepada sebutan gelintaran (search terms) yang diberi oleh pengguna. Ia membenarkan pengguna menjelajah pangkalan data yang mengandungi teks terdiri daripada berjuta-juta di laman web. Apabila perisian enjin gelintar dapat padankan maklumat yang dicari (hits), ia akan menerangkan dimana pautan maklumat terdapat dan seterusnya pengguna akan terus menjelajah. search engine -- (a computer program that retrieves documents or files or data from a database or from a computer network (especially from the internet)) 4

Web Spider Document corpus Query String IR System 1. Page 1 2. Page 2

Web Spider Document corpus Query String IR System 1. Page 1 2. Page 2 3. Page 3. . Ranked Documents 5

Pengenalan Enjin Gelintar 6

Pengenalan Enjin Gelintar 6

Pengenalan Enjin Gelintar 7

Pengenalan Enjin Gelintar 7

URL FTSM Pelayan UKM Pelayan Google 8

URL FTSM Pelayan UKM Pelayan Google 8

How SE Works l l l Crawl entire Intranet Compute the shortest hyperlink path

How SE Works l l l Crawl entire Intranet Compute the shortest hyperlink path from a certain root page to every web page Index and compute metadata for the pages • • • Using Cheshire II Run a user query. Gather all the hits Create a “directory” based on combining the shortest paths Special graph algorithm removes redundant links and internal nodes 9

SE System Architecture crawl the web store the documents 10

SE System Architecture crawl the web store the documents 10

SE System Architecture crawl the web store the documents create files of metadata Cheshire

SE System Architecture crawl the web store the documents create files of metadata Cheshire II 11

SE Metadata l Information about web pages l Used to provide innovative search interface

SE Metadata l Information about web pages l Used to provide innovative search interface • Title • Length • Inlinks • Outlinks • Shortest Paths from a root home page 12

SE System Architecture crawl the web store the documents create files of metadata Cheshire

SE System Architecture crawl the web store the documents create files of metadata Cheshire II 13

SE System Architecture crawl the web store the documents create a keyword index create

SE System Architecture crawl the web store the documents create a keyword index create files of metadata Cheshire II 14

Creating a Keyword Index l For each document • Tokenize the document • Record

Creating a Keyword Index l For each document • Tokenize the document • Record which tokens occurred in this document • Break it up into tokens: words, stems, punctuation • There are many variations on this • Called an Inverted Index • Dictionary: a record of all the tokens in the collection and • their overall frequency Postings File: a list recording for each token, which document it occurs in and how often it occurs 15

SE System Architecture user query Cheshire II 16

SE System Architecture user query Cheshire II 16

Responding to the User Query l l User searches on “pam samuelson” Search Engine

Responding to the User Query l l User searches on “pam samuelson” Search Engine looks up documents indexed with one or both terms in its inverted index Search Engine looks up titles and shortest paths in the metadata index User Interface combines the information and presents the results as HTML 17

SE System Architecture user query Cheshire II 18

SE System Architecture user query Cheshire II 18

SE System Architecture server accesses the databases Cheshire II 19

SE System Architecture server accesses the databases Cheshire II 19

SE System Architecture results shown to user Cheshire II 20

SE System Architecture results shown to user Cheshire II 20

SE System Architecture user query results shown to user server accesses the databases Cheshire

SE System Architecture user query results shown to user server accesses the databases Cheshire II 21

What hasn’t been explained here? l l How documents are ranked How queries are

What hasn’t been explained here? l l How documents are ranked How queries are formed How shortest paths are computed How the system is built • … among other things! • This is just an introduction! Much more later. 22

Pengenalan Enjin Gelintar Dua kaedah mendapatkan maklumat yang menarik l Kueri • • l

Pengenalan Enjin Gelintar Dua kaedah mendapatkan maklumat yang menarik l Kueri • • l Carian berasaskan keyword : EG jana kueri kepada indeks katakunci dan pulangkan dokumen terpangkat Sesuai untuk pengguna yang mempunyai matlamat jelas Gelintar • • • Navigasi melalui set jalinan (link) seperti hieraki bagi mendapatkan topik sasaran Pengguna pilih link yang ia rasakan membawa kepada dokumen yang relevan. Sesuai bagi pengguna yang tidak dapatkan menyatakan matlamat dengan jelas melalui kombinasi katakunci berasaskan boolean Kaedah padanan berdasarkan katakunci memulangkan banyak hasil yang kurang berkualiti Bahasa Tabie (NL) lebih baik 23

Masalah berkaitan katakunci l l Kemungkinan tidak mencapai dokumen yang relevan bila mana terdapat

Masalah berkaitan katakunci l l Kemungkinan tidak mencapai dokumen yang relevan bila mana terdapat term sinonim • “restaurant” vs. “café” • Aku, saya, patik, hamba Kemungkinan capai dokumen yang tidak berkaitan bilamana terdapat term yang ada kesamaran (ambiguous) • “bat” (baseball vs. mammal) • “Apple” (company vs. fruit) • “bit” (unit of data vs. act of eating) • Perang (perbuatan vs warna) 24

Pengenalan Enjin Gelintar Terdapat 3 bentuk enjin gelintar 1. 2. 3. Web crawlers Web

Pengenalan Enjin Gelintar Terdapat 3 bentuk enjin gelintar 1. 2. 3. Web crawlers Web portals Meta-Search engines 25

Enjin Gelintar 1. Web Crawlers l l l Dikenali juga : robots, spiders, worms,

Enjin Gelintar 1. Web Crawlers l l l Dikenali juga : robots, spiders, worms, walkers, wanderer Jelajahi internet bagi mendapat laman kepada indeks Mula dengan satu alamat web yang dikenalpasti dan muat turun laman tersebut. (berdasarkan URL kaedah cth breath-first search) Indeks semua perkataan dan frasa dan hubungan perkataan Pengguna akan buat carian berdasarkan indeks tersebut Contoh : Alta. Vista, Excite, Google, Hotbot, Lycos , Northen Light …… 26

Alirankerja bagi web crawlers 27

Alirankerja bagi web crawlers 27

Web Crawlers : Alta. Vista l l Alta. Vista mempunyai spider bernama Scooter yang

Web Crawlers : Alta. Vista l l Alta. Vista mempunyai spider bernama Scooter yang mengedari (traverse) WWW dan Usenet mewsgroup. Pengindeksan ialah berdasarkan teks penuh dokumen tersebut Index di dalam pangkalan data Alta. Vista diupdatekan sekurang-kurangnya sekali sehari. Scooter melawat laman web berdasarkan kekerapan laman web tersebut diupdatekan. Laman yang statik untuk beberapa bulan akan lebih kurang dilawati. 28

Web Crawlers : Alta. Vista l l l Alta. Vista menyokong operasi penuh Boolean,

Web Crawlers : Alta. Vista l l l Alta. Vista menyokong operasi penuh Boolean, phrase, dan case-sensistive searches. Alta. Vista memangkat dokumen berdasarkan kerelevanan, memberikan pemberat yang lebih tinggi pada dokumen yang mengandungi sebutan query pada baris pertama dokumen. Hasil query termasuklah tajuk, abstrak yang ringkas, saiz, dan tarikh terakhir dimodifikasi. 29

Web Crawlers : Excite l l l Excite juga mempunyai spider dan pengindeks (indexer)

Web Crawlers : Excite l l l Excite juga mempunyai spider dan pengindeks (indexer) untuk teks penuh sesuatu dokumen. Spider hanya mencapai maklumat dalam bentuk dokumen web dan Usenet newsgroup. Pengguna boleh hantar URL untuk pengindeksan. Pengindeks menghasilkan sebutan indeks dan ringkasan dokumen. Excite menyokong pengoperasi Boolean AND. OR, dan NOT, dan ekspresi query Boolean. 30

Web Crawlers : Hot. Bot l l Hot. Bot mencapai dan mengindeks dokumen dengan

Web Crawlers : Hot. Bot l l Hot. Bot mencapai dan mengindeks dokumen dengan menggunakan robot bernama Slurp mengeluarkan semua URL daripada document yang dicapai dan meletakkannya di dalam struktur data berjadual, yang menunjukkan setiap URL kepada CPU yang berbeza berdasarkan kriteria seperti bilakah masa terkini hos diakses. Hot. Bot menyokong penggelintaran berasakan case-sensitive dan operasi Boolean. Hot. Bot memberikan tarikh terakhir sesuatu laman web diupdate dan abstrak ringkas mengandungi beberapa baris pertama sesuatu dokumen. 31

Web Crawlers : Info. Seek l l Enjin gelintar yang mencapai dokumen dalam bentuk

Web Crawlers : Info. Seek l l Enjin gelintar yang mencapai dokumen dalam bentuk HTML dan PDF, mengindeks teks penuh dan menghasilkan ringkasan pendek tentang sesuatu dokumen. Info. Seek membenarkan penggelintaran dalam Web, Usenet groups, dan Web FAQs. Info. Seek menyokong “case sensitivity” dan juga penggelintaran untuk simbol, rangkai-kata dan nama. Ia juga membenarkan penggelintaran imej berdasarkan kata sebutan yang terdapat pada imej. 32

Web Crawlers : Info. Seek l l Info. Seek memangkat outputnya, mengira RSV dengan

Web Crawlers : Info. Seek l l Info. Seek memangkat outputnya, mengira RSV dengan memberikan pemberat yang lebih untuk dokumen yang kata sebutan query terdapat pada awalan dokumen tersebut. Ia memberi ringkasan pendek, markah kerelevanan, dan saiz dokumen. 33

Web Crawlers : Lycos l l Lycos mempunyai robot yang menggunakan heuristik untuk berjalan

Web Crawlers : Lycos l l Lycos mempunyai robot yang menggunakan heuristik untuk berjalan dalam web dan membina indeks yang boleh digelintari. Untuk setiap dokumen yang diindeks, robot akan menyimpan maklumat tentang “outgoing links” (anchor text atau link tags) dalam susunan (queue) dan memilih URL daripa susunan. Satu contoh heuristik umpamanya mengarah robot untuk memilih URL yang menunjukkan laman web pelayan (server). 34

Web Crawlers : Lycos l l l Lycos mengindeks tajuk, headings, dan subheadings untuk

Web Crawlers : Lycos l l l Lycos mengindeks tajuk, headings, dan subheadings untuk dokumen HTML, FTP dan Gopher. Bila bilangan dokumen terindeks melebihi 100, hanya 100 sebutan yang berpemberat tinggi akan disimpan. Pengindeks juga menyimpan 20 baris pertama dokumen, saiznya, dan bilangan perkataan. 35

Web Crawlers : Open. Text l l l Open. Text mempunyai robot yang melayari

Web Crawlers : Open. Text l l l Open. Text mempunyai robot yang melayari laman web dengan memilih satu-satu URL daripada sekumpulan URL, mencapai dokumen dari URL tersebut, dan mengindeks dokumen tersebut. Ia juga mengeluarkan semual URL daripada dokumen yang dicapai dan meletakkannya di kumpulan URL (URL pool). Pengguna boleh menghantar URL untuk diindeks. 36

Web Crawlers : Open. Text l l l Open. Text mengindeks teks penuh sesuatu

Web Crawlers : Open. Text l l l Open. Text mengindeks teks penuh sesuatu dokumen HTML dan berterusan mengupadate indeksnya. Pengindeks (indexer) akan menghasilkan 100 perkataan pertama sesuatu dokumen sebagai ringkasan pendek. Ia menyokong sepenuhnya pengoperasi Boolean. 37

Web Crawlers : Direktori/Katalog l Enjin gelintar daripada kumpulan ini menyusun katalog atau direktori

Web Crawlers : Direktori/Katalog l Enjin gelintar daripada kumpulan ini menyusun katalog atau direktori subjek bagi laman web yang boleh di gunakan oleh pengguna. 38

Web Crawlers : Yahoo l l Yahoo secara semi-otomatik mengorganisasikan subjek laman web. Link

Web Crawlers : Yahoo l l Yahoo secara semi-otomatik mengorganisasikan subjek laman web. Link ke beberapa sumber dikumpul dalam 2 cara: (i) daripada pengguna yang menghantar laman web untuk diindeks; (ii) daripads robot yang mencapai link baru daripada laman web terkemuka seperti NCSA/GNN’s What’s New Page. Yahoo mengindeks Web, Usenet news, dan alamat e-mel. Output daripada query ialah senarai dokumen dan kategori yang diberikan oleh Yahoo, berserta beberapa baris pertama dokumen. 39

Enjin Gelintar 2. Portals ● Laman yabg diorganisasi maklumat mengikut topik bagi memudah pengguna

Enjin Gelintar 2. Portals ● Laman yabg diorganisasi maklumat mengikut topik bagi memudah pengguna menavigasi dan mendapatkan maklumat yang dicari ● Juga dikenali web direktori ● Kebanyakan portal merupakan “human maintained” ● Carian kebanyakan berdasarkan ringkasan (summaries) atau tajuk bukan pada kandungan 40

Alirankerja portal 41

Alirankerja portal 41

Enjin Gelintar 3. Meta-Search Engines ● Merupakan site yang mengambil kueri (katakunci atau kueri

Enjin Gelintar 3. Meta-Search Engines ● Merupakan site yang mengambil kueri (katakunci atau kueri NL) dan hantar ianya ke banyak enjin gelintar dan pulangkan hasil kepada pengguna. ● Tiga kaedah gelintaran i. Senarai penuh enjin gelintar ii. Penggelintaran secara jujukan (sequential) iii. Penggelintaran secara concurrent 42

Aliran kerja meta-search engines 43

Aliran kerja meta-search engines 43

Pembahagian Sistem Enjin Gelintar bagi tujuan Umum (General-purpose Search Engine) Enjin Gelintar bagi Domain

Pembahagian Sistem Enjin Gelintar bagi tujuan Umum (General-purpose Search Engine) Enjin Gelintar bagi Domain Tertentu (Domain Specific Search Engine) Fokus pada jenis dokumen tertentu Fokus pada topik tertentu 44

 • Crawling the web • Building an index • Ranking • Serving search

• Crawling the web • Building an index • Ranking • Serving search result • User interface and design • Google infrastructure Pelayan Google akan dibincang semasa tutorial 45

WWW Repositori laman klien kueri keputusan Modul Indeks Lelabah Modul Himpunan Analisis Enjin kueri

WWW Repositori laman klien kueri keputusan Modul Indeks Lelabah Modul Himpunan Analisis Enjin kueri Modul Kawalan Lelabah pemangkatan Indeks: kemudahan struktur teks Maklumbalas pengguna Senibina Enjin Carian (Arasu et. al 2001) 46

WWW Repositori laman klien kueri keputusan Modul Indeks Lelabah Modul Himpunan Analisis Enjin kueri

WWW Repositori laman klien kueri keputusan Modul Indeks Lelabah Modul Himpunan Analisis Enjin kueri Modul Kawalan Lelabah pemangkatan Indeks: kemudahan struktur teks Maklumbalas pengguna Senibina Enjin Carian (Arasu et. al 2001) 47

WWW Sumber dari WWW dimuat turun oleh lelabah (agen) Aktiviti penjelajahan dikawal oleh Modul

WWW Sumber dari WWW dimuat turun oleh lelabah (agen) Aktiviti penjelajahan dikawal oleh Modul Kawalan Lelabah (MKL) MKL tentu URL akan dilawat dan beri URL kepada lelabah Tugas lelabah sebenarnya ditentu oleh pembangun Lelabah Modul Kawalan Lelabah 48

WWW Repositori laman klien kueri keputusan Modul Indeks Lelabah Modul Himpunan Analisis Enjin kueri

WWW Repositori laman klien kueri keputusan Modul Indeks Lelabah Modul Himpunan Analisis Enjin kueri Modul Kawalan Lelabah pemangkatan Modul Indeks: • kemudahan Modul Indeks berperanan mendapatkan struktur teks semua perkataan dalam laman web yang dimuat turun oleh lelabah Maklumbalas pengguna • Merekod URL bagi perkataan berkaitan (URL halaman berkaitan) 49

WWW Repositori laman klien kueri keputusan Modul Indeks Lelabah Modul Himpunan Analisis Enjin kueri

WWW Repositori laman klien kueri keputusan Modul Indeks Lelabah Modul Himpunan Analisis Enjin kueri Modul Kawalan Lelabah pemangkatan Indeks: kemudahan struktur teks Maklumbalas pengguna 50

Modul Kueri WW W Terima kueri dari pengguna dan cari maklumat dari indeks dan

Modul Kueri WW W Terima kueri dari pengguna dan cari maklumat dari indeks dan kadang 2 dari repositori laman Repositori laman klien kueri keputusan Modul Indeks Lelabah Modul Himpunan Analisis Enjin kueri Modul Kawalan Lelabah pemangkatan Indeks: kemudahan struktur teks Maklumbalas pengguna 51

WWW Repositori laman Modul Pemangkatan Menyusun keputusan berdasar enjin kueri kepada maklumat paling Modul

WWW Repositori laman Modul Pemangkatan Menyusun keputusan berdasar enjin kueri kepada maklumat paling Modul hampir dengan Modul Himpunan Indeks Analisis pengguna. Lelabah Modul Kawalan Lelabah klien kueri keputusan Enjin kueri pemangkatan Indeks: kemudahan struktur teks Maklumbalas pengguna 52

Enjin Gelintar Empat komponen Asas • Pangkalan data rujukan kepada laman web • Robot

Enjin Gelintar Empat komponen Asas • Pangkalan data rujukan kepada laman web • Robot pengindeksan yang mejelajah WWW • Antaramuka • Membolehkan pengguna untuk hantar kueri • Memaparkan hasil yang diperolehi • Sistem Capaian Maklumat 53

Pangkalan Data l l n Pangkalan data ialah koleksi maklumat yang terindeks yang dikumpul

Pangkalan Data l l n Pangkalan data ialah koleksi maklumat yang terindeks yang dikumpul oleh robot. Robot akan merekodkan semua maklumat yang diindekskan dalam pangkalan data yang mungkin merangkumi alamat laman web, tajuk, header, sebutan, saiz atau mungkin keseluruhan teks. Pangkalan data boleh menyimpan sehingga berjuta maklumat dalam laman web. Sesetengah enjin gelintar mempunyai lebih daripada satu pangkalan data. Enjin gelintar berbeza dari segi kekerapan dan metod dalam mengemaskini pangkalan data. 54

Robot l l l Juga dipanggil “web wanderers”, “web crawlers”, dan “spider” Robot yang

Robot l l l Juga dipanggil “web wanderers”, “web crawlers”, dan “spider” Robot yang menjejaki laman menerusi hiperlink untuk mencari, mengumpul, mengindeks, dan memeriksa dokumen dan dimasukkan ke dalam pangkalan data Merekod data yang dijumpai • Perkataan pada laman web • Metadata • Atribut ALT pada IMG tags Program ini berinteraksi berdasarkan Hyper. Text Transfer Protocol (HTTP) untuk mencapai dokumen daripada pelayan-pelayan (servers) Robot Exclusion Protocol http: //www. robotstxt. org/wc/exclusion. html 55

Robots Exclusion l Sometimes people find they have been indexed by an indexing robot,

Robots Exclusion l Sometimes people find they have been indexed by an indexing robot, or that a resource discovery robot has visited part of a site that for some reason shouldn't be visited by robots. In recognition of this problem, many Web Robots offer facilities for Web site administrators and content providers to limit what the robot does. This is achieved through two mechanisms: l The Robots Exclusion Protocol A Web site administrator can indicate which parts of the site should not be vistsed by a robot, by providing a specially formatted file on their site, in http: //. . . /robots. txt. l The Robots META tag A Web author can indicate if a page may or may not be indexed, or analysed for links, through the use of a special HTML META tag. 56

Robot l l Robot akan sentiasa meneliti internet, secara otomatik akan menjejaki dokumen baru

Robot l l Robot akan sentiasa meneliti internet, secara otomatik akan menjejaki dokumen baru atau yang diupdate dan menyingkirkan dokumen yang bertindih, yang tidak aktif atau yang telah dimansuhkan. Strategi yang dilakukan oleh robot ketika “berjalan” dalam WWW menentukan kuantiti dan kualiti maklumat yang dicapai untuk pangkalan data. 57

Antaramuka Enjin Gelintar l l l Menghimpun input dari pengguna Memaparkan keputusan dari sistem

Antaramuka Enjin Gelintar l l l Menghimpun input dari pengguna Memaparkan keputusan dari sistem IR • Kebiasaan dalam bentuk pangkatan Input • Keperluan pengguna • Ungkapan penggelintaran, had penggelintaran • Bentuk “Presentation” • Format “presentation” , Jenis penggelintaran 58

Antaramuka Enjin Gelintar l Output • Keputusan / hasil • Descriptions • Clusters 59

Antaramuka Enjin Gelintar l Output • Keputusan / hasil • Descriptions • Clusters 59

Pemadanan Term Gelintaran l l Cuba mendapatkan padanan pada pangkalan data Dua kaedah utama

Pemadanan Term Gelintaran l l Cuba mendapatkan padanan pada pangkalan data Dua kaedah utama • Gelintar menggunakan katakunci • Padanan satu term, menggunakan “cosine” • Gelintar berasaskan konsep (concept-based) • Menilai gugusan perkataan (clusters of words) • Cuba tentukan maksud kueri dan dapatkan rekod berdasarkan maksud tersebut. 60

Asas Ciri-ciri IR l Operator Boolean • AND, OR, NOT, grouping l Extended operators

Asas Ciri-ciri IR l Operator Boolean • AND, OR, NOT, grouping l Extended operators • NEAR, ADJACENT (") l Analisa Leksikal Pembuangan katahenti Cantasan Pengindeksan Maklumbalas berkaitan l l 61

Pemangkatan Output l Kebanyakan SE memangkat senarai menggunakan peraturan : • Perkataan awal lebih

Pemangkatan Output l Kebanyakan SE memangkat senarai menggunakan peraturan : • Perkataan awal lebih penting • Tajuk sangat penting • Kekerapan keujudan term • Perkataan tak kerap ujud kadang 2 lebih penting • Tarikh pengubahsuaian l Google berbeza: • Kaedah Page. Rank. TM berdasarkan kepada kemashuran (popularity) 62

Sistem Capaian Maklumat l Pengumpulan Dokumen l Pengindeksan l Pencarian l Pengurusan Dokumen dan

Sistem Capaian Maklumat l Pengumpulan Dokumen l Pengindeksan l Pencarian l Pengurusan Dokumen dan Kueri 63

Perbezaan enjin gelintar untuk internet dan sistem capaian maklumat a) Pemangkatan output (ranking output)

Perbezaan enjin gelintar untuk internet dan sistem capaian maklumat a) Pemangkatan output (ranking output) l Kaedah memberati sebutan yang unik. l Enjin gelintar sentiasa memeriksa (keep track) bilangan kekerapan sebutan dalam setiap laman web, dan kedudukan sebutan dalam dokumen juga dipertimbangkan dalam proses pemangkatan. 64

b) Keluasan pangkalan data l Pangkalan data internet terdiri daripada pelbagai sumber maklumat (cth.

b) Keluasan pangkalan data l Pangkalan data internet terdiri daripada pelbagai sumber maklumat (cth. http, ftp, gopher dll) yang biasanya diterbitkan tanpa sebarang pengadilan, tapisan. Oleh itu maklumat yang dicapai tidak dijamin kualitinya. l Sebaliknya, dokumen yang terkandung di dalam pangkalan data secara on-line (on-line database), CDROM adalah lebih tinggi kualitinya dan lebih tersusun. 65

c) Medan yang diindeks l Kebanyakan maklumat yang disimpan di dalam on-line database dan

c) Medan yang diindeks l Kebanyakan maklumat yang disimpan di dalam on-line database dan CD-ROM diindeks berdasarkan kepada set perbendaharan kata (controlled vocabularies) atau thesauri. Medan yang diindeks seperti subjek, katakunci, penulis, tajuk atau organisasi ditentu atau dipilih oleh manusia. l Sebaliknya, dokumen web dilokasikan diindekskan oleh robot tanpa sebarang keterlibatan daripada manusia. Medan yang diindekskan mengandungi elemen yang berbeza termasuk juga: URL, title, header, tarikh dan saiz. Setiap robot mempunyai strategi tersendiri dalam pengindeksan. 66

d) Teknik Penggelintaran l Capaian maklumat dalam internet ialah berdasarkan grafik dan penunjuk tetikus,

d) Teknik Penggelintaran l Capaian maklumat dalam internet ialah berdasarkan grafik dan penunjuk tetikus, berbeza dengan sistem capaian maklumat biasa yang berorientasi teknik query. l Penggelintaran dalam laman web melibatkan penyusuran melalui penunjuk (link) antara hiperteks yang menggalakkan browsing tetapi boleh menimbulkan kekeliruan. l Pengoperasi untuk menaksirkan query atau sintaks juga berbeza. 67

e) Antaramuka dan Pilihan Output l Enjin gelintar untuk internet menawarkan berbagai antaramuka. Contoh:

e) Antaramuka dan Pilihan Output l Enjin gelintar untuk internet menawarkan berbagai antaramuka. Contoh: Alta. Vista menawarkan 2 antaramuka: penggelintaran mudah atau query lanjutan. 68

Perbezaan enjin gelintar untuk internet dan sistem capaian maklumat (samb…) Sistem Maklumat Klasikal Enjin

Perbezaan enjin gelintar untuk internet dan sistem capaian maklumat (samb…) Sistem Maklumat Klasikal Enjin Gelintar Web Kelajuan Masa tindakbalas yang interaktif Precision (Kejituan) Kejituan hasil yang dipaparkan pada laman pertama Recall (panggil semula) Dapat sebanyak mungkin laman kaya maklumat, called authority dan hub pages Perbandingan pengukuran pencapaian diantara sistem maklumat klasikal dan enjin gelintar web 69