Bilgi Eriim lkeleri Tarihe Yaar Tonta Hacettepe nivrsitesi
Bilgi Erişim İlkeleri: Tarihçe Yaşar Tonta Hacettepe Ünivrsitesi Bilgi ve Belge Yönetimi Bölümü DOK 324 / BBY 220: Bilgi Erişim İlkeleri
Plan • Bilgi Erişimin tarihi
Dersin Amacı • Bilgi Erişim modelleri hakkında temel kuramsal bir anlayış geliştirmek – Boole – Vektor uzayı – Probabilistik • Bilgi Erişimin belli başlı uygulama alanlarını incelemek: – Metin kategorizasyonu ve kümeleme – Çoklu dilde erişim – Metin özetleme • Bilgi Erişim performansının nasıl ölçüldüğünü anlama – Anma/Duyarlık – İstatistiksel önem • Bilgi Erişim sistemleriyle ilgili pratik bilgi edinme
Giriş • Bilgi Erişimin (BE) amacı belli bir bilgi İhtiyacı Olan belli bir kullanıcı için bir dermedeki tüm “ilgili” belgelere ve sadece “ilgili” belgelere erişmektir. – İigililik BE kuramında is a central concept in IR theory • Web’deki bütün belgeler “derme”yi oluşturduğunda bir BE sistemi nasıl çalışır? – Web arama motorları geleneksel BE modelleri üzerinde stres testi uygulanmasını sağlıyor
Bilgi Erişim • Amaç büyük belge dermelerini (milyonlarca belge) arayarak kullanıcının bilgi ihtiyacını karşılayan az sayıda belgeye erişmek • Örnekler: – Internet arama motorları – Dijital kütüphane katalogları • BE’de bazı uygulama alanları – – Çok dilde erişim Konuşma/yayın erişimi Metin kategorizasyonu Metin özetleme • BE kalitesi nesnel test ve değerlendirmeye tabi – Yüzlerce sorgu – Milyonlarca belge
BE’nin Kökenleri • İletişim kuramı • Anlamın iletilmesiyle ilgili sorunlar Mesaj Kaynak Kodlama Kod çözme Hedef Kanal Gürültü Mesaj Kaynak Mesaj Kodlama (yazma/dizinleme) Depolama Kod çözme (Erişim/Okuma) Hedef
Bilgi Erişim Sisteminin Bileşenleri Belgeler Yetkili dizinleme kuralları Kullanıcının Bilgi ihtiyacı Dizin kayıtları ve Belgeyi temsil eden kayıtlar Dizinleme süreci ciddi bilgi kaybı Sorgu Tanımlama süreci Sorgu Erişim süreci Erişim Kuralları Kullanıcının bilgi ihtiyacıyla ilgili Belge listesi UC DATA: Data Archive & Technical Assistance University of California, Berkeley 04/07/98 Fredric C. Gey 9
BE Sisteminin yapısı Arama hattı Interest profiles & Queries Tanımlayıcı terimlerle Sorgu oluşturma Bilgi depolama ve erişim sistemi Oyunun kuralları = Konu kataloglaması kuralları + Gömü (Yeğlenen Sözdağarı Ve dizinleme dilini içerir Profillerin depolanması Depo 1: Profiller/ Arama sorguları Belgeler ve veriler Arama hattı Dizinleme (Tanımlayıcı ve konu) Belge deposu Karşılaştırma/ Eşleştirme Depo 2: Belge temsilleri Adapted from Soergel, p. 19 Potansiyel ilgili belgeler
Yönlendirme Erişimin Kavramsal Görünümü Yakalama motoru Belge Akışı UC DATA: Data Archive & Technical Assistance University of California, Berkeley 04/07/98 Fredric C. Gey 11
“Ad-hoc” erişimin kavramsal görünümü Q 1 Q 2 Q 3 Qn Q. Q 4 Derme Q. Q 5 Q. Q 6 Q. Q 9 Q 8 Q 7 ‘Sabit’ derme büyüklüğü, ayarlanabilir UC DATA: Data Archive & Technical Assistance University of California, Berkeley 04/07/98 Fredric C. Gey 12
Bilgi Erişim Tarihi • BE tarihi – Erken BE – – 2. Dünya Savaşı ertesi “bilgi patlaması”nın rolü “Bilgi Erişim” teriminin ilk kullanımı, 1952 C. Mooers. Bilgisayarsız BE (1950’lerin ortası) 1950’lerden başlayarak bilgisayara dayalı BE’ye ilginin artması • • H. P. Luhn, IBM (1958) Probabilistik modeller (Maron & Kuhns, 1960) Lockheed’de Boole sisteminin geliştirilmesi (1960’lar) Vektor Uzayı Modeli (Salton, Cornell Üniv. 1965) İstatistiksel ağırlıklandırma yöntemleri (‘ 70 s) Uygulamalardaki gelişmeler ve inceltmeler (’ 80’ler) Büyük ölçekli test ve uygulamalar (’ 90’lar)
Kökenleri • İçerik temsilinin erken dönem tarihi – Sümerlerdeki jetonlar ve “zarflar” – Alexandria - pinakes – İndisler
Kökenleri • İncil dizinleri ve konkordanslar – 1247 – Hugo de St. Caro – İncil’e anahtar sözcük konkordansı hazırlatmak için 500 din adamı çalıştırdı • Dergi dizinleri • 2. Dünya Savaşı ertesi “Bilgi Patlaması” – Cranfield Dizin dilleri ve BE araştırmaları
BE Sistemleri vizyonları • Paul Otlet, 1930’lar • Emanuel Goldberg, 1920’ler - 1940’lar • H. G. Wells, “World Brain: The idea of a permanent World Encyclopedia. ” 1937 (Introduction to the Encyclopedie Francaise) • Vannevar Bush, 1945 “As we may think” Atlantic Monthly
Karta dayalı BE sistemleri • Uniterm (Casey, Perry, Berry, Kent: 1958 – 1940’ların ortalarından itibaren geliştirildi ve kullanıldı) LUNAR 110 181 430 241 820 761 901 EXCURSION 90 241 52 130 281 92 640 122 870 342 12 42 602 982 73 113 233 44 74 134 194 15 85 95 165 63 83 93 46 76 136 34 44 104 7 17 37 127 377 407 25 75 115 12457 28 78 118 198 288 66 86 146 39 79 109 17 57 97 157 207 43821 58 49 88 119 158 139 178 199 248 269 298
Kart sistemleri • Batten Optik Rastlantı kartları (“Peek-a. Boo Cards”), 1948 Excursion Lunar
Kart sistemleri • Zatocode (delikli kartlar) Mooers, 1951 Document 1 Title: lksd ksdj sjd sjsjfkl Document Author: Smith, 200 J. Title: lksf Xksd Lunar sjd sjsjfkl Abstract: uejm jshy Author: Jones, ksd jh uyw hhy jha R. jsyhe Abstract: Lunar uejm jshy ksd jh uyw hhy jha jsyhe Document 34 Title: lksd ksdj sjd Lunar Author: Smith, J. Abstract: lksf uejm jshy ksd jh uyw hhy jha jsyhe
Bilgisayara dayalı sistemler • Bagley’nin master tezinde (MIT, 1951) her biri 30 dizin terimi içeren 50 milyon kayıt dermesinde yapılacak bir aramanın 41. 700 saat alacağı öngörüldü – Karşılaştırmaları yaparken ana bellekte metni hareket ettirmekten dolayı • 1957 – Desk Set, Katharine Hepburn ve Spencer Tracy – EMERAC
BE Araştırmalarındaki önemli tarihler 1958 1960 1961 1965 1968 1972 1975 1976 1980 1981 Dilin istatistik özellikleri (Luhn) Probabilistik dizinleme (Maron & Kuhns) Term ilişkilendirme ve kümeleme (Doyle) Vektör Uzayı modeli (Salton) Sorgu genişletme (Roccio, Salton) İstatistiksel ağırlıklandırma (Sparck-Jones) 2 -Poisson Modeli (Harter, Bookstein, Swanson) İlgililik ağırlıklandırma (Robertson, Sparck-Jones) Bulanık setler (Bookstein) Eğitimsiz olasılık (Croft) UC DATA: Data Archive & Technical Assistance University of California, Berkeley 1/23/2022 Fredric C. Gey 2
BE Araştırmalarındaki önemli tarihler (devamla) 1983 1985 1987 1990 1991 1992 1994 Doğrusal regresyon (Fox) Probabilistik Bağımlılık (Salton, Yu) Genel Vektör Uzayı Modeli (Wong, Rhagavan) Bulanık Mantık ve RUBRIC/TOPIC (Tong, et al) Gizli Anlam Dizinleme (Dumais, Deerwester) Polinom ve Logistik Regresyon (Cooper, Gey, Fuhr) TREC (Harman) Çıkarım ağları (Turtle, Croft) Sinir ağları (Kwok) UC DATA: Data Archive & Technical Assistance University of California, Berkeley 1/23/2022 Fredric C. Gey 3
Bibliyografik Veri Tabanlarının Gelişmesi • Chemical Abstracts Service “Chemical Titles” adlı yayını ilk defa bilgisayarla üretti (1961) • Aynı yıl Amerikan Ulusal Tıp Kütüphanesi (NLM) Index Medicus’un MEDLARS veri tabanını üretti • 1970’e gelindiğinde çoğu ikincil yayınlar (dizin ve öz dergileri) makineyle üretilmeye başlandı
Boolean BE Sistemleri • • SDC’de Synthex, 1960 MI’te MAC projesi, 1963 (etkileşimli) SDC’de BOLD, 1964 (Harold Borko) 1964 New York Dünya Fuarı – Becker ve Hayes soru yanıtlayan sistem geliştirdiler (havayolu rezervasyon) SDC 1967’de ticari bir hizmet başlattı – ORBIT NASA-RECON (1966) DIALOG adını aldı 1972 Data Central/Mead LEXIS – tam metin veri tabanını üretti Çevrimiçi kataloglar – 1970’ler ve 1980’ler
Deneysel BE Sistemleri • Probabilistik dizinleme – Maron ve Kuhns, 1960 • SMART – Gerard Salton (Cornell Üniv. ) – Vektör uzayı modeli, 1970’ler • SIRE (Syracuse Üniv. ) • I 3 R – Croft • TREC -- 1992
Internet ve WWW • Gopher, Archie, Veronica, WAIS • Tim Berners-Lee, 1991’de CERN’de WWW’yi yarattı– Orijinali sadece hipermetindi • Web-örümcekleri • Lycos • Alta Vista • Inktomi • Google
BE – Tarihsel Bakış Araştırma • Boole modeli, dilin istatistiği (1950’ler) • Vektör uzayı modeli, probablistik dizinleme, ilgililik geribildirimi (1960’lar) • Probabilistik sorgulama (1970’ler) • Bulanık mantık, kanıta dayalı muhakeme (1980’ler) • Regresyon, sinir ağları, çıkarım ağları, gizli anlam dizinleme, TREC (1990’lar) 1/23/2022 Endüstri • DIALOG, Lexus-Nexus, • STAIRS (Boole mantığına dayalı) • Bilgi endüstrisi • Verity TOPIC (bulanık mantık) • Internet arama motorları (Vektör uzayı, probabilistik)
BE Araştırma Kaynakları ACM Transactions on Information Systems Am. Society for Information Science & Technology Journal Document Analysis and IR Proceedings (Las Vegas) Information Processing and Management (Pergammon) Journal of Documentation SIGIR Conference Proceedings TREC Conference Proceedings UC DATA: Data Archive & Technical Assistance University of California, Berkeley 04/07/98 Fredric C. Gey 7
Araştırma Sistemleri Yazılımı • INQUERY (Croft) • OKAPI (Robertson) • PRISE (Harman) -http: //potomac. ncsl. nist. gov/prise • SMART (Buckley) • CHESHIRE (Larson) • http: //cheshire. lib. berkeley. edu UC DATA: Data Archive & Technical Assistance University of California, Berkeley 04/07/98 Fredric C. Gey 8
- Slides: 27