Bilgi Tanmlama Dizinleme zetleme Snflama vd Yaar Tonta
Bilgi Tanımlama, Dizinleme, Özetleme, Sınıflama vd. Yaşar Tonta Hacettepe Üniversitesi tonta@hacettepe. edu. tr yunus. hacettepe. edu. tr/~tonta/ DOK 324/BBY 220 Bilgi Erişim İlkeleri
Plan • • Dizinleme Sınıflama Özetleme Diğer Yöntemler Metadata Tam metin Çoklu ortam bilgi
Bilgi Erişim Sorunları Belge nedir ve boyu nasıl hesaplanır? Bu belge ne hakkındadır? Bu sorgu ve belge aynı şey hakkında mıdır? Bu belge verilen sorgu ile ilgili midir? Bu belge sisteme sunulan bilgi ihtiyacı ile ilgili midir? Bu belge ne kadar ilgilidir? Bu veritabanı verilen sorgu ile ilgili midir? Bu resim ne hakkındadır?
Metin-Tabanlı (Dil) Teknolojiler ØBilgi Erişim (BE) ØSoru Yanıt (SY) ØBilgi Çıkarma ØBilgi Süzme ØUlamlama (Kategorizasyon) ØÖzetleme ØKonu Algılama ve İzleme (KAİ) ØMakine Çevrimi ØSes Tanıma
Bilgi Erişime İşlevsel Bakış
Belge İşleme ve Gösterimi Ø Ön işlem: Noktalama işaretlerinin kaldırılması ve daha sonra durma listesinde bulunan kelimelerin belgeden ayıklanması. Ø Gövdeleme: bir kelimeden yapım eklerinin korunup çekim eklerinin atılması. Ø Belge Gösterimi için içerik terimleri ve onların göreceli ağırlıkları. Bir terimin ağırlığı onun belge içindeki sıklığı ile doğru, fakat derlem sıklığı ile ters orantılıdır.
Bilginin Tanımlanması • Erişim için tanımlama şart • Özgün belgelerden erişim mümkün değil
Dizinleme • Entellektüel • Otomatik • Hipermetin ortamında dizinleme
Dizinler Ø Dizin ne içermelidir? Veri tabanı sistemi asıl ve ikincil anahtarları dizinler. • BE Problemi: anahtarları kestirebilmek? • Çözüm: İçerik terimleri. Ø Zipf Kanunu: Terimlerin dağılımı ve sıraları arasındaki ilişki sabit bir değere yakınsar. Ø İçerik terimlerin göreceliği ağırlığı ne olmalıdır? • Sıklık Modeli: Terim sıklığı? Belge sıklığı? • Ayrımsama Modeli: belge uzayının yoğunluğunu azaltan terim iyi bir terimdir. • Dil modeli: Belgenin sözkonusu terimi üretme olasılığı ile derlemin üretme olasılığı arasındaki doğrusal ilişki ağırlığı belirler.
Zipf Kanunu
Kümeleme Modeli
Sınıflama • • LCC, DDC Kapsamlı Birbirini dışlayan Taksonomi
Özetleme • Özler • Özetler • Alıntılar (Extracts)
Diğer Tanımlama Yöntemleri • Atıflar • Diziler (PRECIS, NEPHIS)
Özet Kaynak: Chu, s. 34)
Metadata • Dublin Core (DC) – E-kaynaklar için basit içerik tanımlama modeli • Resource Description Format (RDF) – Metadata kodlama, modelleme ve değişim alt yapısı
Tam metin • Serbest metin • Dur listesi • Güçlükler
Çoklu ortam • Türleri • Tanıma dayalı • İçeriğe dayalı Çoklu ortam Ses Müzik Sesli belgeler Açıklamalar Metin Görüntü Altlıklar Alt başlıklar Hareketsiz Hareketli Animasyonlar Sessiz filmler Videolar filmler Kaynak: Chu, s. 43)
Sorgu İfadesi Ø 2 temel sorgu dili türleri • Boole, yapılı • Serbest metin Ø Bir çok sistem birisini ya da her ikisini birden desteklemektedir. Ø Sorgu ifadesinin oluşturulmasında kullanıcı arayüzü önemlidir. ØSorgu ifadesinin oluşturulması için araçlar • Sorgu işleme ve ağırlıklandırma • Sorgu genişletme • Sözlükler ve eşanlamlı sözlük • İlgililik geri bildirme
Sorgu İşleme Ø Sorgu işleme adımları otomatik belge Ødizinlemeninkilere çok benzemektedir. • Durma Kelime Listesi farklı olabilir • Metin daha az gramatik ve kısa olabilir Ø Kullanıcı etkileşimi mümkün ve istenebilir Ø Sorgu-tabanlı gövdeleme ve durma kelimeleri Ø Diğer olası adımlar • Tamlamaların tanınması • Negatiflerin tanınması • İlgili kelimelerle sorguların genişletmesi
Erişim Modelleri Boole model kesin eşleştirme yaklaşımına dayanmaktadır. • Sorgular belge özelliklerini işlenenler olarak kabul eden mantık ifadeleridir. • Geri getirilen belgeler genelde sıralanmaz. • Acemi/Tecrübesiz kullanıcılara Boole sorgu ifadesi zor gelebilir. • Boole bilgi erişim modeli ile Boole sorguları birbirlerinden ayırma gereksinimi • Saf Boole işleçleri: VE, VEYA, VE DEĞİL • Birçok sistem uzaklılık işleçlerine sahiptir • Birçok sistem basit düzenli ifadeleri desteklemektedir
Vektör Uzayı Bilgi Geri Erişim Modeli Ø Belge, terimlerin bir vektörü olarak gösterilir. Ø Sorgu, serbest metin veya terimlerin bir vektörü olarak gösterilir. Øİki vektör arasındaki açı benzerlik ile ters orantılıdır. Ø Belgeleri sorguya benzerliklerine göre sıralar.
Konu Algılama ve İzleme (KAİ) n Haber yayınlarının izlenerek yeni ve ilginç bir haber olduğunda ilgililerin uyarılmasını sağlayacak teknolojilerin geliştirilmesi. n Amerika İleri Savunma Araştırma Projeleri (DARPA), n Ulusal Standartlar ve Teknoloji Enstitüsü(NIST) tarafından desteklenen İlk çalışmalar 1997 yılında başlamıştır.
İlk Hikaye Algılama NBC NPR El Mundo ABC AP Sisteme yeni bir hikaye ulaştığında bunun tartıştığı konunun daha önceden tanımlanmış konularla ilgili değilse, yeni bir konu olduğunun belirlenmesi.
Küme Algılama NBC NPR El Mundo ABC AP. . . Gelen hikaye bir ilk hikaye değilse ilgili kümeye yerleştirir, eğer ilk hikaye ise bunun için yeni bir küme oluşturur (özellikler vektörünü kullanır).
Haber İzleme NBC NPR El Mundo ABC AP Haber kaynaklarından sisteme gelen haberleri değerlendirerek, bu haberlerin daha önceden belirlenmiş olan konularla ilgili olup olmadıklarını araştırır.
Hikaye Bağlantı Algılama NBC NPR CNN ABC AP ? ? ? Sisteme ulaşan iki farklı hikayenin aynı konuyu tartışıp tartışmadıklarını anlamayı amaçlar.
- Slides: 27