BBY 428 Metin Analitii Prof Dr Tlay Ouz
BBY 428 Metin Analitiği Prof. Dr. Tülay Oğuz
GÖVDELEME • Sözcük gövdeleri + sonekler yapısal/biçimsel varyasyonlar • Kütüphane -ler biçimsel • -ci yapısal Temel Problemler • Anlamca ilgili, biçimsel olarak farklı imkan, olanak (eş/zıt anlamlılar sözlüğü) • Anlamca farklı, biçimsel olarak aynı yaz (isim) yaz (fiil)
GÖVDELEME • Amaç: Dizinleme: Aynı gövdeye sahip terimleri tek bir gövdede birleştirmek Dizin girişleri azaltılmış olur Dizin: Dokümanı temsil eden dizin terimlerinin azalması dizinin boyutunu küçültür. Dizinin kapladığı depolama alanını ve dizinde arama zamanını azaltır. Erişim: Dok-sorgu terimlerinin eşleşmesini sağlamayı ve recall’u artırmayı amaçlar
GÖVDELEME • Algoritma: Sözcük gövdesine bitişen eklerin budanması Burada belirli kurallar uygulanır, sonek listesi kullanılır, tekrarlayıcıdır. • Yaklaşımlar Dört yaklaşım vardır. 1 - Tabloda Arama: Terimler ve gövdeleri bir tabloda tutulur; hem dizinleme hem de erişim için kullanılır.
GÖVDELEME 2 - Soneklerin Çıkarılması 3 - Harflerin Görünüm Sıklığına Bakma: Test edilecek sözcükte belirli bir karakter sayısı esas alınır ve bundan sonraki harf varyasyonlarına bakılır; harflerin görünüm frekansı hesaplanır; en yüksek frekans belirlenir; sözcüğün biçimsel yapısı bulunmaya çalışılır. 4 - N-gram: Harf /sözcük düzeyinde yapılabilir; n tane ardışık gelen harf ya da sözcüğe bakar.
Lovins Algoritması • Sözcüklerin yapım ve çekim eklerinden arındırılarak ortak bir gövdede birleştirilmesini sağlar. • Gövde elde edilirken eklerin tutarlı biçimde çıkarılması önemlidir. Bunun için kurallar geliştirilmiştir. Tekrarlayıcı bir süreçtir.
Lovins Algoritması • İki aşamalı gövdeleme uygulanmıştır. 1. Aşama: En Uzun Eşleşme (longest match): En uzun ekten başlayarak budama yapmak. (-ation, -ion) Sonek listesinde ekler, azalan uzunluklarına göre ve kendi içlerinde alfabetik olarak sıralanır.
Lovins Algoritması • 2. Aşama: İstisnai yazım biçimleri ile ilgilidir. Budamadan sonra elde edilen iki gövdenin aynı anlamı taşımalarına rağmen farklı yazım biçimlerinden dolayı aynı gövdede birleşmemesidir. • Bu tür durumlar için yeniden kodlama uygulanır. Örn: absorpt (-ion ) absorb (-ing) production producer inputting.
Lovins Algoritması • Bağlam duyarlılık: Bazı eklerin belirli koşullarda çıkarılmaması gerekir. Bu amaçla kurallar tanımlanır. ability computability directorate create kiler seen sea seize
Lovins Algoritması • Sonek Listesinin oluşturulması: – Tek sınıflı sonek listesi kullanılır; – 260 sonek 11 altkümeye bölünür. ; – Ekler, azalan uzunlukları uyarınca depolanır; kendi içlerinde alfabetiğe sokulur; – Her sonek için başlık (uzunluk bilgisi) koşul kodu (alfabenn bir harfi olup bağlamsal sınırlılığı gösterir; ) geri taşıma sınırlılığı
Porter Algoritması • Tekrarlama (iteration) • Sözcük + ek 3 + ek 2 + ek 1 ……ekler belirli bir sıra izleyerek sözcükle bitişir. • Dolayısıyla sonek sınıfları vardır. Bunlara sıralı sınıflar denir. • Tek bir sınıf içinde birden fazla eşleşme olmaz. • İngilizce için en son sıra sınıfta –s, -ed, -es ekleri bulunur. • İstisnai durumlar da vardır: Fiilden türetilmiş sıfatlarda görülür.
Porter Algoritması • Related (-ness) willing(-ness) disintrest (-ed) (--ness) Porter orijinal çalışmasında 60 sonek, 2 yeniden kodlama kuralı ve tek tip bir bağlam duyarlılık kuralı kullanmıştır • Tekrarlamada sorun, ne kadar sıra sınıf olacak? herbir sıra sınıfta hangi ekler yer alacak? Bir sıra sınıfın elemanları nasıl sıralanacak?
Yararlı Linkler • 2 - 4 - Word Normalization and Stemming - Stanford NLP - Professor Dan Jurafsky • http: //www. youtube. com/watch? v=2 s 7 f 8 m. Bwnko • NGram Viewer and Discussion Boards • http: //www. youtube. com/watch? v=5 Ow. UACj. BCh. A • Google N Gram Viewer • http: //www. youtube. com/watch? v=N 6 P 0 TYx 5 -sw • What we learned from 5 million books • http: //www. youtube. com/watch? v=5 l 4 c. A 8 z. Sre. Q
- Slides: 13