VER KMELEME ALGORTMALARININ PERFORMANSLARI ZERNE KARILATIRMALI BR ALIMA
VERİ KÜMELEME ALGORİTMALARININ PERFORMANSLARI ÜZERİNE KARŞILAŞTIRMALI BİR ÇALIŞMA Mustafa Seçkin DURMUŞ Serdar İPLİKÇİ E. E. M. KONTROL KUMANDA A. B. D.
Konular : 1. Veri Madenciliği (Data Mining) 2. Kümeleme (Clustering) 3. Gerçeklenen Algoritmalar 4. Sonuçlar ve Yorumlar 2
1. Veri Madenciliği (Data Mining) n n n Veri Madenciliği büyük miktarda veri içinden; Bilgi’nin aranmasıdır. Veri → VERİ ANALİZİ → Bilgi Bu da; KÜMELEME, veri özetleme, değişikliklerin analizi, sapmaların tespiti, karar ağaçları gibi belli sayıda teknik yaklaşımları içerir. 3
Dikkat n VERİNİN ÖNEMİ: n UZMANIN ÖNEMİ: n SABRIN ÖNEMİ: 4
2. Kümeleme (Clustering) § § Öğreticisiz Öğrenme (Unsupervised Learning). Amaç, elemanların birbirlerine çok benzediği, ancak özellikleri birbirlerinden çok farklı olan kümelerin bulunması ve veri tabanındaki kayıtların bu farklı kümelere (gruplara) bölünmesidir. 5
Peki Nasıl Yapılıyor…? (Verilerin Toplanması) § Seçilen herhangi bir ilgi alanına göre ölçümler yapılarak öznitelikler belirlenebilir. § 3 farklı çiçek türü § Her tür için 50 örnek (sample) § Her örnek için 4 öznitelik (feature) Iris Setosa Iris Versicolor Iris Virginica 6
Peki Nasıl Yapılıyor…? (Uzaklıkların Hesaplanması ve Yakınlık Matrisinin Oluşturulması) § Öklit Uzaklık Ölçütü § Manhattan Uzaklık Ölçütü § Supremium Uzaklık Ölçütü 7
4. Gerçeklenen Algoritmalar 4. 1. En Yakın Komşu (Nearest Neighbor) 4. 2. Karşılıklı Komşuluk Değeri (Mutual Neighborhood Value) 4. 3. Minimum Tarama Ağacı (Minimum Spanning Tree) 4. 4. Delaunay Üçgen (Delaunay Triangulation) Metodu 4. 5. Gabriel Çizgeleri (Gabriel Graphs) 4. 6. Bağıl Komşuluk Çizgesi (Relative Neighborhood Graph) 4. 7. Destek Vektörleri (Support Vectors) 8
4. 1. En Yakın Komşu (Nearest Neighbor) § Her nokta kendisi ile en yakın kümeye yerleştirilmelidir. § Eşik değeri (threshold - t), yeni bir komşuyu veya yeni bir kümeyi belirler. § Tüm noktalar herhangi bir kümeye yerleştirilinceye kadar işlemlere devam edilir. 3 4 5 5 1. Küme 2. Küme 1 2 6 3. Küme 9
4. 2. Karşılıklı Komşuluk Değeri (M. N. V. ) n Tüm noktalar için karşılıklı en yakın komşuluk değerleri (MNV) belirlenir. n Eşik değeri yerine en yakın komşu sayısı (k) belirlenir. n 3 n n 4 n 5 2 1 2’nin en yakın 3. komşusu 5. 5’in en yakın 3. komşusu 2. MNV(5, 2) = MNV(2, 5) = 3 + 3 = 6 MNV = 2, 3, … 2 k için kümeler oluşturulur. 2 6 3 2 k 10
4. 3. Minimum Örten Ağaç (M. S. T. ) n İki nokta arasındaki uzaklık = ağırlık n Ağırlıklar toplamı en küçük olan ağaç seçilir. n Eşik değerinden büyük ağırlığa sahip dallar ağaçtan kaldırılır. n Eşik değeri yerine uyuşmayan kenar (inconsistent edge) seçimi ile de kümeler belirlenebilir. 6 4 3 1 Eşik değerinden büyük değerler kaldırılıyor 5 8 2 7 9 1. Küme 2. Küme 3. Küme 11
4. 4. Delaunay Üçgen Metodu (D. T. ) § Voronoi Diyagramı (Dirichlet Mozaiği) § Uygulamaların çoğu sadece iki boyutlu veriler için yapılmıştır. § Sınır – Kenar ilişkileri göz önünde bulundurulmaktadır. Çizge yapısı bu ilişkilere göre belirlenmektedir. § Çizge yapısını oluşturan farklı algoritmalar bulunmaktadır. (Daha fazla bilgi için, http: //www. ics. uci. edu/~eppstein/gina/delaunay. html) 12
Delaunay Triangulation Voronoi & Delaunay Voronoi Diyagramı Eşik değerine göre çizgeden kenarların silinerek kümelerin belirlenmesi 13
4. 5. Gabriel Çizgeleri (G. G. ) § Aşağıdaki koşul sağlanıyorsa noktalar çizgeye dahil edilir. § DT yapısına göre daha basit yapıdadır. §Diğer hiçbir nokta ’de bulunmuyorsa, birbirine bağlıdır. DISK, GG’nin etki bölgesidir. ve noktaları GG’de GG etki bölgesi 14
4. 6. Bağıl Komşuluk Çizgeleri (R. N. G. ) § Aşağıdaki koşul sağlanıyorsa noktalar çizgeye dahil edilir. § DT ve GG yapısına göre daha basit yapıdadır. §Diğer hiçbir nokta ’de bulunmuyorsa, ve RNG’de birbirine bağlıdır. LUNE, RNG’nin etki bölgesidir. noktaları RNG etki bölgesi 15
4. 7. Destek Vektörleri (Support Vectors) § Veriler doğrusal olarak ayrılabiliyor : § Sınırı (margin) maksimize eden düzlemin (Hyperplane) bulunması §(Optimal Seperating Hyperplane, Maximal Margine Classifier). Prof. Dr. Vladimir VAPNIK (1995) Support Vectors Optimum Düzlem Maksimum Margin 16
§ Veriler doğrusal olarak ayrılamıyor : § Uygun bir doğrusal olmayan dönüşüm kullanarak doğrusal olarak ayrılabilir hale getiren ve optimizasyon tabanlı bir eğitim algoritması kullanarak öğrenebilen sistemlerdir. (Kernel Trick). . . X F Doğrusal olmayan Dönüşüm SVs q = Gaussian fonksiyonunun genişliği x f(x) ; f: X F 17
5. Sonuçlar Iris veri seti için FLOP Sayıları 18
Gürültüsüz 45 Db 24 Db Iris veri seti için Küme Sayıları 19
Sonuçlar ve Yorumlar… n Eşik değeri (threshold value). . . n Histogramlar. . . n Çizge tabanlı algoritmalar vs. direk kümeleme yapan algoritmalar… (işlem süresi ve flop sayısı) n Farklı uzaklık ölçümleri (manhattan, supremium, v. b. ) farklı sonuçlar… n n En iyi algoritma “En Yakın Komşu Algoritması (N. N. )”. . . En kötü algoritma “Karşılıklı Komşuluk Değeri Algoritması (M. N. V. )”… n Tüm algoritmalar verilerin dağılımına bağlıdır… n Farklı veri setleri için en iyi kümelemeyi (düşük flop sayısı, gürültüye dayanıklılık) yapabilen tek bir algoritma bulunmamaktadır… n Boyut arttıkça işlemler zorlaşmaktadır… bu nedenle yeni nesil algoritma ve bilgisayarlar kullanılmaktadır(B. I. R. C. H. , DBSCAN, . . . )… n Çizge algoritmaları gürültülü verileri kümeleme de daha başarılı… 20
S O R U L A R 21
!!!TEŞEKKÜRLER!!! SABIRLA DİNLEDİĞİNİZ İÇİN. . . Mustafa Seçkin DURMUŞ msdurmus@pau. edu. tr 22
- Slides: 22