04 06 7913 VER MADENCL KMELEME KMELEME Kmeleme

KÜMELEME Kümeleme, veriyi sınıflar veya kümelere ayırma işlemidir. Aynı kümedeki elemanlar birbirleriyle benzerlik gösterirken,

Kümeleme modelinde, sınıflama modelinde olan veri sınıfları yoktur. Verilerin herhangi bir sınıfı bulunmamaktadır. Sınıflama

Marketlerde farklı müşteri gruplarının keşfedilmesi ve bu grupların alışveriş örüntülerinin ortaya konması, biyolojide bitki

Veri kümeleme güçlü bir gelişme göstermektedir. Veri tabanlarında toplanan veri miktarının artmasıyla orantılı olarak,

Kümeleme yöntemlerinin çoğu veri arasındaki uzaklıkları kullanır. Örneğin Öklid, Manhattan ve Minkowski uzaklık bağıntıları

Kümeleme çözümlemesi Veri madenciliğinin temel konuları arasında yer alan kümeleme çözümlemesi (cluster analysis ),

Kümeleme çözümleri istatistikte başvurulan yöntemlerdir. Aslında kümeleme çözümlemeleri birbirine benzeyen gözlem değerlerinin ayrılarak sınıflandırılmasını

Uzaklık Ölçüleri Kümeleme yöntemlerinin birçoğu , gözlem değerleri arasındaki uzaklıkların hesaplanması esasına dayanır. O

Burada birinci gözlem noktasının konumu birinci satır; ikinci gözlemin konumu ise ikinci satır olarak

Yukarıdaki D matrisinin üst kısmı alt kısmının simetriği olduğundan ayrıca yazılmamıştır. Bu durumda d(i,

a)Öklid Uzaklığı: Uygulamada en çok kullanılan uzaklık ölçüsü öklid uzaklık bağıntısı olarak bilinmektedir. A

b)Manhattan Uzaklığı: Diğer bir uzaklık ölçüsü Manhattan uzaklığıdır. Bu uzaklık, gözlemler arasındaki mutlak uzaklıkların

c)Minkowski Uzaklığı: p sayıda değişken göz önüne alarak gözlem değerleri arasındaki uzaklığın hesaplanması söz

Örnek: A, B ve C üç değişkenden oluşan aşağıdaki gözlemleri göz önüne alalım. Bu

Öklid uzaklığı: Burada yer alan üç değişken için, i ve j gözlem noktaları ve

Üçüncü gözlem ile birinci gözlem yani arasındaki uzaklık ise şu şekilde bulunur: Benzer biçimde

Öklid uzaklıkları gözlem 1 2 3 1 0. 00 2 3. 46 0. 00

Manhattan Uzaklığı: Söz konusu verileri kullanarak Manhattan uzaklığını hesaplayabiliriz. Üç değişken için Manhattan uzaklık

Manhattan Uzaklıkları Gözlem 1 1 0. 00 2 3 2 6. 00 0. 00

Minkowski Uzaklığı: Gözlem değerlerini yeniden ele alalım. Bu kez Minkowski uzaklık bağıntısını kullanarak tüm

Bu kez üçüncü gözlem ile birinci gözlem arasındaki Minkowski uzaklığını bulalım: Benzer biçimde tüm

Minkowski Uzaklıkları Gözlem 1 2 3 4 1 0. 00 2 2. 88 0.

Hiyerarşik kümeleme : Hiyerarşik kümeleme yöntemleri, kümelerin bir ana küme olarak ele alınması ve

a)En Yakın Komşu algoritması: En yakın komşu yöntemine tek bağlantı kümeleme yöntemi adı da

Uzaklıklar göz önüne alınarak min d(i, j) seçilir. Söz konusu uzaklıkla ilgili satırlar birleştirilerek

Örnek: Aşağıda tabloda verilen beş adet gözlemi göz önüne alalım. Bu veriler üzerinde en

• En yakın komşu algoritmasını şu şekilde adım uyguluyoruz: Adım 1: Öncelikle uzaklıklar

Bu durumda gözlemlere ilişkin uzaklıklar matrisi şu şekilde olacaktır. Gözlemler 1 1 2 3

Adım 2: Uzaklıklar tablosunda Min d(i, j) hücresinin belirlenmesi gerekiyor. Tablo incelendiğinde Min d(i,

Bu durumda (1, 3) kümesi ile 2 numaralı gözlem arasındaki en küçük uzaklık olan

Adım 3: Yukarıdaki uzaklıklar tablosunu göz önüne alalım. Tablo incelendiğinde Min d(i, j)=2. 24

Bu durumda uzaklık tablosu aşağıda belirtilen biçimi alır: Gözlem (1, 3) 2 2. 83

Adım 4: En son uzaklıklar tablosu incelendiğinde Min d(i, j)=2. 83 olduğu görülür. O

Yeni uzaklık değerini de içeren uzaklıklar tablosu şu şekildedir: Gözlem (1, 2, 3) (4,

Son tablo: Uzaklık Kümeler 1. 41 (1, 3) 2. 24 (4, 5) 2. 83

b)En Uzak Komşu Algoritması : Bu yönteme tam bağlantı kümeleme yöntemi adı verilmektedir. Yöntem

Hiyerarşik Olmayan Kümeleme: k-Ortalamalar Yöntemi: Hiyerarşik olmayan kümeleme yöntemleri arasında k-ortalamalar yöntemi önem taşır

Burada değeri kümesine ait olan i. Örnektir. kümesi için kare-hata, her bir örneği ile

Kare-Hata kümeleme yönteminin amacı, verilen K değeri için değerini minimize eden K kümelerini bulmaktır.

Slides: 45

Download presentation

04 -06 -7913 VERİ MADENCİLİĞİ KÜMELEME

KÜMELEME Kümeleme, veriyi sınıflar veya kümelere ayırma işlemidir. Aynı kümedeki elemanlar birbirleriyle benzerlik gösterirken, başka kümelerin elemanlarından farklıdırlar. Kümeleme veri madenciliği, istatistik, biyoloji ve makine öğrenimi gibi pek çok alanda kullanılır.

Kümeleme modelinde, sınıflama modelinde olan veri sınıfları yoktur. Verilerin herhangi bir sınıfı bulunmamaktadır. Sınıflama modelinde, verilerin sınıfları bilinmekte ve yeni bir veri geldiğinde bu verinin hangi sınıftan olabileceği tahmin edilmektedir. Oysa kümeleme modelinde, sınıfları bulunmayan veriler gruplar halinde kümelere ayrılırlar. Bazı uygulamalarda kümeleme modeli, sınıflama modelinin bir önişlemi gibi görev alabilmektedir.

Marketlerde farklı müşteri gruplarının keşfedilmesi ve bu grupların alışveriş örüntülerinin ortaya konması, biyolojide bitki ve hayvan sınıflandırmaları ve işlevlerine göre benzer genlerin sınıflandırılması, şehir planlanmasında evlerin tiplerine, değerlerine ve coğrafik konumlarına göre gruplara ayrılması gibi uygulamalar tipik kümeleme uygulamalarıdır. Kümeleme aynı zamanda web üzerinde bilgi keşfi için dokümanların sınıflanması amacıyla da kullanılabilir.

Veri kümeleme güçlü bir gelişme göstermektedir. Veri tabanlarında toplanan veri miktarının artmasıyla orantılı olarak, kümeleme analizi son zamanlarda veri madenciliği araştırmalarında aktif bir konu haline gelmiştir. Literatürde pek çok kümeleme algoritması bulunmaktadır. kullanılacak olan kümeleme algoritmasının seçimi, veri tipine ve amaca bağlıdır.

Kümeleme yöntemlerinin çoğu veri arasındaki uzaklıkları kullanır. Örneğin Öklid, Manhattan ve Minkowski uzaklık bağıntıları kümeleme işleminde alt işlem olarak kullanılmaktadır. Kümeleme yöntemleri arasında akla ilk en yakın komşu algoritması ve en uzak komşu algoritması gelmektedir; bunlar hiyerarşik kümeleme yöntemleri olarak da bilinir. Hiyerarşik olmayan kümeleme yöntemleri arasında k-ortalamalar yöntemi sayılabilir.

Kümeleme çözümlemesi Veri madenciliğinin temel konuları arasında yer alan kümeleme çözümlemesi (cluster analysis ), verileri birbirleriyle benzer alt kümelere ayırma işlemi olarak bilinmektedir. Uygulamada çok sayıda kümeleme yöntemi kullanılmaktadır. Bu yöntemler, değişkenler arasındaki benzerliklerden ya da farklılıklardan yararlanarak bir kümeyi alt kümelere ayırmakta kullanılır.

Kümeleme çözümleri istatistikte başvurulan yöntemlerdir. Aslında kümeleme çözümlemeleri birbirine benzeyen gözlem değerlerinin ayrılarak sınıflandırılmasını sağlayan çok değişkenli çözümleme yöntemleri olarak karşımıza çıkmaktadır. Kümeleme çözümlemeleri pazarlama faaliyetlerinde sıkça kullanılır. Örneğin bir mamülden farklı beklentilerine göre müşterilerine kümelere ayrılabiliriz. bunun dışında belirli ürünleri kullanıcıların davranış biçimlerine göre gruplandırmak söz konusu olabilir. Böylece çözümleme ile elde edilen sonuçlara bakılarak pazarlama stratejisi belirlenebilir.

Uzaklık Ölçüleri Kümeleme yöntemlerinin birçoğu , gözlem değerleri arasındaki uzaklıkların hesaplanması esasına dayanır. O nedenle iki nokta arasındaki uzaklıkları hesaplayan bağıntılara gereksinim vardır. çeşitli değişkenlerden oluşan gözlem değerlerini bir x matrisi içinde gösterebiliriz. Örneğin üç değişken ve beş gözlemden oluşan matris şu şekilde ifade edilebilir.

Burada birinci gözlem noktasının konumu birinci satır; ikinci gözlemin konumu ise ikinci satır olarak ifade edilebilir. Bu iki nokta arasındaki uzaklık ise d(1, 2) biçiminde yazılabilir. Yukarıda X matrisinin her bir satırının diğerine olan uzaklığı d(i, j) biçiminde ifade edilecek olursa, simetrik D uzaklıklar matrisi şu şekilde ifade edilebilir.

Yukarıdaki D matrisinin üst kısmı alt kısmının simetriği olduğundan ayrıca yazılmamıştır. Bu durumda d(i, j)=d(j, i) olduğu kabul edilir. Kümeleme çözümlemelerinde bir çok uzaklık bağıntısı kullanılabilmektedir. Bunlardan 3 tanesini aşağıda veriyoruz.

a)Öklid Uzaklığı: Uygulamada en çok kullanılan uzaklık ölçüsü öklid uzaklık bağıntısı olarak bilinmektedir. A ve B arasındaki öklid uzaklık şu şekilde olacaktır: Bu bağıntı genelleştirilecek olursak, i ve j noktaları için şu şekilde bir bağıntıya ulaşılır:

b)Manhattan Uzaklığı: Diğer bir uzaklık ölçüsü Manhattan uzaklığıdır. Bu uzaklık, gözlemler arasındaki mutlak uzaklıkların toplamı alınarak hesaplanır. Söz konusu uzaklık şu şekilde ifade edilir : İ, j =1, 2…n; k=1, 2…p

c)Minkowski Uzaklığı: p sayıda değişken göz önüne alarak gözlem değerleri arasındaki uzaklığın hesaplanması söz konusu ise Minkowski uzaklık bağıntısı kullanılabilir. Söz konusu uzaklık şu şekilde hesaplanır : İ, j =1, 2…n; k=1, 2. . p Burada m=2 yazılarak öklid uzaklık bağıntısı elde edilebilir.

Örnek: A, B ve C üç değişkenden oluşan aşağıdaki gözlemleri göz önüne alalım. Bu gözlem noktalarının her birinin birbirine olan uzaklığını farklı uzaklık ölçüleriyle elde etmek istiyoruz. Gözlem A B C 1 2 3 4 5 2 4 5 4 3 3 1 7 8 9 1 3 3 2 5

Öklid uzaklığı: Burada yer alan üç değişken için, i ve j gözlem noktaları ve p=3 olmak üzere Öklid uzaklık bağıntısı şu şekilde tanımlayabiliriz: İkinci gözlem ile birinci gözlem yani arasındaki uzaklık şu şekilde hesaplanır:

Üçüncü gözlem ile birinci gözlem yani arasındaki uzaklık ise şu şekilde bulunur: Benzer biçimde her bir gözlem değeri arasındaki öklid uzaklıkları hesaplanarak aşağıdaki sonuçlar elde edilir.

Öklid uzaklıkları gözlem 1 2 3 1 0. 00 2 3. 46 0. 00 3 5. 39 6. 08 0. 00 4 5. 48 7. 07 1. 73 5 7. 28 8. 31 3. 46 4 5 0. 00 3. 32 0. 00

Manhattan Uzaklığı: Söz konusu verileri kullanarak Manhattan uzaklığını hesaplayabiliriz. Üç değişken için Manhattan uzaklık bağıntısı şu biçimdedir: Bu bağıntı yardımıyla ikinci gözlem ile birinci gözlem arasındaki Manhattan uzaklığını elde edelim: Üçüncü gözlem ile birinci gözlem arasındaki Manhattan uzaklığı ise şu şekildedir:

Manhattan Uzaklıkları Gözlem 1 1 0. 00 2 3 2 6. 00 0. 00 3 9. 00 7. 00 0. 00 4 8. 00 5 11. 00 6. 00 3. 00 4 5 0. 00 5. 00 0. 00

Minkowski Uzaklığı: Gözlem değerlerini yeniden ele alalım. Bu kez Minkowski uzaklık bağıntısını kullanarak tüm gözlemler arasındaki uzaklıkları elde edeceğiz. Üç değişken için Minkowski uzaklık bağıntısı şu şekil olacaktır: Bu bağıntıdan yararlanarak m=3 varsayımı altında ikinci gözlem ile birinci gözlem arasındaki uzaklık şu şekilde hesaplanır:

Bu kez üçüncü gözlem ile birinci gözlem arasındaki Minkowski uzaklığını bulalım: Benzer biçimde tüm gözlem noktaları arasındaki uzaklıklar hesaplanarak aşağıdaki sonuca ulaşılır:

Minkowski Uzaklıkları Gözlem 1 2 3 4 1 0. 00 2 2. 88 0. 00 3 4. 63 6. 01 0. 00 4 5. 12 7. 01 1. 44 0. 00 5 6. 55 8. 05 2. 88 3. 07 5 0. 00

Hiyerarşik kümeleme : Hiyerarşik kümeleme yöntemleri, kümelerin bir ana küme olarak ele alınması ve sonra aşamalı olarak içerdiği alt kümelere ayrılması veya ayrı ele alınan kümelerin aşamalı olarak bir küme biçiminde birleştirilmesi esasına dayanır. Birleştirici Hiyerarşik Yöntemler: Ayrı ayrı ele alınan kümelerin aşamalı olarak birleştirilmesini sağlayan yöntemlerdir. Bu grupta birçok hiyerarşik yöntem bulunmaktadır. Söz konusu yöntemlerden aşağıda belirtilenleri inceleyeceğiz.

a)En Yakın Komşu algoritması: En yakın komşu yöntemine tek bağlantı kümeleme yöntemi adı da verilmektedir. Başlangıçta tüm gözlem değerleri birer küme olarak değerlendirilir. Adım adım bu kümeler birleştirilerek yeni kümeler elde edilir. Bu yöntemde öncelikle gözlemler arasındaki uzaklıklar belirlenir. i ve j gözlemleri arasındaki uzaklıkların belirlenmesinde aşağıdaki öklid uzaklık bağıntısı kullanılabilir:

Uzaklıklar göz önüne alınarak min d(i, j) seçilir. Söz konusu uzaklıkla ilgili satırlar birleştirilerek yeni bir küme elde edilir. Tek bir gözlemden oluşan kümeler arasındaki uzaklıkları yukarıdaki formül ile doğrudan hesaplanabilir. Ancak birden fazla gözlem değerine sahip olan iki küme arasındaki uzaklığın belirlenmesi gerektiğinde farklı bir yol izlenir. İki kümenin içerdiği gözlemler arasında birbirine en yakın olanların uzaklığı iki kümenin birbirine olan uzaklığı kabul edilir.

Örnek: Aşağıda tabloda verilen beş adet gözlemi göz önüne alalım. Bu veriler üzerinde en yakın komşu algoritmasını kullanarak kümeleme işlemlerini yapmak istiyoruz. Gözlem 1 2 3 4 5 4 6 5 10 11 2 4 1 6 8

• En yakın komşu algoritmasını şu şekilde adım uyguluyoruz: Adım 1: Öncelikle uzaklıklar tablosunun (matrisinin)hesaplanması gerekiyor. Uzaklık tablosu için çeşitli uzaklık ölçüleri kullanılabilir. Biz Öklid uzaklık ölçüsünü bu amaçla kullanmak istiyoruz. Söz konusu uzaklık bağıntısının k değişken sayısını göstermek üzere şu şekilde olduğunu biliyoruz. Bu formül yardımıyla aşağıdaki hesaplamalar yapılabilir:

Bu durumda gözlemlere ilişkin uzaklıklar matrisi şu şekilde olacaktır. Gözlemler 1 1 2 3 2 2. 83 3 1. 41 3. 16 4 7. 21 4. 47 7. 07 5 9. 22 7. 20 9. 22 4 2. 24

Adım 2: Uzaklıklar tablosunda Min d(i, j) hücresinin belirlenmesi gerekiyor. Tablo incelendiğinde Min d(i, j)=1. 41 olduğu görülür. O halde bu değerin ilgili olduğu 1 ve 3 numaralı gözlemler ele alınır. Bu iki değer birleştirilerek (1, 3) kümesi elde edilir. Şimdi elde edilen bu kümeye göre uzaklıklar matrisini yeniden gözden geçirmemiz gerekmektedir. Çünkü (1, 3)kümesi ile diğer gözlemler arasındaki uzaklıkları belirlememiz söz konusudur. Bunun için, söz konusu kümenin elemanları ile diğer gözlemler eşlenerek içlerinden en küçük olanları ; yani birbirine en yakın olan gözlemler seçilir. Bu amaçla (1, 3) kümesi ile 2, 4 ve 5 numaralı gözlemler arasındaki uzaklıkları belirleyelim.

Bu durumda (1, 3) kümesi ile 2 numaralı gözlem arasındaki en küçük uzaklık olan 2. 83, 4 numaralı gözlem ile arasındaki en küçük uzaklık olan 7. 07 ve 5 numaralı gözlem ile arasındaki en küçük uzaklık olan 9. 22 değerleri yeni uzaklık değerleri olarak alınır. Bu durumda yeni uzaklıklar tablosu şu şekli alır: Göz (1, lem 3) (1, 3) 2. 2 83 7. 2 4. 4 5

Adım 3: Yukarıdaki uzaklıklar tablosunu göz önüne alalım. Tablo incelendiğinde Min d(i, j)=2. 24 olduğu görülür. O halde bu değerin ilgili olduğu 4 ve 5 gözlemleri birleştirilerek (4, 5) biçiminde bir küme oluşturulacaktır. Elde edilen (4, 5) kümesinin diğer (1, 3) kümesi ve 2 gözlemi ile olan uzaklıkları belirlemek gerekiyor. (4, 5) kümesi ile 2 numaralı gözlem arasındaki en kısa mesafe 4. 47 olduğundan bu mesafe uzaklık tablosunda göz önüne alınır. Benzer biçimde (4, 5) kümesi ile (1, 3)kümeleri arasındaki en küçük uzaklık olan 7. 07 değeri tabloda yer alır.

Bu durumda uzaklık tablosu aşağıda belirtilen biçimi alır: Gözlem (1, 3) 2 2. 83 (4, 5) 7. 07 2 4. 47 (4, 5)

Adım 4: En son uzaklıklar tablosu incelendiğinde Min d(i, j)=2. 83 olduğu görülür. O halde bu uzaklık ile ilgili olan 2 gözlemi ile (1, 3) kümesi birleştirilecektir. Elde edilen (1, 2, 3) kümesi ile (4, 5) kümesi arasında uzaklığı belirlemek için kümeler içindeki her bir değeri eşliyoruz ve aralarında en küçük olanı belirliyoruz. En küçük uzaklık 4. 47 olduğuna göre söz konusu iki küme arasındaki uzaklık olarak bu değer belirlenmiş olur.

Yeni uzaklık değerini de içeren uzaklıklar tablosu şu şekildedir: Gözlem (1, 2, 3) (4, 5) 4. 47 Adım 5: Elde edilen iki küme birleştirilerek sonuç küme bulunur. Bu küme (1, 2, 3, 4, 5) gözlemlerinden oluşan kümedir. Uzaklık düzeyi göz önüne alınarak kümeler şu şekilde belirlenmiştir:

Son tablo: Uzaklık Kümeler 1. 41 (1, 3) 2. 24 (4, 5) 2. 83 (1, 2, 3) 4. 47 (1, 2, 3, 4, 5)

b)En Uzak Komşu Algoritması : Bu yönteme tam bağlantı kümeleme yöntemi adı verilmektedir. Yöntem en yakın komşu algoritmasına çok benzer; ancak bu kez kümeler arsı uzaklık belirlenirken iki kümenin birbirine en uzak olan elemanları arasındaki mesafe iki küme arasındaki mesafe olarak tayin edilir. (uygulaması en küçük komşu algoritmasına çok benzer olduğu için yapmayacağız. )

Hiyerarşik Olmayan Kümeleme: k-Ortalamalar Yöntemi: Hiyerarşik olmayan kümeleme yöntemleri arasında k-ortalamalar yöntemi önem taşır ve yaygın biçimde kullanılır. Bu yöntemde , daha başlangıçta belli sayıdaki küme için toplam ortalama hatayı minimize etmek amaçlanır. N boyutlu uzayda N örnekli kümelerin verildiğini varsayalım. Bu uzay biçiminde K kümeye ayrılsın. O zaman olmak üzere ortalama vektörü şu şekilde hesaplanır.

Burada değeri kümesine ait olan i. Örnektir. kümesi için kare-hata, her bir örneği ile onun merkezi (centroid) arasındaki Öklid uzaklıkları toplamıdır. Bu hataya “küme içi değişme” adı verilir. Küme içi değişmeler şu şekilde hesaplanır. K kümesi içeren bütün kümeler uzayı için karehata, küme içindeki değişmelerin toplamıdır. O konusu kare-hata değeri şu şekilde hesaplanır:

Kare-Hata kümeleme yönteminin amacı, verilen K değeri için değerini minimize eden K kümelerini bulmaktır. O halde kortalama algoritmasında değerinin bir önceki iterasyona göre azalması beklenir.

TEŞEKKÜRLER….