KARAR AALARI LE SINIFLANDIRMA CEYDA DA 04067891 KONU

  • Slides: 40
Download presentation
KARAR AĞAÇLARI İLE SINIFLANDIRMA CEYDA DAĞ 04/06/7891

KARAR AĞAÇLARI İLE SINIFLANDIRMA CEYDA DAĞ 04/06/7891

KONU BAŞLIKLARI: 1. Sınıflandırma 2. sınıflandırma süreci 3. Karar ağaçları ile sınıflandırma 4. Karar

KONU BAŞLIKLARI: 1. Sınıflandırma 2. sınıflandırma süreci 3. Karar ağaçları ile sınıflandırma 4. Karar ağaçlarında dallanma kriteri 5. ID 3 algoritması a. entropi b. karar ağaçlarında entropi c. dallanma için niteliklerin seçilmesi ve kazanç ölçütü d. kazanç oranı 6. C 4. 5 algoritması 7. Karar ağaçlarının budanması 8. Karar kuralları oluşturmak…

1. SINIFLANDIRMA… * Sınıflandırma, yeni bir nesnenin niteliklerini inceleme ve bu nesneyi önceden tanımlanmış

1. SINIFLANDIRMA… * Sınıflandırma, yeni bir nesnenin niteliklerini inceleme ve bu nesneyi önceden tanımlanmış bir sınıfa atamaktır. Yani verinin içerdiği ortak özelliklere göre ayrıştırılmasıdır. . * Sınıflandırmaya örnek olarak kredi kartı başvurularını düşük, orta ve yüksek risk grubu olarak ayırmak gösterilebilir…

2. Sınıflandırma süreci… Verilerin sınıflandırılması süreci 2 adımdan oluşur: İlk adım; veri kümelerine uygun

2. Sınıflandırma süreci… Verilerin sınıflandırılması süreci 2 adımdan oluşur: İlk adım; veri kümelerine uygun bir modelin ortaya konulmasıdır. sınıflandırma modelinin elde edilmesi için veritabanının bir kısmı “eğitim verileri” olarak kullanılır. Bu veriler veritabanından rastgele seçilir. İkinci adım; Test verileri üzerinde sınıflandırma kuralları belirlenir. ardından söz konusu olan kurallar bu kez test verilerine uygulanarak sınanır. .

Örnek: müşteri BORÇ GELİR RİSK Ali yüksek kötü Ayşe yüksek kötü Kenan yüksek düşük

Örnek: müşteri BORÇ GELİR RİSK Ali yüksek kötü Ayşe yüksek kötü Kenan yüksek düşük kötü Burak düşük yüksek iyi Begüm düşük kötü Seray düşük yüksek iyi Sınıflandırma Algoritması Sınıflayıcı Model Eğer borç=yüksek ise risk=kötü Eğer borç=düşük ve gelir=düşük ise risk=kötü Eğer borç=düşük ve gelir=yüksek ise risk=iyi

3. Karar ağaçları ile sınıflandırma Verileri sınıflandırma yöntemlerinden biri “karar ağaçları” ile sınıflandırma adını

3. Karar ağaçları ile sınıflandırma Verileri sınıflandırma yöntemlerinden biri “karar ağaçları” ile sınıflandırma adını taşır. Karar ağaçları akış şemalarına benzeyen yapılardır. Her bir nitelik bir düğüm tarafından temsil edilir. Dallar ve yapraklar ağaç yapısının elemanlarıdır. En son yapı yaprak; en üst yapı kök ve bunlar arasında kalan yapılar ise dal olarak isimlendirilir. Karar ağaçları sınıflandırma algoritmalarını uygulayabilmek için uygun bir alt yapı sağlamaktadır…

Karar ağacına örnek: X>1 hayır evet Y=? Y=A sınıf 2 Y=C Y=B sınıf 1

Karar ağacına örnek: X>1 hayır evet Y=? Y=A sınıf 2 Y=C Y=B sınıf 1 sınıf 2 sınıf 1

4. Karar ağaçlarında dallanma kriteri Karar ağaçlarında en önemli sorunlardan birisi herhangi bir kökten

4. Karar ağaçlarında dallanma kriteri Karar ağaçlarında en önemli sorunlardan birisi herhangi bir kökten itibaren bölümlemenin ve ya bir başka deyişle dallanmanın hangi kıstasa göre yapılacağıdır. Aslında her farklı kriter için bir karar ağacı algoritması karşılık gelmektedir. bu algoritmalar ; *entropiye dayalı algoritmalar *sınıflandırma ve regresyon ağaçları *bellek tabanlı sınıflandırma algoritmalar şeklinde gruplayabiliriz…

5. Entropi nedir? Bir sistemdeki belirsizliğin ölçüsüne entropi adı verilir. S bir kaynak olsun.

5. Entropi nedir? Bir sistemdeki belirsizliğin ölçüsüne entropi adı verilir. S bir kaynak olsun. BU kaynağın {}olmak üzere n mesaj üretebildiğini varsayalım. tüm mesajlar birbirinden bağımsız olarak üretilmektedir. Ve mi mesajlarının üretilme olasılıkları pi dir. P={} olasılık dağılımına sahip mesajları üreten S kaynağının entropisi ; H(S)= Şeklindedir…

Entropiye dayalı bölümlemeyi kullanan algoritmalara örnek olarak ID 3 ve onun gelişmiş biçimi olan

Entropiye dayalı bölümlemeyi kullanan algoritmalara örnek olarak ID 3 ve onun gelişmiş biçimi olan C 4. 5 algoritmaları verilebilir. Bu yöntemlerde karar ağacında hangi niteliğe göre dallanmanın yapılacağını belirlemek üzere entropiye başvurulur…

Karar ağacında entropi Karar ağaçlarının oluşturulması esnasında dallanmaya ve ya bölümlemeye hangi nitelikten başlanacağı

Karar ağacında entropi Karar ağaçlarının oluşturulması esnasında dallanmaya ve ya bölümlemeye hangi nitelikten başlanacağı önem taşımaktadır. O nedenle karar ağacı algoritmalarının çoğu daha başlangıçta bir takım değerleri hesaplayarak ona göre ağaç oluşturma yoluna gitmektedir. bu amaçla entropi kavramı kullanılabilir ve ağacın dallanması entropinin alacağı değere göre gerçekleştirilebilir. .

Dallanma için niteliklerin seçilmesi ve Kazanç ölçütü Hedef niteliğini ifade eden T, hedef niteliği

Dallanma için niteliklerin seçilmesi ve Kazanç ölçütü Hedef niteliğini ifade eden T, hedef niteliği olmayan bir X niteliğinin değerine bağlı olarak T 1, T 2, …. Tn alt kümelerine ayrılırsa T nin bir elemanının sınıfını belirlemek için gerekli bilgi, Ti nin bir elemanının sınıfının belirlenmesinde gerekli olan bilginin ağırlıklı ortalaması olarak kabul edilir. Bu tanıma bağlı olarak T’nin bir elemanının sınıfını belirlemek için gerekli bilgi şu şekilde ifade edilir…

H(X, T)= T veritabanını X testine göre bölmekle elde edilen bilgileri ölçmek için “kazanç

H(X, T)= T veritabanını X testine göre bölmekle elde edilen bilgileri ölçmek için “kazanç ölçütü” adı verilen bir ifadeye başvurulur. Bu ölçü şu şekilde tanımlanır: Kazanç(X, T)=H(T)-H(X, T) Burada ayırma işlemi yapılırken Kazanç(X, T) değerini “ençoklama” amaçlanır. En yüksek bilgi kazancını sağlayan, yani kazancı maksimize edebilecek X testi seçilir.

Uygulama…… HAVA ISI NEM RÜZGAR OYUN güneşli sıcak yüksek hafif hayır güneşli sıcak yüksek

Uygulama…… HAVA ISI NEM RÜZGAR OYUN güneşli sıcak yüksek hafif hayır güneşli sıcak yüksek kuvvetli hayır bulutlu sıcak yüksek hafif evet yağmurlu ılık yüksek hafif evet yağmurlu soğuk normal kuvvetli hayır bulutlu soğuk normal kuvvetli evet güneşli ılık yüksek hafif hayır güneşli soğuk normal hafif evet yağmurlu ılık normal hafif evet güneşli ılık normal kuvvetli evet bulutlu ılık yüksek kuvvetli evet bulutlu sıcak normal Hafif evet yağmurlu ılık yüksek kuvvetli hayır

ADIM 1: Birinci dallanma…

ADIM 1: Birinci dallanma…

Isı niteliği için kazanç ölçütü ISI OYUN sıcak hayır sıcak evet ılık evet soğuk

Isı niteliği için kazanç ölçütü ISI OYUN sıcak hayır sıcak evet ılık evet soğuk hayır soğuk evet ılık evet sıcak evet ılık hayır

Hava niteliği için kazanç ölçütü HAVA OYUN güneşli hayır bulutlu evet yağmurlu hayır bulutlu

Hava niteliği için kazanç ölçütü HAVA OYUN güneşli hayır bulutlu evet yağmurlu hayır bulutlu evet güneşli hayır güneşli evet yağmurlu evet güneşli evet bulutlu evet yağmurlu hayır

Nem niteliği için kazanç ölçütü NEM OYUN yüksek hayır yüksek evet normal hayır normal

Nem niteliği için kazanç ölçütü NEM OYUN yüksek hayır yüksek evet normal hayır normal evet yüksek hayır normal evet yüksek evet normal evet yüksek hayır

Rüzgar niteliği için kazanç ölçütü RÜZGAR OYUN hafif hayır kuvvetli hayır hafif evet kuvvetli

Rüzgar niteliği için kazanç ölçütü RÜZGAR OYUN hafif hayır kuvvetli hayır hafif evet kuvvetli hayır kuvvetli evet hafif hayır hafif evet kuvvetli evet Hafif evet kuvvetli hayır

Kazanç ölçütleri: Nitelik Kazanç Hava 0. 246 Isı 0. 029 Nem 0. 151 Rüzgar

Kazanç ölçütleri: Nitelik Kazanç Hava 0. 246 Isı 0. 029 Nem 0. 151 Rüzgar 0. 048 Bu değerlere bakarak en büyük kazancın HAVA niteliğini seçerek elde Edilebileceğini söyleriz. . Elde edilen sonuç kullanılarak başlangıç karar Ağacı şu şekilde çizilebilir…

HAVA Güneşli Yağmurlu Bulutlu ?

HAVA Güneşli Yağmurlu Bulutlu ?

Adım 2 HAVA niteliğinin “güneşli” değeri için dallanma HAVA ISI NEM RÜZGAR OYUN güneşli

Adım 2 HAVA niteliğinin “güneşli” değeri için dallanma HAVA ISI NEM RÜZGAR OYUN güneşli sıcak yüksek hafif hayır güneşli sıcak yüksek kuvvetli hayır güneşli ılık yüksek hafif hayır güneşli soğuk normal hafif evet güneşli ılık normal kuvvetli evet

Isı niteliği için kazanç ölçütü ISI OYUN sıcak hayır ılık hayır soğuk evet ılık

Isı niteliği için kazanç ölçütü ISI OYUN sıcak hayır ılık hayır soğuk evet ılık evet

Nem niteliği için kazanç ölçütü NEM OYUN yüksek hayır normal evet

Nem niteliği için kazanç ölçütü NEM OYUN yüksek hayır normal evet

Rüzgar için kazanç ölçütü RÜZGAR OYUN hafif hayır kuvvetli hayır hafif evet kuvvetli evet

Rüzgar için kazanç ölçütü RÜZGAR OYUN hafif hayır kuvvetli hayır hafif evet kuvvetli evet

Kazanç ölçüleri. Nitelik Kazanç Isı 0. 570 Nem 0. 970 Rüzgar 0. 019 Bu

Kazanç ölçüleri. Nitelik Kazanç Isı 0. 570 Nem 0. 970 Rüzgar 0. 019 Bu değerlere bakarak en büyük kazancın NEM niteliğini seçerek Elde edilebileceğini görüyoruz. Elde edilen sonuçlara bağlı olarak Karar ağacını şu şekilde devam ettiririz…

HAVA Güneşli Yağmurlu Bulutlu NEM Yüksek HAYIR Normal EVET NEM ile ilgili “yüksek” değerine

HAVA Güneşli Yağmurlu Bulutlu NEM Yüksek HAYIR Normal EVET NEM ile ilgili “yüksek” değerine sadece“Hayır” değeri karşılık geldiğinden bu Noktadan itibaren aşağıya doğru dalın İlerlemesi son bulur. Aynı şekilde “Normal” değeri içinde “evet” değeri Yaprak niteliğindedir.

HAVA niteliğinin “bulutlu” değeri için dallanma HAVA ISI NEM RÜZGAR OYUN bulutlu sıcak yüksek

HAVA niteliğinin “bulutlu” değeri için dallanma HAVA ISI NEM RÜZGAR OYUN bulutlu sıcak yüksek hafif evet bulutlu soğuk normal kuvvetli evet bulutlu ılık yüksek kuvvetli evet bulutlu sıcak normal Hafif evet Görüldüğü gibi tüm karar değerleri “evet” olduğu için Herhangi bir analize gerek yoktur. Bu noktadan itibaren Bir dallanma olmaz ve bu değer bir yaprağı belirlemiş Olur…

HAVA Güneşli Yağmurlu Bulutlu NEM EVET Normal HAYIR EVET ?

HAVA Güneşli Yağmurlu Bulutlu NEM EVET Normal HAYIR EVET ?

HAVA niteliğinin “yağmurlu” değeri için dallanma HAVA ISI NEM RÜZGAR OYUN yağmurlu ılık yüksek

HAVA niteliğinin “yağmurlu” değeri için dallanma HAVA ISI NEM RÜZGAR OYUN yağmurlu ılık yüksek hafif evet yağmurlu soğuk normal kuvvetli hayır yağmurlu ılık normal hafif evet yağmurlu ılık yüksek kuvvetli hayır

Isı niteliği için kazanç ölçütü ISI OYUN ılık evet soğuk hayır ılık evet ılık

Isı niteliği için kazanç ölçütü ISI OYUN ılık evet soğuk hayır ılık evet ılık hayır

Rüzgar niteliği için kazanç ölçütü RÜZGAR OYUN hafif evet kuvvetli hayır Görüldüğü gibi Rüzgar

Rüzgar niteliği için kazanç ölçütü RÜZGAR OYUN hafif evet kuvvetli hayır Görüldüğü gibi Rüzgar niteliğinin “hafif” değerleri için “evet” Değeri elde edilmektedir. Benzer biçimde aşağıdaki tabloda “kuvvetli” Değeri için “hayır” değerini aldığı görülüyor. O halde “rüzgar” değerinden İtibaren yeni bir nitelik dallanmaz. Tabloda yer alan değerlere bağlı Olarak yaprak değerleri elde edilir. . Böylece karar ağacı oluşturma Süreci sona ermiş olur…

HAVA Güneşli Yağmurlu Bulutlu NEM RÜZGAR EVET Normal HAYIR EVET Kuvvetli Hafif HAYIR EVET

HAVA Güneşli Yağmurlu Bulutlu NEM RÜZGAR EVET Normal HAYIR EVET Kuvvetli Hafif HAYIR EVET SONUÇ KARAR AĞACI

ID 3 algoritması geliştirilerek C 4. 5 algoritması elde edilmiştir. Bu algoritma sayısal değerlere

ID 3 algoritması geliştirilerek C 4. 5 algoritması elde edilmiştir. Bu algoritma sayısal değerlere sahip niteliklerinde karar ağaçlarını oluşturma olanağı sağlamıştır. Ayrıca bilinmeyen nitelik değerlerine sahip örnek kümeleri için karar ağacının nasıl oluşturulabileceği konusunda bir yol sunulmaktadır… Sayısal niteliklere ilişkin testlerin formüle edilmesinde bazı zorluklar görünebilir. değerleri iki aralığa bölmek için bir eşik değer bulmak gerekmektedir. En uygun “t” eşik değerini bulmak için çeşitli yollar vardır. Eşik değerin belirlenmesi amacıyla, en büyük bilgi kazancını sağlayacak biçimde bir “eşik değer” belirlenir. Bunun için nitelik değerleri sıralanır ve ilk değer ile son değerin orta noktası alınabilir.

Uygulama 2…. NİTELİK 1 NİTELİK 2 NİTELİK 3 SINIF a 70 doğru Sınıf 1

Uygulama 2…. NİTELİK 1 NİTELİK 2 NİTELİK 3 SINIF a 70 doğru Sınıf 1 a 90 doğru Sınıf 2 a 85 yanlış Sınıf 2 a 95 yanlış Sınıf 2 a 70 yanlış sınıf 1 b 90 doğru sınıf 1 b 78 yanlış sınıf 1 b 65 doğru sınıf 1 b 75 yanlış sınıf 1 c 80 doğru sınıf 2 c 70 doğru sınıf 2 c 80 yanlış sınıf 1 c 70 yanlış sınıf 1 c 96 yanlış sınıf 1

Eşik değerin belirlenmesi… Nitelik 2’nin içerdiği değerler göz önüne alındığında en fazla bilgi kazancı

Eşik değerin belirlenmesi… Nitelik 2’nin içerdiği değerler göz önüne alındığında en fazla bilgi kazancı sağlayacak değerin 80 olduğu anlaşılır. . Nitelik 2 niteliği {65, 70, 75, 80, 85, 90, 95, 96} değerlerine sahiptir. . Kümenin orta noktaları olan (80, 85) orta noktası olan 83 eşik değer olarak alınabilir. . O halde Nitelik 2’nin aldığı değerler; “nitelik 2<=83” ve ya “nitelik 2>83” durumlarına göre tekrar düzenlenir. . tablonun yeni şekli;

NİTELİK 1 NİTELİK 2 NİTELİK 3 SINIF a Eşit ve ya küçük doğru Sınıf

NİTELİK 1 NİTELİK 2 NİTELİK 3 SINIF a Eşit ve ya küçük doğru Sınıf 1 a Büyük doğru Sınıf 2 a Büyük yanlış Sınıf 2 a Eşit ve ya küçük yanlış sınıf 1 b Büyük doğru sınıf 1 b Eşit ve ya küçük yanlış sınıf 1 b Eşit ve ya küçük doğru sınıf 1 b Eşit ve ya küçük yanlış sınıf 1 c Eşit ve ya küçük doğru sınıf 2 c Eşit ve ya küçük yanlış sınıf 1 c Büyük yanlış sınıf 1

Karar kuralları oluşturmak Eğitim kümesine bağlı olarak elde edilen karar ağacından yararlanarak karar kuralları

Karar kuralları oluşturmak Eğitim kümesine bağlı olarak elde edilen karar ağacından yararlanarak karar kuralları oluşturulabilir. . Karar kuralları aynen programlama dillerindeki IF…THEN…ELSE yapılarına benzer. Karar ağacı örneği;

HAVA Güneşli Yağmurlu Bulutlu NEM RÜZGAR EVET Normal HAYIR EVET Kuvvetli Hafif HAYIR EVET

HAVA Güneşli Yağmurlu Bulutlu NEM RÜZGAR EVET Normal HAYIR EVET Kuvvetli Hafif HAYIR EVET

Bu karar ağacına bağlı olarak karar kuralları: KURAL 1: Eğer HAVA=güneşli ise ve Eğer

Bu karar ağacına bağlı olarak karar kuralları: KURAL 1: Eğer HAVA=güneşli ise ve Eğer NEM=yüksek ise OYUN=hayır; KURAL 2: Eğer HAVA=güneşli ise ve Eğer NEM=normal ise OYUN=evet; KURAL 3: Eğer HAVA=bulutlu ise OYUN=evet; KURAL 4: Eğer HAVA=yağmurlu ise ve Eğer RÜZGAR=güçlü ise OYUN=hayır; KURAL 5: Eğer HAVA=yağmurlu ise ve Eğer RÜZGAR=hafif ise OYUN=evet;