Sistem analizi ve tasarm snflandrma 04 06 7950

  • Slides: 64
Download presentation
Sistem analizi ve tasarımı sınıflandırma 04 -06 -7950 EGE ÜNİVERSİTESİ

Sistem analizi ve tasarımı sınıflandırma 04 -06 -7950 EGE ÜNİVERSİTESİ

Veri Madenciliği nedir? Verinin bir dağ şeklinde depolanması ve değerli olan bilginin bu dağdaki

Veri Madenciliği nedir? Verinin bir dağ şeklinde depolanması ve değerli olan bilginin bu dağdaki değerli cevherle benzetilmesinden alır. • Asıl problem bu dağdaki değerli olan madene ulaşmak için değersiz olan kaya ve taş yığınlarını elemektir. • Çok veri olup da az bilgi ihtiyacımıza karşılık projenin daha hızlı, daha verimli ve daha az maliyetle gerçekleştirilmesi için bir rehberdir. • 2

Veri madenciliği modelleri Kestirime dayalı sınıflandırma Eğri uydurma Tanımlamaya dayalı Zaman serileri Demetleme (kümeleme)

Veri madenciliği modelleri Kestirime dayalı sınıflandırma Eğri uydurma Tanımlamaya dayalı Zaman serileri Demetleme (kümeleme) özetleme İlişkilendirme kuralları Sıralı dizi 3

Sınıflandırma: Sınıflamanın temel kuralları: n Öğrenme eğiticilidir n Veri setinde bulunan her örneğin bir

Sınıflandırma: Sınıflamanın temel kuralları: n Öğrenme eğiticilidir n Veri setinde bulunan her örneğin bir dizi niteliği vardır ve bu niteliklerden biri de sınıf bilgisidir. n Hangi sınıfa ait olduğu bilinen nesneler (öğrenme kümesi- training set) ile bir model oluşturulur n Oluşturulan model öğrenme kümesinde yer almayan nesneler (deneme kümesi- test set) ile denenerek başarısı ölçülür 4

Sınıflandırma: n Örnek: “Genç kadınlar küçük araba satın alır, yaşlı, zengin erkekler büyük, lüks

Sınıflandırma: n Örnek: “Genç kadınlar küçük araba satın alır, yaşlı, zengin erkekler büyük, lüks araba satın alır. ” Amaç bir malın özellikleri ile müşteri özelliklerini eşleştirmektir. “Genç kadınlar küçük araba satın alır, yaşlı, zengin erkekler büyük, lüks araba satın alır. ” 5

Sınıflandırma Yöntemleri: n Karar Ağaçları (decision trees) n Örnek Tabanlı Yöntemler: k en-yakın komşu

Sınıflandırma Yöntemleri: n Karar Ağaçları (decision trees) n Örnek Tabanlı Yöntemler: k en-yakın komşu (Instance Based Methods- k nearest neighbor) n Bayes Sınıflandırıcı (Bayes Classifier) n Yapay Sinir Ağları (Artificial Neural Networks) n Genetik Algoritmalar (Genetic Algorithms) 6

Sınıflandırma adımları n Amaç sınıfının tanımlanması Sınıflandırma (Classification) n Çözüm sınıfınının tanımlanması Açıklama (Karar

Sınıflandırma adımları n Amaç sınıfının tanımlanması Sınıflandırma (Classification) n Çözüm sınıfınının tanımlanması Açıklama (Karar ağaçları, kurallar) vs sinir ağı n Model değerlendirme, geçerleme ve karşılaştırma istatistiksel testler n Modellerin birleştirilmesi 7

Sınıflandırma adımları n Sonuçlar (açıklamalar/tahminler) doğru mu, dikkate değer mi? n Uzmana danışma 8

Sınıflandırma adımları n Sonuçlar (açıklamalar/tahminler) doğru mu, dikkate değer mi? n Uzmana danışma 8

Sistem Modelleme x : Gözlenebilen değişkenler. y =f (x) : f bilinmeyen ve rassal

Sistem Modelleme x : Gözlenebilen değişkenler. y =f (x) : f bilinmeyen ve rassal bir fonksiyon x f y 9

Veri için Model Oluşturma x y f - f* 10

Veri için Model Oluşturma x y f - f* 10

Veriden Öğrenme Verilmiş örnek kümesi X={xt, yt}t üzerinde f (xt) ’ye en yakın kestirici

Veriden Öğrenme Verilmiş örnek kümesi X={xt, yt}t üzerinde f (xt) ’ye en yakın kestirici f*(xt) ’i oluşturuyoruz. 11

Örnek: Bir finans kurumu olduğumuzu ve insanlara kredi verdiğimizi varsayalım. Geçmişte kredi verdiğimiz insanların

Örnek: Bir finans kurumu olduğumuzu ve insanlara kredi verdiğimizi varsayalım. Geçmişte kredi verdiğimiz insanların bazıları kredilerini normal olarak geri ödemiş, bazılarıysa ödeyememiş ve kanuni takibe düşmüş olsun. Bu örnekte yapmak istediğimiz bu kişilerin özelliklerine bakarak ödemelerini düzenli yapan müşterileri, kanuni takibe düşmüş (defaulted) müşterilerden ayırabilmektir. 12

Örnek: n Veriyi görselleştirebilmek için sadece iki alan olduğunu varsayalım. Bunlar yıllık gelir ve

Örnek: n Veriyi görselleştirebilmek için sadece iki alan olduğunu varsayalım. Bunlar yıllık gelir ve birikim olsun. Örnek veri bu iki boyutlu uzayda noktalar olarak çizilebilir (Şekil 2). Amacımız bu iki boyutlu uzayda kredisini normal ödemiş ve kanuni takipe düşmüş iki gurup kişilere karşılık gelen noktaları birbirinden ayıran bir sınır bulabilmektir. Bu bir sınıflandırma problemidir. 13

Veri Görselleştirme n Görsel Analiz için veriyi daha az boyutlu (tercihen 2) olarak çiz.

Veri Görselleştirme n Görsel Analiz için veriyi daha az boyutlu (tercihen 2) olarak çiz. n Verinin yapısının; gurupların, istisnaların gözlenmesi 14

Yıllık gelir Örnek: evet hayır birikim 15

Yıllık gelir Örnek: evet hayır birikim 15

x 2 : ünvan Örnek Çözüm evet hayır q 2 q 1 x 1

x 2 : ünvan Örnek Çözüm evet hayır q 2 q 1 x 1 : yıl Karar ağacı tarafından tanımlanan sınıf 16

Karar Ağaçları x 1 > q 1 evet hayır x 2 > q 2

Karar Ağaçları x 1 > q 1 evet hayır x 2 > q 2 evet y=1 x 1 : yıl x 2 : ünvan y = 0: hayır y = 1: evet y=0 hayır y=0 17

Metodoloji Her uygulamada kullanılabilecek birden çok teknik vardır ve önceden hangisinin en başarılı olacağını

Metodoloji Her uygulamada kullanılabilecek birden çok teknik vardır ve önceden hangisinin en başarılı olacağını kestirmek olası değildir. Bu yüzden öğrenme kümesi üzerinde L değişik teknik kullanılarak L tane model oluşturulur. Sonra bu L model deneme kümesi üzerinde denenerek en başarılı olanı, yani deneme kümesi üzerindeki tahmin başarısı en yüksek olanı seçilir. n Eğer bu en iyi model yeterince başarılıysa kullanılır, aksi takdirde başa dönerek çalışma tekrarlanır. Tekrar sırasında başarısız olan örnekler incelenerek bunlar üzerindeki başarının nasıl arttırılabileceği araştırılır. Örneğin standart forma yeni alanlar ekleyerek programa verilen bilgi arttırılabilir; veya olan bilgi değişik bir şekilde kodlanabilir; veya amaç daha değişik bir şekilde tanımlanabilir. n 18

Metodoloji İlk Standard Form Öğrenme kümesi Model 1 Model 2 Yeterince iyi ise kabul

Metodoloji İlk Standard Form Öğrenme kümesi Model 1 Model 2 Yeterince iyi ise kabul et En iyiyi seç Model L Deneme kümesi Veri azaltma: Değişken sayısı ve değer azaltma En iyi model Eğitilmiş modelleri deneme kümesi üzerinde dene ve en başarılısını seç Olası modelleri öğrenme kümesi üstünde eğit 19

Kestiricileri Eğitmek için Teknikler n Parametrik Çokboyutlu İstatistik n Bellek tabanlı (Örnek tabanlı) Modeller

Kestiricileri Eğitmek için Teknikler n Parametrik Çokboyutlu İstatistik n Bellek tabanlı (Örnek tabanlı) Modeller n Karar Ağaçları n Yapay Sinir Ağları 20

Sınıflandırma n n x : d-boyutlu değişkenler vektörü C 1 , C 2 ,

Sınıflandırma n n x : d-boyutlu değişkenler vektörü C 1 , C 2 , . . . , CK : K sınıf Şüphe n Veriden P(Ci|x) hesaplanır ve olasılığı en yüksek sınıf k seçilir P(Ck|x)=maxj P(Cj|x) n 21

Bayes sınıflandırıcı n Bayes Sınıflayıcı, Bayes teoremine göre istatistiksel kestirim yapar. n Bir örneğin

Bayes sınıflandırıcı n Bayes Sınıflayıcı, Bayes teoremine göre istatistiksel kestirim yapar. n Bir örneğin sınıf üyelik olasılığını kestirir. n Naïve Bayesian sınıflandırıcı (simple Bayesian classifier) oldukça başarılı bir sınıflayıcıdır. 22

Bayes Kuralı p(x|Cj) P( C j ) p(x) P(Cj|x) : : Sınıf j’den bir

Bayes Kuralı p(x|Cj) P( C j ) p(x) P(Cj|x) : : Sınıf j’den bir örneğin x olma olasılığı Sınıf j’nin ilk olasılığı Herhangi bir örneğin x olma olasılığı x olan bir örneğin sınıf j’den olma olasılığı (son olasılık) 23

İstatistiksel Yöntemler dağılımları, p(x|Cj) için parametrik (Gauss) model varsayılıyor n Sınıf Tek boyutlu Çok

İstatistiksel Yöntemler dağılımları, p(x|Cj) için parametrik (Gauss) model varsayılıyor n Sınıf Tek boyutlu Çok boyutlu 24

Bayes Sınıflandırıcı için Örnek 25

Bayes Sınıflandırıcı için Örnek 25

Bayes Sınıflandırıcı için Örnek n Sınıflandırılacak örnek: – Magazine Promotion = Yes – Watch

Bayes Sınıflandırıcı için Örnek n Sınıflandırılacak örnek: – Magazine Promotion = Yes – Watch Promotion = Yes – Life Insurance Promotion = No – Credit Card Insurance = No – Sex = ? 26

Bayes Sınıflandırıcı için Örnek 27

Bayes Sınıflandırıcı için Örnek 27

Bayes Sınıflandırıcı için Örnek n Sex = Male için olasılık hesabı 28

Bayes Sınıflandırıcı için Örnek n Sex = Male için olasılık hesabı 28

Bayes Sınıflandırıcı için Örnek n Sex = Male için koşullu olasılıklar; – – P(magazine

Bayes Sınıflandırıcı için Örnek n Sex = Male için koşullu olasılıklar; – – P(magazine promotion = yes | sex = male) = 4/6 P(watch promotion = yes | sex = male) = 2/6 P(life insurance promotion = no | sex = male) = 4/6 P(credit card insurance = no | sex = male) = 4/6 – P(E | sex =male) = (4/6) (2/6) (4/6) = 8/81 P(sex = male | E) (8/81) (6/10) / P(E) P(sex = male | E) 0, 0593 / P(E) 29

Bayes Sınıflandırıcı için Örnek n P(sex = male | E) 0, 0593 / P(E)

Bayes Sınıflandırıcı için Örnek n P(sex = male | E) 0, 0593 / P(E) n P(sex = female | E) 0, 0281 / P(E) Bayes sınıflayıcı 0, 0593 > 0, 0281 olduğu için E davranışını gösteren kart sahibi erkektir. 30

Sınıflandırıcıyı Eğitmek n Veri {xt}t ’in ait olduğu sınıf Cj Tek boyutlu: p(x|Cj)~N (mj,

Sınıflandırıcıyı Eğitmek n Veri {xt}t ’in ait olduğu sınıf Cj Tek boyutlu: p(x|Cj)~N (mj, sj 2) Çok boyutlu: p(x|Cj)~Nd (mj, Sj) 31

Örnek: 1 Boyutlu 32

Örnek: 1 Boyutlu 32

Örnek: Çok Sınıf 33

Örnek: Çok Sınıf 33

Örnek: 2 Boyutlu 34

Örnek: 2 Boyutlu 34

Davranışlar ve Riskler ai : davranış i l(ai|Cj) : Sınıf Cj iken ai davranışını

Davranışlar ve Riskler ai : davranış i l(ai|Cj) : Sınıf Cj iken ai davranışını almanın getirdiği kayıp. ai davranışının riski: R ( a i |x ) = S j l ( a i|C j ) P( C j |x ) En az riskli davranışı seç: R(ak |x) = mini R(ai |x) 35

Regresyon: n Regresyon analizinin temelinde; gözlenen bir olayın değerlendirilirken, hangi olayların etkisi içinde olduğunun

Regresyon: n Regresyon analizinin temelinde; gözlenen bir olayın değerlendirilirken, hangi olayların etkisi içinde olduğunun araştırılması yatmaktadır. Bu olaylar bir veya birden çok olacağı gibi dolaylı veya direkt etkileniyor da olabilirler. Regresyon analizi yapılırken, gözlem değerlerinin ve etkilen olayların bir matematiksel gösterimle yani bir fonksiyon yardımıyla ifadesi gerekmektedir. Kurulan bu modele regresyon modeli denilmektedir. 36

Regresyon (Fonksiyon Yakınsama) 37

Regresyon (Fonksiyon Yakınsama) 37

Regresyon e gürültü. Doğrusal regresyonda parametreler w, w 0 E w 38

Regresyon e gürültü. Doğrusal regresyonda parametreler w, w 0 E w 38

Doğrusal Regresyon 39

Doğrusal Regresyon 39

Yüksek Dereceli Regresyon n Örneğin, ikinci dereceden 40

Yüksek Dereceli Regresyon n Örneğin, ikinci dereceden 40

Yüksek Dereceli Regresyon 41

Yüksek Dereceli Regresyon 41

Çok Değişkenli Doğrusal Regresyon (Scoring) nd değişken sayısı 42

Çok Değişkenli Doğrusal Regresyon (Scoring) nd değişken sayısı 42

Bellek Tabanlı Yöntemler n Örnek tabanlı karar verme n En yakın komşu algoritması n

Bellek Tabanlı Yöntemler n Örnek tabanlı karar verme n En yakın komşu algoritması n Bilinen geçmiş örnekleri bir liste içinde saklayıp buradan ara değerleme ile çıktı hesaplanır. 43

K -En Yakın Komşu x 2 x 1 44

K -En Yakın Komşu x 2 x 1 44

K- en yakın komşu n Bütün örnekler n boyutlu uzayda bir nokta olarak alınır.

K- en yakın komşu n Bütün örnekler n boyutlu uzayda bir nokta olarak alınır. n Öklid mesafesi kullanılarak en yakın komşu belirlenir, dist(X 1, X 2) n Hangi sınıfa ait olduğu bilinmeyen Xq örneği, kendisine en yakın k örneğin sınıfına aittir denir. 45

Yerel Regresyon y x Uzmanların Birleşimi 46

Yerel Regresyon y x Uzmanların Birleşimi 46

Karar Ağaçlarının Eğitilmesi x 2 x 1 > q 1 evet hayır x 2

Karar Ağaçlarının Eğitilmesi x 2 x 1 > q 1 evet hayır x 2 > q 2 evet y=1 hayır y=0 q 2 y=0 q 1 x 1 47

Düzensizliğin Ölçülmesi x 2 q 7 0 q x 1 1 9 8 5

Düzensizliğin Ölçülmesi x 2 q 7 0 q x 1 1 9 8 5 x 1 0 4 48

Entropi Entropy rastgeleliği, belirsizliği ve beklenmeyen durumun ortaya çıkma olasılığını gösterir. 49

Entropi Entropy rastgeleliği, belirsizliği ve beklenmeyen durumun ortaya çıkma olasılığını gösterir. 49

entropi 50

entropi 50

Karar ağacı: entropi örnek n Haftasonu veri kümesinde (T kümesi) diyelim 10 örnekten oluşsun:

Karar ağacı: entropi örnek n Haftasonu veri kümesinde (T kümesi) diyelim 10 örnekten oluşsun: – – n 6 örnek için karar sinema 2 örnek için karar tenis oynamak 1 örnek için karar evde kalmak ve 1 örnek için karar alışverişe gitmek olduğuna göre Entropy: H(T)= - (6/10) log 2(6/10) - (2/10) log 2(2/10) - (1/10) log 2(1/10) H(T)= 1, 571 51

Karar Ağaçları: Bilgi Kazancı n. A niteliğinin T veri kümesindeki bilgi kazancı: n Gain(T,

Karar Ağaçları: Bilgi Kazancı n. A niteliğinin T veri kümesindeki bilgi kazancı: n Gain(T, A)=Entropy(T)-Σ P(v) Entropy(T(v)) – v: Values of A – P(v)=|T(v) | / | T | 52

Yapay Sinir Ağları x 0=+1 x 2 w 1 w 2 g wd xd

Yapay Sinir Ağları x 0=+1 x 2 w 1 w 2 g wd xd w 0 y Regresyon: Öz Sınıflandırma: Sigmoid (0/1) 53

Yapay Sinir Ağının Eğitilmesi nd değişken Öğrenme kümesi: X üzerindeki hatayı en aza indiren

Yapay Sinir Ağının Eğitilmesi nd değişken Öğrenme kümesi: X üzerindeki hatayı en aza indiren w ’yi bul 54

Doğrusal Olmayan En İyileme E Wi Eğim iniş: Tekrarlı öğrenme hızı 55

Doğrusal Olmayan En İyileme E Wi Eğim iniş: Tekrarlı öğrenme hızı 55

Sınıflandırma için Yapay Sinir Ağları K tane sınıf için oj , j=1, . .

Sınıflandırma için Yapay Sinir Ağları K tane sınıf için oj , j=1, . . , K çıktı Her oj , P (Cj|x)’yi kestirir 56

Çok Sınıflı Doğrusal Yapay Sinir Ağı o 2 o 1 o. K w. Kd

Çok Sınıflı Doğrusal Yapay Sinir Ağı o 2 o 1 o. K w. Kd x 0=+1 x 2 xd 57

Tekrarlı Öğrenme Doğrusal olmayan 58

Tekrarlı Öğrenme Doğrusal olmayan 58

Doğrusal Olmayan Sınıflandırma Doğrusal ayırılabilir Doğrusal ayırılamaz; doğrusal olmayan bir ayırıcı gerekir. 59

Doğrusal Olmayan Sınıflandırma Doğrusal ayırılabilir Doğrusal ayırılamaz; doğrusal olmayan bir ayırıcı gerekir. 59

Çok Katmanlı Yapay Sinir Ağı (MLP) o 2 o 1 o. K t. KH

Çok Katmanlı Yapay Sinir Ağı (MLP) o 2 o 1 o. K t. KH h 2 h 1 h. H h 0=+1 x 1 x 2 w. Kd xd 60

Olasılık Ağları 61

Olasılık Ağları 61

Modelleri Değerlendirme 1. M ’nin gelecekteki gerçek veri üzerindeki başarısını nasıl ölçebiliriz? 2. M

Modelleri Değerlendirme 1. M ’nin gelecekteki gerçek veri üzerindeki başarısını nasıl ölçebiliriz? 2. M 1 , M 2 , . . . , ML arasında en iyisi hangi modeldir? 62

Modelleri Birleştirme: Neden? İlk Standard Form Öğrenme kümesi Model 1 Model 2 En iyiyi

Modelleri Birleştirme: Neden? İlk Standard Form Öğrenme kümesi Model 1 Model 2 En iyiyi seç En iyi model Model L Geçerleme kümesi 63

Modelleri Birleştirme : Nasıl? İlk Standard Form Öğrenme kümesi Model 1 Model 2 Oylama

Modelleri Birleştirme : Nasıl? İlk Standard Form Öğrenme kümesi Model 1 Model 2 Oylama Model L Geçerleme kümesi 64