Sistem analizi ve tasarm snflandrma 04 06 7950
- Slides: 64
Sistem analizi ve tasarımı sınıflandırma 04 -06 -7950 EGE ÜNİVERSİTESİ
Veri Madenciliği nedir? Verinin bir dağ şeklinde depolanması ve değerli olan bilginin bu dağdaki değerli cevherle benzetilmesinden alır. • Asıl problem bu dağdaki değerli olan madene ulaşmak için değersiz olan kaya ve taş yığınlarını elemektir. • Çok veri olup da az bilgi ihtiyacımıza karşılık projenin daha hızlı, daha verimli ve daha az maliyetle gerçekleştirilmesi için bir rehberdir. • 2
Veri madenciliği modelleri Kestirime dayalı sınıflandırma Eğri uydurma Tanımlamaya dayalı Zaman serileri Demetleme (kümeleme) özetleme İlişkilendirme kuralları Sıralı dizi 3
Sınıflandırma: Sınıflamanın temel kuralları: n Öğrenme eğiticilidir n Veri setinde bulunan her örneğin bir dizi niteliği vardır ve bu niteliklerden biri de sınıf bilgisidir. n Hangi sınıfa ait olduğu bilinen nesneler (öğrenme kümesi- training set) ile bir model oluşturulur n Oluşturulan model öğrenme kümesinde yer almayan nesneler (deneme kümesi- test set) ile denenerek başarısı ölçülür 4
Sınıflandırma: n Örnek: “Genç kadınlar küçük araba satın alır, yaşlı, zengin erkekler büyük, lüks araba satın alır. ” Amaç bir malın özellikleri ile müşteri özelliklerini eşleştirmektir. “Genç kadınlar küçük araba satın alır, yaşlı, zengin erkekler büyük, lüks araba satın alır. ” 5
Sınıflandırma Yöntemleri: n Karar Ağaçları (decision trees) n Örnek Tabanlı Yöntemler: k en-yakın komşu (Instance Based Methods- k nearest neighbor) n Bayes Sınıflandırıcı (Bayes Classifier) n Yapay Sinir Ağları (Artificial Neural Networks) n Genetik Algoritmalar (Genetic Algorithms) 6
Sınıflandırma adımları n Amaç sınıfının tanımlanması Sınıflandırma (Classification) n Çözüm sınıfınının tanımlanması Açıklama (Karar ağaçları, kurallar) vs sinir ağı n Model değerlendirme, geçerleme ve karşılaştırma istatistiksel testler n Modellerin birleştirilmesi 7
Sınıflandırma adımları n Sonuçlar (açıklamalar/tahminler) doğru mu, dikkate değer mi? n Uzmana danışma 8
Sistem Modelleme x : Gözlenebilen değişkenler. y =f (x) : f bilinmeyen ve rassal bir fonksiyon x f y 9
Veri için Model Oluşturma x y f - f* 10
Veriden Öğrenme Verilmiş örnek kümesi X={xt, yt}t üzerinde f (xt) ’ye en yakın kestirici f*(xt) ’i oluşturuyoruz. 11
Örnek: Bir finans kurumu olduğumuzu ve insanlara kredi verdiğimizi varsayalım. Geçmişte kredi verdiğimiz insanların bazıları kredilerini normal olarak geri ödemiş, bazılarıysa ödeyememiş ve kanuni takibe düşmüş olsun. Bu örnekte yapmak istediğimiz bu kişilerin özelliklerine bakarak ödemelerini düzenli yapan müşterileri, kanuni takibe düşmüş (defaulted) müşterilerden ayırabilmektir. 12
Örnek: n Veriyi görselleştirebilmek için sadece iki alan olduğunu varsayalım. Bunlar yıllık gelir ve birikim olsun. Örnek veri bu iki boyutlu uzayda noktalar olarak çizilebilir (Şekil 2). Amacımız bu iki boyutlu uzayda kredisini normal ödemiş ve kanuni takipe düşmüş iki gurup kişilere karşılık gelen noktaları birbirinden ayıran bir sınır bulabilmektir. Bu bir sınıflandırma problemidir. 13
Veri Görselleştirme n Görsel Analiz için veriyi daha az boyutlu (tercihen 2) olarak çiz. n Verinin yapısının; gurupların, istisnaların gözlenmesi 14
Yıllık gelir Örnek: evet hayır birikim 15
x 2 : ünvan Örnek Çözüm evet hayır q 2 q 1 x 1 : yıl Karar ağacı tarafından tanımlanan sınıf 16
Karar Ağaçları x 1 > q 1 evet hayır x 2 > q 2 evet y=1 x 1 : yıl x 2 : ünvan y = 0: hayır y = 1: evet y=0 hayır y=0 17
Metodoloji Her uygulamada kullanılabilecek birden çok teknik vardır ve önceden hangisinin en başarılı olacağını kestirmek olası değildir. Bu yüzden öğrenme kümesi üzerinde L değişik teknik kullanılarak L tane model oluşturulur. Sonra bu L model deneme kümesi üzerinde denenerek en başarılı olanı, yani deneme kümesi üzerindeki tahmin başarısı en yüksek olanı seçilir. n Eğer bu en iyi model yeterince başarılıysa kullanılır, aksi takdirde başa dönerek çalışma tekrarlanır. Tekrar sırasında başarısız olan örnekler incelenerek bunlar üzerindeki başarının nasıl arttırılabileceği araştırılır. Örneğin standart forma yeni alanlar ekleyerek programa verilen bilgi arttırılabilir; veya olan bilgi değişik bir şekilde kodlanabilir; veya amaç daha değişik bir şekilde tanımlanabilir. n 18
Metodoloji İlk Standard Form Öğrenme kümesi Model 1 Model 2 Yeterince iyi ise kabul et En iyiyi seç Model L Deneme kümesi Veri azaltma: Değişken sayısı ve değer azaltma En iyi model Eğitilmiş modelleri deneme kümesi üzerinde dene ve en başarılısını seç Olası modelleri öğrenme kümesi üstünde eğit 19
Kestiricileri Eğitmek için Teknikler n Parametrik Çokboyutlu İstatistik n Bellek tabanlı (Örnek tabanlı) Modeller n Karar Ağaçları n Yapay Sinir Ağları 20
Sınıflandırma n n x : d-boyutlu değişkenler vektörü C 1 , C 2 , . . . , CK : K sınıf Şüphe n Veriden P(Ci|x) hesaplanır ve olasılığı en yüksek sınıf k seçilir P(Ck|x)=maxj P(Cj|x) n 21
Bayes sınıflandırıcı n Bayes Sınıflayıcı, Bayes teoremine göre istatistiksel kestirim yapar. n Bir örneğin sınıf üyelik olasılığını kestirir. n Naïve Bayesian sınıflandırıcı (simple Bayesian classifier) oldukça başarılı bir sınıflayıcıdır. 22
Bayes Kuralı p(x|Cj) P( C j ) p(x) P(Cj|x) : : Sınıf j’den bir örneğin x olma olasılığı Sınıf j’nin ilk olasılığı Herhangi bir örneğin x olma olasılığı x olan bir örneğin sınıf j’den olma olasılığı (son olasılık) 23
İstatistiksel Yöntemler dağılımları, p(x|Cj) için parametrik (Gauss) model varsayılıyor n Sınıf Tek boyutlu Çok boyutlu 24
Bayes Sınıflandırıcı için Örnek 25
Bayes Sınıflandırıcı için Örnek n Sınıflandırılacak örnek: – Magazine Promotion = Yes – Watch Promotion = Yes – Life Insurance Promotion = No – Credit Card Insurance = No – Sex = ? 26
Bayes Sınıflandırıcı için Örnek 27
Bayes Sınıflandırıcı için Örnek n Sex = Male için olasılık hesabı 28
Bayes Sınıflandırıcı için Örnek n Sex = Male için koşullu olasılıklar; – – P(magazine promotion = yes | sex = male) = 4/6 P(watch promotion = yes | sex = male) = 2/6 P(life insurance promotion = no | sex = male) = 4/6 P(credit card insurance = no | sex = male) = 4/6 – P(E | sex =male) = (4/6) (2/6) (4/6) = 8/81 P(sex = male | E) (8/81) (6/10) / P(E) P(sex = male | E) 0, 0593 / P(E) 29
Bayes Sınıflandırıcı için Örnek n P(sex = male | E) 0, 0593 / P(E) n P(sex = female | E) 0, 0281 / P(E) Bayes sınıflayıcı 0, 0593 > 0, 0281 olduğu için E davranışını gösteren kart sahibi erkektir. 30
Sınıflandırıcıyı Eğitmek n Veri {xt}t ’in ait olduğu sınıf Cj Tek boyutlu: p(x|Cj)~N (mj, sj 2) Çok boyutlu: p(x|Cj)~Nd (mj, Sj) 31
Örnek: 1 Boyutlu 32
Örnek: Çok Sınıf 33
Örnek: 2 Boyutlu 34
Davranışlar ve Riskler ai : davranış i l(ai|Cj) : Sınıf Cj iken ai davranışını almanın getirdiği kayıp. ai davranışının riski: R ( a i |x ) = S j l ( a i|C j ) P( C j |x ) En az riskli davranışı seç: R(ak |x) = mini R(ai |x) 35
Regresyon: n Regresyon analizinin temelinde; gözlenen bir olayın değerlendirilirken, hangi olayların etkisi içinde olduğunun araştırılması yatmaktadır. Bu olaylar bir veya birden çok olacağı gibi dolaylı veya direkt etkileniyor da olabilirler. Regresyon analizi yapılırken, gözlem değerlerinin ve etkilen olayların bir matematiksel gösterimle yani bir fonksiyon yardımıyla ifadesi gerekmektedir. Kurulan bu modele regresyon modeli denilmektedir. 36
Regresyon (Fonksiyon Yakınsama) 37
Regresyon e gürültü. Doğrusal regresyonda parametreler w, w 0 E w 38
Doğrusal Regresyon 39
Yüksek Dereceli Regresyon n Örneğin, ikinci dereceden 40
Yüksek Dereceli Regresyon 41
Çok Değişkenli Doğrusal Regresyon (Scoring) nd değişken sayısı 42
Bellek Tabanlı Yöntemler n Örnek tabanlı karar verme n En yakın komşu algoritması n Bilinen geçmiş örnekleri bir liste içinde saklayıp buradan ara değerleme ile çıktı hesaplanır. 43
K -En Yakın Komşu x 2 x 1 44
K- en yakın komşu n Bütün örnekler n boyutlu uzayda bir nokta olarak alınır. n Öklid mesafesi kullanılarak en yakın komşu belirlenir, dist(X 1, X 2) n Hangi sınıfa ait olduğu bilinmeyen Xq örneği, kendisine en yakın k örneğin sınıfına aittir denir. 45
Yerel Regresyon y x Uzmanların Birleşimi 46
Karar Ağaçlarının Eğitilmesi x 2 x 1 > q 1 evet hayır x 2 > q 2 evet y=1 hayır y=0 q 2 y=0 q 1 x 1 47
Düzensizliğin Ölçülmesi x 2 q 7 0 q x 1 1 9 8 5 x 1 0 4 48
Entropi Entropy rastgeleliği, belirsizliği ve beklenmeyen durumun ortaya çıkma olasılığını gösterir. 49
entropi 50
Karar ağacı: entropi örnek n Haftasonu veri kümesinde (T kümesi) diyelim 10 örnekten oluşsun: – – n 6 örnek için karar sinema 2 örnek için karar tenis oynamak 1 örnek için karar evde kalmak ve 1 örnek için karar alışverişe gitmek olduğuna göre Entropy: H(T)= - (6/10) log 2(6/10) - (2/10) log 2(2/10) - (1/10) log 2(1/10) H(T)= 1, 571 51
Karar Ağaçları: Bilgi Kazancı n. A niteliğinin T veri kümesindeki bilgi kazancı: n Gain(T, A)=Entropy(T)-Σ P(v) Entropy(T(v)) – v: Values of A – P(v)=|T(v) | / | T | 52
Yapay Sinir Ağları x 0=+1 x 2 w 1 w 2 g wd xd w 0 y Regresyon: Öz Sınıflandırma: Sigmoid (0/1) 53
Yapay Sinir Ağının Eğitilmesi nd değişken Öğrenme kümesi: X üzerindeki hatayı en aza indiren w ’yi bul 54
Doğrusal Olmayan En İyileme E Wi Eğim iniş: Tekrarlı öğrenme hızı 55
Sınıflandırma için Yapay Sinir Ağları K tane sınıf için oj , j=1, . . , K çıktı Her oj , P (Cj|x)’yi kestirir 56
Çok Sınıflı Doğrusal Yapay Sinir Ağı o 2 o 1 o. K w. Kd x 0=+1 x 2 xd 57
Tekrarlı Öğrenme Doğrusal olmayan 58
Doğrusal Olmayan Sınıflandırma Doğrusal ayırılabilir Doğrusal ayırılamaz; doğrusal olmayan bir ayırıcı gerekir. 59
Çok Katmanlı Yapay Sinir Ağı (MLP) o 2 o 1 o. K t. KH h 2 h 1 h. H h 0=+1 x 1 x 2 w. Kd xd 60
Olasılık Ağları 61
Modelleri Değerlendirme 1. M ’nin gelecekteki gerçek veri üzerindeki başarısını nasıl ölçebiliriz? 2. M 1 , M 2 , . . . , ML arasında en iyisi hangi modeldir? 62
Modelleri Birleştirme: Neden? İlk Standard Form Öğrenme kümesi Model 1 Model 2 En iyiyi seç En iyi model Model L Geçerleme kümesi 63
Modelleri Birleştirme : Nasıl? İlk Standard Form Öğrenme kümesi Model 1 Model 2 Oylama Model L Geçerleme kümesi 64
- Web tasarm
- Oimt
- Sistem analizi nedir
- Devre sistem analizi
- Kritik yol hesaplama
- Turizm swot analizi örneği
- Yerine koyma metodu algoritma analizi
- Dacum nedir
- Elek analizi
- Spearman korelasyon analizi
- Performans güçleri analizi
- Pazarlama fonksiyonu
- Kavram analizi örnekleri
- Hawthorne araştırmaları
- Freudenstein denklemi
- Dört çubuk mekanizması konum analizi
- Matris veri analizi diyagramı
- Ikincil paydaşlar
- Kefe swot
- Varyans analizi
- Swot n
- Tekislik va uning berilishi
- Hepsiburada swot analizi
- Kavram öğretiminde kullanılan yöntemler
- X tipi matris risk analizi örneği
- Tişört giyme beceri analizi
- Median epizyotomi
- Mexanizmning erkinlik darajasi
- Transfer fonksiyonu devre analizi
- Sosyolojik film analizi
- Hastane swot analizi
- Ynler
- Pims analizi
- Tows matrisi
- 4.grup katyonların analizi
- Huni tipli göğüs
- Eds wds
- Tokuda bolnica
- 4.grup katyonların analizi
- Kişisel swot analizi örnekleri
- Hidrograf analizi
- Doğrusal trend analizi
- Migros organizasyon şeması
- Kalite risk analizi örneği
- Matris veri analizi diyagramı
- Afinite diyagramı
- Trafik lambası matrisi
- Varyans analizi nedir
- "bahs"
- Diş fırçalama beceri analizi
- Ham kül nedir
- Dikey yüzde analizi
- Kavram ağları
- Bruselyoz analizi
- Nitel araştırma nedir
- Beceri analizi örnekleri
- Kovaryans analizi
- Coca-cola ürün yaşam eğrisi
- Fütz analizi
- Panel veri analizi örnekleri
- Korelasyon örnekleri
- Migros swot analizi
- Yemek yeme beceri analizi örnekleri
- Kalitatif risk analizi
- Starbucks swot analizi