Zeki Veri Madencilii Ethem Alpaydn Bilgisayar Mhendislii Blm

Zeki Veri Madenciliği Ethem Alpaydın Bilgisayar Mühendisliği Bölümü Boğaziçi Üniversitesi alpaydin@boun. edu. tr http: //www. cmpe. boun. edu. tr/~ethem

Veri Madenciliği nedir? • Büyük miktarda veri içinden, gelecekle ilgili tahmin yapmamızı sağlayacak bağıntı ve kuralların aranmasıdır. • Knowledge Discovery in Databases 2

Örnek Uygulamalar • Bağıntı “Çocuk bezi alan müşterilerin 30%’u bira da alır. ” (Basket Analysis) • Sınıflandırma “Genç kadınlar küçük araba satın alır; yaşlı, zengin erkekler ise büyük, lüks araba satın alır. ” • Regresyon Kredi skorlama (Application Scoring) 3

Örnek Uygulamalar • Zaman içinde Sıralı Örüntüler “İlk üç taksidinden iki veya daha fazlasını geç ödemiş olan müşteriler %60 olasılıkla krediyi geriye ödeyemiyor. ” (Behavioral scoring, Churning) • Benzer Zaman Sıraları “X şirketinin hisselerinin fiyatları Y şirketinin fiyatlarıyla benzer hareket ediyor. ” 4

Örnek Uygulamalar • İstisnalar (Fark Saptanması) “Normalden farklı davranış gösteren müşterilerim var mı? ” Fraud detection • Döküman Madenciliği (Web Madenciliği) “Bu arşivde (veya internet üzerinde) bu dökümana benzer hangi dökümanlar var? ” 5

Veri Madenciliği Sihir değildir! Veri madenciliği, veri tabanları, istatistik ve yapay öğrenme konularının kavramlarına dayanır ve onların tekniklerini kullanır. 6

Ambardan Madene Veri Ambarı Günlük Veri tabanları Veri alınır, çevrilir, temizlenir, guruplanır Standard form Amaç belirlenir, veri oluşturulur 7

Maden nasıl bulunur? Geçerleme Keşif Bilgisayar yardımıyla, Kullanıcı tarafından, Yukarıdan aşağıya Otomatik, Veri tarafından yönlendirilir, Aşağıdan yukarıya Sorgula ve Raporla OLAP (On. Line Analytical Processing) tools 8

Adımlar: 1. Amaç Tanımlama • Ürünler arasında bağıntı ? • Yeni pazar segmentleri veya potansiyel müşteriler? • Zaman içindeki satın alma örüntüleri veya ürün satım eğrileri? • Müşterileri guruplamak, sınıflandırmak ? 9

Adımlar: 2. Veri Hazırlama • Veriyi birleştir, seç ve önişle (Eğer veri ambarı varsa zaten yapılmıştır) • Var olan verinin dışında, amaç için kullanılabilecek ek bilgi var mı? 10

Adımlar: 2. Veri Hazırlama • Veri seçimi: Önemli değişkenlerin saptanması • Veri temizleme: Hata, tutarsızlık, tekrar ve eksik verilerin ayıklanması/düzeltilmesi • Veri fırçalama: Guruplama, dönüşümler • Görsel inceleme: Veri dağılımı, yapısı, istisnalar, değişkenler arasında bağıntılar • Değişken analizi: Guruplama, bölütleme 11

Adımlar: 3. Teknik Seçme • Amaç sınıfının tanımlanması Guruplama (Clustering/Segmentation), Bağıntı kurma (Association), Sınıflandırma (Classification), Zaman içinde örüntü bulma/tahmin yapma (Pattern detection/Prediction in time) • Çözüm sınıfınının tanımlanması Açıklama (Karar ağaçları, kurallar) vs Kara kutu (sinir ağı) • Model değerlendirme, geçerleme ve karşılaştırma k-kat çapraz geçerleme, istatistiksel testler • Modellerin birleştirilmesi 12

Adımlar: 4. Yorumlama • Sonuçlar (açıklamalar/tahminler) doğru mu, dikkate değer mi? • Uzmana danışma 13

Örnek • Veri, çok boyutlu değişkenler tablosudur Ad Ali Veli Gelir 25, 000 $ 18, 000 $ Birikim 50, 000 $ 10, 000 $ Medeni hali Evli Default. . . Hayır Evet Bir değişkenin değerini, diğer değişkenlerin değerleri cinsiden açıklamak istiyoruz. 14

Sistem Modelleme x : Gözlenebilen değişkenler. y =f (x) : f bilinmeyen ve rassal bir fonksiyon x f y 15

Veri için Model Oluşturma x y f - f* 16

Veriden Öğrenme Verilmiş örnek kümesi X={xt, yt}t üzerinde f (xt) ’ye en yakın kestirici f*(xt) ’i oluşturuyoruz. 17

Uygulama Tipleri • Sınıflandırma: y in {C 1, C 2, …, CK} • Regresyon: y in Re • Zaman Serisi Tahmini: x ’ler zaman içinde bağımlı • Öbekleme: x ’leri benzerliğe göre gurupla 18

birikim Örnek OK DEFAULT yıllık gelir 19

x 2 : birikim Örnek Çözüm OK DEFAULT q 2 x 1 : yıllık gelir q 1 KURAL: EĞER yıllık gelir> q 1 VE birikim> q 2 İSE OK DEĞİLSE DEFAULT 20

Karar Ağaçları x 1 > q 1 evet hayır x 2 > q 2 evet y = 1 x 1 : yıllık gelir x 2 : birikim y = 0: DEFAULT y = 1: OK y = 0 hayır y = 0 21

birikim Öbekleme Tip 1 Tip 2 OK DEFAULT Tip 3 yıllık gelir 22

Veri Görselleştirme • Görsel Analiz için veriyi daha az boyutlu (tercihen 2) olarak çiz. • Verinin yapısının; gurupların, istisnaların gözlenmesi 23

z 2 Veri Görselleştirme Kural İstisna z 1 24

Zaman Serisi Tahmini ? zaman Jan Feb Mar Apr May Jun Jul Aug Sep Oct Nov Dec Jan Geçmiş Discovery of frequent episodes Şimdi Gelecek 25

Metodoloji İlk Standard Form Öğrenme kümesi Model 1 Model 2 Yeterince iyi ise kabul et En iyiyi seç Model L Deneme kümesi Veri azaltma: Değişken sayısı ve değer azaltma En iyi model Eğitilmiş modelleri deneme kümesi üzerinde dene ve en başarılısını seç Olası modelleri öğrenme kümesi üstünde eğit 26

Kestiricileri Eğitmek için Teknikler • • Parametrik Çokboyutlu İstatistik Bellek tabanlı (Örnek tabanlı) Modeller Karar Ağaçları Yapay Sinir Ağları 27

Sınıflandırma • • x : d-boyutlu değişkenler vektörü C 1 , C 2 , . . . , CK : K sınıf Şüphe Veriden P(Ci|x) hesaplanır ve olasılığı en yüksek sınıf k seçilir P(Ck|x)=maxj P(Cj|x) 28

Bayes Kuralı p(x|Cj) : Sınıf j’den bir örneğin x olma olasılığı P(Cj) : Sınıf j’nin ilk olasılığı p(x) : Herhangi bir örneğin x olma olasılığı P(Cj|x) : x olan bir örneğin sınıf j’den olma olasılığı (son olasılık) 29

İstatistiksel Yöntemler • Sınıf dağılımları, p(x|Cj) için parametrik (Gauss) model varsayılıyor Tek boyutlu Çok boyutlu 30

Sınıflandırıcıyı Eğitmek • Veri {xt}t ’in ait olduğu sınıf Cj Tek boyutlu: p(x|Cj)~N (mj, sj 2) Çok boyutlu: p(x|Cj)~Nd (mj, Sj) 31

Örnek: 1 Boyutlu 32

Örnek: Farklı Varyanslar 33

Örnek: Çok Sınıf 34

Örnek: 2 Boyutlu 35

Örnek: Ortak Kovaryans 36

Örnek: Farklı Kovaryanslar 37

Regresyon (Fonksiyon Yakınsama) 39

Regresyon e gürültü. Doğrusal regresyonda parametreler w, w 0 E w 40

Doğrusal Regresyon 41

Yüksek Dereceli Regresyon • Örneğin, ikinci dereceden 42

Yüksek Dereceli Regresyon 43

Çok Değişkenli Doğrusal Regresyon (Scoring) • d değişken sayısı 44

Özellik Seçme • Özellikler Altkümesi Seçimi İleriye veya Geriye doğru seçim • Doğrusal İzdüşüm Temel Bileşenler Analizi (PCA) Doğrusal Ayırıcı Analizi (LDA) 45

Sıralı Altküme Seçimi İleriye Doğru Seçim (x 1) (x 2) (x 3) (x 4) (x 1 x 3) (x 2 x 3) (x 3 x 4) (x 1 x 2 x 3) (x 2 x 3 x 4) Geriye Doğru Seçim (x 1 x 2 x 3 x 4) (x 1 x 2 x 3) (x 1 x 2 x 4) (x 1 x 3 x 4) (x 2 x 4) (x 1 x 2) 46

Temel Bileşenler Analizi (PCA) x 2 z 2 z 1 x 1 z 1 Beyazlaştırma 47

Doğrusal Ayırıcı Analizi (LDA) x 2 z 1 x 1 48

Bellek Tabanlı Yöntemler • Örnek tabanlı karar verme • En yakın komşu algoritması • Bilinen geçmiş örnekleri bir liste içinde saklayıp buradan ara değerleme ile çıktı hesaplanır. 49

En Yakın Komşu x 2 x 1 50

Yerel Regresyon y x Uzmanların Birleşimi 51

Eksik Veri • Eksik veri olan kayıtları çıkar. • Ortalama ile doldur. • Diğer değişkenler cinsinden regresyon ile doldur. 52

Karar Ağaçlarının Eğitilmesi x 2 x 1 > q 1 evet hayır x 2 > q 2 evet y = 1 hayır y = 0 q 2 y = 0 q 1 x 1 53

Düzensizliğin Ölçülmesi x 2 q 7 0 q x 1 1 9 8 5 x 1 0 4 54

Entropi 55

Yapay Sinir Ağları x 0=+1 x 2 w 1 w 2 g wd xd w 0 y Regresyon: Öz Sınıflandırma: Sigmoid (0/1) 56

Yapay Sinir Ağının Eğitilmesi • d değişken Öğrenme kümesi: X üzerindeki hatayı en aza indiren w ’yi bul 57

Doğrusal Olmayan En İyileme E Wi Eğim iniş: Tekrarlı öğrenme hızı 58

Sınıflandırma için Yapay Sinir Ağları K tane sınıf için oj , j=1, . . , K çıktı Her oj , P (Cj|x)’yi kestirir 59

Çok Sınıflı Doğrusal Yapay Sinir Ağı o 2 o 1 o. K w. Kd x 0=+1 x 2 xd 60

Tekrarlı Öğrenme Doğrusal olmayan 61

Doğrusal Olmayan Sınıflandırma Doğrusal ayırılabilir Doğrusal ayırılamaz; doğrusal olmayan bir ayırıcı gerekir. 62

Çok Katmanlı Yapay Sinir Ağı (MLP) o 2 o 1 o. K t. KH h 2 h 1 h. H h 0=+1 x 1 x 2 w. Kd xd 63

Olasılık Ağları 64

Modelleri Değerlendirme 1. M ’nin gelecekteki gerçek veri üzerindeki başarısını nasıl ölçebiliriz? 2. M 1 , M 2 , . . . , ML arasında en iyisi hangi modeldir? 65

Çapraz Geçerleme 1 2 3 k-1 k k kere tekrar et ve ortalama al 66

Modelleri Birleştirme: Neden? İlk Standard Form Öğrenme kümesi Model 1 Model 2 En iyiyi seç En iyi model Model L Geçerleme kümesi 67

Modelleri Birleştirme : Nasıl? İlk Standard Form Öğrenme kümesi Model 1 Model 2 Oylama Model L Geçerleme kümesi 68

Kredi Skor Hesabı (Credit Scoring) • Başvuru (application) ve davranış (behavioral) skor hesabı • İstatistiksel bir model olarak skorkartı • İyi ve kötü risk müşteriler • Alanların doğrusal toplamı: Kredi kartı var mı? Evet: +50 Hayır: – 20 69

Kredi Skor Hesabında Kullanılan Alanlar • • • İkamet adresinde oturduğu zaman: 0 -1, 1 -2, 3 -4, 5+ yıl Ev durumu: Sahip, kiracı, diğer Postakodu: Kodlanmış Telefon: Evet, hayır Yıllık gelir: Kodlanmış Kredi kartı: Evet, hayır Yaş: 18 -25, 26 -40, 41 -55, 55+ yıl Meslek: Memur, işçi, serbest, işsiz, . . . Medeni hali: Evli, bekar, diğer Bankanın müşterisi olduğu zaman: yıl Çalıştığı kurumda çalışma zamanı: yıl 70

Kredi Skor Hesabının Yararları • Daha doğru karar vermeyi sağlar. • Skorkartı standardizasyon ve nesnel karar getirir. • Hızlı ve ucuzdur. • Kullanılan tek skorkartının üzerinde kurumun kontrolü vardır. • Yeni skorkartı otomatik olarak kolay ve hızlı bir şekilde hesaplanabilir. 71

Sepet Analizi (Basket Analysis) • X ve Y malları arasındaki ilişki • X, Y: 0/1 Destek (Support): P(X ve Y)= X ve Y mallarını satın almış müşteri sayısı / Toplam müşteri sayısı Güven (Confidence): P(X|Y)=P(X ve Y)/P(Y) = X ve Y mallarını satın almış müşteri sayısı / Y malını satın almış müşteri sayısı 72

Sepet Analizi • X, Y beğeni değerleri • Corr(X, Y)=Cov(X, Y)/(Std(X)*Std(Y)) • Cov(X, Y)=E[(X-m. X) (Y-m. Y)] 73

Sonuçlar: Verinin Önemi • Amaç, büyük miktardaki ham veriden değerli bilginin çıkarılmasıdır. • Çok miktarda, güvenilir veri önşarttır. Çözümün kalitesi öncelikle verinin kalitesine bağlıdır. • Veri madenciliği simya değildir; taşı altına döndüremeyiz. 74

Sonuçlar: Uzmanın Önemi • Veri madenciliği, uygulama alanındaki uzmanların ve bilgisayarın ortak çalışmasıdır. • Uygulama ile ilgili ve yararlı olabilecek her tür bilginin (simetriler, kısıtlar, vb) öğrenmeye yardım için sisteme verilmesi gerekir. • Sonuçların tutarlılığının uzmanlar tarafından denetlenmesi gerekir. 75

Sonuçlar: Sabrın Önemi • Veri madenciliği tek aşamalı bir çalışma değildir; tekrarlıdır. Sistem ayarlanana dek birçok deneme gerektirir. • Veri madenciliği uzun bir çalışma olabilir. Büyük beklentiler büyük hayal kırıklıklarına neden olur. 76

Tekrar: Madencilik için Gerekenler • • Çok miktarda kaliteli veri İlgili ve bilgili uzmanlar: 1. Uygulama alanı 2. Veri Tabanları (Veri Ambarcılığı) 3. İstatistik ve Yapay Öğrenme • Zaman ve sabır 77