Adatredukcis mdszerek klaszterezs alakfelismers Gazdasginformatikus MSc Dr Ketskemty

  • Slides: 86
Download presentation
Adatredukciós módszerek (klaszterezés, alakfelismerés) Gazdaságinformatikus MSc Dr Ketskeméty László előadása

Adatredukciós módszerek (klaszterezés, alakfelismerés) Gazdaságinformatikus MSc Dr Ketskeméty László előadása

Adatredukció Olyan statisztikai módszerek tartoznak ide, melyek lehetővé teszik, hogy az adatmátrix méretét csökkentve

Adatredukció Olyan statisztikai módszerek tartoznak ide, melyek lehetővé teszik, hogy az adatmátrix méretét csökkentve kisebb költséggel értékelhessük ki a statisztikai sokaságot. A redukált adatmennyiségből levont statisztikai következtetések érvényesek maradnak az eredeti statisztikai sokaságra is. A csökkentés vonatkozhat az esetszám csökkentésére és a változók számának a csökkentésére egyaránt. • Klaszteranalízis, osztályozás • Ritkítás véletlenszám generálással • Faktoranalízis, főkomponens-analízis • Diszkriminanciaanalízis • Többdimenziós skálázás (MDS) 6/5/2021 Dr Ketskeméty László előadása 2

Adatredukció KLASZTERANALÍZIS Az eseteket homogén csoportokba (ú. n. klaszterekbe) soroljuk. A csoportosítás alapja egy

Adatredukció KLASZTERANALÍZIS Az eseteket homogén csoportokba (ú. n. klaszterekbe) soroljuk. A csoportosítás alapja egy adott metrika szerinti közelség, illetve egy adott hasonlósági mérték szerinti hasonlóság. DISZKRIMINANCIAALÍZIS Az esetek egy kategóriaváltozó értékei alapján osztályokba vannak tagolva. A feladat az, hogy a többdimenziós térben az osztályokat szeparáló felületekkel elválasszuk. OSZTÁLYOZÁS Ismert kategóriájú esetek segítségével (tananyag) döntésfüggvényt konstruálunk, amivel ismeretlen kategóriájú esetekhez is tudunk osztályokat rendelni. 6/5/2021 Dr Ketskeméty László előadása 3

Az alakfelismerés matematikai modellje 6/5/2021 Dr Ketskeméty László előadása 4

Az alakfelismerés matematikai modellje 6/5/2021 Dr Ketskeméty László előadása 4

Az alakfelismerés matematikai modellje 6/5/2021 Dr Ketskeméty László előadása 5

Az alakfelismerés matematikai modellje 6/5/2021 Dr Ketskeméty László előadása 5

Az alakfelismerés matematikai modellje 6/5/2021 Dr Ketskeméty László előadása 6

Az alakfelismerés matematikai modellje 6/5/2021 Dr Ketskeméty László előadása 6

Az alakfelismerés matematikai modellje 6/5/2021 Dr Ketskeméty László előadása 7

Az alakfelismerés matematikai modellje 6/5/2021 Dr Ketskeméty László előadása 7

Az alakfelismerés matematikai modellje 6/5/2021 Dr Ketskeméty László előadása 8

Az alakfelismerés matematikai modellje 6/5/2021 Dr Ketskeméty László előadása 8

Az alakfelismerés matematikai modellje 6/5/2021 Dr Ketskeméty László előadása 9

Az alakfelismerés matematikai modellje 6/5/2021 Dr Ketskeméty László előadása 9

PÉLDÁK KLASZTERANALÍZIS • Milyen csoportok alakíthatók ki az employee állományban a fizetési adatok (salary,

PÉLDÁK KLASZTERANALÍZIS • Milyen csoportok alakíthatók ki az employee állományban a fizetési adatok (salary, salbegin) alapján? • Milyen csoportosulások keletkeznek az országok halmazában, ha az egészségügyi helyzetet jellemző változókat tekintjük: lifeexpf, lifeexpm, babymort, calories, aids_rt, b_to_d • Milyen csoportosulások keletkeznek az országok halmazában, ha a gazdasági helyzetet jellemző változókat tekintjük: gdp_cap, cropgrow, urban 6/5/2021 Dr Ketskeméty László előadása 10

PÉLDÁK DISZKRIMINANCIAALÍZIS • A fizetési adatok mennyire választható szét a jobcat, gender illetve minority

PÉLDÁK DISZKRIMINANCIAALÍZIS • A fizetési adatok mennyire választható szét a jobcat, gender illetve minority kategóriaváltozók alapján? • Mennyire válnak szét az országok a gazdasági tömörülés (region ) alapján? ( OSZTÁLYOZÁS • Betűfelismerés • Műholdképpontok osztályozása • Banki rizikóelemzés: kapjon hitelt? Ne kapjon? 6/5/2021 Dr Ketskeméty László előadása • Orvosi diagnosztika: Beteg? Nem beteg? • Repülésirányítás: Felszálljon? Töröljék? 11

Betűfelismerés Beszkennelt szövegek digitalizálásánál merül fel, hogy a szöveg karaktereit, a betűket, a számokat

Betűfelismerés Beszkennelt szövegek digitalizálásánál merül fel, hogy a szöveg karaktereit, a betűket, a számokat számítógépes programmal azonosítani kell. Ez a probléma merül fel pl. az alábbi alkalmazásokban: • Postai küldemények automatikus osztályozása; • Rendszámok automatikus felismerése; • Aláírás automatikus azonosítása banki biztonsági rendszerben; • Nyomtatványok automatikus digitalizálása (RECOGNITA); • Automatikus útlevél-ellenőrzés; 6/5/2021 Dr Ketskeméty László előadása 12

Betűfelismerés A betűfelismerés folyamatának lépései: • A karakterek leválasztása a szövegből • A leválasztott

Betűfelismerés A betűfelismerés folyamatának lépései: • A karakterek leválasztása a szövegből • A leválasztott karakter alakzatvektorának elkészítése • A tananyag segítségével a karakter felismerése Mindegyikhez le kell gyártani az alakzatvektort a tananyagba 6/5/2021 Dr Ketskeméty László előadása 13

Klaszterezés (clustering) Általában a klaszterezés célkitűzése az, hogy az „összetartozó” eseteket közös csoportba soroljuk.

Klaszterezés (clustering) Általában a klaszterezés célkitűzése az, hogy az „összetartozó” eseteket közös csoportba soroljuk. 6/5/2021 Dr Ketskeméty László előadása 14

Klaszterezés (clustering) 6/5/2021 Dr Ketskeméty László előadása 15

Klaszterezés (clustering) 6/5/2021 Dr Ketskeméty László előadása 15

Klaszterezés (clustering) Elvileg úgy is eljárhatnánk, hogy az összes lehetséges csoportosításból választjuk ki a

Klaszterezés (clustering) Elvileg úgy is eljárhatnánk, hogy az összes lehetséges csoportosításból választjuk ki a legjobbat. Hányféleképpen lehet k csoportba sorolni N elemet? Ez túlságosan nagy szám, hogy így járjunk el! Olyan algoritmusok kellenek, amelyek eleve jó csoportosításokat képeznek, amiből egy optimum elv segítségével kiválasztható egy „nagyon jó”. 6/5/2021 Dr Ketskeméty László előadása 16

Klaszterezés (clustering) Az alkalmazásokban már sokszor problémát okoz a kialakítandó csoportok száma (k) is!

Klaszterezés (clustering) Az alkalmazásokban már sokszor problémát okoz a kialakítandó csoportok száma (k) is! Van olyan algoritmus, ami megköveteli az alkalmazásához, hogy megadjuk k-t! Másik alapprobléma, hogy milyen d metrikafüggvény írja le hitelesen az esetek távolságát. Ez különösen fontos, amikor az alakzatvektor koordinátái között diszkrét változók (esetleg nominális szintű) is vannak. A csoportosítás elvégzése után el kell tenni a klaszterek jellemzését. Ezt leíró statisztikákkal, vagy tipikus esetek felsorolásával tudjuk megtenni. 6/5/2021 Dr Ketskeméty László előadása 17

A k-közép módszer (K-Means Cluster Analysis) ( Olyan dinamikus klaszterező eljárás, amikor előre meg

A k-közép módszer (K-Means Cluster Analysis) ( Olyan dinamikus klaszterező eljárás, amikor előre meg kell adni a klaszterek számát. A klaszter-középpontok térbeli helyzetét iterációban állandóan változtatjuk, amíg egy stabil állapot ki nem alakul. Az esetvektorok a legközelebbi klaszterközépponthoz lesznek rendelve. Előnye: • Nagy esetszámú adatmátrix feldolgozható vele. • Egyszerű, gyors. • Véges sok lépésben leáll, minimalizálja a tömörséget Hátránya: • A metrika beépített, körülményes a koordinátasúlyozás • Előre meg kell adni a klaszterek számát • Az eredmény függ a sorrendtől 6/5/2021 Dr Ketskeméty László előadása 18

A k-közép módszer (K-Means Cluster Analysis) ( Az algoritmus lépései a következőek (Mac. Queen,

A k-közép módszer (K-Means Cluster Analysis) ( Az algoritmus lépései a következőek (Mac. Queen, 1967): • Kiválasztja a klaszterek számát (k). • Véletlenszerűen létrehoz k számú klasztert, és meghatározza minden klaszter közepét, vagy azonnal létrehoz k véletlenszerű klaszter középpontot. • Minden egyes pontot abba a klaszterbe sorol, amelynek középpontjához a legközelebb helyezkedik el. • Kiszámolja az új klaszter középpontokat. • Addig ismétli az előző két lépést (iterál), amíg valamilyen konvergenia kritérium nem teljesül (általában az, hogy a besorolás nem változik). 6/5/2021 Dr Ketskeméty László előadása 19

A k-közép módszer (K-Means Cluster Analysis) ( x 1, …, x. N a megfigyelések

A k-közép módszer (K-Means Cluster Analysis) ( x 1, …, x. N a megfigyelések p-dimenziós vektorok Mindegyik megfigyelés (minden xi) egyértelműen egy klaszterhez fog sorolódni C(i) jelöli a klaszterazonosítóját a itdik megfigyelésnek A távolságfüggvény: Az Euclideszi metrika K-means minimalizálja a klaszteren belüli szóródást: ahol mk a kdik klaszter átlagvektora, Nk a kdik klaszter elemszáma 6/5/2021 Dr Ketskeméty László előadása 20

A k-közép módszer (K-Means Cluster Analysis) ( Jelölje T az N adatpont teljes szóródását:

A k-közép módszer (K-Means Cluster Analysis) ( Jelölje T az N adatpont teljes szóródását: Két pont távolsága T átírható: Ha d az Euclidesz metrika négyzete, akkor Ahol, Klasztereken belüli szóródás and Klaszterek között szóródás 6/5/2021 Teljes átlag W(C) minimalizálása azonos B(C) maximalizálásával Dr Ketskeméty László előadása 21

A k-közép módszer (K-Means Cluster Analysis) ( Minden C klaszterhez kiszámoljuk az átlagokat mk

A k-közép módszer (K-Means Cluster Analysis) ( Minden C klaszterhez kiszámoljuk az átlagokat mk : Minden megfigyelés vektort a legközelebbi átlagvektorhoz sorolunk: Ha egy iteráció befejeződött, újraszámoljuk az átlagokat, és új iterációt nyitunk, amíg az átsorolódó pontok száma egy adott küszöb alá nem esik 6/5/2021 Dr Ketskeméty László előadása 22

6/5/2021 Dr Ketskeméty László előadása 23

6/5/2021 Dr Ketskeméty László előadása 23

K-means klaszterezési példa 6/5/2021 Dr Ketskeméty László előadása 24

K-means klaszterezési példa 6/5/2021 Dr Ketskeméty László előadása 24

K-medoids klaszterezés K-means klaszterezés tökéletes Euklideszi-metrikánál; Így, a K-means klaszterezés csak numerikus, skálás prediktorváltozóknál

K-medoids klaszterezés K-means klaszterezés tökéletes Euklideszi-metrikánál; Így, a K-means klaszterezés csak numerikus, skálás prediktorváltozóknál alkalmazható; Az Euklideszi távolságot biztos nem alkalmazhatjuk az alábbi két esetben Néhány prediktorváltozó diszkrét Outlierek (szélsőséges esetek) vannak az adatállományban A K-means algoritmus általánosítását. K-medoids klaszterezésnek nevezik, ami tetszőleges metrikával működik; K-medoids klaszterezés hatásosabb, jobb eredményt ad 6/5/2021 Dr Ketskeméty László előadása 25

K-medoids klaszterezés 1. lépés: Minden klaszterben keressük meg azt a pontot, amitől a többi,

K-medoids klaszterezés 1. lépés: Minden klaszterben keressük meg azt a pontot, amitől a többi, ugyanabba a klaszterbe eső pont a legkisebb szóródási mutatót produkálja: 2. lépés: Ezek lesznek a klaszter centrumok (medoidok): 3. lépés: Tekintve ezeket a centrumokat {m 1, …, m. K}, soroljuk a pontokat a legközelebbi centrumhoz tartozó klaszterbe: Iteráljuk az 1. -3. lépéseket! 6/5/2021 Dr Ketskeméty László előadása 26

Hogyan válasszuk meg K-t? Hogyan lehet WK (C) -t, a klaszterek belső szóródását felhasználni

Hogyan válasszuk meg K-t? Hogyan lehet WK (C) -t, a klaszterek belső szóródását felhasználni K meghatározására? Megjegyezzük, hogy WK(C) monoton csökken K növekedtével. Azaz a belső klaszter-szóródás csökken a centrumszámok növekedtével. Ezért azt nézzük, mely növekedésnél csökkent legintenzívebben WK(C) értéke: 6/5/2021 Dr Ketskeméty László előadása 27

Hogyan válasszuk meg K-t? Fent látható két szimulált kétdimenziós pontfelhő Log(WK) görbék Differencia görbe

Hogyan válasszuk meg K-t? Fent látható két szimulált kétdimenziós pontfelhő Log(WK) görbék Differencia görbe A döntést szubjektív érzeteink alapján hozhatjuk meg! 6/5/2021 Dr Ketskeméty László előadása 28

A hierachikus klaszterezés (Hierarchical Cluster Analysis) ( Egyelemű klaszterekből kiindulva, minden lépésben a két

A hierachikus klaszterezés (Hierarchical Cluster Analysis) ( Egyelemű klaszterekből kiindulva, minden lépésben a két legközelebb fekvő klasztert összevonva csökkentjük a klaszterek számát, amíg minden eset egyetlen klaszterbe nem kerül. A folyamatot regisztráló dendogrammot utólag kielemezve, azt a köztes állapotot fogadjuk el, amikor az összevonás erőltetett volt, azaz az összevont klaszterek elég távol vannak egymástól. Előnye: • Nem kell előre tudni a klaszterek számát • Változtatható a távolság- és hasonlósági-mérték Hátránya: • Kis dimenziószám esetén indítható el 6/5/2021 Dr Ketskeméty László előadása 29

A hierachikus klaszterezés (Hierarchical Cluster Analysis) ( 6/5/2021 Dr Ketskeméty László előadása 30

A hierachikus klaszterezés (Hierarchical Cluster Analysis) ( 6/5/2021 Dr Ketskeméty László előadása 30

A d( x, y ) TÁVOLSÁGFÜGGVÉNY K L A S Z T E R

A d( x, y ) TÁVOLSÁGFÜGGVÉNY K L A S Z T E R A N A L Í Z I S 6/5/2021 Dr Ketskeméty László előadása 31

H I E R A R C H I K U S K L

H I E R A R C H I K U S K L A S Z T E R E Z É S KLASZTEREK d( C 1, C 2 ) TÁVOLSÁGA A legközelebbi-társ távolság A legtávolabbi-társ távolság Klasztercentrumok távolsága 6/5/2021 Dr Ketskeméty László előadása 32

ESETEK d( x, y ) TÁVOLSÁGAI K L A S Z T E R

ESETEK d( x, y ) TÁVOLSÁGAI K L A S Z T E R A N A L Í Z I S 6/5/2021 Dr Ketskeméty László előadása 33

ESETEK d( x, y ) TÁVOLSÁGAI K L A S Z T E R

ESETEK d( x, y ) TÁVOLSÁGAI K L A S Z T E R A N A L Í Z I S 6/5/2021 Dr Ketskeméty László előadása 34

Klaszterezés felhasználása a tananyag ellenőrzésére A következő szimulációs példában bemutatjuk, hogyan lehet a klaszterezéssel

Klaszterezés felhasználása a tananyag ellenőrzésére A következő szimulációs példában bemutatjuk, hogyan lehet a klaszterezéssel ellenőrizni az osztályozásra szánt tananyag jóságát. Ha az osztályok jól szeparálódnak, akkor a különböző osztályok különböző klaszterbe kell, hogy kerüljenek 6/5/2021 Dr Ketskeméty László előadása 35

6/5/2021 Dr Ketskeméty László előadása 36

6/5/2021 Dr Ketskeméty László előadása 36

Diszkriminanciaanalízis Adott: kiindulási esetek vagy objektumok – pl. személyek – két vagy több (k

Diszkriminanciaanalízis Adott: kiindulási esetek vagy objektumok – pl. személyek – két vagy több (k db) ismert csoportja, amelyeket meghatározott változók (p db) jellemeznek. Cél: az eseteket vagy objektumokat jellemző változók alkalmas lineáris kombinációi (az ún. diszkriminancia-függvények) segítségével az adott csoportok lehető legjobb elkülönítése, majd ennek alapján a később megjelenő újabb objektumok csoportokhoz tartozásának lehető legjobb előrejelzése. A kiindulási esetek csoportokhoz tartozása az eljárás kezdetén ismert, a később megjelenő újabb eseteké viszont ismeretlen: a módszer éppen ez utóbbira tesz előrejelzést. 6/5/2021 Dr Ketskeméty László előadása 37

Diszkriminanciaanalízis 6/5/2021 Dr Ketskeméty László előadása 38

Diszkriminanciaanalízis 6/5/2021 Dr Ketskeméty László előadása 38

Diszkriminanciaanalízis A csoportképző változónak természetes számokkal (k = 1, 2, 3, 4, stb) kódolt

Diszkriminanciaanalízis A csoportképző változónak természetes számokkal (k = 1, 2, 3, 4, stb) kódolt kisszámú értékei lehetnek, amelyek egymást kölcsönösen kizáró kategóriáknak felelnek meg. A prediktor (előrejelző, független) változóknak többdimenziós normális eloszlású kvantitatív (intervallum vagy arány-skálájú) adatokat kell tartalmazniuk minden csoportban közel azonos kovariancia mátrixokkal (legfeljebb 1: 10 kovariancia-arány tolerálható). A csoportképző változók alkalmas módon meghatározott lineáris kombinációja az ún. diszkriminancia-függvény, amelynek alapján a csoporthoz tartozás megadható: D = B 0 + B 1 X 1 + B 2 X 2 + … + Bp. Xp 6/5/2021 Dr Ketskeméty László előadása 39

Diszkriminanciaanalízis Legyen először adott k = 2 számú csoport (piros és kék), és p

Diszkriminanciaanalízis Legyen először adott k = 2 számú csoport (piros és kék), és p = 2 számú prediktor változó (X 1 és X 2) A diszkriminancia-függvényt ekkor alakban keressük. 6/5/2021 D = B 0 + B 1 X 1 + B 2 X 2 Dr Ketskeméty László előadása 40

Diszkriminanciaanalízis Az X 1 változó magában nem diszkriminál elég jól X 2 6/5/2021 X

Diszkriminanciaanalízis Az X 1 változó magában nem diszkriminál elég jól X 2 6/5/2021 X 1 Dr Ketskeméty László előadása Az X 2 változó sem diszkriminál önmagában elég jól 41

Diszkriminanciaanalízis Megkeressük a két ponthalmazt legjobban elválasztó egyenest Ez az egyenes már jól diszkriminál

Diszkriminanciaanalízis Megkeressük a két ponthalmazt legjobban elválasztó egyenest Ez az egyenes már jól diszkriminál X 2 6/5/2021 Erre az egyenesre merőlegest bocsátunk X 1 Dr Ketskeméty László előadása 42

Ennek a jól diszkrimináló egyenesnek felel meg a diszkriminancia-függvény: D = B 0 +

Ennek a jól diszkrimináló egyenesnek felel meg a diszkriminancia-függvény: D = B 0 + B 1 X 1 + B 2 X 2 6/5/2021 X 1 Dr Ketskeméty László előadása 43

D I S Z K R I M I N A N C I

D I S Z K R I M I N A N C I A A N A L Í Z I S 6/5/2021 Dr Ketskeméty László előadása 44

Diszkriminanciaanalízis A D = B 0 + B 1 X 1 + B 2

Diszkriminanciaanalízis A D = B 0 + B 1 X 1 + B 2 X 2 + … + Bp. Xp diszkriminancia-függvény B konstansait úgy választjuk meg, hogy a értéke maximális legyen, mert ez adja a lehetséges legjobb diszkriminációt. Ez fordított logika az ANOVA-hoz képest, ahol a vizsgált változó adott és ugyanennek a törtnek az alapján azt nézzük, hogy van-e különbség a csoportok között. 6/5/2021 Dr Ketskeméty László előadása 45

Diszkriminanciaanalízis 1) A F próbával vizsgálható. 2) Egy másik használatos statisztikai mutató a 0

Diszkriminanciaanalízis 1) A F próbával vizsgálható. 2) Egy másik használatos statisztikai mutató a 0 és 1 között változó Wilks-féle lambda, amelynek definíciója: Ennek értéke 1 akkor, ha valamennyi csoport átlaga azonos, nullához közeli értéket pedig akkor vesz fel, ha a csoportokon belüli variabilitás kicsi a teljes variabilitáshoz képest. 6/5/2021 Dr Ketskeméty László előadása 46

Diszkriminanciaanalízis Ha a csoportok száma kettőnél nagyobb, szemléletesen nem mutatható be diszkriminancia-függvény származtatása. Ilyen

Diszkriminanciaanalízis Ha a csoportok száma kettőnél nagyobb, szemléletesen nem mutatható be diszkriminancia-függvény származtatása. Ilyen esetekben az ún. kanonikus változók segítségével történik az egyes csoportokba tartozó esetek megkülönböztetése. Az első kanonikus változó – az első főkomponenshez hasonlóan – a prediktoroknak egy olyan lineáris kombinációja, amely egy dimenzióban maximalizálja a k számú csoport közötti különbséget. A második kanonikus változó az elsőtől független lineáris kombináció, amely egy másik dimenzióban maximalizálja a csoportok közötti különbséget, és így tovább. . . Láttuk hogy k = 2 esetben egyetlen diszkriminancia (vagy kanonikus) függvény elegendő volt. Az elemzéshez szükséges kanonikus változók száma általánosan megadva: k-1 és p közül a kisebb. 6/5/2021 Dr Ketskeméty László előadása 47

A legközelebbi társ módszer tanulópont halmaz tananyag az i-edik tanulópont az i-edik tanítás 6/5/2021

A legközelebbi társ módszer tanulópont halmaz tananyag az i-edik tanulópont az i-edik tanítás 6/5/2021 Dr Ketskeméty László előadása 48

A legközelebbi társ módszer osztályozandó (query) pont ha olyan, hogy 6/5/2021 Dr Ketskeméty László

A legközelebbi társ módszer osztályozandó (query) pont ha olyan, hogy 6/5/2021 Dr Ketskeméty László előadása 49

A legközelebbi társ módszer előfeldolgozás A tananyagot előfeldolgozását egyszer kell elvégezni, az osztályozást nagyon

A legközelebbi társ módszer előfeldolgozás A tananyagot előfeldolgozását egyszer kell elvégezni, az osztályozást nagyon sokszor. Az előfeldolgozás költsége ritkítás, tömörítés, gyors keresés megtérül, ha kisebb költséggel osztályzunk. Mindig véges elemszámú tananyaggal dolgozunk. Minél kisebb átdefiniálás, szűrés ennek elemszáma, annál kisebb az osztályozás költsége. Véges mintában a egy-egy mérési hiba nagy mértékben rontja az osztályozás pontosságát. metrikaskálázás, metrikakeverés A gyakorlati alkalmazásoknál az alakzattér speciális metrikus tér. Cél volt általános metrikus térben alkalmazható algoritmusok kidolgozása. 6/5/2021 Dr Ketskeméty László előadása 50

A tananyag előfeldolgozásának problémaköre Ritkítás Tömörítés Szűrés Átdefiniálás 6/5/2021 Dr Ketskeméty László előadása 51

A tananyag előfeldolgozásának problémaköre Ritkítás Tömörítés Szűrés Átdefiniálás 6/5/2021 Dr Ketskeméty László előadása 51

Gyors keresés 6/5/2021 Dr Ketskeméty László előadása 52

Gyors keresés 6/5/2021 Dr Ketskeméty László előadása 52

Kizárási feltételek Jelölések: 6/5/2021 Dr Ketskeméty László előadása 53

Kizárási feltételek Jelölések: 6/5/2021 Dr Ketskeméty László előadása 53

A K 1 kizárás menete a query pont 6/5/2021 Dr Ketskeméty László előadása 54

A K 1 kizárás menete a query pont 6/5/2021 Dr Ketskeméty László előadása 54

Erőkapcsolat a kizárási feltételek között 6/5/2021 Dr Ketskeméty László előadása 55

Erőkapcsolat a kizárási feltételek között 6/5/2021 Dr Ketskeméty László előadása 55

Példa klaszteranalízisre I. Klaszterezzük a dolgozókat az alábbi változók szerint: salary, salbegin, prevexp, jobtime,

Példa klaszteranalízisre I. Klaszterezzük a dolgozókat az alábbi változók szerint: salary, salbegin, prevexp, jobtime, age A k-means klaszterezést indítjuk el. 6/5/2021 Dr Ketskeméty László előadása 56

6/5/2021 Dr Ketskeméty László előadása 57

6/5/2021 Dr Ketskeméty László előadása 57

6/5/2021 Dr Ketskeméty László előadása 58

6/5/2021 Dr Ketskeméty László előadása 58

6/5/2021 Dr Ketskeméty László előadása 59

6/5/2021 Dr Ketskeméty László előadása 59

6/5/2021 Dr Ketskeméty László előadása 60

6/5/2021 Dr Ketskeméty László előadása 60

6/5/2021 Dr Ketskeméty László előadása 61

6/5/2021 Dr Ketskeméty László előadása 61

Megpróbáljuk kereszttáblákkal jellemezni a klasztereket! Megnézzük a nem, beosztás, versenypozíció (minority) és kor szerinti

Megpróbáljuk kereszttáblákkal jellemezni a klasztereket! Megnézzük a nem, beosztás, versenypozíció (minority) és kor szerinti eloszlást a klaszterekben. 6/5/2021 Dr Ketskeméty László előadása 62

6/5/2021 Dr Ketskeméty László előadása 63

6/5/2021 Dr Ketskeméty László előadása 63

6/5/2021 Dr Ketskeméty László előadása 64

6/5/2021 Dr Ketskeméty László előadása 64

6/5/2021 Dr Ketskeméty László előadása 65

6/5/2021 Dr Ketskeméty László előadása 65

6/5/2021 Dr Ketskeméty László előadása 66

6/5/2021 Dr Ketskeméty László előadása 66

Példa klaszteranalízisre II. Hogyan csoportosíthatók a gépkocsik a jellemzőik alapján? 6/5/2021 Dr Ketskeméty László

Példa klaszteranalízisre II. Hogyan csoportosíthatók a gépkocsik a jellemzőik alapján? 6/5/2021 Dr Ketskeméty László előadása 67

6/5/2021 Dr Ketskeméty László előadása 68

6/5/2021 Dr Ketskeméty László előadása 68

Quick Cluster 6/5/2021 Dr Ketskeméty László előadása 69

Quick Cluster 6/5/2021 Dr Ketskeméty László előadása 69

6/5/2021 Dr Ketskeméty László előadása 70

6/5/2021 Dr Ketskeméty László előadása 70

Példa diszkriminancia analízisre I. Megvizsgáljuk, hogyan választható szét a gépkocsik halmaza az országok szerint

Példa diszkriminancia analízisre I. Megvizsgáljuk, hogyan választható szét a gépkocsik halmaza az országok szerint a gépkocsijellemzők alapján. 6/5/2021 Dr Ketskeméty László előadása 71

6/5/2021 Dr Ketskeméty László előadása 72

6/5/2021 Dr Ketskeméty László előadása 72

6/5/2021 Dr Ketskeméty László előadása 73

6/5/2021 Dr Ketskeméty László előadása 73

Summary of Canonical Discriminant Functions 6/5/2021 Dr Ketskeméty László előadása 74

Summary of Canonical Discriminant Functions 6/5/2021 Dr Ketskeméty László előadása 74

6/5/2021 Dr Ketskeméty László előadása 75

6/5/2021 Dr Ketskeméty László előadása 75

6/5/2021 Dr Ketskeméty László előadása 76

6/5/2021 Dr Ketskeméty László előadása 76

Példa diszkriminancia analízisre II. Országok diszkriminálása gazdasági régiók alapján Diszkriminancia analízissel válasszuk szét az

Példa diszkriminancia analízisre II. Országok diszkriminálása gazdasági régiók alapján Diszkriminancia analízissel válasszuk szét az országokat a region változó szerint a populatn, density, urban, lifeexpf, lifeexpm, literacy, pop_incr, babymort, gdp_cap, calories, aids, birth_rt, death_rt, aids_rt, log_gdp, lg_aidsr, b_to_d, fertilty, log_pop, cropgrow, lit_male, lit_fema komponensű esetvektorok figyelembevételével! Tehát most a 22 dimenziós vektortérben tekintünk 109 elemet, és azokat szeretnénk megfelelő szeparáló felületekkel úgy szétválasztani, hogy az egyes térrészekbe lehetőleg egy gazdasági térséghez tartozó esetek kerüljenek. 6/5/2021 Dr Ketskeméty László előadása 77

A figyelembe vett 22 változó jelentése: COUNTRY (N) POPULATN (S) DENSITY (S) URBAN (S)

A figyelembe vett 22 változó jelentése: COUNTRY (N) POPULATN (S) DENSITY (S) URBAN (S) LIFEEXPF (S) LIFEEXPM (S) LITERACY (S) POP_INCR (S) BABYMORT (S) GDP_CAP (S) CALORIES (S) AIDS (S) BIRTH_RT DEATH_RT (S) AIDS_RT (S) LOG_GDP (S) LG_AIDSR (S) B_TO_D (S) FERTILTY (S) LOG_POP (S) CROPGROW (S) LIT_MALE (S) LIT_FEMA (S) 6/5/2021 Az ország neve Népesség ezer főben Emberek száma / négyzetkilométer Városi lakosság (%) A nők várható élettartama A férfiak várható élettartama Olvasni tudók százaléka Népességnövekedés (évenkénti %) Gyermekhalandóság (halálozás 1000 élve születésre) GDP / tőke Napi felvett kalória AIDS esetek száma 1000 (S) emberre jutó születés 1000 emberre jutó halálozás 100000 emberre jutó AIDS esetek száma Tízes alapú logaritmusa a GDP-nek Tízes alapú logaritmusa az AIDS-nek Születés-halálozás ráta Átlagos gyermekszám családonként Tízes alapú logaritmusa a népességszámnak Terméshozam gabonából Olvasni tudó férfiak (%) Olvasni tudó nők (%) Dr Ketskeméty László előadása 78

A csoport-képző változó, ami szerint a szeparálást végrehajtjuk: REGION (O) Gazdasági térség 1 OECD

A csoport-képző változó, ami szerint a szeparálást végrehajtjuk: REGION (O) Gazdasági térség 1 OECD 2 East Europe 3 Pacific/Asia 4 Africa 5 Middle East 6 Latin America 6/5/2021 Dr Ketskeméty László előadása 79

Az egyes országok helyzete az első két diszkrimináló függvény által meghatározott síkon: 6/5/2021 Dr

Az egyes országok helyzete az első két diszkrimináló függvény által meghatározott síkon: 6/5/2021 Dr Ketskeméty László előadása 80

A kelet-európai országok — köztük a Magyarország — helyzete az első két diszkrimináló függvény

A kelet-európai országok — köztük a Magyarország — helyzete az első két diszkrimináló függvény által meghatározott síkon 6/5/2021 Dr Ketskeméty László előadása 81

Azon országok listája, melyeket rosszul osztályozott a program 6/5/2021 Dr Ketskeméty László előadása 82

Azon országok listája, melyeket rosszul osztályozott a program 6/5/2021 Dr Ketskeméty László előadása 82

A legközelebbi társ módszer alkalmazása Alkalmazzuk a legközelebbi szomszéd osztályozást a gépkocsi állományra (cars).

A legközelebbi társ módszer alkalmazása Alkalmazzuk a legközelebbi szomszéd osztályozást a gépkocsi állományra (cars). A célváltozó (target) az origin változó. A legközelebbi szomszédok száma k=9 legyen, Euklideszi metrika definiálja az esetek távolságát. A jellegzetesség változók az mpg, engine, horse, weight és accel legyenek. A tananyag pontjainak elhelyezkedés e 6/5/2021 Dr Ketskeméty László előadása 83

Az osztályozás eredménye: Az osztályozás pontossága kb. 74% 6/5/2021 Dr Ketskeméty László előadása 84

Az osztályozás eredménye: Az osztályozás pontossága kb. 74% 6/5/2021 Dr Ketskeméty László előadása 84

Alkalmazzuk most a módszert a fogyasztás értékének becslésére! A target változó most tehát a

Alkalmazzuk most a módszert a fogyasztás értékének becslésére! A target változó most tehát a folytonos mpg legyen, a többi numerikus változó a jellegzetesség mezőben marad. A tényleges fogyasztás (mpg), a becsült fogyasztás (KNN_Predicted. Value) eltérését százalékban fejezzük ki (elter). Az elter változó statisztikáiból kiolvasható, hogy átlagosan -3% és -4 % között van a becslés pontosság. 6/5/2021 Dr Ketskeméty László előadása 85

Az outlierek táblázatából láthatjuk, hogy néhány esetben nagy volt az eltérés. Különösen kiugró a

Az outlierek táblázatából láthatjuk, hogy néhány esetben nagy volt az eltérés. Különösen kiugró a hiba a 35. esetnél, ahol a felülbecslés több mint -221%-os volt. (Megtekintve ezt az esetet láthatjuk, hogy ez valószínűleg hibás rekord lehet. Hiányzik a származási hely, a hengerek száma és a gyártási év is. A meglévő adatok is hihetetlennek tűnnek…) 6/5/2021 Dr Ketskeméty László előadása 86