Adatok elfeldolgozsa n Az adatok ltalnos jellemzse n

Adatok előfeldolgozása n Az adatok általános jellemzése n Az adatok alapvető statisztikai jellemzői n

Milyen típusú adathalmazokkal dolgozunk? n n n Rekord n Relációs adatbázis rekordjai n Adatmátrixok,

A strukturált adatok legfontosabb jellemzői n n Többdimenziós adatok n Nagyon nagy lehet a

Az attribútumok típusa n n n Szöveges (Nominal) n foglalkozás, személyi azonosító, szemszín, irányítószám

Diszkrét vagy folytonos attribútumok n n Diszkrét attribútum n Véges vagy megszámlálhatóan végtelen lehetséges

Leíró jellemzők előállítása n Motiváció n n Az adatok szóródására, eloszlására jellemző statisztikák n

Mennyire „központ körüliek” az adatok? n Átlag (Mean): n súlyozott átlag: n levágott (Trimmed

Szimmetrikus A medián, átlag ésvagy móduszferde adatok elhelyezkedése n szimmetrikus, pozitív és negatív ferdeségű

A szóródás jellemzése n Kvartilisek (negyedelők), kiugró adatok és boxplotok segítségével n Kvartilis: Q

Doboz (Boxplot) diagram n Az eloszlásra jellemző 5 érték: Minimum, Q 1, M, Q

Doboz (Boxplot) diagram 2021. 06. 11. Adatok előfeldolgozása 12

Doboz (Boxplot) diagram értelmezése Harang alakú 2021. 06. 11. Egyenletes Adatok előfeldolgozása Jobbra ferdül

3 D Boxplot diagram A Profit eloszlását jellemezzük rögzített bevétel és költség esetén 2021.

A normális eloszlás tulajdonságai n A sűrűségfüggvény harang alakú n Az adatok 68%-a esik

További hasznos grafikus megjelenítések n n n Boxplot: 5 számmal jellemzi az eloszlást Hisztogram:

Hisztogram n A doboz diagramnál jobban jellemzi az eloszlást n Gyakorisági hisztogram n n

A hisztogram többet árul el az eloszlásról, mint a doboz diagram n A két

Kvantilis diagram (Quantile Plot) n n Az összes adat megjelenítése helyett az eloszlásfüggvényt közelítjük

Kvantilis-Kvantilis (Q-Q) diagram n n Két eloszlásfüggvényt hasonlítunk össze úgy, hogy a megegyező kvantilis

Pontdiagram (Scatter plot) n n Kétdimenziós adatokat vagy két dimenziós vetületet ábrázoljuk Az adatok

Lokális regressziós görbe (Loess Curve) n n Egy sima (általában lineáris vagy kis fokú

Pozitív és negatív korreláció a regressziós egyenes meredeksége negatív a regressziós egyenes meredeksége pozitív

Korrelálatlan adatok 2021. 06. 11. Adatok előfeldolgozása 24

Vizualizációs módszerek n Mit nyújt egy jó ábrázolás? n n n Egyszerű grafikai elemekre

Direkt adatvizualizáció Az örvénylést megtekeredő szalagként ábrázoljuk 2021. 06. 11. Adatok előfeldolgozása 26

Geometriai technikák n Az adatokon geometriai transzformációt, vetítést végzünk n Tipikus módszerek n 3

Used by permission of M. Ward, Worcester Polytechnic Institute Pontdiagram mátrix A k-dimenziós adatokból

Used by permission of B. Wright, Visible Decisions Inc. 3 D tájképek n n

Párhuzamos koordináták (Parallel Coordinates) n n n k párhuzamos egyenes felel meg a k

3 db (piros, kék, zöld) 3 D adathalmaz ábrázolása párhuzamos koordinátákkal 2021. 06. 11.

Ikonizált technikák n Az értékeket az ikonok valamilyen jellemzője fejezi ki n Tipikus módszerek:

Chernoff arcok n n Több dimenziót tudunk 2 D-ben ábrázolni, például x legyen a

Vonalrajzok (Stick Figures) at Lowell used by permission of G. Grinstein, University of Massachusettes

Csempeoszlop (Tile. Bars) 2021. 06. 11. Adatok előfeldolgozása 35

Hierarchikus technikák n A teret hierachikus partíciókra osztjuk fel. n Tipikus módszerek n Dimenzió

Dimenziók beágyazása (Dimensional Stacking) n n n Az n-dimenziós teret 2 D részterekre particionáljuk,

Dimenziók beágyazása Used by permission of M. Ward, Worcester Polytechnic Institute A földrajzi koordinátákon

Fatérkép (Tree-Map) n n A teret felbontjuk tartományokra a kiválasztott attribútum alapján A tartomány

Egy fájlrendszer fatérképe 2021. 06. 11. Adatok előfeldolgozása 40

Hasonlóság (Similarity) és különbözőség (Dissimilarity) n n n Hasonlóság n egy szám, ami megmondja

Adatmátrix és különbözőségi mátrix n n Adatmátrix n n darab p dimenziós objektum n

Példa távolság mátrixra Data Matrix Távolság (különbözőség) mátrix Euklideszi távolság esetén 2021. 06. 11.

Minkowski-távolság n Minkowski –távolság: ahol i = (xi 1, xi 2, …, xip) és

A Minkowski-távolság speciális esetei n q = 1: Manhattan-távolság (L 1 norma) n például

Példa Minkowski-távolságra Távolság mátrix 2021. 06. 11. Adatok előfeldolgozása 47

Intervallum típusú változók n Standardizáljuk az adatokat n Az f-ik komponensben kiszámoljuk az átlagos

Bináris változók n Kontingencia-táblával j objektum i objektum jellemezzük az együttes eloszlást n Szimmetrikus

Bináris változók eltérése n (név, nem, lázas, köhög, teszt 1, teszt 2, teszt 3)

Szöveges (Nominal) változók n n A bináris általánosítása, például felvehető értékek piros, sárga, kék,

Rendezett (Ordinal) változók n n n Lehet diszkrét vagy folytonos is Nem az érték,

Skálafüggő (Ratio-Scaled) változók n n Skálafüggő (Ratio-scaled): nem lináris a skála, például exponenciális (

Kevert típusú változók n n 6 féle típust határoztunk meg n szimmetrikus bináris, aszimmetrikus

Vektorokra értelmezett koszinusz hasonlóság n n Vektor objektumok: dokumentumok kulcsszavai, géntulajdonságok egy génchip esetén

Az előfeldolgozás fő feladatai n n Adatok tisztítása n Hiányzó értékek pótlása, hibás, zajos

Az adattisztítás n Rossz adatokból jó eredményt nem lehet kapni! n Jó döntést csak

Milyen a piszkos adat? n n n Nem teljes: hiányoznak attribútumok, értékek vagy csak

Miért keletkeznek piszkos adatok? n Honnan származnak a nem teljes adatok? n n Honnan

Az adatminőséget több szempont alapján mérhetjük (többdimenziós mérték) n A legfontosabb mértékek: n Pontosság

Az adatminőséget több szempont alapján mérhetjük (többdimenziós mérték) További mértékek: n Hozzáadott érték (Value

Hiányzó adatok n n n Nem mindig adják meg az összes adatot n Például

Mit kezdjünk a hiányzó értékekkel? n n n Eldobjuk a teljes rekordot: például osztályozáskor

Zajos adatok n n n Zaj: a mért változóra vonatkozó véletlen hiba vagy szóródás

Mit kezdjünk a zajos adatokkal? n n Kategorizálás (Binning) – például intervallumokra osztás n

Diszkretizálás, kategórizálás (Binning) n Egyenlő széles particionálás n A tartományt N egyenlő hosszú intervallumra

Adatsimítás kategorizálással (Binning) Az árak rendezve (dollárban): 4, 8, 9, 15, 21, 24, 25,

Regresszió Az együtthatók becslésére alkalmazott eljárások: n a legkisebb négyzetek módszere (Ordinary Least Squares,

Lineáris regresszió n Az optimalizálandó függvény: a és b szerint deriválva: n Kifejezve b-t

Klaszterezés n Csoportok képzése távolságok alapján (jövedelem, kor, gyakori látogató) – kiugró értékek, amelyek

Az adattisztítás mint folyamat n n n Észre kell venni a szokatlan adatokat n

Adatintegráció n n Mikor kell egyesíteni az adatokat: n több adatforrásból származó adatokat akarunk

Hogy kezeljük azt a redundanciát, amit az adategyesítés okoz? n Egyesítéskor gyakran többszörös példányok,

Korrelációanalízis (Numerikus adatokon) n n Korrelációs együttható (Pearson’s együttható): kovariancia osztva a szórások szorzatával

A korreláció lineáris kapcsolatot mér! n n Ha a korrelációs 0, attól még nem

Korreláció megfigyelése a pontdiagramon A korrelációs együttható -1 és +1 között. 2021. 06. 11.

Korrelációanalízis (kategórikus adatok esetén) n n Χ 2 (chi-square) teszt a megfigyelt és várható

Egy példa Sakkozik Nem sakkozik Sorösszeg Bridzzsel 250(90) 200(360) 450 Nem bridzzsel 50(210) 1000(840)

Adattranszformálás n n Az attribútum régi értékeit egy függvény alapján újakra cseréljük Különböző módszerek

A normalizálások n Min-max normalizálás: [new_min. A, new_max. A] n Például $12, 000, $98,

Adatcsökkentő stratégiák n n n Miért van szükség adatredukcióra? n Egy adatbázis adattárház sok

Dimenzócsökkentés n n n A dimenziók átka n ha nő a dimenziószám, akkor egyre

Főkomponens analízis – Principal Component Analysis (PCA) n n Olyan ortonormált, kisebb dimenziójú koordinátarendszert

Főkomponens analízis – Principal Component Analysis (PCA) n Ha az x 1, x 2

A főkomponens analízis lépései n Adott N adatvektor (n-dimeziós), keressük azt a k ≤

Lényeges attribútumhalmaz kiválasztása n Ez is csökkenti a dimenziók számát n Redundáns attribútumok n

Heurisztikák a lényeges attribútumhalmaz keresésére n n Lehetséges halmazok száma: 2 d , ha

Új attribútumhalmaz kiválasztása n Az adatok fontos információit hatékonyabban akarjuk reprezentálni n Elhagyunk attribútumokat

Új térbe transzformálás n n Fourier-transzformáció Wavelet-transzformáció 2 szinuszhullám n Például a négyszögjel: 2021.

Számosság (Numerosity) csökkentése n n n Kevesebb értékkel akarjuk ugyanazt reprezentálni Paraméteres módszerek (például

Regresszió n Lineáris regresszió: egyenest illesztünk Y=w. X+b n Legkisebb négyzetek módszerével minimalizáljuk a

Regresszió és Log-Lineáris modell n Log-lineáris modell: diszkrét többdimenziós eloszlást approximálunk vele, például p(a,

Wavelet transzformáció n Diszkrét wavelet transzformáció (DWT): egyszerű függvények súlyozott összegeként közelítjük a függvényt,

Wavelet transzformáció n Módszer: n Legyen L hossz 2 hatvány n Minden transzformáció két

Wavelet transzformáció n Két dimenzióban és kétféle szűrést (high, low) használva 2021. 06. 11.

DWT képtömörítés (jpeg, png) n Kép Low Pass 2021. 06. 11. High Pass Adatok

Adatkockák és az aggregálás n n Az adatkockák legkisebb egysége az alap kuboid (ebben

Adattömörítés n n Sztringek tömörítése n jól kidolgozott elméletek és hatékony algoritmusok léteznek erre

Az adattömörítés sémája Tömörített adatok Eredeti adatok Veszteségmentes s e g é s e

A hisztogram is adatredukciónak tekinthető n n Az adatokat kosarakba osztjuk és tároljuk a

A klaszterezés mint adatredukció n n n Az adatokat például hasonlóság alapján klaszterekbe osztjuk

A mintavételezés mint adatredukció n n n Az N elemű adathalmazt egy kisebb, s

A mintavételezések típusai n n n Véletlen (egyenletes) mintavételezés n bármelyik elemet egyenlő valószínűséggel

Visszatevés nélküli vagy visszatevéses mintavételezés l) lkü é n s é tev a z

Klaszterezett (rétegzett) mintavétel Az adatok klaszterei 2021. 06. 11. Rétegzett mintavétel Adatok előfeldolgozása 108

A diszkretizálás mint adatredukció n Háromféle attribútum: n Nominális — elnevezések (sztringek) rendezés nélkül

Diszkretizálás és fogalmi hierarchiák n Diszkretizálás n besoroljuk a folytonos attribútum értékeit intervallumokba n

Diszkretizálás és fogalmi hierarchiák generálása n Tipikus módszerek (mindegyik rekurzívan is alkalmazható) n Kategórizálás

Entrópia alapú diszkretizálás n n Ha egy S halmazt S 1 és S 2

Az entrópia néhány tulajdonsága A bináris (Bernoulli) eloszlás entrópiafüggvénye 2021. 06. 11. Adatok előfeldolgozása

Az entrópia néhány tulajdonsága 2021. 06. 11. Adatok előfeldolgozása 114

Diszkretizálás osztálycímkékkel n Entrópia alapú (bináris vágás helyett k-részre) 3 - 3 kategória x

Diszkretizálás osztálycímkék nélkül Az adatok egyenlő nagyságú intervallumok Egyenlő gyakoriságú 2021. 06. 11. K-átlag

Intervallumösszevonás 2 elemzéssel n Összevonáson alapul n Összevonás: a szomszédos intervallumok közül a legjobb

Szegmentálás heurisztikával n Egy egyszerű 3 -4 -5 szabállyal nagyjából egyforma intervallumokra szegmentálhatjuk az

Példa a 3 -4 -5 szabályra count Step 1: Step 2: -$351 -$159 Min

Fogalmi hierarchia generálása n Szakértők, felhasználók adnak meg egy részben rendezést séma szinten az

Automatikus fogalmi hierarchia generálása n Az legyen a hierarchiában magasabban, aminek kevesebb különböző értéke

References n n n n D. P. Ballou and G. K. Tayi. Enhancing data

Slides: 122

Download presentation

Adatok előfeldolgozása n Az adatok általános jellemzése n Az adatok alapvető statisztikai jellemzői n Az adatok hasonlóságának mérése n Adattisztítás n Adatok integrálása, átalakítása n Adatredukció 2021. 06. 11. Adatok előfeldolgozása 1

Milyen típusú adathalmazokkal dolgozunk? n n n Rekord n Relációs adatbázis rekordjai n Adatmátrixok, például numerikus mátrix, együttes gyakoriságot megadó (crosstabs) mátrix n Dokumentumok: szövegek, weboldalak: kulcsszó- (term) gyakorisági vektor n Tranzakciós adatok Gráfok n Weboldalak gráfja (WWW) n Közösségi hálók n Molekulaszerkezetek Rendezett adatok n Földrajzi adatok: térképek n Idősorok n Szekvenciák: vásárlási sorozatok n Genetikus sorozatok 2021. 06. 11. Adatok előfeldolgozása 2

A strukturált adatok legfontosabb jellemzői n n Többdimenziós adatok n Nagyon nagy lehet a dimenzió, akár több ezer is (például dokumentum/kulcsszó mátrix) n Ezt hívják a dimenzió átkának (Curse of dimensionality). n Oracle-ben csak 1000 oszlopos lehet egy tábla! Ritkaság n Például a bitmap indexben nagyon sok a 0 Felbontás n A mintázat függhet a mértékegységtől, skálától Hasonlóság n Valamilyen távolságmérték 2021. 06. 11. Adatok előfeldolgozása 3

Az attribútumok típusa n n n Szöveges (Nominal) n foglalkozás, személyi azonosító, szemszín, irányítószám Rendezett (Ordinal) n rangok (tisztek rangja, beosztási fokozatok), osztályzatok, magasság {magas, közepes, alacsony} Bináris n orvosi teszt (pozitív vagy negatív) Intervallum (Interval): +/- műveletek értelmezhetők n dátum, elégedettségi mutató (1 -10) Skálafüggő (Ratio), azaz az egységhez arányosítjuk: konstanssal szorzás értelmezhető n hőmérséklet Kelvin fokban, hossz centiméterben, idő órában, darabszám 2021. 06. 11. Adatok előfeldolgozása 4

Diszkrét vagy folytonos attribútumok n n Diszkrét attribútum n Véges vagy megszámlálhatóan végtelen lehetséges érték n irányítószám, foglalkozás, egy dokumentum szavai n gyakran egész számokkal reprezentálják n ilyen a bináris attribútum is Folytonos attribútum n nem megszámlálható halmazból veheti fel az értéket n valós számok: hőmérséklet, magasság, súly n valójában a valós számokat csak véges sok számjeggyel ábrázoljuk n tipikusan lebegőpontos változóval reprezentáljuk 2021. 06. 11. Adatok előfeldolgozása 5

Leíró jellemzők előállítása n Motiváció n n Az adatok szóródására, eloszlására jellemző statisztikák n n n Legyen egy gyors áttekintésünk az adatok viselkedéséről, tendenciájáról, elhelyezkedéséről, átlagokról, szóródásukról medián, max, min, kvantilisek (quantiles), kiugrások (outliers), szórás (variance), etc. Numerikus dimenziók rendezett számhalmazoknak felelnek meg n az adatok szóródása függ a pontosság fokától, azaz hány tizedesjeggyel reprezentáljuk az adatokat n a minta jellemezhető a kvantiliseket ábrázoló Boxplot diagrammal Többdimenziós szóródás n visszavezetjük a dimenziók szóródására n a Boxplot diagramokat 3 D-ben ábrázoljuk: (xi, yi, Boxplot(z)) 2021. 06. 11. Adatok előfeldolgozása 7

Mennyire „központ körüliek” az adatok? n Átlag (Mean): n súlyozott átlag: n levágott (Trimmed mean) átlag: elhagyjuk a legnagyobb, legkisebb értékeket n Medián (Median): n A középső mintaelem, vagy a két középső mintaelem átlaga, ha páratlan, illetve páros számú adat van. ( 2. kvartilis) n n A medián az a μ érték, ahol az eloszlásfüggvény: 1/2: F(μ)=1/2 Módusz (Mode): n A leggyakrabban előforduló mintaelem vagy elemek n több ilyen is lehet: unimodális, bimodális. trimodális 2021. 06. 11. Adatok előfeldolgozása 8

Szimmetrikus A medián, átlag ésvagy móduszferde adatok elhelyezkedése n szimmetrikus, pozitív és negatív ferdeségű adatok esetén. pozitív ferdeség 2021. 06. 11. Adatok előfeldolgozása szimmetrikus negatív ferdeség 9

A szóródás jellemzése n Kvartilisek (negyedelők), kiugró adatok és boxplotok segítségével n Kvartilis: Q 1 (25 -ik percentilis, azaz a minta 25%-a kisebb ennél), Q 3 (a 75 -ik percentilis, azaz a minta 75%-a kisebb ennél) n Belső kvartilis terjedelem (Inter-quartile range): IQR = Q 3 – Q 1 n 5 -számos jellemzés (Five number summary): min, Q 1, M, Q 3, max n Doboz diagram (Boxplot): a doboz a végei, illetve a közepe a kvartilisek, a dobozon kívüli minták közül a távoliak a kiugró adatok n n Kiugró elem (Outlier): (1. 5 x. IQR) + Q 3 –nál nagyobb, vagy Q 1 -(1. 5 x. IQR) –nél kisebb Szórásnégyzet (Variance), szórás (standard deviation) (minta: s, populáció: σ) n Szórásnégyzet (Variance): (skálázható algebrai formulával számolható ki) n Szórás (Standard deviation) a variancia négyzetgyöke 2021. 06. 11. Adatok előfeldolgozása 10

Doboz (Boxplot) diagram n Az eloszlásra jellemző 5 érték: Minimum, Q 1, M, Q 3, Maximum n A doboz (Boxplot) n A mintát a doboz reprezentálja n A doboz magassága IQR n A medián kettéosztja a dobozt n Arra ferdül az eloszlás, amelyik féldoboz nagyobb n 2021. 06. 11. A doboz karjai (Whiskers): két vonal a Minimumig, illetve a Maximumig Adatok előfeldolgozása 11

Doboz (Boxplot) diagram 2021. 06. 11. Adatok előfeldolgozása 12

Doboz (Boxplot) diagram értelmezése Harang alakú 2021. 06. 11. Egyenletes Adatok előfeldolgozása Jobbra ferdül 13

3 D Boxplot diagram A Profit eloszlását jellemezzük rögzített bevétel és költség esetén 2021. 06. 11. Adatok előfeldolgozása 14

A normális eloszlás tulajdonságai n A sűrűségfüggvény harang alakú n Az adatok 68%-a esik a [μ–σ, μ+σ] intervallumba, ahol μ a várható érték, σ a szórás n Az adatok 95%-a esik a [μ– 2σ, μ+2σ] intervallumba n Az adatok 99. 7%-a esik a [μ– 3σ, μ+3σ] intervallumba 2021. 06. 11. Adatok előfeldolgozása 15

További hasznos grafikus megjelenítések n n n Boxplot: 5 számmal jellemzi az eloszlást Hisztogram: x – az értékeknek, az y – a gyakoriságoknak felel meg Kvantilis diagram: (xi , fi ) párok, ahol a minta 100 xfi % - a xi Kvantilis-kvantilis (q-q) diagram: két eloszlás kvantilis értékeit hasonlítja össze Pontdiagram (Scatter plot): 2 D-ben vagy 3 D-ben ponttal jelölünk minden mintaelemet Regressziós görbe (Loess - local regression): egy sima görbét illesztünk a pontdiagram adatpontjaira 2021. 06. 11. Adatok előfeldolgozása 16

Hisztogram n A doboz diagramnál jobban jellemzi az eloszlást n Gyakorisági hisztogram n n 2021. 06. 11. Egydimenziós eloszláshoz használható A téglalap magassága az adott osztályba eső minták számával egyenlő Adatok előfeldolgozása 17

A hisztogram többet árul el az eloszlásról, mint a doboz diagram n A két eloszlás doboza megegyezik n n 2021. 06. 11. Mind az 5 nevezetes értékük ugyanaz: min, Q 1, medián, Q 3, max Az egyik egycsúcsú eloszlás, a másik egy kétcsúcsú eloszlás. Adatok előfeldolgozása 18

Kvantilis diagram (Quantile Plot) n n Az összes adat megjelenítése helyett az eloszlásfüggvényt közelítjük a tapasztalati eloszlásfüggvénnyel. A kvantilis diagram a tapasztalati eloszlásfüggvény inverze, készítése előtt rendezzük az adatokat n (xi , fi ) azt jelenti, hogy az adatok 100 fi%-a kisebb vagy egyenlő xi értékénél 2021. 06. 11. Adatok előfeldolgozása 19

Kvantilis-Kvantilis (Q-Q) diagram n n Két eloszlásfüggvényt hasonlítunk össze úgy, hogy a megegyező kvantilis pároknak megfelelő pontokat ábrázoljuk Megegyező eloszlás esetén a pontok az y=x tengelyen lesznek (Q 3, Q’ 3) (Q 2, Q’ 2) (Q 1, Q’ 1) 2021. 06. 11. Adatok előfeldolgozása 20

Pontdiagram (Scatter plot) n n Kétdimenziós adatokat vagy két dimenziós vetületet ábrázoljuk Az adatok viselkedését jól lehet látni, például hol alakulnak ki csoportok, mi a tendencia, hol vannak szélsőséges adatok 2021. 06. 11. Adatok előfeldolgozása 21

Lokális regressziós görbe (Loess Curve) n n Egy sima (általában lineáris vagy kis fokú polinom) görbét illesztünk a pontokra a környezetük alapján Két paraméterrel hangoljuk: n a simítási paraméter mondja meg, hogy mennyi (%) közeli pontot használjunk fel (speciális esete a Mozgó Átlag) n a második paraméter a polinom foka 2021. 06. 11. Adatok előfeldolgozása 22

Pozitív és negatív korreláció a regressziós egyenes meredeksége negatív a regressziós egyenes meredeksége pozitív n Az adatok kettévághatók egy pozitívan és egy negatívan korrelált ponthalmazra 2021. 06. 11. Adatok előfeldolgozása 23

Korrelálatlan adatok 2021. 06. 11. Adatok előfeldolgozása 24

Vizualizációs módszerek n Mit nyújt egy jó ábrázolás? n n n Egyszerű grafikai elemekre (egyenes, kör, gömb, kocka, stb. ) képezik le az adatokat Nagy adathalmazok jellemzőit kiemelik Könnyebben találhatunk mintákat, szabályosságot vagy szabálytalanságot, trendet, összefüggéseket az adatok között megtalálhatjuk az adathalmaz lényeges részét, ezáltal redukáljuk a feladatot kevesebb adatra A kiszámított modellt ábrázolva látjuk, hogy mennyire jó a modell, mennyire illeszkednek rá az adatok Tipikus módszerek: n Geometrikai technikák n Ikonizált technikák n Hierarchikus technikák 2021. 06. 11. Adatok előfeldolgozása 25

Direkt adatvizualizáció Az örvénylést megtekeredő szalagként ábrázoljuk 2021. 06. 11. Adatok előfeldolgozása 26

Geometriai technikák n Az adatokon geometriai transzformációt, vetítést végzünk n Tipikus módszerek n 3 D-s tájképek n Projekciók n A többdimenziós adatoknak mely vetületei, dimenzió a lényegesek? n Az összes kétdimenzió pontdiagramból mátrix készítése n Metszet készítése n Hiperszeletelés (Hyperslice): többdimenziós függvények vizualizációja a megfelelő kétváltozós függvények ábrázolásával n 2021. 06. 11. Párhuzamos koordináták használata (Parallel coordinates) Adatok előfeldolgozása 27

Used by permission of M. Ward, Worcester Polytechnic Institute Pontdiagram mátrix A k-dimenziós adatokból C(k, 2) = (k 2 k)/2 pontdiagram készíthető 2021. 06. 11. Adatok előfeldolgozása 28

Used by permission of B. Wright, Visible Decisions Inc. 3 D tájképek n n Újságcikkek témák szerinti eloszlása Az adatokat (mesterséges módon) 2 D-ben reprezentáljuk és például az együttes gyakoriság lesz a pontok magassága Az azonos magasságú szintek azonos színűek 2021. 06. 11. Adatok előfeldolgozása 29

Párhuzamos koordináták (Parallel Coordinates) n n n k párhuzamos egyenes felel meg a k attribútumnak Minden k-dimenziós pontot egy töröttvonallal reprezentálunk: az i-ik egyenesen az i-ik koordinátát, ami az i-ik attribútumnak megfelelő [minimum, maximum] tartományba esik Ahány elemi a minta, annyi poligont kapunk 2021. 06. 11. Adatok előfeldolgozása 30

3 db (piros, kék, zöld) 3 D adathalmaz ábrázolása párhuzamos koordinátákkal 2021. 06. 11. Adatok előfeldolgozása 31

Ikonizált technikák n Az értékeket az ikonok valamilyen jellemzője fejezi ki n Tipikus módszerek: n Chernoff arcok n Vonalrajzok (Stick Figures) n Formák (Shape Coding) n Színek n 2021. 06. 11. Csempeoszlop (Tile. Bars): Dokumentumok részeiben a keresett szó hányszor fordul elő Adatok előfeldolgozása 32

Chernoff arcok n n Több dimenziót tudunk 2 D-ben ábrázolni, például x legyen a szemöldök meredeksége, y a szem nagysága, z az orr hossza, stb. Az ábrán 10 jellemzős arcokat látunk 2021. 06. 11. Adatok előfeldolgozása 33

Vonalrajzok (Stick Figures) at Lowell used by permission of G. Grinstein, University of Massachusettes Népszámlálási adatok: 2021. 06. 11. a nem és az iskolázottság eloszlása a kor és jövedelem függvényében Adatok előfeldolgozása 34

Csempeoszlop (Tile. Bars) 2021. 06. 11. Adatok előfeldolgozása 35

Hierarchikus technikák n A teret hierachikus partíciókra osztjuk fel. n Tipikus módszerek n Dimenzió beágyazása (Dimensional Stacking) n Világ a világban (Worlds-within-Worlds) n Fatérkép (Treemap) n Kúpfák (Cone Trees) n Infokocka (Info. Cube) 2021. 06. 11. Adatok előfeldolgozása 36

Dimenziók beágyazása (Dimensional Stacking) n n n Az n-dimenziós teret 2 D részterekre particionáljuk, és ezeket egymásba ágyazzuk Minél beljebb van 2 attribútum, annál kevésbé lényegesek (az első attribútum a legfontosabb) Alacsony számosságú rendezett (ordinal) attribútumokra használható 2021. 06. 11. Adatok előfeldolgozása 37

Dimenziók beágyazása Used by permission of M. Ward, Worcester Polytechnic Institute A földrajzi koordinátákon (x, y) belül a kibányászott érc vastartalma (z) és amilyen mélyről felhozták (w). 2021. 06. 11. Adatok előfeldolgozása 38

Fatérkép (Tree-Map) n n A teret felbontjuk tartományokra a kiválasztott attribútum alapján A tartomány nagysága az attribútum értékét fejezi ki A tartományt tovább bontjuk egy másik attribútum alapján. Színekkel a felbontásban nem szereplő attribútumok értékét fejezhetjük ki. MSR Netscan Image 2021. 06. 11. Adatok előfeldolgozása 39

Egy fájlrendszer fatérképe 2021. 06. 11. Adatok előfeldolgozása 40

Hasonlóság (Similarity) és különbözőség (Dissimilarity) n n n Hasonlóság n egy szám, ami megmondja mennyire hasonló a két objektum n minél nagyobb, annál jobban hasonlóak n a hasonlósági mérték általában [0, 1]-beli szám Különbözőség (eltérés, távolság) n mennyire különböző a két objektum n minél nagyobb, annál jobban eltérnek n általában 0 jelenti, hogy teljesen hasonlók n felső korlát nem mindig van Közelségen (Proximity) hasonlóságot vagy különbözőséget értünk 2021. 06. 11. Adatok előfeldolgozása 42

Adatmátrix és különbözőségi mátrix n n Adatmátrix n n darab p dimenziós objektum n n x p Különbözőségi mátrix n minden objektumpár különbözősége szerepel benne n háromszög mátrix n n x n 2021. 06. 11. Adatok előfeldolgozása 43

Példa távolság mátrixra Data Matrix Távolság (különbözőség) mátrix Euklideszi távolság esetén 2021. 06. 11. Adatok előfeldolgozása 44

Minkowski-távolság n Minkowski –távolság: ahol i = (xi 1, xi 2, …, xip) és j = (xj 1, xj 2, …, xjp) két pdimenziós objektum, q a távolság rendje. n n Távolság szokásos tulajdonságai n d(i, j) > 0 ha i ≠ j, és d(i, i) = 0 (Potitív definit) n d(i, j) = d(j, i) (Szimmetria) n d(i, j) d(i, k) + d(k, j) (Háromszög-egyenlőtlenség) Ha a távolság kielégíti mindhármat, akkot metrika. 2021. 06. 11. Adatok előfeldolgozása 45

A Minkowski-távolság speciális esetei n q = 1: Manhattan-távolság (L 1 norma) n például Hamming-távolság: eltérő bitek száma n q= 2: (L 2 norma) Euklideszi-távolság n q . szuprémum-távolság (Lmax norma, L norma). n A komponensek maximális eltérése Súlyozott összeg is használható, ha nem egyformán fontosak a dimenziók n 2021. 06. 11. Adatok előfeldolgozása 46

Példa Minkowski-távolságra Távolság mátrix 2021. 06. 11. Adatok előfeldolgozása 47

Intervallum típusú változók n Standardizáljuk az adatokat n Az f-ik komponensben kiszámoljuk az átlagos abszolút eltérést: ahol n n Kiszámítjuk az i-ik objektum standardizált z-értékét (z-score). Az abszolút eltérés kevésbé érzékeny a kiugró értékekre, mint a szórás n A standardizált objektumoknak vesszük a Minkowski-távolságát 2021. 06. 11. Adatok előfeldolgozása 48

Bináris változók n Kontingencia-táblával j objektum i objektum jellemezzük az együttes eloszlást n Szimmetrikus bináris változók távolsága: n Aszimmetrikus bináris változók távolsága: n Jaccard-együttható (hasonlósági mérték aszimetrikus bináris változókra): n A Jaccard-együttható ugyanazt adja, mint a koherencia: 2021. 06. 11. Adatok előfeldolgozása 49

Bináris változók eltérése n (név, nem, lázas, köhög, teszt 1, teszt 2, teszt 3) n n n 2021. 06. 11. a nem szimmetrikus (egyformán fontos, hogy férfi vagy nő) a többi változó aszimmetrikus Kódoljuk Y és P értéket 1 -gyel, N értéket 0 -val Adatok előfeldolgozása 50

Szöveges (Nominal) változók n n A bináris általánosítása, például felvehető értékek piros, sárga, kék, zöld (4 érték) 2. módszer: Egyszerű egyezés n n m az egyezések száma, p a változók száma 2. módszer: bittérkép index készítésével visszavezetjük bináris változókra n 2021. 06. 11. minden felvehető értéknek egy bináris változót feleltetünk meg Adatok előfeldolgozása 51

Rendezett (Ordinal) változók n n n Lehet diszkrét vagy folytonos is Nem az érték, hanem a sorrend számít, például rangfokozat Visszavezetjük intervallum típusúra n xif helyett a rendezés szerinti sorszámát vesszük n normáljuk, hogy a rangok [0, 1]-be essenek n az így kapott intervallum változók eltérését vesszük 2021. 06. 11. Adatok előfeldolgozása 52

Skálafüggő (Ratio-Scaled) változók n n Skálafüggő (Ratio-scaled): nem lináris a skála, például exponenciális ( Ae Bt vagy Ae -Bt ) Módszerek: n n intervallum típusnak tekintve nem jó (a skála torzít) logaritmikus transzformációval visszavezetjük lineáris skálára yif = log(xif) n 2021. 06. 11. folytonos rendezett adatoknak tekintjük őket, ahol a rang intervallum típusú Adatok előfeldolgozása 53

Kevert típusú változók n n 6 féle típust határoztunk meg n szimmetrikus bináris, aszimmetrikus bináris, nominális, ordinális, intervallum és skálafüggő A megfelelő típusok eltérésének súlyozott összege n n n 2021. 06. 11. f bináris vagy nominális: dij(f) = 0 ha xif = xjf , dij(f) = 1 különben f intervallum típusú: normalizált távolság f ordinális vagy skálafüggő n vegyük az rif rangot n a zif értéket intervallum típusúnak tekintjük Adatok előfeldolgozása 54

Vektorokra értelmezett koszinusz hasonlóság n n Vektor objektumok: dokumentumok kulcsszavai, géntulajdonságok egy génchip esetén Alkalmazási terület: információ keresés (information retrieval), biológia d 1 és d 2 vektorok esetén cos(d 1, d 2) = (d 1 d 2) /||d 1|| ||d 2|| , ahol a skalárszorzat, ||d||: a d hossza Például: d 1 = 3 2 0 5 0 0 0 2 0 0 d 2 = 1 0 0 0 1 0 2 d 1 d 2 = 3*1+2*0+0*0+5*0+0*0+0*0+2*1+0*0+0*2 = 5 ||d 1||= (3*3+2*2+0*0+5*5+0*0+0*0+2*2+0*0)0. 5=(42)0. 5 = 6. 481 ||d 2|| = (1*1+0*0+0*0+0*0+1*1+0*0+2*2)0. 5=(6) 0. 5 = 2. 245 cos( d 1, d 2 ) =. 3150 2021. 06. 11. Adatok előfeldolgozása 55

Az előfeldolgozás fő feladatai n n Adatok tisztítása n Hiányzó értékek pótlása, hibás, zajos értékek kijavítása (simítása), kiugró esetek keresése eltávolítása, inkonzisztenciák feloldása Adatok integrálása n Több adatbázis, adatkocka, fájl adatainak közös sémába töltjük Adatok transzformálása n Szükség esetén normalizálása, összesítése Adatok redukálása (mintavételezés) n Olyan kisebb mintát keresünk, amely a teljes populációs statisztikai tulajdonságait magán hordozza n Diszkretizálunk: folytonos függvény helyett néhány helyen felvett értékét tekintjük vagy számokat osztályokba sorolunk 2021. 06. 11. Adatok előfeldolgozása 57

Az adattisztítás n Rossz adatokból jó eredményt nem lehet kapni! n Jó döntést csak jó adatok alapján lehet hozni n n a hiányzó, vagy duplán tárolt adatok hibás, félrevezető statisztikákat okozhatnak n Az adattárház építésének első számú feladata az adattisztítás n Az adattárház építés részei (ETL): n az adatok összegyűjtése az adatforrásokból (data Extraction) n az adatok tisztítása és transzformálása (cleaning and Transform) n a transzformált adatok betöltése az adattárházba (Load) Az adattisztítás feladatai n hiányzó értékek kitöltése n kiugró esetek összegyűjtése, zajos adatok simítása, n inkonzisztenciát okozó hibák javítása n az integrációból adódó többszörös előfordulások eltávolítása 2021. 06. 11. Adatok előfeldolgozása 58

Milyen a piszkos adat? n n n Nem teljes: hiányoznak attribútumok, értékek vagy csak összesített adatok állnak rendelkezésre n foglalkozás= "" (hiányzó adat) zajos: zajos, hibás, vagy kiugró értéket tartalmaz n fizetés=− 10 (hibás érték) inkonzisztens: összefüggéseket megsérti, ellentmondásos a kódolása, névhasználat, n Kor=42 de születés=2000. 01. n Egyik helyen az osztályzat 1, 2, 3 másik helyen A, B, C n ellenmondásosak a duplázott rekordok 2021. 06. 11. Adatok előfeldolgozása 59

Miért keletkeznek piszkos adatok? n Honnan származnak a nem teljes adatok? n n Honnan jöhetnek zajos, hibás adatok? n n Hibás az adatgyűjtő mérőeszköt Az adatbevitel során emberi vagy szoftveres hibák Adatátvitel közben sérülnek az adatok Mitől lesznek inkonzisztens adataink? n n n Az adatgyűjtéskor kimarad, például eltérő adattípusok miatt Más volt az elképzelés az adatgyűjtéskor, mint a későbbi adatelemzéskor, hiányoznak az elemzéshez szükséges adatok. Emberi/hardver/szoftver problémák Különböző adatforrásokból jönnek az adatok Megsérthetünk például funkcionális függőségeket (ha módosítás során nincs ellenőrzés) A megegyező rekordokból csak egyet akarunk megtartani 2021. 06. 11. Adatok előfeldolgozása 60

Az adatminőséget több szempont alapján mérhetjük (többdimenziós mérték) n A legfontosabb mértékek: n Pontosság (Accuracy) - például mérőeszközöből származó adatok hány jegyre pontosak n Teljesség (Completeness) – például nullértékek száma n Konzisztencia (Consistency) – megsértett szabályok száma, vagy legbővebb konzisztens részhalmaz mérete n Időszerűség (Timeliness) – mennyire frissek az adatok (legjobb lenne az online) n Hihetőség (Believability) – mennyire bízunk mi, vagy szakértők ([0, 1]) a bevitt adatokban 2021. 06. 11. Adatok előfeldolgozása 61

Az adatminőséget több szempont alapján mérhetjük (többdimenziós mérték) További mértékek: n Hozzáadott érték (Value added) például az értékek alapján kap egy jelzőt, hogy átlagos, átlagon felüli vagy aluli n Értelmezhetőség (Interpretability) n Elérhetőség (Accessibility) n Az adatminőség szoftverekkel mérhető: n 2021. 06. 11. Adatok előfeldolgozása 62

Hiányzó adatok n n n Nem mindig adják meg az összes adatot n Például a vásárlók jövedelmét, vagy a gmail-es felhasználók telefonszámát nem töltik ki Miért van hiányzó adat n Hibás a mérőműszer n Törölték a nem konzisztens adatokat n nem volt kötelezően kitöltendő n adatgyűjtéskor még nem tudtuk, hogy fontos lesz később n az adatváltozás nem volt naplózva, elvesztek a régi értékek Mi van, ha mégis szükségünk lenne arra, hogy milyen érték hiányzik valójában? 2021. 06. 11. Adatok előfeldolgozása 63

Mit kezdjünk a hiányzó értékekkel? n n n Eldobjuk a teljes rekordot: például osztályozáskor pont az osztálycímke hiányzik — nem jó megoldás, ha attrbútumonként más a nullértékek hányada, és túl sok rekordot érint Kézzel kitöltjük a hiányzó értékeket: időigényes + nincs erre erőforrás Automatikusan töltjük ki, de hogyan? n bevezetünk egy „Ismeretlen” globális konstanst, ezzel egy új osztály is keletkezhet! n n n 2021. 06. 11. Az attribútum átlagával, várható értékével pótoljuk Csak az ugyanabba az osztályba eső mintának az átlagát vesszük: ez már okosabb A legvalószínűbb értéket vesszük: amit döntési fával, vagy Bayesképlettel következtetünk ki Adatok előfeldolgozása 64

Zajos adatok n n n Zaj: a mért változóra vonatkozó véletlen hiba vagy szóródás Mitől pontatlan egy attribútumérték? n hibás az adatgeneráló berendezés n adatbevitelkor rossz adat került be n adatátvitelkor sérült az adat n technológiai hiányosság (nem is lehet pontosabban mérni) n elnevezési inkonzisztencia (a „hossz” nevű változóról nem tudjuk, hogy méterben vagy lábban kell megadni az értéket) További adattisztítást igénylő adatproblémák n dupla rekordok n nem teljes rekordok n inkonzisztens adatok 2021. 06. 11. Adatok előfeldolgozása 65

Mit kezdjünk a zajos adatokkal? n n Kategorizálás (Binning) – például intervallumokra osztás n az adatokat (például egyenlő gyakoriságú) partíciókba (bin) soroljuk n a partícióba tartozó értékek helyett vehetjük a partíció átlagát, mediánját, valamelyik végpontját, ezzel simítjuk az adatokat Regresszió n egy sima regressziós függvényt illesztünk az adatokra Klaszterezés (Clustering) n a hasonló (közeli) objektumokat klaszterekbe soroljuk n a kiugró értékeket (kis elemszámú vagy mindentől távoli klasztereket) eldobjuk Kiugró adatok detektálása félautomata módon n lehetséges, gyanús értékek keresése algoritmussal, és átadása a felhasználónak, hogy ő döntsön 2021. 06. 11. Adatok előfeldolgozása 66

Diszkretizálás, kategórizálás (Binning) n Egyenlő széles particionálás n A tartományt N egyenlő hosszú intervallumra osztjuk: egyenletes rácsfelosztás n Ha az attribútum értékek maximuma A, minimuma B, akkor az intervallumok hossza: W = (B –A)/N. n n Egyszerű, de a szélsőséges adatokra érzékeny (sok üres intervallum lesz) n A torzított, hibás adatokra is érzékeny Egyenlő gyakoriságú particionálás n A tartományt N intervallumra osztjuk úgy, hogy mindegyikbe ugyanannyi minta jusson n jól skálázható n számokra egyszerű, de kategóriaváltozókra trükközni kell, számokkal kódolhatunk, de vigyázni kell, közeli számok nem biztos, hogy közeli kategóriát jelentenek 2021. 06. 11. Adatok előfeldolgozása 67

Adatsimítás kategorizálással (Binning) Az árak rendezve (dollárban): 4, 8, 9, 15, 21, 24, 25, 26, 28, 29, 34 * Egyenlő gyakoriságú intervallumok - Bin 1: 4, 8, 9, 15 - Bin 2: 21, 24, 25 - Bin 3: 26, 28, 29, 34 * Simítás az átlaggal: - Bin 1: 9, 9, 9, 9 - Bin 2: 23, 23, 23 - Bin 3: 29, 29, 29 * Simítás a végpontokkal (amelyikhez közelebb van): - Bin 1: 4, 4, 4, 15 - Bin 2: 21, 25, 25 - Bin 3: 26, 26, 34 q 2021. 06. 11. Adatok előfeldolgozása 68

Regresszió Az együtthatók becslésére alkalmazott eljárások: n a legkisebb négyzetek módszere (Ordinary Least Squares, OLS) n Minimalizáljuk a hibák négyzetének összegét: az általánosított legkisebb négyzetek módszere (Generalized Least Squares , GLS) az általánosított momentumok módszere (Generalized Method of Moments, GMM) n a legnagyobb valószínűség módszere (Maximum Likelihood Estimation, ML) n n 2021. 06. 11. Adatok előfeldolgozása 69

Lineáris regresszió n Az optimalizálandó függvény: a és b szerint deriválva: n Kifejezve b-t és a-t: n 2021. 06. 11. Adatok előfeldolgozása 70

Klaszterezés n Csoportok képzése távolságok alapján (jövedelem, kor, gyakori látogató) – kiugró értékek, amelyek egyelemű csoportok 2021. 06. 11. Adatok előfeldolgozása 71

Az adattisztítás mint folyamat n n n Észre kell venni a szokatlan adatokat n Használjunk metaadatokat, leírókat (tartomány, értékkészlet, függőségek, eloszlások), amivel összehasonlíthatók a minták n Ellenőrizzük a többértékű mezőket (field overloading) n Ellenőrizzük a szabályokat (egyediség, egymás utániság, nullértékek tiltása) n Használjunk kész rendszereket, szótárakat n Adatfehérítés (Data scrubbing): szakértői tudásbázisok bevetése (irányítószámok, helyesírási szótárak) n Adatellenőrzés (Data auditing): adatelemzéssel keressük meg a kapcsolatokat, szabályokat és az azokat megsértő eseteket (például klaszterezünk, korrelációkat számolunk) Az adatok betöltése, egyesítése (migrálása és integrálása) n Migráló eszközök: betöltés előtt/után transzformálhatunk is n ETL (Extraction/Transformation/Loading) eszközök: az adatgyűjtő, transzformáló, betöltő folyamatot grafikus felületen tervezhetjük meg, hajthatjuk végre Az előbbi két folyamatot általában ugyanazzal az eszközzel hajthatjuk végre n a folyamat lehet egyaránt iteratív és interaktív is 2021. 06. 11. Adatok előfeldolgozása 72

Adatintegráció n n Mikor kell egyesíteni az adatokat: n több adatforrásból származó adatokat akarunk egyesítve tárolni Közös séma tervezése: A. cust-id B. cust-# n ugyanazt a mezőt másképpen neveztük a két táblában Egyedazonosítási probléma (Entity identification problem): n Két adatforrásban reprezentált egyedek valójában ugyanazt a valóságos egyedet reprezentálják csak másképpen, például, Bill Clinton = William Clinton Az észlelt adatkonfliktusokat fel kell oldani (resolution) n Miért reprezentáljuk másképp, más attribútumértékekkel ugyanazt az egyedet? n Például a mértékegység más, vagy egy térbeli adatot más koordinátarendszerben (polárkoordinátákkal) adunk meg 2021. 06. 11. Adatok előfeldolgozása 74

Hogy kezeljük azt a redundanciát, amit az adategyesítés okoz? n Egyesítéskor gyakran többszörös példányok, attribútumok keletkeznek n Azonos objektumok: ugyanazt az attribútumot vagy objektumot másképp neveztünk el a két adatbázisban n Származtatott adatok: egyik helyen megadjuk (T 1. Adó), a másik helyen kiszámoljuk (T 2. Adó) ugyanazt az értéket n A redundáns attribútumokat korrelációanalízissel lehet felderíteni n Ha csökkentjük vagy elkerüljük a redundanciát, akkor jöbb minőségű lesz az adatbányászat eredménye és ráadásul gyorsabb is. 2021. 06. 11. Adatok előfeldolgozása 75

Korrelációanalízis (Numerikus adatokon) n n Korrelációs együttható (Pearson’s együttható): kovariancia osztva a szórások szorzatával A mintából becsülhetjük a korrelációs együtthatót: n Ugyanez kifejezhető a mintára vonatkozó z-érték, az átlag és a szórás segítségével is n Minél nagyobb az r abszolút értéke, annál jobban korreláltak. n n n Ha r > 0, akkor a két változó pozitívan korrelált, azaz egyszerre nő vagy csökken az értékük. Ha r = 0, akkor linárisan függetlenek. Ha r < 0, akkor a két változó negatívan korrelált, azaz egymáshoz képest ellentétesen nő vagy csökken az értékük. 2021. 06. 11. Adatok előfeldolgozása 76

A korreláció lineáris kapcsolatot mér! n n Ha a korrelációs 0, attól még nem biztos, hogy függetlenek (kivéve, ha normális eloszlásúak a változók. ) Korrelálatlan, de nem független diszkrét változók: 2021. 06. 11. Adatok előfeldolgozása 77

Korreláció megfigyelése a pontdiagramon A korrelációs együttható -1 és +1 között. 2021. 06. 11. Adatok előfeldolgozása 78

Korrelációanalízis (kategórikus adatok esetén) n n Χ 2 (chi-square) teszt a megfigyelt és várható (elméleti függetlenség alapján számolt) gyakoriságok alapján: A statisztika szabadságfoka (n-1)*(m-1), ahol n, m a felvehető kategóriák száma n Minél nagyobb a Χ 2 értéke, annál szorosabb a két változó kapcsolata n A korrelációs nem jelent okozati kapcsolatot n a kórházak száma és az ellopott kocsi száma általában erősen korrelált n magyarázat: mindkettő a lakosság számával korrelált 2021. 06. 11. Adatok előfeldolgozása 79

Egy példa Sakkozik Nem sakkozik Sorösszeg Bridzzsel 250(90) 200(360) 450 Nem bridzzsel 50(210) 1000(840) 1050 Oszlopösszeg 300 1200 1500 n Χ 2 statisztika értéke: n Ez erős korrelációt jelent. 2021. 06. 11. Adatok előfeldolgozása 80

Adattranszformálás n n Az attribútum régi értékeit egy függvény alapján újakra cseréljük Különböző módszerek n Simítás: az ugrálásokat, zajokat eltávolítjuk az adatokból n Aggregálás: Összesítünk, adatkockákat készítünk n Általánosítás: Fogalmi hierarchiában egy magasabb szinttel helyettesítünk n Normalizálás: átskálázzuk, hogy egy adott kisebb tartományba essenek az értékek n min-max normalizálás n z-score normalizálás n Új attribútumok készítése n számított attribútumok jövedelem*adókulcs=adó 2021. 06. 11. Adatok előfeldolgozása 81

A normalizálások n Min-max normalizálás: [new_min. A, new_max. A] n Például $12, 000, $98, 000 intervallumot a [0. 0, 1. 0]-re képezzük. Ekkor $73, 000 képe n Z-score normalizálás (μ: átlag, σ: szórás): n n 2021. 06. 11. Például ha μ = 54, 000, σ = 16, 000, akkor ahol j a legkisebb egész, melyre Max(|ν’|) < 1 Decimális normalizálás (Például: 3422 helyett 3000) Adatok előfeldolgozása 82

Adatcsökkentő stratégiák n n n Miért van szükség adatredukcióra? n Egy adatbázis adattárház sok terabájtos lehet n Ha a teljes adathalmaz elemeznénk, akkor az adatbányászó algoritmusok nagyon sokáig (napokig) is tarthatnának Mit jelent az adatredukció: Olyan kisebb méretű reprezentálását keressük az adatoknak, amelyek statisztikai viselkedése hasonló a teljes adathalmazra, és a redukált halmazon elvégzett elemzések eredménye hasonló, mint amilyet a teljes halmazra kapnánk Stratégiák n Dimenziócsökkentés — nem fontos attribútumok eldobása n A lehetséges értékek számának (Numerosity) csökkentése n adatkockák aggregációk n adattömörítés n regresszió n diszkretizálás és fogalmi hierarchiák használata 2021. 06. 11. Adatok előfeldolgozása 84

Dimenzócsökkentés n n n A dimenziók átka n ha nő a dimenziószám, akkor egyre ritkábbak lesznek az adatok n ezáltal a sűrűségek, távolságok használata értelmetlenné válhat n exponenciális gyorsan nő a részterek száma Dimenziócsökkentés n elkerüljük a dimenziók átkát n a lényegtelen attribútumokat elhagyjuk, csökken a zaj n az adatbányászat idő és tárigénye kisebb lesz n könnyebben vizualizálható Dimenziócsökkentő technikák n Főkomponens analízis (Principal component analysis – PCA) n Szingulárisérték-dekompozíció (Singular value decomposition – SVD) n Felügyelt és nem lineáris technikák (például lényeges attribútumok keresésére - feature selection) 2021. 06. 11. Adatok előfeldolgozása 85

Főkomponens analízis – Principal Component Analysis (PCA) n n Olyan ortonormált, kisebb dimenziójú koordinátarendszert keresünk, amely az adatok szórását a lehető legjobban magyarázza (ez egy optimalizálási feladat) A koordinátarendszert a kovarianciamátrix sajátvektorai fogják megadni x 2 e x 1 2021. 06. 11. Adatok előfeldolgozása 86

Főkomponens analízis – Principal Component Analysis (PCA) n Ha az x 1, x 2 két dimenzió helyett csak y 1 dimenziót használjuk, akkor a hiba csak λ 2 -vel növekszik 2021. 06. 11. Adatok előfeldolgozása 87

A főkomponens analízis lépései n Adott N adatvektor (n-dimeziós), keressük azt a k ≤ n ortogonális vektort (főkomponenst), amelyek legjobban reprezentálják az adatokat n n Kiszámítjuk a k ortonormált sajátvektort, a főkomponenseket n Minden inputvektor a k főkomponens lineáris kombinációja n n n Normalizáljunk, hogy minden adat ugyanabba az intervallumba essen A főkomponenseket sajátértékek szerint csökkenő sorrendbe rendezzük Elhagyjuk a túl kicsi sajátértékű főkomponenseket, mert ezek a szórásnak csak kis részét magyarázzák Csak numerikus adatokra működik 2021. 06. 11. Adatok előfeldolgozása 88

Lényeges attribútumhalmaz kiválasztása n Ez is csökkenti a dimenziók számát n Redundáns attribútumok n n például az áru Ára és ÁFA értéke Lényegtelen attribútumok n n 2021. 06. 11. a feladat számára nem fontos, például leíró információt tartalmazó attribútumok Ha a Adattárház jegyet akarjuk megbecsülni, akkor nem fontos, hogy a hallgatónak milyen nyelvvizsgája van Adatok előfeldolgozása 89

Heurisztikák a lényeges attribútumhalmaz keresésére n n Lehetséges halmazok száma: 2 d , ha az attribútumok száma d Heurisztikák: n Kiválasztjuk a legszignifikánsabb attribútumot (feltéve, hogy az attribútumok függetlenek) n Fentről lefele: Mindig a legszignifikánsabb attribútumot választjuk a maradékból n Lentről felfele: Mindig kidobjuk a legkevésbé szignifikáns attribútumot n Kombinálva n Visszalépést is megengedve 2021. 06. 11. Adatok előfeldolgozása 90

Új attribútumhalmaz kiválasztása n Az adatok fontos információit hatékonyabban akarjuk reprezentálni n Elhagyunk attribútumokat n csak az elemzéshez szükségeseket tartjuk meg n Új térbe transzformáljuk az adatokat (például adatredukció során) n például Fourier-transzformáció, wavelet transzformáció n Attribútum készítése n attribútumok kombinálása n diszkretizálás 2021. 06. 11. Adatok előfeldolgozása 91

Új térbe transzformálás n n Fourier-transzformáció Wavelet-transzformáció 2 szinuszhullám n Például a négyszögjel: 2021. 06. 11. 2 szinuszhullám + Zaj Adatok előfeldolgozása Frekvencia 92

Számosság (Numerosity) csökkentése n n n Kevesebb értékkel akarjuk ugyanazt reprezentálni Paraméteres módszerek (például regresszió) n Feltesszük, hogy az adatok valamilyen paraméterekkel leírható modell alapján keletkeznek, megbecsüljük a paramétereket, és az adatokat eldobhatjuk, kivéve a kiugró adatokat n Például: Log-lineáris model — az együttes eloszlást a hatások szorzataként tételezzük fel Nem-paraméteres módszerek n Nem keresünk modellt n hisztogram, klaszterezés, mintavételezés 2021. 06. 11. Adatok előfeldolgozása 93

Regresszió n Lineáris regresszió: egyenest illesztünk Y=w. X+b n Legkisebb négyzetek módszerével minimalizáljuk a hibát n Többváltozós regresszió: az Y vektort több attribútumváltozó lineáris kombinációjaként (a. X formában) keressük Y = b 0 + b 1 X 1 + b 2 X 2. 2021. 06. 11. Adatok előfeldolgozása 94

Regresszió és Log-Lineáris modell n Log-lineáris modell: diszkrét többdimenziós eloszlást approximálunk vele, például p(a, b, c, d) = ab ac ad bcd 2021. 06. 11. Adatok előfeldolgozása 95

Wavelet transzformáció n Diszkrét wavelet transzformáció (DWT): egyszerű függvények súlyozott összegeként közelítjük a függvényt, így elég a súlyok sorozatát ismerni n ilyen egyszerű függvények pl: Haar 2 Daubechie 4 Felhasználási terület: lineáris jelfeldolgozás, multirezolúciós felbontások n n Ezzel tömörebb formában approximálunk: elég a súlyok közül a legerősebb komponensekhez tartozókat tárolni A diszkrét Fourier-transzformációhoz hasonló, de annál jobb (veszteséges) tömörítést jelent 2021. 06. 11. Adatok előfeldolgozása 96

Wavelet transzformáció n Módszer: n Legyen L hossz 2 hatvány n Minden transzformáció két függvényből áll: n n 2021. 06. 11. simításból, és különbségből Rekurzívan alkalmazzuk, fele akkora adathalmazra Adatok előfeldolgozása 97

Wavelet transzformáció n Két dimenzióban és kétféle szűrést (high, low) használva 2021. 06. 11. Adatok előfeldolgozása 98

DWT képtömörítés (jpeg, png) n Kép Low Pass 2021. 06. 11. High Pass Adatok előfeldolgozása 99

Adatkockák és az aggregálás n n Az adatkockák legkisebb egysége az alap kuboid (ebben szerepelnek az aggregált értékek) n ebben általában egyedek összesített adatai található n például ügyfele telefonhívásainak összesítése (száma, összes idő) Az adatkockákban az összesítés több szintű lehet n n n Az ilyen további összesítések tovább csökkentik a vizsgálandó adatok méretét Melyik összesítési szint lesz megfelelő? n n Például városok szerint, hónapok szerint ami a legkisebb méretű, de még elégséges a feladat megoldásához Az olyan lekérdezéseket, amelyekben aggregálás szerepel, próbáljuk az adatkockák adataival kiszámolni. 2021. 06. 11. Adatok előfeldolgozása 100

Adattömörítés n n Sztringek tömörítése n jól kidolgozott elméletek és hatékony algoritmusok léteznek erre n Általában veszteségmentesség is garantálható n Ahhoz, hogy műveleteket végezzünk vissza kell előbb állítni az eredetit Kép, hang és film tömörítése n Általában veszteséges a tömörítés, fokozatos finomítás n 2021. 06. 11. Nehéz egy részt az egész visszaállítása nélkül előállítani Adatok előfeldolgozása 101

Az adattömörítés sémája Tömörített adatok Eredeti adatok Veszteségmentes s e g é s e t z s e V Az eredeti adatok közelítése 2021. 06. 11. Adatok előfeldolgozása 102

A hisztogram is adatredukciónak tekinthető n n Az adatokat kosarakba osztjuk és tároljuk a kosarak átlagát, az elemek összegét, stb. kosaranként Partíciós szabályok a felosztásra: n egyenlő széles intervallumok n egyenlő gyakoriságú intervallumok n n V-optimális: legkisebb a hisztogram szórás (a kosarakba eső elemek szórását megszorozzuk a kosarak elemszámával és összeadjuk) Max. Diff: rendezzük az elemeket és ott vágunk, ahol egymás mellett legnagyobbak (k-1 vágás) a 1, 1, 4, 5, 5, 7, 9, 14, 16, 18, 27, 30, 32 különbség 2021. 06. 11. Max. Diff: 27 -18 = 9 és 14 -9 = 5 Adatok előfeldolgozása 103

A klaszterezés mint adatredukció n n n Az adatokat például hasonlóság alapján klaszterekbe osztjuk és az adatok helyett a klasztereket reprezentáló értékeket, például középpontjukat és átmérőjüket tároljuk Elég hatékony, ha az adatok nem egyenletes szétkentek a térben A hierarchikus klaszterezés olyan, mint a többdimenziós indexfák (például R-fák) Nagyon sokféle klaszterező eljárás létezik, például különböznek abban, hogy konvex, konkáv, vagy tetszőleges alakú csoportokat ismernek fel. n 2021. 06. 11. Adatok előfeldolgozása 104

A mintavételezés mint adatredukció n n n Az N elemű adathalmazt egy kisebb, s elemű mintával reprezentáljuk Ha az adatbányászó algoritmus az adatok számában szublináris - o(n), akkor a mintán futtatva hatékonyabb a feldolgozás Alapelv: legyen a minta reprezentatív n n n Egy véletlen minta általában nem jó, ha nagyon eltér az eloszlás az egyenletestől Többször veszünk mintát vagy egy-egy részből különböző valószínűséggel (többrétegű mintavételezés) A minta nem biztos, hogy kevesebb adatbázisblokkban helyezkedik el, így nem biztos, hogy az I/O blokkműveletek száma csökken 2021. 06. 11. Adatok előfeldolgozása 105

A mintavételezések típusai n n n Véletlen (egyenletes) mintavételezés n bármelyik elemet egyenlő valószínűséggel választunk ki n ez visszatevés nélküli mintavétel, azaz a kiválasztott objektumot eltávolítjuk a populációból Visszatevéses mintavételezés n a kiválasztott objektumot nem távolítjuk el a populációból Rétegzett mintavételezés: n Az adatokat partíciókba osztjuk és minden partícióból arányosan sok mintát választunk, n 2021. 06. 11. például minden megyéből a megyék népességével arányos számú ember a megyék szerinti eloszlást jól tükrözi Adatok előfeldolgozása 106

Visszatevés nélküli vagy visszatevéses mintavételezés l) lkü é n s é tev a z s is (v vissza tevéss el Az adatok (egy urnában) 2021. 06. 11. Adatok előfeldolgozása 107

Klaszterezett (rétegzett) mintavétel Az adatok klaszterei 2021. 06. 11. Rétegzett mintavétel Adatok előfeldolgozása 108

A diszkretizálás mint adatredukció n Háromféle attribútum: n Nominális — elnevezések (sztringek) rendezés nélkül (színek, foglalkozások, stb) n Ordinális — rendezhető, ragsorolható elnevezések, katonai rangok, beosztások n n Folytonos — végtelen számhalmaz (valós, egész) Diszkretizálás: n a folytonos attribútumok tartományát intervallumokra osztjuk n osztályozásoknál is szükség lehet rá, mivel egyes osztályozó módszerek csak nominális attribútumokra működnek n 2021. 06. 11. csökken a méret a diszkretizálással Adatok előfeldolgozása 109

Diszkretizálás és fogalmi hierarchiák n Diszkretizálás n besoroljuk a folytonos attribútum értékeit intervallumokba n a megfelelő intervallum címkéjét használjuk az adatértékek helyett (csökken a különböző értékek száma) n n lehet felügyelt (supervised) vagy felügyelet nélküli (unsupervised) n lehet hasító (fentről lefele) vagy összevonó (lentről felfele) A fogalmi hierarchiák n az adatok értékét (például a vásárlók korát) rekurzívan egyre magasabb szintű fogalommal helyettesítjük (például fiatal, középkorú, idős) 2021. 06. 11. Adatok előfeldolgozása 110

Diszkretizálás és fogalmi hierarchiák generálása n Tipikus módszerek (mindegyik rekurzívan is alkalmazható) n Kategórizálás (Binning) n n Hisztogram alapú n n Top-down módszer, felügyelet nélküli Klaszterezés n vagy top-down vagy bottom-up módszer, felügyelet nélküli n Entrópia alapú diszkretizálás: top-down módszer, felügyelt n Intervallumok egyesítése 2 elemzéssel: bottom-up módszer, felügyelet nélküli n Szegmentálás természetes partícionálással: top-down módszer, felügyelet nélküli 2021. 06. 11. Adatok előfeldolgozása 111

Entrópia alapú diszkretizálás n n Ha egy S halmazt S 1 és S 2 partícióra bontunk úgy, hogy T vágással, akkor a partícionálással kapott információ értéke Az entrópia értéke a bizonytalanságot méri. Ha egy elem m osztály valamelyikébe eshet, akkor S 1 entrópiája ahol pi annak a valószínűsége, hogy egy véletlen S 1 -beli elem az i osztályba tartozik n Bináris diszkretizálás során azt a T-t választjuk, amelyre az I(S, T) minimális n A vágásokat egy megállási feltétel teljesüléséig folytatjuk rekurzívan n Az ilyen vágásokkal fokozatosan javítjuk az osztályozás pontosságát 2021. 06. 11. Adatok előfeldolgozása 112

Az entrópia néhány tulajdonsága A bináris (Bernoulli) eloszlás entrópiafüggvénye 2021. 06. 11. Adatok előfeldolgozása 113

Az entrópia néhány tulajdonsága 2021. 06. 11. Adatok előfeldolgozása 114

Diszkretizálás osztálycímkékkel n Entrópia alapú (bináris vágás helyett k-részre) 3 - 3 kategória x és y értékekre 2021. 06. 11. 5 - 5 kategória x és y értékekre Adatok előfeldolgozása 115

Diszkretizálás osztálycímkék nélkül Az adatok egyenlő nagyságú intervallumok Egyenlő gyakoriságú 2021. 06. 11. K-átlag Adatok előfeldolgozása 116

Intervallumösszevonás 2 elemzéssel n Összevonáson alapul n Összevonás: a szomszédos intervallumok közül a legjobb párt összevonjuk egy nagyobb intervallumba majd rekurzívan folytatjuk n Chi. Merge algoritmus n Kezdetben A numerikus értékei mind külön intervallumok n 2 tesztet csinálunk minden szomszédos intervallumra n Amelyik párra legkisebb a 2 érték, azt összevonjuk n A megállási feltétel lehet: 2021. 06. 11. n szignifikancia szint n korlát a maximális intervallum hosszára Adatok előfeldolgozása 117

Szegmentálás heurisztikával n Egy egyszerű 3 -4 -5 szabállyal nagyjából egyforma intervallumokra szegmentálhatjuk az értékeket. n Ha 3, 6, 7 vagy 9 különböző érték szerepel a legnagyobb helyi értékben, akkor 3 egyenlő (7 esetén 2 -3 -2 arányú) intervallumra osztjuk az intervallumot n Ha 2, 4 vagy 8 különböző érték szerepel a legnagyobb helyi értékben, akkor 4 egyenlő részre osztjuk az intervallumot n Ha 1, 5 vagy 10 különböző értéke szerepel a legnagyobb helyi értékben, akkor 5 egyenlő részre osztjuk az intervallumot. 2021. 06. 11. Adatok előfeldolgozása 118

Példa a 3 -4 -5 szabályra count Step 1: Step 2: -$351 -$159 Min Low (i. e, 5%-tile) msd=1, 000 profit Low=-$1, 000 (-$1, 000 - 0) (-$400 - 0) (-$200 -$100) (-$100 0) 2021. 06. 11. Max High=$2, 000 ($1, 000 - $2, 000) (0 -$ 1, 000) (-$400 -$5, 000) Step 4: (-$300 -$200) High(i. e, 95%-0 tile) $4, 700 (-$1, 000 - $2, 000) Step 3: (-$400 -$300) $1, 838 ($1, 000 - $2, 000) (0 - $1, 000) (0 $200) ($1, 000 $1, 200) ($200 $400) ($1, 200 $1, 400) ($1, 400 $1, 600) ($400 $600) ($600 $800) ($800 $1, 000) ($1, 600 ($1, 800) $2, 000) Adatok előfeldolgozása ($2, 000 - $5, 000) ($2, 000 $3, 000) ($3, 000 $4, 000) ($4, 000 $5, 000) 119

Fogalmi hierarchia generálása n Szakértők, felhasználók adnak meg egy részben rendezést séma szinten az attribútumokon n n Explicit adatcsoportosítással is megadhatunk hierarchiát n n n utca < város < régió < ország {Budapest, Érd, Dabas} < Közép-Magyarország Nem minden attribútum összehasonlítható Automatikusan is generálható hierarchia a különböző elemek számának vizsgálatával n {utca, város, régió, ország} például város utca többértékű függőség teljesül 2021. 06. 11. Adatok előfeldolgozása 120

Automatikus fogalmi hierarchia generálása n Az legyen a hierarchiában magasabban, aminek kevesebb különböző értéke van 15 érték ország régió 36 érték város 3567 érték 674 339 érték utca 2021. 06. 11. Adatok előfeldolgozása 121

References n n n n D. P. Ballou and G. K. Tayi. Enhancing data quality in data warehouse environments. Communications of ACM, 42: 73 -78, 1999 W. Cleveland, Visualizing Data, Hobart Press, 1993 T. Dasu and T. Johnson. Exploratory Data Mining and Data Cleaning. John Wiley, 2003 T. Dasu, T. Johnson, S. Muthukrishnan, V. Shkapenyuk. Mining Database Structure; Or, How to Build a Data Quality Browser. SIGMOD’ 02 U. Fayyad, G. Grinstein, and A. Wierse. Information Visualization in Data Mining and Knowledge Discovery, Morgan Kaufmann, 2001 H. V. Jagadish et al. , Special Issue on Data Reduction Techniques. Bulletin of the Technical Committee on Data Engineering, 20(4), Dec. 1997 D. Pyle. Data Preparation for Data Mining. Morgan Kaufmann, 1999 E. Rahm and H. H. Do. Data Cleaning: Problems and Current Approaches. IEEE Bulletin of the Technical Committee on Data Engineering. Vol. 23, No. 4 n n V. Raman and J. Hellerstein. Potters Wheel: An Interactive Framework for Data Cleaning and Transformation, VLDB’ 2001 T. Redman. Data Quality: Management and Technology. Bantam Books, 1992 E. R. Tufte. The Visual Display of Quantitative Information, 2 nd ed. , Graphics Press, 2001 R. Wang, V. Storey, and C. Firth. A framework for analysis of data quality research. IEEE Trans. Knowledge and Data Engineering, 7: 623 -640, 1995 2021. 06. 11. Adatok előfeldolgozása 122