SQL OLAP 6 ra ltalnos integrcis szintek Adattrolsi

  • Slides: 26
Download presentation
SQL – OLAP 6. óra

SQL – OLAP 6. óra

Általános integrációs szintek

Általános integrációs szintek

Adattárolási réteg Adatforrás réteg Adat továbbító réteg Adatszótár réteg Adathozzá-férési modul Megjelení tésrétege Ütemező

Adattárolási réteg Adatforrás réteg Adat továbbító réteg Adatszótár réteg Adathozzá-férési modul Megjelení tésrétege Ütemező réteg A források integrálása a DW rendszerek legfontosabb eleme Elemei: - séma integráció - adat integráció -- virtuális -- valós

ETL folyamatok

ETL folyamatok

Séma integráció Célja homogén, konzisztens közös séma előállítása Integráció főbb lépései: - elő integráció

Séma integráció Célja homogén, konzisztens közös séma előállítása Integráció főbb lépései: - elő integráció (preintegration) - séma összehasonlítás (schema comparison) - séma illesztés (schema conforming) - séma összevonás (schema merging)

Name Title Publisher Name Published by Address Book Adopted by City University Refer to

Name Title Publisher Name Published by Address Book Adopted by City University Refer to Name Topics -------------------------Title Publication Code Publisher contains Word Keywords Code Research Area

A Name Title Publisher Name Published by Address Book Adopted by City University Refer

A Name Title Publisher Name Published by Address Book Adopted by City University Refer to Name Topics B -------------------------Title Publisher Name Published by Publication Code contains Word Name Keywords Topics Code Research Area

Name Publisher Name Title Address Published by Book Adopted by University Refer to Name

Name Publisher Name Title Address Published by Book Adopted by University Refer to Name Publication contains Topics Code Research Area Title Code City

Előintegráció lépései - az egyes sémák elemzése - integrációba bevonandó elemek kiválasztása - integrációs

Előintegráció lépései - az egyes sémák elemzése - integrációba bevonandó elemek kiválasztása - integrációs sorrend meghatározása - integritási elvek összegyüjtése - szemantikai kibővités - közös szemantikai modellre alakítás (EER, ODL, formális logikai nyelv, . . . ) - adatszótár létrehozás 1. >0 2. >0

Séma összehasonlítás lépései - a különböző sémák elemei közötti kapcsolatok meghatározása - séma struktúra

Séma összehasonlítás lépései - a különböző sémák elemei közötti kapcsolatok meghatározása - séma struktúra hasonlóság vizsgálata - modell heterogenitási konfliktusok feloldása - elnevezési konfliktusok feloldása (hononima, szinonima) - szemantikai konfliktusok felodása - strukturális konfliktusok feloldása nev vezeto fiz oszt. vez tel nev cim

Séma illesztés elemei: - elnevezés -- szinonímák -- általánosítás -- elírás - struktúra --

Séma illesztés elemei: - elnevezés -- szinonímák -- általánosítás -- elírás - struktúra -- kapcsolatok -- szerkezet -- viselkedés

Séma illesztés és összevonás lépései - konfliktusok számbavétele - konfiktusok feloldása - sémak kombinálása

Séma illesztés és összevonás lépései - konfliktusok számbavétele - konfiktusok feloldása - sémak kombinálása - közös séma átalaktítása (séma hasonlóság alapú vizsgálat) - séma optimalizálása - teljesség, helyesség, minimalitás ellenőrzés nev vezeto fiz oszt. vez tel vezeto cim nev tel

Adat integrációs lépések - adat illesztés -- formátum -- kódolás -- érték - adatszűrés

Adat integrációs lépések - adat illesztés -- formátum -- kódolás -- érték - adatszűrés (közös integritási feltételek) - adat ellenőrzés (inkozisztencia feloldása) A séma integrációban megadott leképzés (mapping) alapján működik speciális feladatok: - adattisztítás - adat illesztés

Integrációs struktúra kliens modell DW kliens séma mediators fogalmi szint alkalmazás modell (EER, logikai

Integrációs struktúra kliens modell DW kliens séma mediators fogalmi szint alkalmazás modell (EER, logikai f. ) logikai szint DW séma (relációk, kockák) wrapper meta-modell adatforrások

Integráció tervezési módszerek Egyszintű (one-shot) csak egy célséma van Inkrementális modulok független parciális sémák

Integráció tervezési módszerek Egyszintű (one-shot) csak egy célséma van Inkrementális modulok független parciális sémák inter-séma megkötések, szabályok Forrás vezérelt tervezés vállalati szintű modell kialakítása a források alapján a meglévő adatok határozzák meg az integrált modellt Kliens vezérelt tervezés a felhasználói igények kielégítése a cél az igények határozzák meg az integrált modellt

Adattisztítás (data cleaning) DSS: „garbage in garbage out”

Adattisztítás (data cleaning) DSS: „garbage in garbage out”

Data Cleaning tipikus betöltési inkozisztenciák: - hiányos séma elem - hiányos adatelőfordulás - hibásan

Data Cleaning tipikus betöltési inkozisztenciák: - hiányos séma elem - hiányos adatelőfordulás - hibásan bevitt érték - téves számítások - dupplikációk - eltérő formátum - eltérő kódolás - átfedő kódolás - integritási szabályok hiánya - nem összetartozó adatok - hiányzó kapcsolat - elnevezés konfliktus - strukturális konfliktus

Adat tisztítási módszerek A DW rendszer egyik legnehezebb feladata a séma/adat integrációval együtt hajtódik

Adat tisztítási módszerek A DW rendszer egyik legnehezebb feladata a séma/adat integrációval együtt hajtódik végre Fázisai: - adatelemzés a lehetséges hibák felderítésére - transzformációs, leképzési metódusok elkészítése - algoritmusok ellenőrzése, validálás - adatok módosítása - tisztított adatok beépítése

Adatelemzés két fő áramlata: - data profileing - data mining A transzformáció általános formátuma:

Adatelemzés két fő áramlata: - data profileing - data mining A transzformáció általános formátuma: SQL

Elírási hibák felderítése - n-gram módszer gyors pontatlan - szótár alapú hash (hasító fv)

Elírási hibák felderítése - n-gram módszer gyors pontatlan - szótár alapú hash (hasító fv) - editálási távolság dinamikus programozás lassú pontos

Minimális költség kiszámítása az editálási távolságnál alap műveletek : insertion, deletion, substitution c(sn, tm)

Minimális költség kiszámítása az editálási távolságnál alap műveletek : insertion, deletion, substitution c(sn, tm) + d(sn-1, tm-1) d(sn, tm) = min { c(sn, 0) + d(sn-1, tm) c(0, tm) + d(sn, tm-1) Átalakítási mátrix t a r g e t s o u r c e O (n·m) O (n· m / log n)

Hiányzó érték pótlása nem pontos, statisztikai alapú a többi attribútum alapján vett legvalószínűbb érték

Hiányzó érték pótlása nem pontos, statisztikai alapú a többi attribútum alapján vett legvalószínűbb érték megadása 1. attribútum-párok közötti korreláció számítása korr = szumma(xiyi) / (szumma(xi) szumma(yi)) 2. legszorosabb kapcsolatú attributumok kiválasztása 3. értékek közelítése d = szumma ((yi – xi)2) d szélsőérték

Rekord illesztési módszerek más helyről származó rekordok illesztése (pl. biztosítottak) nem egyeznek meg a

Rekord illesztési módszerek más helyről származó rekordok illesztése (pl. biztosítottak) nem egyeznek meg a kapcsolódó kulcsok (hiány, elírás) módszerek: - egy index - több index : pontatlan, lassú : ablak technika - valószínűségi : pozitív és negatív minták vizsgálatával megbecsüli az illeszkedési valószínűséget maradnak bizonytalan esetek

Piaci termékek cleaning. html

Piaci termékek cleaning. html