SQL OLAP 6 ra ltalnos integrcis szintek Adattrolsi
- Slides: 26
SQL – OLAP 6. óra
Általános integrációs szintek
Adattárolási réteg Adatforrás réteg Adat továbbító réteg Adatszótár réteg Adathozzá-férési modul Megjelení tésrétege Ütemező réteg A források integrálása a DW rendszerek legfontosabb eleme Elemei: - séma integráció - adat integráció -- virtuális -- valós
ETL folyamatok
Séma integráció Célja homogén, konzisztens közös séma előállítása Integráció főbb lépései: - elő integráció (preintegration) - séma összehasonlítás (schema comparison) - séma illesztés (schema conforming) - séma összevonás (schema merging)
Name Title Publisher Name Published by Address Book Adopted by City University Refer to Name Topics -------------------------Title Publication Code Publisher contains Word Keywords Code Research Area
A Name Title Publisher Name Published by Address Book Adopted by City University Refer to Name Topics B -------------------------Title Publisher Name Published by Publication Code contains Word Name Keywords Topics Code Research Area
Name Publisher Name Title Address Published by Book Adopted by University Refer to Name Publication contains Topics Code Research Area Title Code City
Előintegráció lépései - az egyes sémák elemzése - integrációba bevonandó elemek kiválasztása - integrációs sorrend meghatározása - integritási elvek összegyüjtése - szemantikai kibővités - közös szemantikai modellre alakítás (EER, ODL, formális logikai nyelv, . . . ) - adatszótár létrehozás 1. >0 2. >0
Séma összehasonlítás lépései - a különböző sémák elemei közötti kapcsolatok meghatározása - séma struktúra hasonlóság vizsgálata - modell heterogenitási konfliktusok feloldása - elnevezési konfliktusok feloldása (hononima, szinonima) - szemantikai konfliktusok felodása - strukturális konfliktusok feloldása nev vezeto fiz oszt. vez tel nev cim
Séma illesztés elemei: - elnevezés -- szinonímák -- általánosítás -- elírás - struktúra -- kapcsolatok -- szerkezet -- viselkedés
Séma illesztés és összevonás lépései - konfliktusok számbavétele - konfiktusok feloldása - sémak kombinálása - közös séma átalaktítása (séma hasonlóság alapú vizsgálat) - séma optimalizálása - teljesség, helyesség, minimalitás ellenőrzés nev vezeto fiz oszt. vez tel vezeto cim nev tel
Adat integrációs lépések - adat illesztés -- formátum -- kódolás -- érték - adatszűrés (közös integritási feltételek) - adat ellenőrzés (inkozisztencia feloldása) A séma integrációban megadott leképzés (mapping) alapján működik speciális feladatok: - adattisztítás - adat illesztés
Integrációs struktúra kliens modell DW kliens séma mediators fogalmi szint alkalmazás modell (EER, logikai f. ) logikai szint DW séma (relációk, kockák) wrapper meta-modell adatforrások
Integráció tervezési módszerek Egyszintű (one-shot) csak egy célséma van Inkrementális modulok független parciális sémák inter-séma megkötések, szabályok Forrás vezérelt tervezés vállalati szintű modell kialakítása a források alapján a meglévő adatok határozzák meg az integrált modellt Kliens vezérelt tervezés a felhasználói igények kielégítése a cél az igények határozzák meg az integrált modellt
Adattisztítás (data cleaning) DSS: „garbage in garbage out”
Data Cleaning tipikus betöltési inkozisztenciák: - hiányos séma elem - hiányos adatelőfordulás - hibásan bevitt érték - téves számítások - dupplikációk - eltérő formátum - eltérő kódolás - átfedő kódolás - integritási szabályok hiánya - nem összetartozó adatok - hiányzó kapcsolat - elnevezés konfliktus - strukturális konfliktus
Adat tisztítási módszerek A DW rendszer egyik legnehezebb feladata a séma/adat integrációval együtt hajtódik végre Fázisai: - adatelemzés a lehetséges hibák felderítésére - transzformációs, leképzési metódusok elkészítése - algoritmusok ellenőrzése, validálás - adatok módosítása - tisztított adatok beépítése
Adatelemzés két fő áramlata: - data profileing - data mining A transzformáció általános formátuma: SQL
Elírási hibák felderítése - n-gram módszer gyors pontatlan - szótár alapú hash (hasító fv) - editálási távolság dinamikus programozás lassú pontos
Minimális költség kiszámítása az editálási távolságnál alap műveletek : insertion, deletion, substitution c(sn, tm) + d(sn-1, tm-1) d(sn, tm) = min { c(sn, 0) + d(sn-1, tm) c(0, tm) + d(sn, tm-1) Átalakítási mátrix t a r g e t s o u r c e O (n·m) O (n· m / log n)
Hiányzó érték pótlása nem pontos, statisztikai alapú a többi attribútum alapján vett legvalószínűbb érték megadása 1. attribútum-párok közötti korreláció számítása korr = szumma(xiyi) / (szumma(xi) szumma(yi)) 2. legszorosabb kapcsolatú attributumok kiválasztása 3. értékek közelítése d = szumma ((yi – xi)2) d szélsőérték
Rekord illesztési módszerek más helyről származó rekordok illesztése (pl. biztosítottak) nem egyeznek meg a kapcsolódó kulcsok (hiány, elírás) módszerek: - egy index - több index : pontatlan, lassú : ablak technika - valószínűségi : pozitív és negatív minták vizsgálatával megbecsüli az illeszkedési valószínűséget maradnak bizonytalan esetek
Piaci termékek cleaning. html
- Distributed olap
- Oltp and olap in sql
- Egyed feletti szerveződési szintek
- Mkkr
- Hay besorolási szintek
- Populáció társulás biom bioszféra
- Magánhangzó törvények illeszkedés
- Ekkr szintek
- Ekkr szintek
- Nyelvvizsga szintek
- Triage szintek
- Munkakörelemzés minta
- Evidencia szintek
- Nyelvvizsga szintek
- Melyik vegyület alkotórésze a nukleotidnak
- Sql and plsql difference
- Pl sql unit test
- Snowflake oltp or olap
- Olap facts and dimensions
- Olap vs oltp in data mining
- Introduction to olap
- Yevri zulfiqar
- Dw olap
- Olap stands for: *
- Rolap
- Olap nedir
- Apa itu olap