DATOV SKLADY ANALZA DAT DATOV SKLADY DW je

  • Slides: 25
Download presentation
DATOVÉ SKLADY ANALÝZA DAT

DATOVÉ SKLADY ANALÝZA DAT

DATOVÉ SKLADY • DW je integrovaná, subjektově orientovaná, stálá a časově rozlišitelná sbírka dat,

DATOVÉ SKLADY • DW je integrovaná, subjektově orientovaná, stálá a časově rozlišitelná sbírka dat, spořádaná pro potřeby managementu (popř. dalšího využití - věda, výzkum, lékařství, marketing…) • Zdroj může být z archivů, ale i z operativní databáze • Nutností je oddělení uložených dat tak, aby zpracování nenarušovalo provoz operativní databáze • Obsahují většinou velké objemy dat (až TB)

DATOVÉ SKLADY • Pracují na odlišných technologiích než klasické databázové systémy (IS) • Nepoužívají

DATOVÉ SKLADY • Pracují na odlišných technologiích než klasické databázové systémy (IS) • Nepoužívají klasické DB operace (insert, select, update, delete…) • Analyzujía velkéh množství údajů, výsledkem jsou souhrny a reporty, podpora rozhodování • Mají flexibilní uživatelské rozhraní • Před „požitím“ je nutná předpříprava a zpracování dat

ZPRACOVÁNÍ DAT • OLTP (On-Line Transactional Processing) je primárně uzpůsobeno pro relační databázovou základnu,

ZPRACOVÁNÍ DAT • OLTP (On-Line Transactional Processing) je primárně uzpůsobeno pro relační databázovou základnu, nad kterou běží klíčové aplikace a systémy • OLAP (On-Line Analytical Processing) určena pro analýzu dat, která jsou za tímto účelem uložena v multidimenzionální podobě

OLAP DATABÁZE • MOLAP (Multidimensional OLAP) • • nejrozšířenější způsob uložení dat Data jsou

OLAP DATABÁZE • MOLAP (Multidimensional OLAP) • • nejrozšířenější způsob uložení dat Data jsou uložena v optimalizované multidimenzionální databázi, kde se nachází všechny potřebné agregace • ROLAP (Relational OLAP) • poskytuje uživatelům multidimenzionální zobrazení dat, která však zůstávají uložena v původní relační databázi, což poskytuje vyšší úroveň škálovatelnosti a rychlejší dobu odezvy

OLAP DATABÁZE • HOLAP (Hybrid OLAP) • • hybridní uložení dat, které je kombinací

OLAP DATABÁZE • HOLAP (Hybrid OLAP) • • hybridní uložení dat, které je kombinací předchozích dvou variant a snaží se maximalizovat jejich výhody. Data jsou ponechána v původních relačních tabulkách a agregace jsou uloženy v multidimenzionální podobě propojení mezi velkými objemy dat v relačních tabulkách a výhoda rychlejšího zpracování multidimenzionálních agregací. • DOLAP (Desktop OLAP) • nejmladší technologie, která umožňuje uživateli stáhnout si požadovanou podmnožinu z OLAP databáze na lokální disk a provádět nad ní analytické operace

OLAP DATABÁZE - STRUKTURA • Tabulky faktů • jedná se o nejobjemnější tabulky v

OLAP DATABÁZE - STRUKTURA • Tabulky faktů • jedná se o nejobjemnější tabulky v databázi (např. číselná vyjádření měrných jednotek, počet prodaných kusů daného zboží, zisk z prodeje… • Kromě měrných jednotek obsahují tyto tabulky ještě cizí klíče tabulek dimenzí, pomocí kterých jsou k nim dimenze napojené. • Tabulky dimenzí • • obsahují logicky nebo organizačně uspořádané údaje – dimenze nejčastěji se používají časové, produktové a geografické dimenze

 • Tabulky faktů a dimenzí mohou tvořit různá topologická uspořádání (hvězda, sněhová vločka

• Tabulky faktů a dimenzí mohou tvořit různá topologická uspořádání (hvězda, sněhová vločka - viz obr. )

OLAP - DATOVÁ KOSTKA • jedná se o vícerozměrnou tabulku, jejíž struktura je tvořena

OLAP - DATOVÁ KOSTKA • jedná se o vícerozměrnou tabulku, jejíž struktura je tvořena daty, která pocházejí z jedné nebo více tabulek faktů a informacemi prezentovanými formou dimenzí • jedna databáze může být základem pro více datových kostek

Multidimezionální datová kostka

Multidimezionální datová kostka

FÁZE PŘÍPRAVY DS SŘBD Zdrojová data Extrakce Transformace Loading DS

FÁZE PŘÍPRAVY DS SŘBD Zdrojová data Extrakce Transformace Loading DS

METODY TVORBY DS – ETL (EXTRACTION, TRANSFORMATION, LOADING) • • • Určit data, která

METODY TVORBY DS – ETL (EXTRACTION, TRANSFORMATION, LOADING) • • • Určit data, která mají být uložena v datovém skladu Vybrat zdroje dat, interní i externí Příprava mapování mezi zdrojovými a cílovými daty Stanovení pravidel pro extrakci dat Určit pravidla pro transformaci a „čištění dat“ Plán pro agregaci tabulek Návrh oblasti přípravy dat Vytvoření procedury pro nahrávání dat ETL pro tabulky dimenzí a faktů

PŘÍKLAD NÁVRHU DS Rozhodneme, které atributy z původní DB vybereme do DS a jak

PŘÍKLAD NÁVRHU DS Rozhodneme, které atributy z původní DB vybereme do DS a jak provedeme rozdělení atributů původního konceptuálního modelu na dimenze, fakty a ostatní atributy

PŘÍKLAD NÁVRHU DS Určíme hierarchie dimenzí D_Zákazník (id_zak, zak_jm_prijmeni, zak_ulice, zak_obec, úroveň (3) D_Prodejka

PŘÍKLAD NÁVRHU DS Určíme hierarchie dimenzí D_Zákazník (id_zak, zak_jm_prijmeni, zak_ulice, zak_obec, úroveň (3) D_Prodejka (id_pro, prod_cislo, úroveň (2) D_Pobočka (id_pob, pob_ulice, pob_mesto, úroveň (3) D_Obsluha (id_obs, obs_jm_prijmeni, úroveň (2) D_Sklad (id_zbo, zbo_nazev, úroveň (2) D_Doba (id_doba, datum, den, týden, měsíc, rok, den_v_tydnu, úroveň (6)

PŘÍKLAD NÁVRHU DS Vytvoříme ER Diagram tvořený tab. Faktů a tabulkami Dimenzí

PŘÍKLAD NÁVRHU DS Vytvoříme ER Diagram tvořený tab. Faktů a tabulkami Dimenzí

ANALÝZA DAT • Úkolem analýzy dat je redukce, organizace, syntéza a sumarizace informací s

ANALÝZA DAT • Úkolem analýzy dat je redukce, organizace, syntéza a sumarizace informací s cílem dát výsledkům význam a zjistit z dat nové skutečnosti (=>znalosti) • Pro názorné zobrazení dat se používají tabulky, grafy a obrázky.

ANALÝZA DAT • Analýza spočívá v rozboru dat a jejich syntéze • Výsledkem jsou

ANALÝZA DAT • Analýza spočívá v rozboru dat a jejich syntéze • Výsledkem jsou závěry s ohledem na položené výzkumné otázky a hypotézy

STATISTICKÁ ANALÝZA • Identifikace proměnných (rozlišujeme nezávislé a závislé proměnné) • • Nezávislé proměnné

STATISTICKÁ ANALÝZA • Identifikace proměnných (rozlišujeme nezávislé a závislé proměnné) • • Nezávislé proměnné mohou být kontrolované (jsme schopni jimi manipulovat) Závislé proměnné jsou ovlivňovány nezávisle proměnnými. Závislé proměnné jsou často cílové (výstupní) proměnné nějaké intervence. • Analýza závisí na tom, na jaké škále (v jakém rozsahu) proměnné měříme

STATISTICKÁ ANALÝZA atribut dat. typ min max avg std. odch. rozptyl medián jmeno string

STATISTICKÁ ANALÝZA atribut dat. typ min max avg std. odch. rozptyl medián jmeno string 1 216 - - A - pohl boolean 0 (137) 1 (79) - - B- vek integer 15 19 16, 227 1, 227 2, 49529 16 C- rocn integer 1 4 2, 375 1, 109 1, 22512 2 D - doj boolean 0 (121) 1 (95) - - E - sk_abs integer 0 302 62, 843 44, 284 1951, 97522 57 F - rel_abs real 0 1 0, 208 0, 147 0, 02140 0, 1887417 G - mat integer 1 2 1, 809 0, 796 0, 0917 2 H - integer 1 5 2, 644 1, 176 1, 37755 3 I - zpv integer 1 5 2, 486 1, 165 1, 35166 2 J - prx integer 1 5 2, 644 1, 180 1, 38681 3 K - cj integer 1 5 2, 778 1, 055 1, 10802 3 L - anj integer 1 5 2, 324 0, 996 0, 98757 2 M - dcj integer 1 5 2, 259 1, 064 1, 12723 2

KORELAČNÍ MATICE míra lineární závislosti mezi jednotlivými (zvolenými) atributy Hodnoty => 1 (vysoká lineární

KORELAČNÍ MATICE míra lineární závislosti mezi jednotlivými (zvolenými) atributy Hodnoty => 1 (vysoká lineární závislost) Hodnoty => 0 (nízká lineární závislost)

ANALÝZA HLAVNÍCH KOMPONENT (PCA) • výpočet vlastních vektorů pro hlavní komponenty a jejich zobrazení

ANALÝZA HLAVNÍCH KOMPONENT (PCA) • výpočet vlastních vektorů pro hlavní komponenty a jejich zobrazení 25, 0% 20, 0% 15, 0% 10, 0% 5, 0% 0, 0% PC 1 PC 2 PC 3 PC 4 PC 5 PC 6 PC 7 PC 8 PC 9 PC 10 PC 11 PC 12

ASOCIAČNÍ PRAVIDLA • Určují, jak spolu jednotlivé atributy (vlastnosti) navzájem souvisí „IF • Podmínka

ASOCIAČNÍ PRAVIDLA • Určují, jak spolu jednotlivé atributy (vlastnosti) navzájem souvisí „IF • Podmínka THEN Výsledek“ reálné atributy je třeba upravit (kategorizovat, normalizovat a binarizovat)

SHLUKOVÁNÍ • Slouží k třídění objektů do skupin (shluků) tak, aby si objekty náležící

SHLUKOVÁNÍ • Slouží k třídění objektů do skupin (shluků) tak, aby si objekty náležící do stejné skupiny byly podobnější než objekty z ostatních skupin

ROZHODOVACÍ STROMY • • identifikují objekty, popsané různými atributy, do jednotlivých tříd každý uzel

ROZHODOVACÍ STROMY • • identifikují objekty, popsané různými atributy, do jednotlivých tříd každý uzel stromu představuje rozhodování podle jedné (vybrané) vlastnosti objektu