DATOV SKLADY ANALZA DAT DATOV SKLADY DW je

























- Slides: 25

DATOVÉ SKLADY ANALÝZA DAT

DATOVÉ SKLADY • DW je integrovaná, subjektově orientovaná, stálá a časově rozlišitelná sbírka dat, spořádaná pro potřeby managementu (popř. dalšího využití - věda, výzkum, lékařství, marketing…) • Zdroj může být z archivů, ale i z operativní databáze • Nutností je oddělení uložených dat tak, aby zpracování nenarušovalo provoz operativní databáze • Obsahují většinou velké objemy dat (až TB)

DATOVÉ SKLADY • Pracují na odlišných technologiích než klasické databázové systémy (IS) • Nepoužívají klasické DB operace (insert, select, update, delete…) • Analyzujía velkéh množství údajů, výsledkem jsou souhrny a reporty, podpora rozhodování • Mají flexibilní uživatelské rozhraní • Před „požitím“ je nutná předpříprava a zpracování dat

ZPRACOVÁNÍ DAT • OLTP (On-Line Transactional Processing) je primárně uzpůsobeno pro relační databázovou základnu, nad kterou běží klíčové aplikace a systémy • OLAP (On-Line Analytical Processing) určena pro analýzu dat, která jsou za tímto účelem uložena v multidimenzionální podobě

OLAP DATABÁZE • MOLAP (Multidimensional OLAP) • • nejrozšířenější způsob uložení dat Data jsou uložena v optimalizované multidimenzionální databázi, kde se nachází všechny potřebné agregace • ROLAP (Relational OLAP) • poskytuje uživatelům multidimenzionální zobrazení dat, která však zůstávají uložena v původní relační databázi, což poskytuje vyšší úroveň škálovatelnosti a rychlejší dobu odezvy

OLAP DATABÁZE • HOLAP (Hybrid OLAP) • • hybridní uložení dat, které je kombinací předchozích dvou variant a snaží se maximalizovat jejich výhody. Data jsou ponechána v původních relačních tabulkách a agregace jsou uloženy v multidimenzionální podobě propojení mezi velkými objemy dat v relačních tabulkách a výhoda rychlejšího zpracování multidimenzionálních agregací. • DOLAP (Desktop OLAP) • nejmladší technologie, která umožňuje uživateli stáhnout si požadovanou podmnožinu z OLAP databáze na lokální disk a provádět nad ní analytické operace

OLAP DATABÁZE - STRUKTURA • Tabulky faktů • jedná se o nejobjemnější tabulky v databázi (např. číselná vyjádření měrných jednotek, počet prodaných kusů daného zboží, zisk z prodeje… • Kromě měrných jednotek obsahují tyto tabulky ještě cizí klíče tabulek dimenzí, pomocí kterých jsou k nim dimenze napojené. • Tabulky dimenzí • • obsahují logicky nebo organizačně uspořádané údaje – dimenze nejčastěji se používají časové, produktové a geografické dimenze

• Tabulky faktů a dimenzí mohou tvořit různá topologická uspořádání (hvězda, sněhová vločka - viz obr. )

OLAP - DATOVÁ KOSTKA • jedná se o vícerozměrnou tabulku, jejíž struktura je tvořena daty, která pocházejí z jedné nebo více tabulek faktů a informacemi prezentovanými formou dimenzí • jedna databáze může být základem pro více datových kostek


Multidimezionální datová kostka

FÁZE PŘÍPRAVY DS SŘBD Zdrojová data Extrakce Transformace Loading DS

METODY TVORBY DS – ETL (EXTRACTION, TRANSFORMATION, LOADING) • • • Určit data, která mají být uložena v datovém skladu Vybrat zdroje dat, interní i externí Příprava mapování mezi zdrojovými a cílovými daty Stanovení pravidel pro extrakci dat Určit pravidla pro transformaci a „čištění dat“ Plán pro agregaci tabulek Návrh oblasti přípravy dat Vytvoření procedury pro nahrávání dat ETL pro tabulky dimenzí a faktů

PŘÍKLAD NÁVRHU DS Rozhodneme, které atributy z původní DB vybereme do DS a jak provedeme rozdělení atributů původního konceptuálního modelu na dimenze, fakty a ostatní atributy

PŘÍKLAD NÁVRHU DS Určíme hierarchie dimenzí D_Zákazník (id_zak, zak_jm_prijmeni, zak_ulice, zak_obec, úroveň (3) D_Prodejka (id_pro, prod_cislo, úroveň (2) D_Pobočka (id_pob, pob_ulice, pob_mesto, úroveň (3) D_Obsluha (id_obs, obs_jm_prijmeni, úroveň (2) D_Sklad (id_zbo, zbo_nazev, úroveň (2) D_Doba (id_doba, datum, den, týden, měsíc, rok, den_v_tydnu, úroveň (6)

PŘÍKLAD NÁVRHU DS Vytvoříme ER Diagram tvořený tab. Faktů a tabulkami Dimenzí

ANALÝZA DAT • Úkolem analýzy dat je redukce, organizace, syntéza a sumarizace informací s cílem dát výsledkům význam a zjistit z dat nové skutečnosti (=>znalosti) • Pro názorné zobrazení dat se používají tabulky, grafy a obrázky.

ANALÝZA DAT • Analýza spočívá v rozboru dat a jejich syntéze • Výsledkem jsou závěry s ohledem na položené výzkumné otázky a hypotézy

STATISTICKÁ ANALÝZA • Identifikace proměnných (rozlišujeme nezávislé a závislé proměnné) • • Nezávislé proměnné mohou být kontrolované (jsme schopni jimi manipulovat) Závislé proměnné jsou ovlivňovány nezávisle proměnnými. Závislé proměnné jsou často cílové (výstupní) proměnné nějaké intervence. • Analýza závisí na tom, na jaké škále (v jakém rozsahu) proměnné měříme

STATISTICKÁ ANALÝZA atribut dat. typ min max avg std. odch. rozptyl medián jmeno string 1 216 - - A - pohl boolean 0 (137) 1 (79) - - B- vek integer 15 19 16, 227 1, 227 2, 49529 16 C- rocn integer 1 4 2, 375 1, 109 1, 22512 2 D - doj boolean 0 (121) 1 (95) - - E - sk_abs integer 0 302 62, 843 44, 284 1951, 97522 57 F - rel_abs real 0 1 0, 208 0, 147 0, 02140 0, 1887417 G - mat integer 1 2 1, 809 0, 796 0, 0917 2 H - integer 1 5 2, 644 1, 176 1, 37755 3 I - zpv integer 1 5 2, 486 1, 165 1, 35166 2 J - prx integer 1 5 2, 644 1, 180 1, 38681 3 K - cj integer 1 5 2, 778 1, 055 1, 10802 3 L - anj integer 1 5 2, 324 0, 996 0, 98757 2 M - dcj integer 1 5 2, 259 1, 064 1, 12723 2

KORELAČNÍ MATICE míra lineární závislosti mezi jednotlivými (zvolenými) atributy Hodnoty => 1 (vysoká lineární závislost) Hodnoty => 0 (nízká lineární závislost)

ANALÝZA HLAVNÍCH KOMPONENT (PCA) • výpočet vlastních vektorů pro hlavní komponenty a jejich zobrazení 25, 0% 20, 0% 15, 0% 10, 0% 5, 0% 0, 0% PC 1 PC 2 PC 3 PC 4 PC 5 PC 6 PC 7 PC 8 PC 9 PC 10 PC 11 PC 12

ASOCIAČNÍ PRAVIDLA • Určují, jak spolu jednotlivé atributy (vlastnosti) navzájem souvisí „IF • Podmínka THEN Výsledek“ reálné atributy je třeba upravit (kategorizovat, normalizovat a binarizovat)

SHLUKOVÁNÍ • Slouží k třídění objektů do skupin (shluků) tak, aby si objekty náležící do stejné skupiny byly podobnější než objekty z ostatních skupin

ROZHODOVACÍ STROMY • • identifikují objekty, popsané různými atributy, do jednotlivých tříd každý uzel stromu představuje rozhodování podle jedné (vybrané) vlastnosti objektu