Introducere in Business Intelligence Conf Ramona Bologa ASE
Introducere in Business Intelligence Conf. Ramona Bologa, ASE Bucuresti 1
Agenda Ce este Business intelligence Analiza datelor 1. 2. n n Rolul sistemelor de asistare a deciziei in analiza datelor: OLTP, OLAP, sisteme expert, depozite de date, data mining Arhitectura depozitului de date. Concepte de baza: cuburi, datamart, dimensiuni, fapte, agregari, granularitate. Instrumente ETL Concepte despre datamining Integrarea datelor 3. n n BI si ERP; Descrierea unui sistem ERP (SAP ) integrat cu software BI 2
1. Ce este Business intelligence 3
Termenul Business Intelligence Termenul de BI este relativ nou – 1989, Gartner Group p Termen “umbrela”: un ansamblu de tehnologii, platforme software, aplicatii si procese specifice. p Gartner Group estimează o creştere dublă pe piaţa depozitelor de date în raport cu creşterea globală a pieţei de IT. p 4
Business Intelligence p Principala valoare = capacitatea de a transforma datele în informaţii. p Cine nu obtine informaţii suficient de repede şi nu le prelucrează eficient, rămâne în urmă sau dispare, într-un mediu concurenţial din ce în ce mai agresiv. p Business Intelligence se refera la sisteme informatice de identificare, extragere si analizare a datelor disponibile intr-o companie, sisteme al caror scop este de a oferi un suport real pentru luarea deciziilor de business. p O soluţie de Business Intelligence integrează datele curente ale afacerii dar şi date prealabile, provenind din mai multe programe şi aplicaţii şi le consolideaza într -o singură bază de date optimizată pentru regăsirea şi analiza informaţiei.
Business Intelligence p Scurt istoric n n n n 1960 – stocare date pe hartie 1970 – aparitia mainframe-urilor 1970 – aparitia bazelor de date 1980 – aparitia aplicatiilor de business 1980 – aparitia conceptelor de DW 1990 – nasterea Business Intelligence 2000 … – evolutie continua
Business Intelligence p Definitii n n Set de competente, procese, tehnici si aplicatii menite sa ajute la fundamentarea deciziilor de business Set de concepte si metode menite sa imbunatateasca procesul decizional Categorie de aplicatii si tehnologii menite sa colecteze, stocheze si analizeze date in vederea optimizarii procesului decizional Sistem de colectare, integrare si analiza a informatiilor generate de business venite in ajutorul companiilor pentru inbunatatirea deciziilor
Business Intelligence p Cerinte impuse de management n n n Punct unic de acces catre date, indiferent de sursa acestora Acoperirea tuturor proceselor de business Calitate inalta a informatiilor prezentate Informatii structurate conform cerintelor operative si strategice ale managementului Implementare rapida, eficienta
Ciclul de viata al unei solutii BI 1. 2. 3. 4. 5. 6. Definire strategie de business Executie procese de business Colectare date generate de business Analiza datelor colectate Generarea de informatii si cunostinte pe baza datelor analizate Redefinirea strategiei si proceselor de business
Business Intelligence Advantage Optimise What is the best that can happen? Predict What will happen next? What if these trends continue? Why is this happening? Alerts Raw data Clean data Standar d Ad hoc reports Query drill down Forecast Statistica l Analysis What actions are needed? Where exactly is the problem? How many, how often, where? reports What happened? Degree of Intelligence
Concepte de baza p Elemente principale in BI n Colectarea datelor – regasirea datelor n Analiza datelor – intelegerea datelor si transformarea acestora in informatii si cunostinte n Distributia datelor – livrarea informatiilor in timp util catre cei care necesita informatia
Termeni si acronime in BI BI – Business Intelligence p ETL – Extract, Transform, Load p DW – Data Warehouse p KPI – Key Performance Indicator p Fapt (fact) – masura a unui eveniment de business p Masura – proces de business cuantificabil p Dimensiune – impartire a masurilor si atributelor, in functie de interes p
Termeni si acronime in BI Atribut – caracteristica care intra in componenta unei dimensiuni p OLTP – On-line Transaction Processing p OLAP – On-line Analytical Processing p Metadate – date despre date p Granularitate – nivelul de detaliere / sumarizare a datelor p Schema stea – model de organizare a datelor intr-un sistem de DW p
De la colectarea datelor la luarea deciziilor strategice 14
Elemente de BI Ü Ü Ü Ü tehnologia putere de procesare volume de date tehnologie de retea standarde – interoperabilitatea BI software de BI oameni cultura companiei 15
16
Probleme p Initiativele pentru BI sunt scumpe: n n n p date disparate trebuie extrase si reunite din sisteme OLTP, sisteme interne sau externe. tehnologie noua, sarcini noi, transformari de roluri si responsabilitati, aplicatii suport de decizie livrate rapid si la o calitate acceptabila. 60% dintre proiectele de BI abandonate/esueaza datorita: n n n planificarii inadecvate, sarcinilor ratate, termenelor depasite, unui management de proiect prost, nelivrarii rezultatelor proiectului, sau rezultate de proasta calitate. 17
Factori de risc in proiecte BI p p p Lipsa de înţelegere a complexităţii proiectelor de BI Lipsa de înţelegere a faptului că soluţiile de BI implică cel mai adesea subunitati multiple ale companiei, ceea ce le face diferite de solutiile stand-alone Reprezentantii companiei sunt indisponibili sau neinteresati Lipsa de personal pregatit disponibil sau utilizarea suboptimala a acestuia Structura inadecvata a echipei de proiect Lipsa unei abordari iterative in dezvoltarea solutiei Management de proiect ineficient Lipsa de metodologie Lipsa de apreciere asupra impactului datelor necuratate asupra profitabilitatii Nu este inteleasa necesitatea utilizarii metadatelor Utilizarea de metode si instrumente disparate 18
2. Analiza datelor 3. 1. Rolul sistemelor de asistare a deciziei in analiza datelor: OLTP, OLAP, sisteme expert, depozite de date, data mining 3. 2. Arhitectura depozitului de date. Concepte de baza: cuburi, datamart, dimensiuni, fapte, agregari, granularitate. 3. 3. Instrumente ETL 3. 4. Concepte despre datamining 19
3. 1. Sisteme de asistare a deciziei Anii ' 90 Intranet, Web, sisteme informatice pentru inteligenţa afacerilor Sisteme OLAP, depozite de date 1985 Sisteme expert, sisteme informatice executive 1980 Sisteme suport de decizie Anii ' 70 Sisteme informatice pentru conducere (MIS) Anii ' 60 Sisteme pentru prelucrarea tranzacţiilor (OLTP) 20
a. Sisteme de prelucrare a tranzacţiilor p OLTP - On-Line Transaction Processing Systems p Obiectiv: Prelucrare automata de cantităţi mari de date rezultate din tranzacţiile zilnice Tipul aplicaţiilor: Gestiunea stocurilor, a plăţilor, a livrărilor, a comenzilor Operaţii tipice: Actualizare Posibilităţi de decizie: Deloc sau modele de decizie simple p p p 21
b. Sisteme informatice pentru conducere p p p p MIS – Management Information Systems obţinerea şi stocarea unor volume mari de informaţii detaliate, rezultate din procesarea tranzacţiilor. Iesirile sunt predeterminate, sunt sub formă de rapoarte (periodice, la cerere, de excepţie), regăsiri de informaţii on-line Obiectiv: Informaţii Tipul aplicaţiilor: Controlul producţiei, analiza bugetului, previziuni pe termen scurt Operaţii tipice: Raportare Posibilităţi de decizie: Suport pentru rezolvarea problemelor structurate 22
c. Sisteme suport de decizie p p p p DSS – Decision Support Systems interactiv, flexibil şi adaptabil interfaţă simplă şi uşor de utilizat Obiectiv: Asistarea în procesul decizional, implementarea deciziilor Tipul aplicaţiilor: Evaluarea creditelor, planificarea asigurării calităţii, planificarea proiectelor Operaţii tipice: Analiză Posibilităţi de decizie: Suport pentru probleme semistructurate 23
Comparatie OLTP-DSS 24
Comparatie MIS-DSS intrari Sisteme informatice pentru conducere rapoarte decizii probleme 1 întrebări 2 Sisteme suport de decizie 4 decizii alternative, 3 sugestii 25
d. Sistemele expert sistem bazat pe cunoştinţe p Utilizarea de cunoştinţele expert pentru a rezolva o anumită problemă p succes în diferite domenii: diagnosticare, prognozari p Obiectiv: inlocuire decident uman p Tipul aplicaţiilor: pt domenii specifice p Operaţii tipice: inferente logice p Posibilităţi de decizie: decizii complexe, nestructurate (reguli, euristici) p 26
e. Sistem informatic pentru inteligenţa afacerilor p BIS business intelligence system p Sistemele suport de decizie Sistemele expert p integrare BIS sistem puternic care să îmbunătăţească considerabil procesul decizional: Datawarehouse p OLAP -Online Analytical Processing p 27
3. 2. Depozite de date Arhitectura depozitului de date. p Concepte de baza: p n n n cub de date, datamart, dimensiuni, fapte, agregari, granularitate. 28
Depozite de date p p p Consiliul OLAP 1995: o stocare centralizată a datelor detaliate provenite din toate sursele relevante din cadrul unei organizaţii ce permite interogarea dinamică şi analiza detaliată a tuturor informaţiilor. William Inmon: o colecţie de date orientate pe subiecte, integrate, istorice şi nevolatile destinată sprijinirii procesului de luare a deciziilor manageriale +instrumente de interogare, analiza si prezentare a informatiilor n n Instrum. de analiza on-line- OLAP Instrum. de data mining
In cifre… p Dimensiunea DW – TBytes p Costul implementarii – peste 1 mil $ n Servicii profesionale n Software pentru extragere, transformarea, incarcarea si analiza datelor n Sisteme hardware si stocarea datelor
Scopul DW – integrarea datelor p INTEGRAREA datelor n n p p p modalităţi unice de codificare, sistem de unităţi de măsură consistente, sistem stabil de reprezentare fizică a datelor, convenţii clare privind modul de reprezentare a datelor calendaristice, convenţii unice privind denumirile datelor. FLEXIBILITATE – sa se conecteze la niv. intregii organizatii a. i. servere de la furnizori diferiti sa se poata conecta la depozitul existent ARHITECTURA – adaptare usoara la modificarile de performante, capacitate si conectivitate Data mart - >500 GB, <1 mil $, <3 luni
Ce este un depozit de date? p p William Inmon: este o colecţie de date orientate pe subiecte, integrate, istorice şi nevolatile, fiind destinat fundamentării deciziei manageriale. O BD pentru luarea deciziilor, separata de BD operationala a companiei Ofera suport pentru procesarea informatiilor, oferind o platforma de date istorice consolidate pentru analiza Structurile de date într-un depozit de date sunt optimizate pentru o regasire şi o analiza rapida. 32
a. DW – orientat pe subiecte (Inmon) p Organizat pe subiecte importante: client, produs, vanzari. p Accent pe modelarea si analiza datelor de catre decidenti p Ofera o perspectiva simpla si concisa asupra anumitor subiecte, excluzand datele care nu sunt utile in procesul de luare a deciziilor 33
b. DW – integrat (Inmon) p Integreaza surse de date multiple Tehnici de curatare si integrare a datelor. p Consistenta in p n n n conventiile de numire, structura codurilor, unitatile de masura folosite de diferitele surse p E. g. , Pret hotel: moneda, taxe, mic dejun inclus, etc. 34
c. DW – istorice (Inmon) p Datele sunt istorice şi sunt actualizate la intervale regulate. p Orizontul de timp este mult mai mare decat la sist. operationale (ex: 5 -10 ani) p Fiecare element stuctural cheie al depozitului: n Contine o referire temporala, implicita sau explicita, ceea ce nu are loc la datele operationale 35
d. DW - nevolatil (Inmon) p Un depozit separat fizic de date transformate din mediul operational p In DW nu au loc actualizari operationale datelor. n Nu necesita mecanisme de procesarea tranzactiilor, recuperare si controlul concurentei n Sunt necesare doar 2 operatii pentru accesarea datelor : p p Incarcarea datelor si accesul la date. Actualizare doar adăugarea periodică a unor date extrase din sistemele operationale p Preocupare pt. optimizarea accesului la date: denormalizare, sumarizare, statistici ale accesării şi reorganizare dinamică a indexării 36
Aplicatii ale depozitelor de date p Telecomunicatiile. n n n p Bancile - gestionarea profitabilitatii generale, prin analizarea profitabilitatii pe produs si pe client. n p folosirea retelei, profilul clientilor care folosesc un anumit serviciu, profitabilitatea produselor si serviciilor oferite. determinarea profilurilor clientilor pentru a directiona cât mai eficient campaniile de marketing. Comertul cu amanuntul. n n n trendul vânzarilor în functie de anotimp, vacante, campanii de publicitate, activitatea competitorilor. mentalitatile si obiceiurile cumparatorilor = intrari in sistemul de dirijare a actiunilor promotionale si a altor campanii de marketing Analiza trendului performantelor Vânzari încrucisate Profilul consumatorului si piata tinta. 37
Architectura multinivel Alte surse BD operation ale Metadate Extract Transfor m Load Refresh Monitor & Integrator Data Warehouse Server OLAP Utilizare Analize Interogari Rapoarte Data mining Data Marts Surse de date Stocare date Motor OLAP Instr Front-End 38
De ce un depozit de date separat? p Performante mai bune n n p SGBD— potrivit pt OLTP: metode de acces, indexari, controlul concurentei, recuperare. Depozit—potrivit pt OLAP: cereri complexe, perspective multidimensionale, consolidare Functii si date diferite n n n Date: luarea deciziilor necesita date istorice Consolidarea datelor: luarea deciziilor necesita consolidari de date din surse eterogene Calitatea datelor: datele din surse diferite au reprezentari, codificari si formate diferite care trebuie reconciliate 39
Tipuri de DW 1 DEPOZITE DE ÎNTREPRINDERE (ENTERPRISE WAREHOUSE) n n întreaga structură organizaţională un volum extins de date: atât informaţii detaliate, cât şi agregate. suporturi hardware performante. costurile si timpul de proiectare şi implementare sunt considerabile, 2 DATA MART n n depozit de date specific unui anumit subset de cerinte sau unui departament din cadrul organizatiei specifice unui domeniu de activitate. de regulă, datele conţinute într-un data mart sunt agregate. costurile şi termenele de implementare sunt considerabil reduse 3 DEPOZIT VIRTUAL (VIRTUAL WAREHOUSE) n n o serie de vederi (views) realizate direct asupra BD operaţionale. procesele de agregare pot afecta capacităţile de prelucrare ale serverelor utilizate în activitatea operaţională, aparent uşor de implementat, necesita capacităţi de procesare deosebite. necesita curatare si consolidare in timpul rularii 40
Modelul multidimensional p permite vizualizarea datelor prin mai multe filtre sau dimensiuni in acelasi timp. Dimensiuni=coordonate= categorii de informaţie. p p De ex: Care sunt vanzarile reale in comparatie cu cele previzionate pe zona, pe vanzator, pe produs? n Care este profitabilitatea pe produs, pe client? n 41
Obiecte DW p Tabelele de fapte (masuri) n n p Tabele dimensiuni n n p p conţin faptele şi cheile externe către tabelele de dimensiuni. de obicei date numerice - totalizate şi analizate pe diferite niveluri. categorii de informatii care organizeaza datele fiecare tabelă dimensiune are câte o cheie principala câmpurile sunt de obicei textuale - sursă pentru restricţii şi pentru rândurile din rapoarte. datele sunt de obicei colectate la nivelul cel mai de jos şi mai detaliat şi agregate pe nivelele superioare pentru analiză. Atribut - un nivel al unei dimensiuni, intr-o IERARHIE Ierarhiile n n sunt structuri logice utilizate pentru ordonarea nivelelor de reprezentare a datelor. definesc caile de navigare în interiorul datelor, permiţând detalierea graduală a datelor. 42
Date multidimesionale p Volumul vanzarilor – functie de produs, luna, si zona na Dimensiuni: Produs, Zona, Timp Ierarhii: Zo Ramura Zona An Produs Categorie Tara Produs Oras Birou Luna Trimestru Luna Saptam. Zi 43
Exemplu: Vanzari de fructe 44
Agregari si granularitate p Granularitatea – reprezinta nivelul de detaliere la care sunt pastrate datele in depozit In functie de cerintele de analiza, datele se pot pastra la nivel mai detaliat sau mai agregat (depinde de niv. de detaliere a dimensiunilor) Agregarea datelor- cresterea performantelor DW p 10 magazine, 100 produse/marca, vanzari saptamanale p p 45
Exemplu 46
3. 3. Instrumente ETL 47
ETL p Acronim pentru n n n E – Extract T –Transform L – Load Extragere de date, aplicare reguli de business astfel incat datele sa fie transformate in informatii si stocare in Data Warehouse p Curatare si standardizare date p Integrare date interne si externe p
ETL Simplificare a procesului de copiere a datelor dintr-o sursa in alta p Datele sunt extrase dintr-o BD tranzactionala, transformate conform regulilor de business si incarcate in DW p Exista posibilitatea incarcarii si din sisteme sursa non-tranzactionale: fisiere, sisteme legacy p ETL trebuie gandit ca si proces nu ca si implementare fizica p
ETL Combinatie complexa de procese si tehnologii utilizata in procesul de creare a sistemului DW p Necesita skill-uri de analist de business, administrator baza de date si dezvoltatori p Este un proces recurent, datele se incarca recurent catre sistemul de DW p Trebuie sa fie un proces automatizat, bine documentat si usor de modificat p
ETL p Staging Database n n Operatiile de tip ETL ar trebui efectuate la nivelul unei baze de date relationale, separate de sursa de date si de destinatia de date - Data Warehouse Creaza o separatie fizica si logica intre sistemele sursa si sistemul de Data Warehouse Minimizeaza impactul procesarilor periodice intense ETL atat la nivelul sistemelor sursa cat si la nivelul sistemelor destinatia Nu permite accesul utilizatorilor finali
ETL A. Analiza sistem sursa n n De obicei pasul initial al unui proces de ETL Poate fi impartit in doua faze: A 1. Faza de descoperire / identificare a datelor § Criteriul esential de care depinde succesul implementarii este coerenta si corectitudinea datelor § Odata identificata structura rezultatului trebuie analizate si sursele de date A 2. Faza de detectie a eventualelor anomalii § Esentiala pentru determinarea modalitatii de tratare a anomaliilor § Detectia trebuie urmata de identificare de proceduri menite sa minimizeze prezenta si complexitatea anomaliilor
ETL A 1. Faza de descoperire / identificare date n n Face parte din atributiile echipei tehnico – functionale Activitatile care trebuiesc efectuate in aceasta faza p Identificarea sistemelor sursa p Colectarea informatiilor si documentarea sistemelor sursa p Identificarea originii datelor in cazul existentei surselor multiple si redundante de date p Intelegerea datelor – dpdv tehnic (gestionare val NULL, gestionare formate diferite), economic
ETL B. Incarcarea datelor modificate n Incarcari initiale, complete Utile in cazul in care volumul de date nu este considerabil p Se extrag din sistemul sursa toate inregistrarile prezente in momentul extractiei p n Incarcari incrementale Utile in cazul volumelor mari de date p Se extrag din sistemul sursa doar inregistrarile updatate (nou create, modificate, sterse) de la ultima incarcare si pana la momentul extractiei p
i. Instrumente pt. conexiunea cu alte sisteme p p Cel mai dificil aspect este integrarea sistemelor dispersate, astfel incat sa fie utilizabile in Data Warehouse Datele sunt extrase din sisteme sursa intre care exista diferente la nivel de: n n p SGBD Sisteme de operare Hardware Protocoale de comunicatie Exemple: n n n IBM Data. Joiner, Oracle Transparent Gateway Sybase Entreprise Connect. 55
ii. Instrumente de extragere p Factori: p p Metode de baza pentru extragere: p p p BD si platforma sistemului sursa; Functionalitatii de extragere si duplicare existente; Intervalele de timp în care sistemele operationale sunt disponibile. Extragerea in masa =bulk extraction (intreg depozit) Replicarea (doar datele care au fost modificate) Curatarea p p p Completarea valorilor lipsa, corectarea erorilor de introducere a datelor, stabilirea unor formate standard, înlocuirea sinonimelor cu identificatori standard Datele recunoscute ca fiind eronate si nu pot fi curatate sunt respinse Informatiile culese cu prilejul acestei operatii pot fi folosite pentru îmbunatatirea calitatii datelor în timp 56
ETL p Extragere n n Este esential sa existe o mapare logica inaintea inceperii implementarii efective Maparea trebuie sa furnizeze informatii referitor la extremele transformarii – de obicei reprezentate sub forma de tabela
ETL p Extragere n n Maparea logica a datelor este elementul critic in cadrul unei implementari ETL Destinatie Sursa Transformare Tabela. Coloana Tip data Tabela. Coloana Tip data Tabelele de mapare sunt de fapt un blue-print pentru dezvoltator Tabelele de mapare trebuie sa fie explicative si clare Exista o multitudine de tipuri de transformari. De obicei exprimate in SQL
iii. Instrumente de transformare p Functii oferite: n Partitionarea si consolidarea câmpurilor Standardizarea n Deduplicarea. n 59
ETL p Transformare n n Este pasul principal in care se aplica seturi de reguli de business identificate Este pasul principal in care este adaugata valoare in procesul de ETL Este singurul pas in care datele sunt efectiv modificate in acest proces Este implementat la nivelul Staging Database
ETL p Transformare n n Este momentul in care trebuie implementate elemente de validare a calitatii datelor Datele trebuie sa fie Corecte p Cu grad de ambiguitate minim p Consistente p Complete p n Analiza calitativa a datelor – in minim 2 momente in cadrul ETL (extractie si transformare)
ETL p Transformare Detectie anomalii p Validari la nivel de camp p § § p Valoare NULL Valori numerice care ies din tiparele standard permise Valori care nu se incadreaza in plaja de valori admise Valori care nu urmaresc template-urile utilizate Validari structurale la nivel de tabela § Cheile tabelelor sunt definite corect § Restrictia de integritate este satisfacuta p Alte validari § Validari ale logicii de business
ETL p Transformare p Motive pentru date “murdare” § § § § § Prezenta valorilor “dummy” Absenta datelor Campuri utilizate in mai multe scopuri Date criptate Date contradictorii Utilizarea gresita a anumitor campuri in sistemele sursa (vezi campuri de tip adresa) Violarea regulilor de business Reutilizarea cheilor primare Utilizarea identificatorilor non-unici Probleme la integrarea datelor
ETL p Transformare p Curatarea datelor § Parsing § Identificarea campurilor individuale in cadrul surselor de date si izolarea acestora in cadrul destinatiei. Exemplu: campuri de tip adresa § Corectie § Faza in care eventualele anomalii sunt eliminate prin utilizarea algoritmilor complecsi sau a altor surse de date. Exemplu, determinare cod postal § Standardizare § Faza in care datele sunt stocate intr-o forma unica, preferata, aplicand o multitudine de reguli
ETL p Transformare p Curatarea datelor § Potrivire/ deduplicare § Pasul de cautare si imperechere a inregistrarilor care vizeaza o aceeasi entitate fizica in scopul eliminarii duplicatelor. Exemplu: cautare, identificare si imperechere inregistrari care se refera la o aceeasi persoana insa al carui nume este stocat diferit § Consolidare § Eliminarea efectiva a duplicatelor identificate in urma aplicarii regulilor detaliate anterior
ETL p Transformare
Instrumentele pentru asigurarea calităţii datelor p Asista la localizarea si corectarea erorilor in sistemele sursa sau DW n n p p In sistemele sursa - preferabil In depozitul de date - inconsistente Pana la 15% din datele extrase sunt inconsistente sau incorecte Exemple n n Data Quality Workbench (Data. Flux); Content Tracker (Pine Cone Systems); Quality Manager (Prism) Integrity Data Reengineering (Vality Technology) 67
v. Instrumente pentru incarcarea datelor p p p Ajuta la incarcarea datelor transformate in depozitul de date Preformatarea datelor în formatul fizic intern cerut de SGBD-ul tinta Trebuie sa asigure integritatea si consistenta datelor preluate din sistemele sursa Indecsii pot încetini substantial procesul de încarcare – se renunta la ei înainte de încarcare si apoi se recreaza Instrumentele i…v sunt de obicei incorporate în cadrul unui singur instrument, ETL Tools Exemple: Data Junction, Ascential Data. Stage şi Informatica. 68
ETL p Incarcare n n n Este pasul final al procesului, cel de scriere efectiva a datelor in cadrul destinatiei (Data Warehouse) Este cel mai mare consumator de timp Performanta la scriere nu este obiectivul unui Date Warehouse / ETL Datele sunt stocate in tabele denormalizate Permisa doar in anumite intervale orare
70
3. 4. Data Warehouse si Data mining p Trei tipuri de aplicatii de DW n Procesarea informatiilor p n Procesare analitica p p n Interogari, analize statistice de baza, raportari folosind tabele, grafice, figuri Analiza multidimensionala a datelor DW Operatii OLAP de baza, navigare prin date, pivotari, rotatii, sectionari Data mining p p p Descoperire de cunostinte din modele ascunse Asocieri, construire de modele analitice, realizare de clasificari si predictii, si prezentarea rezultatelor cu instrumente de vizualizare OLAM –Online Analitycal Data Mining 71
Data mining p Pasi: p p i: Culegerea si pregatirea datelor de analizat. ii: Analiza datelor sau aplicarea unui algoritm/metode de DM § Invatare supervizata § Invatare nesupervizata iii: Interpretarea rezultatelor algoritmului iv: Aplicarea rezultatelor obtinute la noi probleme. 72
Aplicatii DM p p p AT&T utilizeaza o aplicatie de data mining pentru identificarea apelurilor internationale frauduloase; sistemul american FAIS (Financial Crimes Enforcement Network AI System) utilizeaza data mining pentru identificarea activitatilor de spalare a banilor in cadrul tranzactiilor foarte mari de bani; Banca Americii utilizeaza data mining pentru identificarea clientilor care utilizeaza anumite produse ale bancii si care sunt produsele preferate ale clientilor, in scopul crearii de mixuri de produse care sa satisfaca exigentele clientilor. US West Communications, furnizor de servicii de comunicatii cu peste 25 milioane de clienti, utilizeaza data mining pentru a determina tendintele si nevoile clientilor pe baza unor parametri de tipul: dimensiunea familiei, varsta medie a membrilor familiei si adresa de rezidenta. Twentieth Century Fox analizeaza incasarile de box-office pentru a identifica care actori, filme si scenarii vor fi apreciate in diverse arii de marketing. 73
4. Integrarea datelor n. BI si ERP; n. Descrierea unui sistem ERP (SAP ) integrat cu software BI 74
BI si ERP n n ERP orientarea pe procese economice DW orientarea pe subiecte ERP -BD unica, imensa, cu mii de tabele, care nu se preteaza pentru interogari ad-hoc si analize complexe ERP – avantaj pentru proiectarea şi implementarea DW p p p omogenitatea sistemelor sursă şi, implicit, modalităţi mult mai facile de achiziţie a datelor şi de asigurare a calităţii posibilitatea consolidării datelor la nivel de companie în cazul firmelor cu mai multe filiale 75
Orientare pe procese/ pe subiecte Sales system Employee data Payroll system Customer data Purchasing system ERP Vendor data DW 76
a. Arhitecturi: Sistem BI cu acces direct la datele din sistemul ERP p p integrat prin intermediul unor aplicaţii specifice de interogare a datelor. suprapun peste primul nivel de abstractizare al modelului ERP un nivel de abstractizare propriu, specific fiecărui utilizator sunt realizate interfeţe dedicate fiecărui modul din sistemul integrat. Dezavantaje n n n limitele impuse de suporturile tehnice. viziunea istorică se suprapune rareori cu necesităţile sistemelor tranzacţionale este o soluţie de compromis ce poată fi exploatată temporar 77
Acces direct la datele ERP 78
b. Arhitecturi: Depozit de date ataşat ERP sistem de asistare a deciziei specializat, construit pe baza unui depozit de date sau a unei colecţii de data marts. p dicţionar de date propriu p ca aplicaţie independentă sau ca un modul al ERP (SAP BI) p eforturi considerabil mai mari atât în etapele de proiectare si implementare => avantaje prin prisma performanţelor în exploatare p 79
Depozit de date ataşat ERP 80
Ce este un sistem ERP p p “un pachet care promite integrarea completă a tuturor informaţiilor din cadrul unei organizaţii” [Davenport] “infrastructură software, multimodulara ce oferă suport de gestiune şi coordonare a diferitelor structuri şi procese din companie, în vederea realizării obiectivelor de afaceri” [Fotache] Ofera accesabilitate, vizibilitate şi consistenţa informaţională în întreaga organizaţie Dezvoltare cu instrumente CASE 81
Arhitectura client-server CLIENT Vânzări şi distribuţie Financiarcontabilitate FURNI ZORI Bază de date unică Productie Service postvânzare Stocuri 82
Proprietati fundamentale p Integrarea asigură conectivitatea între fluxurile de procese economice funcţionale p Functionalitatea a unui sistem ERP asigură fluxurile de procese economice din cadrul fiecărei funcţiuni 83
84
SAP Net. Weaver - bazata pe Enterprise Services Oriented Architecture –SOA, conceptul acceptat pe plan mondial ca standard pentru aplicatiile de business ale viitorului p SAP Net. Weaver deschide calea utilizarii optime a investitiilor IT anterioare, prin integrarea acestora in procese de business complexe, care trec peste “granitele”mai multor aplicatii, integrate partial sau eterogene SAP p 85
SAP Netweaver 86
SAP BI (Business Information Warehouse) p Business Content = container ce cuprinde Infocuburi (peste 420), n Query-uri (peste 1700), n Rapoarte si n Roluri utilizator cu specific industrial si functional= solutii preconfigurate pentru diferite industrii n p Extractori („plug-in“) - extragerea datelor din SAP ERP si incarcarea in SAP BW complet (full extraction) sau p partial (delta extraction). p 87
- Slides: 87