SISTEMI INFORMATIVI DIREZIONALI Master MATIT Sistemi Informativi Direzionali

  • Slides: 71
Download presentation
SISTEMI INFORMATIVI DIREZIONALI Master MATIT Sistemi Informativi Direzionali 1

SISTEMI INFORMATIVI DIREZIONALI Master MATIT Sistemi Informativi Direzionali 1

I Livelli di un SI Aziendale n livello direzionale – vengono svolte tutte quelle

I Livelli di un SI Aziendale n livello direzionale – vengono svolte tutte quelle attività necessarie alla definizione degli obiettivi da raggiungere ed alle azioni, eventualmente correttive, da intraprendere perseguirli. n livello operativo – si occuperà delle attività attraverso cui l’azienda produce i propri servizi e prodotti. il livello direzionale è supportato dai cosiddetti sistemi informativi direzionali. Master MATIT Sistemi Informativi Direzionali 2

Schema di un sistema direzionale OLAP Motori di calcolo (DSS) Motori di presentazione Q&R

Schema di un sistema direzionale OLAP Motori di calcolo (DSS) Motori di presentazione Q&R (EIS) Data Warehouse Data Entry Alimentazione (budget, dati direzionali) OLTP Master MATIT DB TRANSAZIONALI Sistemi Informativi Direzionali 3

Caratteristiche di un SID n i sistemi informativi direzionali hanno la caratteristica di essere

Caratteristiche di un SID n i sistemi informativi direzionali hanno la caratteristica di essere alimentati da altri sistemi quali ad esempio i sistemi informativi aziendali oppure mediante informazioni introdotte manualmente dagli utenti finali. Master MATIT Sistemi Informativi Direzionali 4

Le informazioni trattate n informazioni fortemente aggregate. – I SID devono fornire ai dirigenti

Le informazioni trattate n informazioni fortemente aggregate. – I SID devono fornire ai dirigenti aziendali dati sintetici (indicatori gestionali) • medie, ricavi globali, – in certi intervalli temporali • tempificate. – in diverse dimensioni. • • • Il tempo la dimensione prodotto dimensione processi dimensione responsabilità cliente, al fine di analizzare redditività, volume di affari e bacino di utenza. Master MATIT Sistemi Informativi Direzionali 5

Un nuovo ruolo n Il nuovo ruolo dell'Information Technology (IT) aziendale è quello di

Un nuovo ruolo n Il nuovo ruolo dell'Information Technology (IT) aziendale è quello di fornire al top management informazioni rapide ed efficaci sulle quali basare le decisioni strategiche Master MATIT Sistemi Informativi Direzionali 6

OLTP n On Line Transaction Processing – Transazioni predefinite e di breve durata –

OLTP n On Line Transaction Processing – Transazioni predefinite e di breve durata – Dati dettagliati, recenti e aggiornati – Dati residenti su un unico DB – Read & write di pochi record – Critiche le proprietà ACIDe – Implementate su Main Frame Master MATIT Sistemi Informativi Direzionali 7

Sistemi direzionali – Decisioni di tipo “tattico” e “strategico” – Es. • Quanti prodotti

Sistemi direzionali – Decisioni di tipo “tattico” e “strategico” – Es. • Quanti prodotti sono stati venduti nello scorso anno per regione e categoria? • Uno sconto tra il 10 ed il 20% potrebbe aumentare le vendite di auto nel prossimo bimestre? – Su quali dati? Su quelli accumulati da OLTP Master MATIT Sistemi Informativi Direzionali 8

Metodologia OLAP n L’obiettivo che si pone la metodologia OLAP è quello di fornire

Metodologia OLAP n L’obiettivo che si pone la metodologia OLAP è quello di fornire un supporto efficiente l’analisi delle informazioni prendendo in considerazione più variabili contemporaneamente (analisi multi dimensionale dei dati). Master MATIT Sistemi Informativi Direzionali 9

OLAP n On Line Analytical Processing – Interrogazioni complesse e casuali – Dati storici

OLAP n On Line Analytical Processing – Interrogazioni complesse e casuali – Dati storici e aggregati – Dati provenienti da più DB eterogenei – Moltissime operazioni di Read (nessuna di write) – Visualizzazione dei dati su PC Master MATIT Sistemi Informativi Direzionali 10

Cosa vuol dire OLAP (Codd) n “OLAP è il nome dato all’analisi dinamica dell’impresa

Cosa vuol dire OLAP (Codd) n “OLAP è il nome dato all’analisi dinamica dell’impresa necessaria per – creare, manipolare, animare e sintetizzare informazioni dai Data Models Aziendali. n Questo processo consente di scoprire – nuove relazioni tra le variabili, – di identificare i parametri necessari alla gestione di grosse quantità di dati, – di creare un numero illimitato di dimensioni – di specificare condizioni ed espressioni che coinvolgono, contemporaneamente, più dimensioni. Master MATIT Sistemi Informativi Direzionali 11

Da tener ben presente …. n I dati usati dai sistemi OLAP sono gli

Da tener ben presente …. n I dati usati dai sistemi OLAP sono gli stessi di quelli usati dai sistemi OLTP: – quello che cambia nei due tipi di sistemi è l’elaborazione compiuta sui dati. . Master MATIT Sistemi Informativi Direzionali 12

OLTP n n n n vs Users: Impiegati Op. giornaliere Op. Correnti Op. Ripetitivo

OLTP n n n n vs Users: Impiegati Op. giornaliere Op. Correnti Op. Ripetitivo Trans. Breve Decine di record acceduti per volta Migliaia di utenti 100 MB – 1 GB Master MATIT OLAP n n n n Users: dirigenti Supporto Decisioni Dati Storici Oper. Casuali Int. Complesse Milioni di record acceduti Centinaia di utenti 100 GB – 1 TB Sistemi Informativi Direzionali 13

Cosa è un data warehouse? n Definizione (Inmon) Un data warehouse è un data

Cosa è un data warehouse? n Definizione (Inmon) Un data warehouse è un data base relazionale – – n Subject Oriented Integrato Non volatile Time Variant … progettato per “query and analysis” – ---- invece che per l’elaborazione di transazioni. Master MATIT Sistemi Informativi Direzionali 14

Un DW Contiene dati storici derivati dalle transazioni, anche se può contenere dati di

Un DW Contiene dati storici derivati dalle transazioni, anche se può contenere dati di altra fonte n Separa il carico dell’analisi da quello delle transazioni n Contiene, oltre ad un DB relazionale, moduli di: n – – ETL (Extraction, Transformation Loading) OLAP (On Line Analytical Processing) Client analysis tools Altre applicazioni per analisi dei dati e produzione di rapporti a utenti “business” Master MATIT Sistemi Informativi Direzionali 15

Subject Oriented …. n Subject Oritented – I DW sono progettati per aiutarti ad

Subject Oriented …. n Subject Oritented – I DW sono progettati per aiutarti ad analizzare i tuoi dati per i tuoi scopi … Master MATIT n Chi è stato il nostro miglior venditore di aspirapolveri lo scorso anno? ? – Topic: “miglior venditore di aspirapolveri”: analisi orientata al soggetto Sistemi Informativi Direzionali 16

Integrated …. n Risoluzione dei conflitti tra nomi e dei problemi derivanti dal fatto

Integrated …. n Risoluzione dei conflitti tra nomi e dei problemi derivanti dal fatto che i dati si trovano espressi in unità di misure differenti. Master MATIT n Nel DB della succursale di Roma il Sig. Rossi ha venduto 1000 aspirapolveri a 900. 000 lire mentre nel DB della filiale di NY, Mr Bush ha venduto 900 aspirapolveri a $ 600 … come confronto i dati? Come risolvo i conflitti tra nomi? Sistemi Informativi Direzionali 17

Non volatile I dati non variano una volta entrati nel warehouse … n Il

Non volatile I dati non variano una volta entrati nel warehouse … n Il warehouse deve analizzare ciò che è accaduto n Master MATIT n Il Sig. Rossi ha venduto 1000 aspirapolveri, ed ad oggi è il Record. Man di vendite – Se tra mezz’ora Mr. Bush ne vende altre 250, questa informazione non deve entrare nel WH Sistemi Informativi Direzionali 18

Time Variant n La maggior parte n Voglio sapere negli delle analisi per i

Time Variant n La maggior parte n Voglio sapere negli delle analisi per i ultimi tre anni business sono l’andamento in borsa analisi di “trend”. Per della Compagnia su questo si ha bisogno Milano, Londra e di una grande mole Francoforte di dati storici. Master MATIT Sistemi Informativi Direzionali 19

Considerazioni …. . n Non interessa un singolo dato, ma dati aggregati – Somma,

Considerazioni …. . n Non interessa un singolo dato, ma dati aggregati – Somma, media, minimo, massimo Le operazioni di aggregazione sono fondamentali per popolare e mantenere un Data Warehousing n Le operazioni tipiche di un DW saranno: n – Accesso e interrogazione – diurne – Caricamento e Aggiornamento dati – notturne n Su milioni di record Master MATIT Sistemi Informativi Direzionali 20

Considerazioni … n Esigenza di una base dati separata perché – Esistono diverse sorgenti

Considerazioni … n Esigenza di una base dati separata perché – Esistono diverse sorgenti di dati … – sorgenti che devono essere integrate e tecnicamente ciò non può essere fatto in linea – I dati da integrare devono essere aggregati – Metodi di accesso specifici – Degrado delle prestazioni Master MATIT Sistemi Informativi Direzionali 21

Architettura di un sistema direzionale Data Marts Sorgenti dei dati Magazzino dati Area di

Architettura di un sistema direzionale Data Marts Sorgenti dei dati Magazzino dati Area di Staging utenti analisi Acquisti reporting Sistemi di supporto operativo Vendite mining File piatti Master MATIT Inventario Sistemi Informativi Direzionali 22

Rappresentazione dei Dati n Sorgenti informative… i DB preesistenti … dipartimentali …. – Vendita,

Rappresentazione dei Dati n Sorgenti informative… i DB preesistenti … dipartimentali …. – Vendita, promozione, marketing DW: la base dati integrata con soggetti comuni a tutta l’organizzazione n Data Marts – componente del DW – soggetti dipartimentali o settoriali selezionati n Strumenti di analisi, focalizzati su un problema in esame n Master MATIT Sistemi Informativi Direzionali 23

Come viene popolato un DW n Attività – Estrazione dei dati • Dalle sorgenti

Come viene popolato un DW n Attività – Estrazione dei dati • Dalle sorgenti informative – Trasformazione • Pulizia dei dati, trasformazione di formato, correlazione con oggetti in sorgenti diverse – Caricamento • Con introduzione di informazione temporali e generazione di dati aggregati – Refresh • Le stesse fasi eseguite incrementalmente n A supporto di queste attività sono mantenute certe informazioni dette METADATI Master MATIT Sistemi Informativi Direzionali 24

Tecniche di Analisi dei dati n Un data warehouse viene costruito per fornire un

Tecniche di Analisi dei dati n Un data warehouse viene costruito per fornire un accesso facile a sorgenti contenenti una grossa quantità di dati – Si tratta allora di un mezzo per arrivare ad un fine. – Quale è il fine? Effettuare analisi e prendere decisioni a partire da quei dati. n Quali sono allora le tecniche di analisi dei dati comunemente usate oggigiorno? Master MATIT Sistemi Informativi Direzionali 25

Classificazione Tecniche Query and reporting n Analisi multi dimensionale n Data mining n Display,

Classificazione Tecniche Query and reporting n Analisi multi dimensionale n Data mining n Display, Analizza, Scopri In funzione dell’uso DW Data Mart Master MATIT Sistemi Informativi Direzionali 26

1) Query And Reporting n E’ il processo di – Porre una interrogazione –

1) Query And Reporting n E’ il processo di – Porre una interrogazione – Rilevare dati fondamentali dal DW – Trasformare i dati in un contesto appropriato – Porre i risultati in un formato leggibile Master MATIT Sistemi Informativi Direzionali 27

Q&R Query Definition Data Access and retrieval Quanti aspirapolvere Sono stai venduti dall’ 10

Q&R Query Definition Data Access and retrieval Quanti aspirapolvere Sono stai venduti dall’ 10 -9 al 16 -9? E quanti nel nostro negozio di Agnano? Answer Set Calculation manipulation Report Preparation Report Delivery Master MATIT Sistemi Informativi Direzionali 28

2) Analisi Multidimensionale L’analisi dei dati viene eseguita sui dati estratti dal DW o

2) Analisi Multidimensionale L’analisi dei dati viene eseguita sui dati estratti dal DW o dal Data Mart e rappresentata in forma multidimensionale. n E’ basata di solito su n – Fatti: • un concetto sul quale centrare l’analisi – Misura: • Una proprietà atomica di un fatto da analizzare – Dimensione: • Una prospettiva lungo la quale effettuare l’analisi n Esempio: • Telefonata/Costo, durata/Chiamata, Chiamante, Tempo Master MATIT Sistemi Informativi Direzionali 29

Un Esempio n Un’azienda si occupa delle vendite di determinati prodotti, per la quale

Un Esempio n Un’azienda si occupa delle vendite di determinati prodotti, per la quale sono rilevanti tre dimensioni: prodotti, tempo e mercati geografici. – Per descrivere questa situazione si può pensare ad un cubo, sulle cui dimensioni geometriche riportiamo le dimensioni di interesse dell’azienda Master MATIT Sistemi Informativi Direzionali 30

I punti di vista n il manager di prodotto – è interessato alle vendite

I punti di vista n il manager di prodotto – è interessato alle vendite di un determinato prodotto in tutti i mercati e in tutto il periodo di tempo preso in considerazione n l’analista finanziario – è interessato ai risultati di vendita relativi a tutti i prodotti e tutti i mercati in un determinato periodo temporale n il responsabile regionale – ha bisogno di conoscere le vendite nel tempo di tutti i prodotti disponibili sul mercato di sua competenza n l’analista di mercato – può essere interessato alle vendite di un determinato prodotto, su di un singolo mercato e relative ad un preciso periodo temporale Master MATIT Sistemi Informativi Direzionali 31

Le prospettive … n Le prime tre prospettive sono ricavabili fissando il valore di

Le prospettive … n Le prime tre prospettive sono ricavabili fissando il valore di una delle tre dimensioni e aggregando i dati lungo le rimanenti due – Ciò corrisponde ad una visualizzazione bidimensionale, tipo foglio elettronico. n L’ultima prospettiva, quella dell’analista di mercato, si ottiene fissando un intervallo su ognuna delle tre dimensioni – Un cubo Master MATIT Sistemi Informativi Direzionali 32

Master MATIT Sistemi Informativi Direzionali 33

Master MATIT Sistemi Informativi Direzionali 33

Approcci all’OLAP n L’insieme dei dati da navigare è archiviato su una struttura dati

Approcci all’OLAP n L’insieme dei dati da navigare è archiviato su una struttura dati a matrice dove sono registrate tutte le sintesi statistiche degli incroci multidimensionali possibili – il viewer in questo caso chiede i dati direttamente al database multidimensionale n insieme dei dati su cui navigare è registrato su una o più tabelle relazionali; – i dati, in questo caso, sono acceduti tramite query – su di essi, vengono effettuate le sintesi necessarie per la visualizzazione dei risultati. Master MATIT Sistemi Informativi Direzionali 34

Rappresentazione multidimensionale Mercati Quantità Prodotti Periodi di tempo Master MATIT Sistemi Informativi Direzionali Vendite

Rappresentazione multidimensionale Mercati Quantità Prodotti Periodi di tempo Master MATIT Sistemi Informativi Direzionali Vendite 35

ROLAP n La R sta per relazionale – ed indica la caratteristica peculiare di

ROLAP n La R sta per relazionale – ed indica la caratteristica peculiare di estrazione dati da una strutture dati di tipo relazionale (una o più tabelle in formato riga-colonna). n vantaggio – dati acceduti sono sempre gli ultimi disponibili. • Esiste una classe di strumenti che è in grado di recuperare i dati dalle tabelle e sintetizzarli. n svantaggio – risiede, invece, nel fatto che una volta usciti dal viewer i dati di sintesi si perdono e quindi per riaccedervi è necessario rieseguire le estrazioni e le sommarizzazioni. Master MATIT Sistemi Informativi Direzionali 36

MOLAP n indica l’esistenza di una struttura per dati multi dimensionali. – il viewer

MOLAP n indica l’esistenza di una struttura per dati multi dimensionali. – il viewer chiede i dati direttamente a questa struttura, la quale li ha già memorizzati secondo le dimensioni, n Vantaggio – in questo caso sono i tempi di risposta. n svantaggio – il Multidimensional Data Base deve essere allineato all’aggiornamento dei dati di base dal quale viene generato. Master MATIT Sistemi Informativi Direzionali 37

Una nota sul MOLAP n Il Gartner Group, sostenitore dell’approccio MOLAP, ha affermato in

Una nota sul MOLAP n Il Gartner Group, sostenitore dell’approccio MOLAP, ha affermato in una Research Note che i database multidimensionali permettono di concentrarsi sulla business view, – ovvero sugli aspetti più propriamente aziendali n …. mentre i tradizionali database relazionali richiedono la cosiddetta system view, – impedendo, di fatto, un’interazione diretta dei responsabili aziendali poco pratici in materia Master MATIT Sistemi Informativi Direzionali 38

La soluzione MOLAP n Ha come perno il concetto di array multidimensionale, – tecnica

La soluzione MOLAP n Ha come perno il concetto di array multidimensionale, – tecnica per la riorganizzazione e la memorizzazione di dati aggregati, in modo che possano essere analizzati da più prospettive. n Un array multidimensionale è costituito da un insieme di celle di dati, – ciascuna delle quali contiene il valore assunto da una specifica misura, trovato in base alla formula di calcolo e alle dimensioni che determinano il processo di aggregazione. n In tale struttura, ciascuna dimensione funge da indice per l’individuazione di un insieme di celle di dati, eventualmente composto da un singolo elemento Master MATIT Sistemi Informativi Direzionali 39

Un esempio di MOLAP 2 D 1° TRIM. 2° TRIM. 3° TRIM. 4° TRIM.

Un esempio di MOLAP 2 D 1° TRIM. 2° TRIM. 3° TRIM. 4° TRIM. PROD. A 100 110 96 94 PROD. B 200 203 174 88 PROD. C 45 49 35 56 PROD. D 78 88 69 71 Master MATIT Sistemi Informativi Direzionali 40

Ovvero …. L' esempio riportato in tabella corrisponde essenzialmente alla gestione dei dati caratteristica

Ovvero …. L' esempio riportato in tabella corrisponde essenzialmente alla gestione dei dati caratteristica dei fogli elettronici. n Nell’esempio le dimensioni considerate sono la dimensione prodotto e la dimensione tempo, la misura riguarda le vendite dei prodotti e la formula di aggregazione consiste nel calcolo del numero totale di unità vendute. n Master MATIT Sistemi Informativi Direzionali 41

Individuazione degli elementi n fissando uno specifico prodotto ed uno specifico trimestre – si

Individuazione degli elementi n fissando uno specifico prodotto ed uno specifico trimestre – si individua la cella che riporta il numero totale di unità vendute di quel prodotto in quel periodo. n fissando, un valore su una sola delle due dimensioni – si ha accesso a tutti i dati relativi al valore fissato lungo tutta la dimensione su cui non è stato specificato un attributo. n volendo determinare il numero totale di unità vendute del prodotto A in tutto l’anno – è sufficiente accedere all’array fissando l’attributo PROD. A e sommando i valori presenti su tutta la riga selezionata. Master MATIT Sistemi Informativi Direzionali 42

Operazioni sui dati Multidimensionali n Roll Up – Aggregazione dei dati • Es. volume

Operazioni sui dati Multidimensionali n Roll Up – Aggregazione dei dati • Es. volume di vendita totale dello scorso anno per categoria e regione n Drill down – Disaggregazione dei dati • Es. mostra le vendite giornaliere e dettagliate di ciascun negozio per una certa categoria di prodotti n Slice & Dice – Proiezione su un piano • Solitamente bidimensionale n Pivot – Riorientamento del cubo Master MATIT Sistemi Informativi Direzionali 43

Roll Up Ovvero …. vendite Europa Asia Regione Città Nord America Regione Città Impiegato

Roll Up Ovvero …. vendite Europa Asia Regione Città Nord America Regione Città Impiegato Drill Down Master MATIT Sistemi Informativi Direzionali 44

Dimensional Fact Model (DFM) n E’ un modello concettuale grafico per DW. – La

Dimensional Fact Model (DFM) n E’ un modello concettuale grafico per DW. – La rappresentazione generata dal DFM è detta Dimensional Scheme (DS) e consiste in un insieme di Fact Scheme (FS). – Il DFM è indipendente dal modello logico target (multidimensionale o relazionale). – FS compatibili possono essere sovrapposti per mettere in relazione e comparare dati. – I FS possono essere integrati con informazioni sul carico di lavoro, da usarsi come input per il progetto logico. Master MATIT Sistemi Informativi Direzionali 45

Fact Scheme n I componenti di base dei FS sono fatti, dimensioni e gerarchie.

Fact Scheme n I componenti di base dei FS sono fatti, dimensioni e gerarchie. – Un fatto è un evento di interesse per l’ impresa ed è descritto da un insieme di misure. – Una dimensione determina la granularità di rappresentazione dei fatti. – Una gerarchia determina come le istanze di fatto possono essere aggregate e selezionate in modo significativo per il processo decisionale. Master MATIT Sistemi Informativi Direzionali 46

Fatti : associazioni molti a molti Master MATIT Sistemi Informativi Direzionali 47

Fatti : associazioni molti a molti Master MATIT Sistemi Informativi Direzionali 47

Il Dimensional Fact Model n Le misure sono attributi a valori continui tipicamente numerici

Il Dimensional Fact Model n Le misure sono attributi a valori continui tipicamente numerici che descrivono il fatto da diversi punti di vista. – Ad esempio, ogni vendita è misurata dal suo incasso. n Le dimensioni sono attributi discreti che definiscono la la granularità minima di rappresentazione dei fatti – dimensioni tipiche per il fatto vendite sono prodotto, negozio, data. n Le gerarchie (una per ciascuna dimensione) sono costituite da attributi discreti collegati da associazioni -to-one. – La gerarchia sulla dimensione prodotto include ad esempio gli attributi tipo di prodotto, categoria, dipartimento, ecc. n Alcuni attributi, rappresentati da una linea, sono detti attributi non dimensionali e non possono essere utilizzati per aggregare i dati. Master MATIT Sistemi Informativi Direzionali 48

Modellazione dei dati: Star Schema individuazione delle variabili oggetto dell’analisi corrente n per ciascuna

Modellazione dei dati: Star Schema individuazione delle variabili oggetto dell’analisi corrente n per ciascuna di queste variabili devono essere definite le misure e, per ciascuna misura, le dimensioni ad essa associata che, ricordiamo, determinano il tipo e il livello del processo di aggregazione. n scelta degli attributi di ciascuna dimensione che devono essere memorizzati nella tabella associata. n – Questa scelta determina il livello di dettaglio con cui viene descritta la misura e la gerarchia di aggregazione nella dimensione. Master MATIT Sistemi Informativi Direzionali 49

Modello logico Relazionale n Lo star schema prevede una tabella centrale, detta Fact Table,

Modello logico Relazionale n Lo star schema prevede una tabella centrale, detta Fact Table, che determina l’oggetto dello studio e più tabelle di appoggio, denominate Dimensional Table, che rappresentano le dimensioni utilizzate per l’analisi. – La chiave della FT è composta dalle chiavi delle varie DT. – Le sottoparti della chiave della FT sono chiavi importate delle DT. – Esiste una relazione di tipo 1 -a-n tra le Dimension Table e la Fact Table n L’accesso ai dati avviene tramite join tra le Dimension Table e la Fact Table Master MATIT Sistemi Informativi Direzionali 50

Esempio Master MATIT Sistemi Informativi Direzionali 51

Esempio Master MATIT Sistemi Informativi Direzionali 51

Esempio di Query Master MATIT Sistemi Informativi Direzionali 52

Esempio di Query Master MATIT Sistemi Informativi Direzionali 52

Star Schema: osservazioni n Le Dimension Table sono completamente denormalizzate. – Si riduce il

Star Schema: osservazioni n Le Dimension Table sono completamente denormalizzate. – Si riduce il numero di join necessari – Ma … • Aumenta la dimensione delle tabelle • La Fact Table contiene tuple relative a diversi livelli di aggregazione n L’elevata dimensione della Fact Table incide sui tempi di accesso – Non si hanno problemi di sparsità in quanto vengono memorizzati soltanto le tuple corrispondenti a punti dello spazio multi-dimensionale per cui esistono le informazioni Master MATIT Sistemi Informativi Direzionali 53

DENORMALIZZAZIONE n Nei casi pratici il numero di – variabili da controllare – delle

DENORMALIZZAZIONE n Nei casi pratici il numero di – variabili da controllare – delle misure per ciascuna variabile – delle dimensioni associate a ciascuna misura n sono molto più elevati – …. ciò comporta una proliferazione notevole del numero delle tabelle • sia di quelle associate alle dimensioni, sia di quelle associate alle misure. n Poiché i dati aggregati memorizzati nelle tabelle delle misure non sono soggetti a ripetizione, tali tabelle sono normalizzate – laddove quelle dimensioni sono normalmente denormalizzate, dovendo memorizzare tutti gli attributi di ogni livello di aggregazione implementato. Master MATIT Sistemi Informativi Direzionali 54

LO SCHEMA A FIOCCO DI NEVE (snowflake) La variante nota con il termine schema

LO SCHEMA A FIOCCO DI NEVE (snowflake) La variante nota con il termine schema a fiocco di neve consiste nella suddivisione delle tabelle dimensioni a livello degli attributi di aggregazione n Si ottiene normalizzando una o più dimensioni dello star schema n – il che consente di avere un numero di tabelle maggiori ma di piccole dimensioni e normalizzate – conseguente semplicità di gestione in fase di popolazione ed aggiornamento delle tabelle Master MATIT Sistemi Informativi Direzionali 55

Lo snowflake schema n Si riduce la dimensione e la cardinalità delle Dimension Table

Lo snowflake schema n Si riduce la dimensione e la cardinalità delle Dimension Table – Ogni Fact Table conterrà solo informazioni a particolari livelli di aggregazione – È necessario un modulo del DBMS (Aggregation Navigator) che, per ogni query, decida a quale fact table accedere Master MATIT Sistemi Informativi Direzionali 56

esempio Master MATIT Sistemi Informativi Direzionali 57

esempio Master MATIT Sistemi Informativi Direzionali 57

Come fare le interrogazioni? n In linea di principio, la popolazione di uno star

Come fare le interrogazioni? n In linea di principio, la popolazione di uno star schema può essere effettuata ricorrendo al linguaggio SQL standard: – questa soluzione, però, è estremamente complicata e dispendiosa in termini di tempo, in quanto, per ciascuna misura, bisogna considerare alternativamente ogni dimensione e applicare esplicitamente la formula di aggregazione desiderata (conteggio, somma, media, etc. ). n Per tale motivo, le applicazioni ROLAP utilizzano tecniche proprietarie per la popolazione e l’aggiornamento degli star schema, tecniche si basano su opportune estensioni del linguaggio SQL. Master MATIT Sistemi Informativi Direzionali 58

3) DATA MINING n Discovery Technique – E’ una tecnica di analisi dei dati

3) DATA MINING n Discovery Technique – E’ una tecnica di analisi dei dati relativamente nuova – Non effettua query ma usa algoritmi specifici che analizzano i dati e riportano quanto scoperto • Trova relazioni tra certi dati, attraverso tecniche di clusterizzazione Master MATIT Sistemi Informativi Direzionali 59

Cosa è il DM n Col termine data mining si indicano una serie di

Cosa è il DM n Col termine data mining si indicano una serie di tecniche atte ad individuare delle relazioni tra dati non esplicitamente rappresentate ed inattese. – Il processo di analisi comincia acquisendo conoscenza a partire da un certo campione di dati via più ampio assumendo che le caratteristiche di un ampio set di dati sono simili a quelle di un campione limitato Master MATIT Sistemi Informativi Direzionali 60

PREDICTIVE MODELING n questa tecnica cerca di ripercorrere i processi di apprendimento umani costruendo

PREDICTIVE MODELING n questa tecnica cerca di ripercorrere i processi di apprendimento umani costruendo un modello che descriva le più importanti caratteristiche di un certo fenomeno. – Il modello viene costruito in due fasi: • Training set: costruisce il modello a partire da un grosso campione di dati storici; • Testing set: verifica il modello cercando di predire i dati non visti precedentemente; Master MATIT Sistemi Informativi Direzionali 61

Le tecniche di PM n Classificazione – mediante alberi decisionali e reti neurali possono

Le tecniche di PM n Classificazione – mediante alberi decisionali e reti neurali possono essere individuati record di particolari aggregati comportamentali n Value prediction – mediante modelli di regressione statistici lineari o non, viene effettuata la previsione futura per un certo aggregato di dati. • La tecnica è simile alla tecnica di interpolazione utilizzata in analisi numerica ed è relativamente semplice da utilizzare Master MATIT Sistemi Informativi Direzionali 62

DATABASE SEGMENTATION n Lo scopo è partizionare il database in cluster di record omogenei

DATABASE SEGMENTATION n Lo scopo è partizionare il database in cluster di record omogenei (aventi cioè proprietà comuni) al fine di individuare dei profili di sub-popolazioni di dati presenti nel database. – Fanno largo uso di queste tecniche quelle applicazione orientate a definire profili di utenza, marketing etc. Master MATIT Sistemi Informativi Direzionali 63

DEVIATION DETECTION n Tendono ad individuare entità che si discostano dalle previsioni effettuate mediante

DEVIATION DETECTION n Tendono ad individuare entità che si discostano dalle previsioni effettuate mediante modelli statistici. – Queste tecniche possono fare uso di strumenti di visualizzazione grafica che possono riportare gli aggregati del modello ed i loro complementi Master MATIT Sistemi Informativi Direzionali 64

Analisi dei dati Guidata dall’ Analista Query and reporting Master MATIT Assistita dall’ Analista

Analisi dei dati Guidata dall’ Analista Query and reporting Master MATIT Assistita dall’ Analista Analisi Multidimensionale Sistemi Informativi Direzionali Data Driven Data Mining 65

L’importanza del modeling n Il tipo di analisi fatto per un DW può determinarne

L’importanza del modeling n Il tipo di analisi fatto per un DW può determinarne – Il tipo – Il contenuto • Summarization, Metadati espliciti: Q&R, MOLAP • Drilling Down, Rolling UP: MOLAP • Basso livello di dettaglio: Data Mining Master MATIT Sistemi Informativi Direzionali 66

Architetture di DW e Scelte implementative n Cosa è un Data Mart – Un

Architetture di DW e Scelte implementative n Cosa è un Data Mart – Un DW più piccolo che funziona indipendentemente o può essere interconnesa per formare un warehouse integrato • “Un data mart è un sottoinsieme di un DW che assiste un particolare dipartimento o una particolare funzione direzionale”. • memorizza un sottoinsieme dei dati del DW normalmente in forma molto aggregata utile ad un particolare dipartimento direzionale Master MATIT Sistemi Informativi Direzionali 67

Data Mart: Architettura Monitoraggio & Amministrazione Sorgenti esterne Metadati Data Warehouse Basi di dati

Data Mart: Architettura Monitoraggio & Amministrazione Sorgenti esterne Metadati Data Warehouse Basi di dati operazionali Strumenti di analisi Analisi dimensionale Visualizzazione Sorgenti dei dati Master MATIT Data Mart Sistemi Informativi Direzionali Data mining 68

Data Mart vs Data Warehouse n Un data mart contiene meno informazioni e quindi

Data Mart vs Data Warehouse n Un data mart contiene meno informazioni e quindi è più facile navigare in essi n Un data mart non contiene dati operativi n Un data mart si focalizza solo sui requisiti di un particolare dipartimento Master MATIT Sistemi Informativi Direzionali 69

Perché un Data Mart n Essi permettono agli utenti un accesso rapido alle informazioni

Perché un Data Mart n Essi permettono agli utenti un accesso rapido alle informazioni usate da loro più frequentemente – migliorando i tempi di risposta del sistema (essendo diminuito il volume dei dati da visitare). Forniscono strutture dati appropriate ad esigenze specifiche agevolando le tecniche di data mining. n Il costo per la creazione e la gestione di un data mart è normalmente più basso di quello di un DW n Master MATIT Sistemi Informativi Direzionali 70

Data Mart: caratteristiche Scalabilità; n Dimensioni: n – devono garantire tempi di risposta più

Data Mart: caratteristiche Scalabilità; n Dimensioni: n – devono garantire tempi di risposta più brevi rispetto ad un DW • Rapporto tra la loro crescita e le loro performance; Le Viste logiche di diversi data mart fisici hanno il nome di virtual data marts; n Le tecnologie di networking sono intimamente legate ai data marts n – Al crescere del numero di data marts cresce l’esigenza di avere un management centralizzato degli stessi al fine di coordinarne l’attività e mantenerne la consistenza Master MATIT Sistemi Informativi Direzionali 71