Informatique dcisionnelle Introduction linformatique dcisionnelle MOHAMED HAMOU mohamed

  • Slides: 54
Download presentation
Informatique décisionnelle Introduction à l’informatique décisionnelle MOHAMED HAMOU mohamed. hamou@gmail. com Page : 1

Informatique décisionnelle Introduction à l’informatique décisionnelle MOHAMED HAMOU mohamed. hamou@gmail. com Page : 1

L’information • Nouvelle ressource des entreprises du XXIème siècle • Avec le temps, les

L’information • Nouvelle ressource des entreprises du XXIème siècle • Avec le temps, les entreprises produisent et manipulent de très importants volumes de données • Ces données sont stockées dans les systèmes opérationnels de l’entreprise au sein de bases de données Page : 2

Motivations des entreprises • Besoin des entreprises – accéder à toutes les données de

Motivations des entreprises • Besoin des entreprises – accéder à toutes les données de l’entreprise – regrouper les informations disséminées – analyser et prendre des décisions rapidement • Exemples d’applications concernées – Grande distribution : marketing, maintenance, … – Bancaire : suivi des clients, gestion de portefeuilles – Télécommunications : pannes, fraudes, mobiles, … Page : 3

La prise de décision en entreprise • Une décision est le résultat d'un processus

La prise de décision en entreprise • Une décision est le résultat d'un processus comportant le choix conscient entre plusieurs solutions, en vue d'atteindre un objectif. • L'efficacité des services d'une entreprise dépend de la qualité de ses décisions. – Améliorer l'habilité à prendre des décisions, c'est faire usage des ressources dont dispose l'entreprise. Page : 4

Processus décisionnel Peut être découpé en cinq étapes • 1) Définir le problème •

Processus décisionnel Peut être découpé en cinq étapes • 1) Définir le problème • 2) Rassembler les faits et données • 3) Evaluer et interpréter les faits et données • 4) Etablir plusieurs solutions • 5) Décider (choisir une solution) Page : 5

Informatique décisionnelle • La mise en place d’un système informatique décisionnelle a pour objectif

Informatique décisionnelle • La mise en place d’un système informatique décisionnelle a pour objectif de faciliter le décideur dans son processus de prise de décision. • L’informatique permet d’accélérer drastiquement le temps de rassemblement des faits et données et leur interprétation • C’est un ensemble d’outils qui ne remplace en aucun cas le décideur. Page : 6

Système d’aide à la décision • L’objectif est toujours d’automatiser/fiabiliser les tâches répétitives Page

Système d’aide à la décision • L’objectif est toujours d’automatiser/fiabiliser les tâches répétitives Page : 7

Architecture des systèmes décisionnels Extracteur Integrateur Extracteur Referentiel Entrepôt de données Extracteur Décideurs Sources

Architecture des systèmes décisionnels Extracteur Integrateur Extracteur Referentiel Entrepôt de données Extracteur Décideurs Sources Page : 8

Entrepôt de données : définition Définition 1 (Goglin) : un entrepôt de données est

Entrepôt de données : définition Définition 1 (Goglin) : un entrepôt de données est un stockage intermédiaire de données issues des applications de production, dans lequel les utilisateurs finaux puisent avec des outils de restitution et d’analyse. Définition 2 (Bill Inmon) : Un entrepôt de données est une collection de données thématiques, intégrées, non volatiles et historisées organisées pour la prise de décision. Inmon et Codd sont considérés comme les auteurs du concept dans le début des années 90. Page : 9

 « Thématiques » • Thématique = "Orienté sujet ". • Orienté par thème

« Thématiques » • Thématique = "Orienté sujet ". • Orienté par thème et non plus par fonction. • Exemples : • Dans les bases de données opérationnelles : assurance vie, assurance automobile, paye, facturation. • Dans les bases de données décisionnelles : client, produit, réseau de distribution, médicament, marché, absences, réussite. • Ce côté est renforcé dans les magasins. Page : 10

 « Intégrées » • L’entrepôt n’est pas une concaténation des sources, les données

« Intégrées » • L’entrepôt n’est pas une concaténation des sources, les données sont sémantiquement intégrées. • Exemples : • Reconnaître qu’il s’agit de la même personne malgré un déménagement • Reconnaître qu’il s’agit du même produit malgré des codes barres différents • Remarque : très difficile, mais indispensable. Page : 11

 « Non volatiles, historisées » • Pas de suppressions. • Nécessité d’un référentiel

« Non volatiles, historisées » • Pas de suppressions. • Nécessité d’un référentiel de temps. • L’historisation permet • l’extrapolation, • la mesure de l’impact d’une décision par comparaison de la situation avant et après la mise en application de cette décision. • Exemple : • Suivi des évolutions des comportements des clients. Page : 12

 « Agrégées » • Niveau de granularité. • Exemple : • Stockage de

« Agrégées » • Niveau de granularité. • Exemple : • Stockage de tous les appels téléphoniques pour un client APPEL_TELEPHONIQUE (n° client, horo-date, durée, correspondant, étranger, etc. . . ) (300 clients, 200 tuples par client, 60000 tuples d’appels). • Stockage agrégé par client sur 1 mois APPEL_TELEPHONIQUE (n° client, mois, nombre d’appel, durée moyenne, nombres d’appels vers l’étranger) (300 tuples d’appels). Page : 13

 « Prise de décision » • Les systèmes " opérationnels " (ou de

« Prise de décision » • Les systèmes " opérationnels " (ou de " production ", ou de " gestion " ) sont dédiés aux métiers de l’entreprise pour les assister dans leurs tâches de gestion quotidiennes (et directement opérationnels). ERP • Les systèmes " décisionnels " sont dédiés au management de l’entreprise pour l’aider au pilotage de l’activité (et indirectement opérationnels). Ils offrent au décideur une vision transversale de l’entreprise. DW Page : 14

Exemples • Suivi du comportement de la clientèle dans les télécommunications • Nombre moyen

Exemples • Suivi du comportement de la clientèle dans les télécommunications • Nombre moyen d’heures par mois et par région, • répartition des appels clients sur la semaine, • Répartition des appels clients sur la journée, • nombre moyen d’appels représentant 20% d’une facture, • Durée moyenne d’une communication urbaine, • Durée moyenne d’une communication internationale. • Suivi du marché (lignes installées, désinstallées, services choisis, répartition géographique) • Comportement du réseau (pannes) Page : 15

Exemples • Quel est le volume des ventes par produit, par région, pour le

Exemples • Quel est le volume des ventes par produit, par région, pour le 3 ième trimestre 2009 ? • Quel est le volume des ventes de produits laitiers, pour la région parisienne, par an, pour les 5 dernières années ? • Quel est le type de produits dont les ventes baissent constamment dans les 6 derniers mois de l’année en cours ? • Est-ce qu’une baisse de 10% ferait redémarrer les ventes de disques ? Page : 16

Différences transactionnel / décisionnel Transactionnel Données Traitements Décisionnel - sur une période courte -

Différences transactionnel / décisionnel Transactionnel Données Traitements Décisionnel - sur une période courte - historisées - détaillées - agrégées - personnelles - peuvent être anonymes - mises à jour - recalculées - temps de validité, de transaction, d’extraction - requêtes simples - répétitives - requêtes complexes - variées - très sensible aux performances - échelle de performance différente Page : 17

Différences transactionnel / décisionnel Transactionnel Décisionnel Utilisateurs - orientée fonction - orientée sujet -

Différences transactionnel / décisionnel Transactionnel Décisionnel Utilisateurs - orientée fonction - orientée sujet - relativement statique - évolutif - agents opérationnels - manager Nbres : . utilisateurs - milliers - centaines . tuples accédés - dizaines/centaines - millions . base de données - centaines de MB/GB - centaines de GB/TB Conception Page : 18

Les sources de données • En général les "legacy systems", c'est-à-dire principalement les bases

Les sources de données • En général les "legacy systems", c'est-à-dire principalement les bases de données de production. • exemples : factures, fichier des nouveaux clients. • On extrait justement les données pour ne pas travailler directement sur les sources. - "Décisionnel et transactionnel ne font pas bon ménage ", - perturbations, - supports physiques différents, - outils et utilisateurs différents. Page : 19

Les sources de données • Mais aussi des sources extérieures : • météo, •

Les sources de données • Mais aussi des sources extérieures : • météo, • calendrier des jours fériés, • cours de la bourse, • Géographie (études épidémiologiques, accidents de la route), • études INSEE. • Vieilles sources. Page : 20

L’extraction des données • a pour but d'extraire les données et de les mettre

L’extraction des données • a pour but d'extraire les données et de les mettre dans un format commun. • choisit d'extraire ce qui est nécessaire • on n'importe pas la totalité des sources, • satisfaire les "vues utilisateurs". • applique une stratégie de rafraîchissement • périodicité, • ou déclenchement. Page : 21

L’extraction des données 3 principales techniques : • Ecrire des interfaces entre les sources

L’extraction des données 3 principales techniques : • Ecrire des interfaces entre les sources et l'entrepôt, • Exploiter les fonctionnalités de réplication offertes par les SGBD, • loader, triggers, passerelles, copies, logs, vues, etc … • Utiliser un outil ETL • génère les programmes d'alimentation, • peut gérer leur déroulement, • intégration de données. Page : 22

L’intégration des données • Intégration des données dans l'entrepôt en résolvant les conflits entre

L’intégration des données • Intégration des données dans l'entrepôt en résolvant les conflits entre les différentes sources d'information • codages, fautes d'orthographe, etc… • tables de conversion, etc … Page : 23

L’intégration des données • Différence de codage: • sexe = M/F sexe = 1/2

L’intégration des données • Différence de codage: • sexe = M/F sexe = 1/2 • Différence d’unité • poids = 4000 poids = 4 • taille = 38 taille = 7 • Différence de granularité • heures travaillées = 35 heures travaillées = 150 • Différence de fraîcheur : • âge = 20 âge = 21 • Imprécision • poids = 54, 2 poids = 54 • Erreur : • nom = « Clémentine » nom = « Clémentinne » Page : 24

L’intégration des données • Différence de contenu dans les textes libres : • adresse

L’intégration des données • Différence de contenu dans les textes libres : • adresse = « Père Noël, cercle polaire, Rovaniemi, Finlande » adresse = « cercle polaire, Rovaniemi, Finlande » • Différence d’expression dans les textes libres : • adresse = « 4 av. du gal Leclerc » adresse = « 4 avenue du général Leclerc » • Différence linguistique de niveau de perception dans les textes libres : • couleur = « rouge » couleur = « vermillon » • prescription = « antibiotique » prescription = «pénicilline » Page : 25

L’intégration des données • Exercice 1 VOITURE NUM COULEUR AZUR 1 BLEU 2 VIOLET

L’intégration des données • Exercice 1 VOITURE NUM COULEUR AZUR 1 BLEU 2 VIOLET 2 BLEU 4 VERT 3 ROUGE 4 VERT Source 1 Source 2 Intégration ? Page : 26

L’intégration des données • Exercice 2 ETUDIANT NUM NOM SEXE POIDS 1 JEAN 1

L’intégration des données • Exercice 2 ETUDIANT NUM NOM SEXE POIDS 1 JEAN 1 54, 2 2 LAURA 2 65, 6 3 HENRI 1 48, 4 NUM NOM SEXE POIDS 1 JEAN M 54 2 LAURA F 66 3 HENRY M 48 4 FRED M 70 Intégration ? Page : 27 Source 1 Source 2

L’intégration des données • Exercice 3 ETUDIANT NUM NOM ADRESSE 1 JEAN 4 AV

L’intégration des données • Exercice 3 ETUDIANT NUM NOM ADRESSE 1 JEAN 4 AV GAL DE GAULLE 2 SOPHIE 13 AV DES TILLEULS 3 PAUL NUM NOM ADRESSE 1 JEAN 4 AVENUE DU GENERAL DE GAULLE 2 PAUL 3 SOPHIE 4 FRED Page : 28 13 AVENUE DES TILLEULS

Les méta-données • Les méta-données regroupent l'ensemble des informations concernant l'entrepôt et les processus

Les méta-données • Les méta-données regroupent l'ensemble des informations concernant l'entrepôt et les processus associés. Destinées Aux utilisateurs Aux équipes et outils responsables du processus de transformation des données de production vers l'entrepôt. Page : 29 SGBD

Les méta-données 2 principales utilités Carte routière pour l'interrogation Utilisateurs Pour les algorithmes d'extraction,

Les méta-données 2 principales utilités Carte routière pour l'interrogation Utilisateurs Pour les algorithmes d'extraction, intégration, nettoyage, rafraîchissement, historisation, qualité. (localisation, règles de transformation, flux) Responsables des processus (équipes, outils) Page : 30 + métadonnées habituelles (types, autorisations) SGBD

Les magasins • sous-ensemble de l’entrepôt, • temps d’accès réduits, volume réduit, coût réduit,

Les magasins • sous-ensemble de l’entrepôt, • temps d’accès réduits, volume réduit, coût réduit, • orienté vers un sujet particulier, • les données sont adaptées à une classe de décideurs ou à un usage particulier (ex: fortement agrégées, DM) généralement modélisé sous forme multidimensionnelle, • nécessité de définir une stratégie d’extraction de l’entrepôt, • on peut avoir des sous-magasins. Page : 31

Outils de restitution • sur les magasins, ou directement sur l’entrepôt, • requêtes SQL,

Outils de restitution • sur les magasins, ou directement sur l’entrepôt, • requêtes SQL, SQL/OLAP • tableurs, • outils requêteurs spécialisés (outils de reporting), • progiciels spécialisés, • sortie web, • logiciels de datamining, • sortie système expert. Page : 32

OLTP - OLAP OLTP : On-Line Transaction Processing Dans une base de données de

OLTP - OLAP OLTP : On-Line Transaction Processing Dans une base de données de type relationnelle, les données sont stockées sous formes de tables décomposées en colonnes et en lignes, chaque ligne représente un enregistrement de la base de données. OLAP : On-Line Analytic Processing OLAP est un terme pour décrire l'approche dimensionnelle de l'aide à la décision. Page : 33

OLTP - OLAP • Le traitement des données en mode transactionnel (OLTP) est totalement

OLTP - OLAP • Le traitement des données en mode transactionnel (OLTP) est totalement différent du domaine des systèmes dimensionnels (OLAP). • Les systèmes diffèrent pour : – Les utilisateurs – Le contenu des données – Les structures, – L ’administration Page : 34

Analyse multidimensionnelle • On rencontre plusieurs techniques d’analyse de données, l’analyse multi-dimensionnelle est particulièrement

Analyse multidimensionnelle • On rencontre plusieurs techniques d’analyse de données, l’analyse multi-dimensionnelle est particulièrement utilisée en informatique décisionnelle. • L’analyse multi-dimensionnelle permet d’analyser des mesures selon différents paramètres (multiples) qui peuvent avoir un effet sur celles-ci Page : 35

Exemple • Une société désire construire une base de données pour suivre l'évolution de

Exemple • Une société désire construire une base de données pour suivre l'évolution de ses ventes par mois et par catégories de produits de ses différents magasins. • Pour chaque magasin, elle dispose d ’une table qui contient les ventes Page : 36

Exemple • Pour analyser ces données, on peut par exemple placer les mois en

Exemple • Pour analyser ces données, on peut par exemple placer les mois en ligne et les catégories en colonne. • Si l ’on veut comparer les ventes par rapport aux catégories, par magasin et par mois. Il devient difficile de dessiner un simple tableau. – On parle alors de cube Page : 37

Représentation graphique multidimensionnelle Page : 38

Représentation graphique multidimensionnelle Page : 38

Toutes les ventes pour un magasin Page : 39

Toutes les ventes pour un magasin Page : 39

Toutes les ventes d’une catégorie d’article Page : 40

Toutes les ventes d’une catégorie d’article Page : 40

Toutes les ventes d’un mois Page : 41

Toutes les ventes d’un mois Page : 41

Les ventes d’un mois pour une catégorie dans un magasin Page : 42

Les ventes d’un mois pour une catégorie dans un magasin Page : 42

Le modèle multidimensionnel • Souvent appelé modèle OLAP (On Line Analytical Processing) (Codd, 1993).

Le modèle multidimensionnel • Souvent appelé modèle OLAP (On Line Analytical Processing) (Codd, 1993). • Présenté comme une alternative au modèle relationnel. • Correspond mieux aux besoins du décideur. • "Orienté sujet". • " Cube" centré sur une activité. • Exemple : vente. Page : 43

Les faits • Un cube relate un fait. L’activité est caractérisée par des faits

Les faits • Un cube relate un fait. L’activité est caractérisée par des faits qui se produisent (événements). • Exemples : • fait de vente, • fait de notation, • fait de passage de transaction boursière, • fait de consultation médicale, • fait de dépense dans un hôpital, • fait d’absence de cours, • fait de marquage de but, • fait de fréquentation d’un cinéma. Page : 44

Les indicateurs • Les faits sont quantifiés par des indicateurs, également appelés "métriques", ou

Les indicateurs • Les faits sont quantifiés par des indicateurs, également appelés "métriques", ou "mesures", ou "variables". Par exemple le fait de vente se caractérise par la quantité vendue et le montant de la vente. • Ce sont les cellules du cube. Les indicateurs représentent une quantité mesurable, un fait observé. • Chaque indicateur a une fonction d’agrégat (on peut les additionner, ou calculer le minimum, ou la moyenne). • Ils sont généralement numériques et additifs : Le montant des vente est additif (se somme sur toutes les dimensions), le niveau du stock est semi-additif (se somme sur les produits, mais pas sur le temps), la moyenne de fréquentation est non additive. Page : 45

Les indicateurs • Exemples : • CA par produit/agence/dans le temps, • coût moyen

Les indicateurs • Exemples : • CA par produit/agence/dans le temps, • coût moyen d’une hospitalisation par pathologie, • le nombre de visiteurs moyens dans un établissement, • taux d’occupation des lits, • nombre d’articles en stock, • satisfaction, • taux de remplissage des avions par vol, • temps d’attente moyen au supermarché, • nombre de connexions sur un site web, • durée des communications sur un site web. Page : 46

Les indicateurs • Formule : On appelle "formule" une mesure non stockée, obtenue à

Les indicateurs • Formule : On appelle "formule" une mesure non stockée, obtenue à partir des mesures stockées. • Exemples : prix moyen = total ventes / nombre vendu • Remarque : il existe des faits sans mesures, les "dummy measures" • Exemple : location d'une voiture, consultation à hôpital, réservation d'un livre. • L'agrégation sera le comptage des faits. Page : 47

Les dimensions • Les "dimensions" sont les axes d'analyse. • Exemples : produits, temps,

Les dimensions • Les "dimensions" sont les axes d'analyse. • Exemples : produits, temps, région, promotion, fournisseur, joueur, élève, hôpital. • Chaque dimension est associée à une hiérarchie. • Exemples : • continent -> pays -> région -> ville -> magasin • année -> trimestre -> mois -> jour • catégorie-> sous-catégorie -> produit Page : 48

Modélisation en étoiles Produit Temps clé_temps heure jour semaine mois année férié événement clé_temps

Modélisation en étoiles Produit Temps clé_temps heure jour semaine mois année férié événement clé_temps clé_produit clé_magasin clé_produit description marque catégorie sous_catégorie couleur taille montant_ventes quantité_vendue Magasin Fait de Vente clé_magasin adresse ville département secteur_vente surface Page : 49

Modélisation en flocons Temps clé_temps heure jour semaine mois année férié événement Fait de

Modélisation en flocons Temps clé_temps heure jour semaine mois année férié événement Fait de Vente clé_temps clé_produit clé_magasin montant_ventes quantité_vendue Produit Sous_catégorie clé_produit description marque clé_sous_catégorie couleur taille clé_sous_catégorie Magasin Localisation clé_magasin clé_localisation secteur_vente surface clé_localisation adresse ville département Les tables de dimension sont normalisées Page : 50

Modélisation en constellations Produit Temps clé_temps heure jour semaine mois année férié événement Fait

Modélisation en constellations Produit Temps clé_temps heure jour semaine mois année férié événement Fait de Vente clé_temps clé_produit clé_magasin montant_ventes quantité_vendue clé_produit description marque clé_sous_catégorie couleur taille Magasin clé_magasin clé_localisation secteur_vente surface Les tables de dimensions sont partagées par plusieurs tables de faits Page : 51

Opérateurs multidimensionnels • Roll-up, ou agrégation, ou consolidation, ou drill-up, ou scaleup, ou forage

Opérateurs multidimensionnels • Roll-up, ou agrégation, ou consolidation, ou drill-up, ou scaleup, ou forage vers le haut. Agréger selon une dimension : Semaine Mois • Drill-down, ou désagrégation, ou segmentation, ou roll_down, ou drill-trough, ou forage vers le bas. Détailler selon une dimension : Mois Semaine • Slice, ou projection. Projeter(Région, Produit) • Dice, ou selection, ou filtering, ou screening. Mois = 01/01/2009 • Pivot, ou rotation. Tourne le cube pour visualiser une face. (Région, produit) (Région, Mois) Page : 52

Exercices Soit le tableau multidimensionnel suivant (Produits, Villes, Temps) : Appareil Photo numérique Lecteur

Exercices Soit le tableau multidimensionnel suivant (Produits, Villes, Temps) : Appareil Photo numérique Lecteur DVD Home Cinéma Ecrans plats T 1 2009 T 2 2009 T 3 2009 T 4 2009 Paris 10 12 15 23 Marseille 12 15 14 18 Lyon 7 12 9 13 Créteil 5 9 21 8 Paris 12 9 17 25 Marseille 18 16 19 17 Lyon 13 16 17 14 Créteil 6 12 18 21 Paris 29 23 25 24 Marseille 19 18 23 19 Lyon 17 17 20 22 Créteil 14 17 18 17 Paris 16 18 19 20 Marseille 15 14 17 18 Lyon 21 28 26 29 Créteil 9 8 10 9 Page : 53

Exercices • Modèle en étoile « Fait de vente » • Cube • Opérateurs

Exercices • Modèle en étoile « Fait de vente » • Cube • Opérateurs multidimensionnels (Roll up, Dice, …) Page : 54