1 CONCEPTION DUN DATAWAREHOUSE Exemple 10012022 2 PLAN

  • Slides: 95
Download presentation
1 CONCEPTION D’UN DATAWAREHOUSE Exemple 10/01/2022

1 CONCEPTION D’UN DATAWAREHOUSE Exemple 10/01/2022

2 PLAN 10/01/2022

2 PLAN 10/01/2022

3 NOTION DE DÉCIDEUR • Sous le modèle du taylorisme et jusque dans les

3 NOTION DE DÉCIDEUR • Sous le modèle du taylorisme et jusque dans les années 80 -90, les organisations étaient organisées de manière pyramidale. • Les décisions étaient prises au sommet de la pyramide et les ordres étaient transmis de manière descendante et unilatérale à tous les niveaux opérationnels. 10/01/2022

4 NOTION DE DÉCIDEUR • Dans ce type d’organisation, les décideurs étaient seulement les

4 NOTION DE DÉCIDEUR • Dans ce type d’organisation, les décideurs étaient seulement les dirigeants de l’organisation. • Ce type d’organisation était efficace tant que le marché était localisé et qu’il suffisait de produire pour vendre. 10/01/2022

5 DÉFIS • Complexités du marché: • La mondialisation : les concurrents sont plus

5 DÉFIS • Complexités du marché: • La mondialisation : les concurrents sont plus nombreux, plus innovants, mieux armés. • La modification des comportements d’achats : l’organisation se doit d’être centrée client. En effet, les produits sont de plus en plus personnalisés (on parle de one to one). 10/01/2022

6 DÉFIS • Le fait que le monde va de plus en plus vite

6 DÉFIS • Le fait que le monde va de plus en plus vite : le critère de délai de livraison ou de disponibilité de l’information 7 jours du 7, 24 h sur 24 associé à la mondialisation et la personnalisation du besoin client, démultiplie la complexité de l’écosystème de l’organisation. 10/01/2022

7 DÉFIS • Afin de pouvoir répondre à cette complexité grandissante du marché, l’entreprise

7 DÉFIS • Afin de pouvoir répondre à cette complexité grandissante du marché, l’entreprise dans les années 90, puis avec le web dans les années 2000 a amorcé une mutation de son organisation • Une des conséquences de cette modification latente des organisations est que les cadres opérationnels sont devenus autant de décideurs de terrain. 10/01/2022

8 • Cette logique, facile à comprendre dans un cadre commercial, s’applique dans tous

8 • Cette logique, facile à comprendre dans un cadre commercial, s’applique dans tous les domaines de l’entreprise. • La prise de décision ne peut plus être centrale, celle-ci doit être déléguée. • De fait, dans une entreprise moderne, tout cadre devient un décideur de terrain et dispose d’une autonomie relative. 10/01/2022

9 • C’est cette explosion du nombre de décideurs qui pose un gros problème

9 • C’est cette explosion du nombre de décideurs qui pose un gros problème à : • L’informatique, qui se voit démultiplier le nombre de demandes de rapports et d’extraction de données. • La direction, qui a besoin d’outils pour manager ses décideurs : de la cohérence est nécessaire afin que les décisions prises à tous les niveaux de l’entreprise, le soient en accord avec la stratégie d’entreprise. 10/01/2022

10 • Face à ce constat, qui sont les décideurs dans une entreprise ?

10 • Face à ce constat, qui sont les décideurs dans une entreprise ? • On les classe en trois catégories : 10/01/2022

11 • Les décideurs stratégiques: • Exemple : la direction générale dans une entreprise.

11 • Les décideurs stratégiques: • Exemple : la direction générale dans une entreprise. • Horizon de travail : Long terme. • Périmètre de travail : Tous les services, tous les territoires. • Rôle : ces décideurs impulsent une politique, définissent les valeurs de l’organisation et donnent les moyens aux ambitions de l’organisation. 10/01/2022

12 • Les décideurs tactiques: • Exemple : • Sur un axe horizontal, on

12 • Les décideurs tactiques: • Exemple : • Sur un axe horizontal, on va retrouver la direction financière, la direction des achats, la direction des ventes… • Sur un axe vertical, pour chaque direction, on aura le responsable des ventes Italie, le responsable des ventes Espagne, … 10/01/2022

13 • Horizon de travail : Moyen terme. • Périmètre de travail : un

13 • Horizon de travail : Moyen terme. • Périmètre de travail : un service ou un territoire. • Rôle : les décideurs tactiques sont les relais des caps stratégiques, fixés par les décideurs stratégiques. • Ce sont eux qui fixent les objectifs de leur direction ou de leur territoire, qui élaborent et choisissent la meilleure tactique pour atteindre ces objectifs. 10/01/2022

14 • Les décideurs opérationnels: • Exemple : un commercial, un acheteur, un responsable

14 • Les décideurs opérationnels: • Exemple : un commercial, un acheteur, un responsable de magasin, l’agent de maîtrise d’une ligne de production ou d’un atelier. . . • Ce sont toutes ces personnes qui prennent des décisions à chaud sur le terrain. 10/01/2022

15 • Horizon de travail : court terme. • Périmètre de travail : un

15 • Horizon de travail : court terme. • Périmètre de travail : un service sur un territoire. • Rôle : faire face à la réalité du terrain, gérer le quotidien. 10/01/2022

16 • À ces trois profils de décideurs s’ajoute celui des analystes. • Le

16 • À ces trois profils de décideurs s’ajoute celui des analystes. • Le rôle des analystes est de récolter et de travailler l’information, fiabiliser les données, expliquer les résultats. • Leur rôle est d’aider à la prise de décision des décideurs. • Les analystes varient suivant le type d’organisation (industrie, négoce, service public…) et le service auquel ils appartiennent 10/01/2022

17 10/01/2022

17 10/01/2022

18 INFORMATIQUE DÉCISIONNELLE • L’informatique décisionnelle couvre toutes les solutions informatisées pour améliorer la

18 INFORMATIQUE DÉCISIONNELLE • L’informatique décisionnelle couvre toutes les solutions informatisées pour améliorer la prise de décision des décideurs dans l’organisation • Partant du constat qu’il est difficile de croiser des données contenues dans des bases de données distinctes, le plus simple a été de regrouper ces données éparpillées. • Le concept de la base unique pour centraliser les données de l’entreprise est plus que jamais d’actualité. Il s’agit du concept d’entrepôt de données (Datawarehouse). 10/01/2022

19 10/01/2022

19 10/01/2022

20 ÉTUDE DE CAS : DISTRISYS • La société Distrisys est une société virtuelle

20 ÉTUDE DE CAS : DISTRISYS • La société Distrisys est une société virtuelle européenne • Distrisys est un grossiste de grands et petits appareils d’électroménager. • La société est distributeur officiel et exclusif d’appareils qu’elle fait fabriquer, importe puis vend sous ses propres marques : Lagon, Cuccina et Pierre. Michel • La société ne fabrique donc pas elle même, elle a une activité importante d’importation. 10/01/2022

21 • Distrisys ne vend pas ses produits en direct aux consommateurs. La société

21 • Distrisys ne vend pas ses produits en direct aux consommateurs. La société dispose d’un réseau de revendeurs et distributeurs agréés. • Son réseau est de plusieurs types : réseau de distribution généraliste, réseau de magasins spécialisés et enfin réseau de sites marchands. 10/01/2022

22 • La direction de Distrisys est depuis très longtemps confrontée à des problèmes

22 • La direction de Distrisys est depuis très longtemps confrontée à des problèmes de qualité de données et souhaite se doter d’outils permettant d’appréhender leurs données de manière globale. • Si la direction n’engage pas encore de démarches de Management de la Performance, elle y pense très sérieusement. • C’est dans ce contexte que le service informatique, en liaison avec la direction financière, amorce un projet de mise en œuvre d’un système décisionnel. 10/01/2022

23 • Nous commencerons par mettre en oeuvre le système d’analyse des factures qui

23 • Nous commencerons par mettre en oeuvre le système d’analyse des factures qui permettra à la société Distrisys, d’analyser son chiffre d’affaires (CA), ses marges et ses coûts. • Dans une entreprise commerciale, commencer par mettre en œuvre l’analyse des factures est généralement un bon choix, pour deux raisons : 10/01/2022

24 • Raison technique : généralement le système de facturation est assez bien maitrisé

24 • Raison technique : généralement le système de facturation est assez bien maitrisé par le service informatique et les données sont structurées, présentes et accessibles dans le système d’informations de l’entreprise. 10/01/2022

25 • Raison métier : les données de facturation intéressent la plupart des services

25 • Raison métier : les données de facturation intéressent la plupart des services tels que la direction générale, la direction des ventes, la finance, le marketing. . . et la mise à disposition d’un système d’analyse des factures est souvent assez riche en informations et donc en valeur ajoutée. 10/01/2022

26 • Les données de facturation seront analysables par les utilisateurs suivant quatre axes

26 • Les données de facturation seront analysables par les utilisateurs suivant quatre axes principaux : • L’axe produit • L’axe client • L’axe site, qui permettra de connaître le site à l’origine de la vente • L’axe temps 10/01/2022

27 CHOIX TECHNIQUE • Solution: Microsoft SQL server • C’est une solution décisionnelle comportant

27 CHOIX TECHNIQUE • Solution: Microsoft SQL server • C’est une solution décisionnelle comportant les modules suivants: • Integration Services • Master Data Services • Analysis Services • Reporting Services. 10/01/2022

28 • SQL Server Integration Services (SSIS) : l’ETL. • SQL Server Master Data

28 • SQL Server Integration Services (SSIS) : l’ETL. • SQL Server Master Data Services (SSMDS): le gestionnaire de données de référence. • SQL Server Analysis Services (SSAS) : la base de données multidimensionnelle (OLAP) et le méta modèle. • SQL Server Reporting Services (SRS) : l’outil de reporting. 10/01/2022

29 CRÉATION DU DATAWAREHOUSE • Création du table des faits • Création des dimensions

29 CRÉATION DU DATAWAREHOUSE • Création du table des faits • Création des dimensions 10/01/2022

30 CRÉATION DE LA TABLE DES FAITS • Rappel: • L’axe produit • L’axe

30 CRÉATION DE LA TABLE DES FAITS • Rappel: • L’axe produit • L’axe client • L’axe site • L’axe temps 10/01/2022

31 • On commence par la création des clés étrangères (notés ici FK) •

31 • On commence par la création des clés étrangères (notés ici FK) • Ces clés permettent la liaison avec les différents dimensions 10/01/2022

32 • Ces champs définissent la granularité de notre table de faits. • Dans

32 • Ces champs définissent la granularité de notre table de faits. • Dans notre cas, la granularité de la table de faits Facture correspond à une ligne : • par jour (date de facturation), • par site de facturation, • par produit • par client. 10/01/2022

33 • Cela signifie que, potentiellement, nous pourrons regrouper et sommer en une seule

33 • Cela signifie que, potentiellement, nous pourrons regrouper et sommer en une seule ligne, les lignes de facture ayant les mêmes critères. • Ce regroupement est appelé un agrégat. 10/01/2022

34 • Les données « propres » à notre table de faits sont: 10/01/2022

34 • Les données « propres » à notre table de faits sont: 10/01/2022

35 • N’oublions pas la clé primaire de la table des faits (numéro de

35 • N’oublions pas la clé primaire de la table des faits (numéro de la facture) 10/01/2022

36 10/01/2022

36 10/01/2022

37 • Résultat: 10/01/2022

37 • Résultat: 10/01/2022

38 CRÉATION DES TABLES DE DIMENSIONS • On commence par la table « Produit

38 CRÉATION DES TABLES DE DIMENSIONS • On commence par la table « Produit » 10/01/2022

39 • Aperçu de la table produit: 10/01/2022

39 • Aperçu de la table produit: 10/01/2022

40 • Création de la dimension « Site » 10/01/2022

40 • Création de la dimension « Site » 10/01/2022

41 • Notons la clé étrangère (2ème attribut): • La dimension « Site »

41 • Notons la clé étrangère (2ème attribut): • La dimension « Site » est en relation avec un autre dimension « Géographie » . Ce dernier sera utile pour localiser les clients par exemple. • Donc on ne doit pas fusionner ces deux dimensions. 10/01/2022

42 • Dimension « Géographie » 10/01/2022

42 • Dimension « Géographie » 10/01/2022

43 • Contenu de la table « Géographie » 10/01/2022

43 • Contenu de la table « Géographie » 10/01/2022

44 • Contenu de la table « Site » 10/01/2022

44 • Contenu de la table « Site » 10/01/2022

45 • Dimension « Client » 10/01/2022

45 • Dimension « Client » 10/01/2022

46 • Contenu de la table « Client » 10/01/2022

46 • Contenu de la table « Client » 10/01/2022

47 • Organisation des tables dans SQL Server: 10/01/2022

47 • Organisation des tables dans SQL Server: 10/01/2022

48 • N’oublions pas la dimension « Temps » • On choisira l’hiérarchie suivante:

48 • N’oublions pas la dimension « Temps » • On choisira l’hiérarchie suivante: • Jour - Semaine - Mois - Trimestre - Semestre - Année 10/01/2022

49 10/01/2022

49 10/01/2022

50 • Aperçu de la table « Temps » 10/01/2022

50 • Aperçu de la table « Temps » 10/01/2022

51 10/01/2022

51 10/01/2022

52 CRÉATION DES SCHÉMAS • Rappel: • Schéma en étoile • Schéma en flocon

52 CRÉATION DES SCHÉMAS • Rappel: • Schéma en étoile • Schéma en flocon de neige 10/01/2022

53 SCHÉMA EN ÉTOILE • Table de faits centralisée: 10/01/2022

53 SCHÉMA EN ÉTOILE • Table de faits centralisée: 10/01/2022

54 SCHÉMA EN FLOCON DE NEIGE • Hiérarchie des dimensions: 10/01/2022

54 SCHÉMA EN FLOCON DE NEIGE • Hiérarchie des dimensions: 10/01/2022

55 • Ainsi, notre modèle sera modélisé en flocon de neige puisque la dimension

55 • Ainsi, notre modèle sera modélisé en flocon de neige puisque la dimension « Géographie » est partagée entre deux diemnsions. 10/01/2022

56 10/01/2022

56 10/01/2022

57 CRÉATION D’UN CUBE DE DONNÉES • SQL Services Analysis Services (SSAS) est le

57 CRÉATION D’UN CUBE DE DONNÉES • SQL Services Analysis Services (SSAS) est le service de bases de données multidimensionnelles. • Analysis Services n’est pas un outil de restitution de données mais une base de données orientée vers l’utilisateur. 10/01/2022

58 • La construction du cube Analysis Services se réalise avec l’outil SQL Server

58 • La construction du cube Analysis Services se réalise avec l’outil SQL Server Business Intelligence Developpement Studio (BIDS) alors que la gestion et l’administration des modèles se réalisent avec l’outil SQL Server Management Studio (SSMS) 10/01/2022

59 • Lancer BIDS et créer un nouveau projet 10/01/2022

59 • Lancer BIDS et créer un nouveau projet 10/01/2022

60 10/01/2022

60 10/01/2022

61 • Les étapes à suivre sont: • Création de la source de données

61 • Les étapes à suivre sont: • Création de la source de données • Création de la vue de source de données (DSV) • Création du cube 10/01/2022

62 • Création de la source de données 10/01/2022

62 • Création de la source de données 10/01/2022

63 10/01/2022

63 10/01/2022

64 • Ensuite, il faut sélectionner la table de fait ainsi que les dimensions

64 • Ensuite, il faut sélectionner la table de fait ainsi que les dimensions concernés 10/01/2022

65 10/01/2022

65 10/01/2022

66 • Une fois l’importation faite, on sélectionne la table des faits et on

66 • Une fois l’importation faite, on sélectionne la table des faits et on choisit l’option « Afficher les tables associés » • Cette option permet de représenter les liens entre les différents dimensions et sera très utile si on a plusieurs tables de faits et/ou dimensions 10/01/2022

67 10/01/2022

67 10/01/2022

68 • Une fois tout est prêt, on passe à la création du cube:

68 • Une fois tout est prêt, on passe à la création du cube: 10/01/2022

69 • 1ère étape: Sélectionne r la table de faits et ses mesures 10/01/2022

69 • 1ère étape: Sélectionne r la table de faits et ses mesures 10/01/2022

70 10/01/2022

70 10/01/2022

71 • 2ème étape: • Les dimensions relatifs à la table de faits sont

71 • 2ème étape: • Les dimensions relatifs à la table de faits sont automatiquement détectés • Notons que la dim. Géographie n’est pas sélectionnée 10/01/2022

72 10/01/2022

72 10/01/2022

73 10/01/2022

73 10/01/2022

74 10/01/2022

74 10/01/2022

75 10/01/2022

75 10/01/2022

76 PHASE ETL • Ce processus assure les 3 tâches suivantes: • Extraction •

76 PHASE ETL • Ce processus assure les 3 tâches suivantes: • Extraction • Transformation • Chargement 10/01/2022

77 • Voici le déroulement du processus: 10/01/2022

77 • Voici le déroulement du processus: 10/01/2022

78 • Les données ne vont pas transiter directement des systèmes sources vers le

78 • Les données ne vont pas transiter directement des systèmes sources vers le datawarehosuse. • Les données vont transiter par au moins un palier : le sas de données. • Dans notre cas, nous appellerons cette base Distrisys. SA. • Le chargement va se faire suivant ce schéma de principe : 10/01/2022

79 10/01/2022

79 10/01/2022

80 10/01/2022

80 10/01/2022

81 10/01/2022

81 10/01/2022

82 10/01/2022

82 10/01/2022

83 RÉALISER UN FLUX POUR CHARGER UNE TABLE DE FAITS • Il fait suite

83 RÉALISER UN FLUX POUR CHARGER UNE TABLE DE FAITS • Il fait suite au chargement et à la mise à jour de toutes les tables de dimension. • Il doit s’assurer, avant l’insertion, des contraintes d’intégrité entre la table de faits et ses dimensions. • Il possède toutes les caractéristiques d’un flux ETL : Extraction simple d’une source, puis passage par des tâches de transformations et d’évaluation des données, et enfin chargement des données. 10/01/2022

84 10/01/2022

84 10/01/2022

85 La tâche Nettoyage des chaînes de caractères, s’assure que des espaces, à droite

85 La tâche Nettoyage des chaînes de caractères, s’assure que des espaces, à droite ou à gauche de la chaîne de caractères identifiant notamment un code, ne viennent pas polluer la compréhension de la donnée. 10/01/2022

86 10/01/2022

86 10/01/2022

87 • Au niveau de la tâche Recherche Date. Facturation_FK, la configuration est la

87 • Au niveau de la tâche Recherche Date. Facturation_FK, la configuration est la suivante : • La table de référence est Dim. Temps. • Le mapping est réalisé entre le champ Date. Facturation en provenance de la source de données et le champ Date de la table de dimension Dim. Temps. • Le champ Temps_PK, renommé Datefacturation_FK est en sortie de correspondance. 10/01/2022

88 10/01/2022

88 10/01/2022

89 10/01/2022

89 10/01/2022

90 • Enfin, on procède à la tâche de chargement: • Notons que l’option

90 • Enfin, on procède à la tâche de chargement: • Notons que l’option Vérifier les contraintes est désactivée, puisque les tâches de Recherche s’en sont déjà assurées. 10/01/2022

91 10/01/2022

91 10/01/2022

92 • Le deuxième flux s’oriente vers une tâche de type Agrégation qui joue

92 • Le deuxième flux s’oriente vers une tâche de type Agrégation qui joue en fait le rôle d’un Group By en SQL. • Cette tâche va regrouper les données suivant les colonnes Date. Facturation_FK, Site_FK et Client_FK et compter le nombre de lignes distinctes Produit_PK, pour en déduire le nombre d’articles différents que comprend la facture. 10/01/2022

93 10/01/2022

93 10/01/2022

94 10/01/2022

94 10/01/2022

95 10/01/2022

95 10/01/2022