1 CONCEPTION DUN DATAWAREHOUSE Exemple 10012022 2 PLAN































































































- Slides: 95
1 CONCEPTION D’UN DATAWAREHOUSE Exemple 10/01/2022
2 PLAN 10/01/2022
3 NOTION DE DÉCIDEUR • Sous le modèle du taylorisme et jusque dans les années 80 -90, les organisations étaient organisées de manière pyramidale. • Les décisions étaient prises au sommet de la pyramide et les ordres étaient transmis de manière descendante et unilatérale à tous les niveaux opérationnels. 10/01/2022
4 NOTION DE DÉCIDEUR • Dans ce type d’organisation, les décideurs étaient seulement les dirigeants de l’organisation. • Ce type d’organisation était efficace tant que le marché était localisé et qu’il suffisait de produire pour vendre. 10/01/2022
5 DÉFIS • Complexités du marché: • La mondialisation : les concurrents sont plus nombreux, plus innovants, mieux armés. • La modification des comportements d’achats : l’organisation se doit d’être centrée client. En effet, les produits sont de plus en plus personnalisés (on parle de one to one). 10/01/2022
6 DÉFIS • Le fait que le monde va de plus en plus vite : le critère de délai de livraison ou de disponibilité de l’information 7 jours du 7, 24 h sur 24 associé à la mondialisation et la personnalisation du besoin client, démultiplie la complexité de l’écosystème de l’organisation. 10/01/2022
7 DÉFIS • Afin de pouvoir répondre à cette complexité grandissante du marché, l’entreprise dans les années 90, puis avec le web dans les années 2000 a amorcé une mutation de son organisation • Une des conséquences de cette modification latente des organisations est que les cadres opérationnels sont devenus autant de décideurs de terrain. 10/01/2022
8 • Cette logique, facile à comprendre dans un cadre commercial, s’applique dans tous les domaines de l’entreprise. • La prise de décision ne peut plus être centrale, celle-ci doit être déléguée. • De fait, dans une entreprise moderne, tout cadre devient un décideur de terrain et dispose d’une autonomie relative. 10/01/2022
9 • C’est cette explosion du nombre de décideurs qui pose un gros problème à : • L’informatique, qui se voit démultiplier le nombre de demandes de rapports et d’extraction de données. • La direction, qui a besoin d’outils pour manager ses décideurs : de la cohérence est nécessaire afin que les décisions prises à tous les niveaux de l’entreprise, le soient en accord avec la stratégie d’entreprise. 10/01/2022
10 • Face à ce constat, qui sont les décideurs dans une entreprise ? • On les classe en trois catégories : 10/01/2022
11 • Les décideurs stratégiques: • Exemple : la direction générale dans une entreprise. • Horizon de travail : Long terme. • Périmètre de travail : Tous les services, tous les territoires. • Rôle : ces décideurs impulsent une politique, définissent les valeurs de l’organisation et donnent les moyens aux ambitions de l’organisation. 10/01/2022
12 • Les décideurs tactiques: • Exemple : • Sur un axe horizontal, on va retrouver la direction financière, la direction des achats, la direction des ventes… • Sur un axe vertical, pour chaque direction, on aura le responsable des ventes Italie, le responsable des ventes Espagne, … 10/01/2022
13 • Horizon de travail : Moyen terme. • Périmètre de travail : un service ou un territoire. • Rôle : les décideurs tactiques sont les relais des caps stratégiques, fixés par les décideurs stratégiques. • Ce sont eux qui fixent les objectifs de leur direction ou de leur territoire, qui élaborent et choisissent la meilleure tactique pour atteindre ces objectifs. 10/01/2022
14 • Les décideurs opérationnels: • Exemple : un commercial, un acheteur, un responsable de magasin, l’agent de maîtrise d’une ligne de production ou d’un atelier. . . • Ce sont toutes ces personnes qui prennent des décisions à chaud sur le terrain. 10/01/2022
15 • Horizon de travail : court terme. • Périmètre de travail : un service sur un territoire. • Rôle : faire face à la réalité du terrain, gérer le quotidien. 10/01/2022
16 • À ces trois profils de décideurs s’ajoute celui des analystes. • Le rôle des analystes est de récolter et de travailler l’information, fiabiliser les données, expliquer les résultats. • Leur rôle est d’aider à la prise de décision des décideurs. • Les analystes varient suivant le type d’organisation (industrie, négoce, service public…) et le service auquel ils appartiennent 10/01/2022
17 10/01/2022
18 INFORMATIQUE DÉCISIONNELLE • L’informatique décisionnelle couvre toutes les solutions informatisées pour améliorer la prise de décision des décideurs dans l’organisation • Partant du constat qu’il est difficile de croiser des données contenues dans des bases de données distinctes, le plus simple a été de regrouper ces données éparpillées. • Le concept de la base unique pour centraliser les données de l’entreprise est plus que jamais d’actualité. Il s’agit du concept d’entrepôt de données (Datawarehouse). 10/01/2022
19 10/01/2022
20 ÉTUDE DE CAS : DISTRISYS • La société Distrisys est une société virtuelle européenne • Distrisys est un grossiste de grands et petits appareils d’électroménager. • La société est distributeur officiel et exclusif d’appareils qu’elle fait fabriquer, importe puis vend sous ses propres marques : Lagon, Cuccina et Pierre. Michel • La société ne fabrique donc pas elle même, elle a une activité importante d’importation. 10/01/2022
21 • Distrisys ne vend pas ses produits en direct aux consommateurs. La société dispose d’un réseau de revendeurs et distributeurs agréés. • Son réseau est de plusieurs types : réseau de distribution généraliste, réseau de magasins spécialisés et enfin réseau de sites marchands. 10/01/2022
22 • La direction de Distrisys est depuis très longtemps confrontée à des problèmes de qualité de données et souhaite se doter d’outils permettant d’appréhender leurs données de manière globale. • Si la direction n’engage pas encore de démarches de Management de la Performance, elle y pense très sérieusement. • C’est dans ce contexte que le service informatique, en liaison avec la direction financière, amorce un projet de mise en œuvre d’un système décisionnel. 10/01/2022
23 • Nous commencerons par mettre en oeuvre le système d’analyse des factures qui permettra à la société Distrisys, d’analyser son chiffre d’affaires (CA), ses marges et ses coûts. • Dans une entreprise commerciale, commencer par mettre en œuvre l’analyse des factures est généralement un bon choix, pour deux raisons : 10/01/2022
24 • Raison technique : généralement le système de facturation est assez bien maitrisé par le service informatique et les données sont structurées, présentes et accessibles dans le système d’informations de l’entreprise. 10/01/2022
25 • Raison métier : les données de facturation intéressent la plupart des services tels que la direction générale, la direction des ventes, la finance, le marketing. . . et la mise à disposition d’un système d’analyse des factures est souvent assez riche en informations et donc en valeur ajoutée. 10/01/2022
26 • Les données de facturation seront analysables par les utilisateurs suivant quatre axes principaux : • L’axe produit • L’axe client • L’axe site, qui permettra de connaître le site à l’origine de la vente • L’axe temps 10/01/2022
27 CHOIX TECHNIQUE • Solution: Microsoft SQL server • C’est une solution décisionnelle comportant les modules suivants: • Integration Services • Master Data Services • Analysis Services • Reporting Services. 10/01/2022
28 • SQL Server Integration Services (SSIS) : l’ETL. • SQL Server Master Data Services (SSMDS): le gestionnaire de données de référence. • SQL Server Analysis Services (SSAS) : la base de données multidimensionnelle (OLAP) et le méta modèle. • SQL Server Reporting Services (SRS) : l’outil de reporting. 10/01/2022
29 CRÉATION DU DATAWAREHOUSE • Création du table des faits • Création des dimensions 10/01/2022
30 CRÉATION DE LA TABLE DES FAITS • Rappel: • L’axe produit • L’axe client • L’axe site • L’axe temps 10/01/2022
31 • On commence par la création des clés étrangères (notés ici FK) • Ces clés permettent la liaison avec les différents dimensions 10/01/2022
32 • Ces champs définissent la granularité de notre table de faits. • Dans notre cas, la granularité de la table de faits Facture correspond à une ligne : • par jour (date de facturation), • par site de facturation, • par produit • par client. 10/01/2022
33 • Cela signifie que, potentiellement, nous pourrons regrouper et sommer en une seule ligne, les lignes de facture ayant les mêmes critères. • Ce regroupement est appelé un agrégat. 10/01/2022
34 • Les données « propres » à notre table de faits sont: 10/01/2022
35 • N’oublions pas la clé primaire de la table des faits (numéro de la facture) 10/01/2022
36 10/01/2022
37 • Résultat: 10/01/2022
38 CRÉATION DES TABLES DE DIMENSIONS • On commence par la table « Produit » 10/01/2022
39 • Aperçu de la table produit: 10/01/2022
40 • Création de la dimension « Site » 10/01/2022
41 • Notons la clé étrangère (2ème attribut): • La dimension « Site » est en relation avec un autre dimension « Géographie » . Ce dernier sera utile pour localiser les clients par exemple. • Donc on ne doit pas fusionner ces deux dimensions. 10/01/2022
42 • Dimension « Géographie » 10/01/2022
43 • Contenu de la table « Géographie » 10/01/2022
44 • Contenu de la table « Site » 10/01/2022
45 • Dimension « Client » 10/01/2022
46 • Contenu de la table « Client » 10/01/2022
47 • Organisation des tables dans SQL Server: 10/01/2022
48 • N’oublions pas la dimension « Temps » • On choisira l’hiérarchie suivante: • Jour - Semaine - Mois - Trimestre - Semestre - Année 10/01/2022
49 10/01/2022
50 • Aperçu de la table « Temps » 10/01/2022
51 10/01/2022
52 CRÉATION DES SCHÉMAS • Rappel: • Schéma en étoile • Schéma en flocon de neige 10/01/2022
53 SCHÉMA EN ÉTOILE • Table de faits centralisée: 10/01/2022
54 SCHÉMA EN FLOCON DE NEIGE • Hiérarchie des dimensions: 10/01/2022
55 • Ainsi, notre modèle sera modélisé en flocon de neige puisque la dimension « Géographie » est partagée entre deux diemnsions. 10/01/2022
56 10/01/2022
57 CRÉATION D’UN CUBE DE DONNÉES • SQL Services Analysis Services (SSAS) est le service de bases de données multidimensionnelles. • Analysis Services n’est pas un outil de restitution de données mais une base de données orientée vers l’utilisateur. 10/01/2022
58 • La construction du cube Analysis Services se réalise avec l’outil SQL Server Business Intelligence Developpement Studio (BIDS) alors que la gestion et l’administration des modèles se réalisent avec l’outil SQL Server Management Studio (SSMS) 10/01/2022
59 • Lancer BIDS et créer un nouveau projet 10/01/2022
60 10/01/2022
61 • Les étapes à suivre sont: • Création de la source de données • Création de la vue de source de données (DSV) • Création du cube 10/01/2022
62 • Création de la source de données 10/01/2022
63 10/01/2022
64 • Ensuite, il faut sélectionner la table de fait ainsi que les dimensions concernés 10/01/2022
65 10/01/2022
66 • Une fois l’importation faite, on sélectionne la table des faits et on choisit l’option « Afficher les tables associés » • Cette option permet de représenter les liens entre les différents dimensions et sera très utile si on a plusieurs tables de faits et/ou dimensions 10/01/2022
67 10/01/2022
68 • Une fois tout est prêt, on passe à la création du cube: 10/01/2022
69 • 1ère étape: Sélectionne r la table de faits et ses mesures 10/01/2022
70 10/01/2022
71 • 2ème étape: • Les dimensions relatifs à la table de faits sont automatiquement détectés • Notons que la dim. Géographie n’est pas sélectionnée 10/01/2022
72 10/01/2022
73 10/01/2022
74 10/01/2022
75 10/01/2022
76 PHASE ETL • Ce processus assure les 3 tâches suivantes: • Extraction • Transformation • Chargement 10/01/2022
77 • Voici le déroulement du processus: 10/01/2022
78 • Les données ne vont pas transiter directement des systèmes sources vers le datawarehosuse. • Les données vont transiter par au moins un palier : le sas de données. • Dans notre cas, nous appellerons cette base Distrisys. SA. • Le chargement va se faire suivant ce schéma de principe : 10/01/2022
79 10/01/2022
80 10/01/2022
81 10/01/2022
82 10/01/2022
83 RÉALISER UN FLUX POUR CHARGER UNE TABLE DE FAITS • Il fait suite au chargement et à la mise à jour de toutes les tables de dimension. • Il doit s’assurer, avant l’insertion, des contraintes d’intégrité entre la table de faits et ses dimensions. • Il possède toutes les caractéristiques d’un flux ETL : Extraction simple d’une source, puis passage par des tâches de transformations et d’évaluation des données, et enfin chargement des données. 10/01/2022
84 10/01/2022
85 La tâche Nettoyage des chaînes de caractères, s’assure que des espaces, à droite ou à gauche de la chaîne de caractères identifiant notamment un code, ne viennent pas polluer la compréhension de la donnée. 10/01/2022
86 10/01/2022
87 • Au niveau de la tâche Recherche Date. Facturation_FK, la configuration est la suivante : • La table de référence est Dim. Temps. • Le mapping est réalisé entre le champ Date. Facturation en provenance de la source de données et le champ Date de la table de dimension Dim. Temps. • Le champ Temps_PK, renommé Datefacturation_FK est en sortie de correspondance. 10/01/2022
88 10/01/2022
89 10/01/2022
90 • Enfin, on procède à la tâche de chargement: • Notons que l’option Vérifier les contraintes est désactivée, puisque les tâches de Recherche s’en sont déjà assurées. 10/01/2022
91 10/01/2022
92 • Le deuxième flux s’oriente vers une tâche de type Agrégation qui joue en fait le rôle d’un Group By en SQL. • Cette tâche va regrouper les données suivant les colonnes Date. Facturation_FK, Site_FK et Client_FK et compter le nombre de lignes distinctes Produit_PK, pour en déduire le nombre d’articles différents que comprend la facture. 10/01/2022
93 10/01/2022
94 10/01/2022
95 10/01/2022