DATA WAREHOUSE DATA MINING l l l 1

  • Slides: 28
Download presentation
DATA WAREHOUSE - DATA MINING l l l 1 Motivations et architecture Le multidimensionnel

DATA WAREHOUSE - DATA MINING l l l 1 Motivations et architecture Le multidimensionnel Le data mining La recherche de règles associatives Conclusion G. Gardarin

1. OLTP versus OLAP 2 G. Gardarin

1. OLTP versus OLAP 2 G. Gardarin

Explosion de l ’OLAP l Facteurs économiques & technologiques 15 10 Milliards de $

Explosion de l ’OLAP l Facteurs économiques & technologiques 15 10 Milliards de $ 5 1999 1998 1997 1996 1995 1994 0 Années 3 G. Gardarin

Motivations des entreprises l Besoin des entreprises § § § l accéder à toutes

Motivations des entreprises l Besoin des entreprises § § § l accéder à toutes les données de l’entreprise regrouper les informations disséminées dans les bases analyser et prendre des décisions rapidement (OLAP) Exemples d'applications concernées § Bancaire : suivi des clients, gestion de portefeuilles l § mailing ciblés pour le marketing Grande distribution : marketing, maintenance, . . . l l produits à succès, modes, habitudes d’achat préférences par secteurs géographiques § Télécommunications : pannes, fraudes, mobiles, . . . l 4 classification des clients, détection fraudes, fuites de clients, etc. § Médecine, Pharmacie, Bourse, Production, … G. Gardarin

L'approche entrepôt de données l Datawarehouse § l Trois fonctions essentiels : § §

L'approche entrepôt de données l Datawarehouse § l Trois fonctions essentiels : § § § 5 Ensemble de données historisées variant dans le temps, organisé par sujets, consolidé dans une base de données unique, géré dans un environnement de stockage particulier, aidant à la prise de décision dans l’entreprise. collecte de données de bases existantes et chargement gestion des données dans l’entrepôt analyse de données pour la prise de décision G. Gardarin

Architecture type Présentation Datawarehouse Client décisionnel Exploration Analyse BD Entrepôt Client décisionnel Médiateur Transformation,

Architecture type Présentation Datawarehouse Client décisionnel Exploration Analyse BD Entrepôt Client décisionnel Médiateur Transformation, Fusion Extraction, Filtrage Moniteur/Adapteur Source Données externes 6 Moniteur/Adapteur BD Source BD source BD légataires Données opérationnelles G. Gardarin

Datamart (Magasin de données) l sous-ensemble de données extrait du datawarehouse et ciblé sur

Datamart (Magasin de données) l sous-ensemble de données extrait du datawarehouse et ciblé sur un sujet unique Bases multidimensionnelles Data Warehouse Bases de production Data Marts SGBD relationnel Outils d’alimentation Bases externes 7 Outils d ’extraction Bases relationnelles G. Gardarin

Bilan Entrepôt l l Le datawarehouse regroupe, historise, résume les données de l ’entreprise

Bilan Entrepôt l l Le datawarehouse regroupe, historise, résume les données de l ’entreprise Le concepteur définit schéma exportés et intégrés § des choix fondamentaux ! § Ciblage essentiel ! l Le datamart c’est plus ciblé et plus petit. l Questions ? § Peut-on ajouter des données au niveau de l ’entrepôt ? 8 G. Gardarin

2. Modélisation multidimensionnelle l Dimensions: § § § l Indicateurs: § § 9 Temps

2. Modélisation multidimensionnelle l Dimensions: § § § l Indicateurs: § § 9 Temps Géographie Produits Clients Canaux de ventes. . . Nombre d’unités vendues CA Coût Marge. . . G. Gardarin

Le data cube et les dimensions Axe d'analyse: La géographie (Pays - région -

Le data cube et les dimensions Axe d'analyse: La géographie (Pays - région - ville) Variables analysées: Nb unités, CA, marge. . . Axe d'analyse: Les produits (classe, produit) Axe d'analyse: Le temps (Année, trimestre, mois, semaine) 10 Axes d'analyse: dimensions Variables analysées: indicateurs G. Gardarin

La granularité des dimensions Temps Jours Géographie Produits 11 Villes Numéros Mois Trimestres Régions

La granularité des dimensions Temps Jours Géographie Produits 11 Villes Numéros Mois Trimestres Régions Types Années Pays Gammes Marques G. Gardarin

La navigation multidimensionnelle Projection en 2 dimensions Produits Coupe d ’un cube Produits pour

La navigation multidimensionnelle Projection en 2 dimensions Produits Coupe d ’un cube Produits pour une région donnée CA CA Région Temps en semaines Réduction selon 1 dimension Zoom selon une dimension Produits France CA Est Sud Ouest Temps en mois Lyon 12 Marseille Nice G. Gardarin

Les vues d'un cube l l Partant d'un cube 3 D, il est possible

Les vues d'un cube l l Partant d'un cube 3 D, il est possible d'agréger selon une dimension tournante On obtient un treillis de vues (calculable en SQL) Num. Pro, Num. Fou, Date Num. Pro, Num. Fou Num. Pro, Date Num. Fou, Date Num. Pro 13 Num. Fou Date G. Gardarin

ROLAP versus MROLAP SQL+Cube Analyseur Optimiseur Opérateurs relationnels 14 Opérateurs décisionnels Cache SGBD SQL+Cube

ROLAP versus MROLAP SQL+Cube Analyseur Optimiseur Opérateurs relationnels 14 Opérateurs décisionnels Cache SGBD SQL+Cube Opérateurs décisionnels Cache Cube SQL Analyseur Optimiseur Opérateurs relationnels Cache SGBD G. Gardarin

Bilan OLAP l l La modélisation multidimensionnelle est adaptée à l ’analyse de données

Bilan OLAP l l La modélisation multidimensionnelle est adaptée à l ’analyse de données Le datacube est au centre du processus décisionnel § transformation et visualisation 3 D § une algèbre du cube : l l Slice, Dice, Rollup, Drilldown Questions ? § Combien de datacubes à partir de N variables ? 15 G. Gardarin

3. Qu ’est-ce-que le data mining ? l Data mining § ensembles de techniques

3. Qu ’est-ce-que le data mining ? l Data mining § ensembles de techniques d'exploration de données afin d'en tirer des connaissances (la substantifique moelle) sous forme de modèles présentées à l ’utilisateur averti pour examen Données entrepôt l Connaissances Data mining Connaissances Découverte de modèles Compréhension Prédiction § analyses (distribution du trafic en fonction de l ’heure) § scores (fidélité d ’un client), classes (mauvais payeurs) § règles (si facture > 10000 alors départ à 70%) 16 G. Gardarin

Domaines d'utilisation l De plus en plus de domaines § explosion des données historisées

Domaines d'utilisation l De plus en plus de domaines § explosion des données historisées § puissance des machines support l 17 Quelques domaines réputés § § § § Analyse de risque (Assurance) Marketing Grande distribution Médecine, Pharmacie Analyse financière Gestion de stocks Maintenance Contrôle de qualité G. Gardarin

Mécanismes de base l Déduction : base des systèmes experts § § l Induction

Mécanismes de base l Déduction : base des systèmes experts § § l Induction : base du data mining § § § 18 schéma logique permettant de déduire un théorème à partir d'axiomes le résultat est sûr, mais la méthode nécessite la connaissance de règles méthode permettant de tirer des conclusions à partir d'une série de faits généralisation un peu abusive indicateurs de confiance permettant la pondération G. Gardarin

Découverte de modèles l Description ou prédiction Confiance Entrées Sortie l l l 19

Découverte de modèles l Description ou prédiction Confiance Entrées Sortie l l l 19 Apprentissage sur la base Utilisation pour prédire le futur Exemple : régression linéaire Y = a X + B G. Gardarin

Principales Techniques l Analyse statistique § régression linéaire § régression logistique § réseaux baysiens

Principales Techniques l Analyse statistique § régression linéaire § régression logistique § réseaux baysiens l Découverte de modèles fonctionnels § fonctions probabilistes § réseaux de neurones l Segmentation § K-moyennes § Raisonnement à base de cas l 21 Classification § arbres de décision § réseaux d'agents G. Gardarin

Règles associatives l La découverte de règles § découverte de relations plus fines entre

Règles associatives l La découverte de règles § découverte de relations plus fines entre données § du style si X alors Y l l l si Achat(Vin) alors Achat(Boursin) (10%, 15%) su Achat(Pain) & Achat(Fromage) alors Achat(Vin) (70%, 80%) Support : probabilité absolue P(XY) § |XY|/ |BD| = % de transactions vérifiant la règle l Confiance : probabilité conditionnelle P(Y/X) § |XY|/|X| = % de transactions vérifiant l'implication = sup(XY) / sup(X) l Comment extraire les règles intéressantes ? § exemple : Supp. > 0. 1 et Conf. > 0. 7 § comment optimiser les calculs d'indicateurs sur des VLDB? 22 G. Gardarin

Recherche des règles intéressantes l Nécessité de calculer les supports § de tous les

Recherche des règles intéressantes l Nécessité de calculer les supports § de tous les produits => 1 -ensemble fréquent § de tous les ensembles suceptibles d ’être fréquents l La confiance se déduit du support § conf (X-->Y) = suup(X) / sup(XY) l l l 23 Un ensemble de taille k est appelé un k-ensemble. Un ensemble de support plus grand que minsup est fréquent. Tout k-ensemble fréquent est composé de (k-1)ensembles fréquents § en effet, un ensemble ne peut être fréquent si ses sous G. Gardarin ensembles ne le sont pas

Comment évaluer efficacement ? l l l Réduire le nombre de passes (I/O) Réduire

Comment évaluer efficacement ? l l l Réduire le nombre de passes (I/O) Réduire le temps CPU Nombreux algorithmes § § § 24 Apriori [Agrawal & Imielinski & Swami] Apriori-tid [Agrawal & Srikant] Partition[Savasete & Omseinski & Navatgr] Dynamic Counting [Brin & Ullman & Tsur] Bitmap [Gardarin & Pucheral & Fei]. . . G. Gardarin

Des règles plus générales l Les règles multi-attributs : § associent des valeurs d'attributs

Des règles plus générales l Les règles multi-attributs : § associent des valeurs d'attributs distincts § telephone : Source = "New-York" => Cible ="Paris" (5%, 30%) l Les règles à attributs numériques : § règles de la forme A��� [x, y] => C ou A est un attribut numérique et C une condition : il faut trouver x et y. § exemple Age ��[x, y] => Salaire > 300 KF (5%, 30%) x? y? l Les règles négatives et/ou disjonctives : § Expr(Ci) => Expr(Cj) avec ET, OU, NOT l 25 Les règles avec généralisation § associée à une taxonomie G. Gardarin

Les règles cycliques l Les règles cycliques : § règles vérifiées périodiquement § ex

Les règles cycliques l Les règles cycliques : § règles vérifiées périodiquement § ex : tout les matins, café => sucre, gâteaux § X=>Ycycle (l, o) signifie que X=>Y tous les l unités de temps en commençant au temps o. l Les patterns séquentiels : § séquence d’items § similaire aux règles associatives mais l’ordre est important § exemple : achat de chaussures, puis de pantalons, puis de chemises 26 G. Gardarin

5. Conclusion l De nombreuses techniques d'exploration § La plupart ne passe pas à

5. Conclusion l De nombreuses techniques d'exploration § La plupart ne passe pas à l'échelle l l limitées à quelques milliers d ’objets échantillonner puis valider § Un bon outil doit proposer plusieurs techniques ! l Les problèmes : § § § 27 Comment explorer de volumineuses bases de données ? L’index bitmap est intéressant pour les règles associatives Trouver d ’autres structures d ’indexation Maintenance incrémental des règles ? Exploration de types de données complexes ? Parallélisation des algorithmes ? G. Gardarin

Quelques produits l Data. Mind de Datamind SA § classification, modèles fonctionnels (agents), statistiques

Quelques produits l Data. Mind de Datamind SA § classification, modèles fonctionnels (agents), statistiques l Knowledge Seeker d'Angoss § statistiques, classification, arbres de décision l SPSS Chaid et Neural Connection de SPSS § statistiques, classification, réseaux de neurones l Mine. Set de Silicon Graphics § classification, visualisation de règles l SAS de SAS § Statistiques, arbres de décision, réseaux de neurones l 28 Intelligent Miner d'IBM, Clementine de Integral Solutions. . . G. Gardarin

Les Data Trucs l l Database Datawarehouse § entrepôt des données historisées de l'entreprise

Les Data Trucs l l Database Datawarehouse § entrepôt des données historisées de l'entreprise l Datamart § magasin de données ciblé sur un ou plusieurs sujets l Data mining § exploration des données afin de découvrir des connaissances l Datacube § cube de présentation d'unités selon 3 dimensions l Datawebhouse § entrepôt des données collectées sur le web 29 G. Gardarin