DATA WAREHOUSE DATA MINING l l l 1
- Slides: 28
DATA WAREHOUSE - DATA MINING l l l 1 Motivations et architecture Le multidimensionnel Le data mining La recherche de règles associatives Conclusion G. Gardarin
1. OLTP versus OLAP 2 G. Gardarin
Explosion de l ’OLAP l Facteurs économiques & technologiques 15 10 Milliards de $ 5 1999 1998 1997 1996 1995 1994 0 Années 3 G. Gardarin
Motivations des entreprises l Besoin des entreprises § § § l accéder à toutes les données de l’entreprise regrouper les informations disséminées dans les bases analyser et prendre des décisions rapidement (OLAP) Exemples d'applications concernées § Bancaire : suivi des clients, gestion de portefeuilles l § mailing ciblés pour le marketing Grande distribution : marketing, maintenance, . . . l l produits à succès, modes, habitudes d’achat préférences par secteurs géographiques § Télécommunications : pannes, fraudes, mobiles, . . . l 4 classification des clients, détection fraudes, fuites de clients, etc. § Médecine, Pharmacie, Bourse, Production, … G. Gardarin
L'approche entrepôt de données l Datawarehouse § l Trois fonctions essentiels : § § § 5 Ensemble de données historisées variant dans le temps, organisé par sujets, consolidé dans une base de données unique, géré dans un environnement de stockage particulier, aidant à la prise de décision dans l’entreprise. collecte de données de bases existantes et chargement gestion des données dans l’entrepôt analyse de données pour la prise de décision G. Gardarin
Architecture type Présentation Datawarehouse Client décisionnel Exploration Analyse BD Entrepôt Client décisionnel Médiateur Transformation, Fusion Extraction, Filtrage Moniteur/Adapteur Source Données externes 6 Moniteur/Adapteur BD Source BD source BD légataires Données opérationnelles G. Gardarin
Datamart (Magasin de données) l sous-ensemble de données extrait du datawarehouse et ciblé sur un sujet unique Bases multidimensionnelles Data Warehouse Bases de production Data Marts SGBD relationnel Outils d’alimentation Bases externes 7 Outils d ’extraction Bases relationnelles G. Gardarin
Bilan Entrepôt l l Le datawarehouse regroupe, historise, résume les données de l ’entreprise Le concepteur définit schéma exportés et intégrés § des choix fondamentaux ! § Ciblage essentiel ! l Le datamart c’est plus ciblé et plus petit. l Questions ? § Peut-on ajouter des données au niveau de l ’entrepôt ? 8 G. Gardarin
2. Modélisation multidimensionnelle l Dimensions: § § § l Indicateurs: § § 9 Temps Géographie Produits Clients Canaux de ventes. . . Nombre d’unités vendues CA Coût Marge. . . G. Gardarin
Le data cube et les dimensions Axe d'analyse: La géographie (Pays - région - ville) Variables analysées: Nb unités, CA, marge. . . Axe d'analyse: Les produits (classe, produit) Axe d'analyse: Le temps (Année, trimestre, mois, semaine) 10 Axes d'analyse: dimensions Variables analysées: indicateurs G. Gardarin
La granularité des dimensions Temps Jours Géographie Produits 11 Villes Numéros Mois Trimestres Régions Types Années Pays Gammes Marques G. Gardarin
La navigation multidimensionnelle Projection en 2 dimensions Produits Coupe d ’un cube Produits pour une région donnée CA CA Région Temps en semaines Réduction selon 1 dimension Zoom selon une dimension Produits France CA Est Sud Ouest Temps en mois Lyon 12 Marseille Nice G. Gardarin
Les vues d'un cube l l Partant d'un cube 3 D, il est possible d'agréger selon une dimension tournante On obtient un treillis de vues (calculable en SQL) Num. Pro, Num. Fou, Date Num. Pro, Num. Fou Num. Pro, Date Num. Fou, Date Num. Pro 13 Num. Fou Date G. Gardarin
ROLAP versus MROLAP SQL+Cube Analyseur Optimiseur Opérateurs relationnels 14 Opérateurs décisionnels Cache SGBD SQL+Cube Opérateurs décisionnels Cache Cube SQL Analyseur Optimiseur Opérateurs relationnels Cache SGBD G. Gardarin
Bilan OLAP l l La modélisation multidimensionnelle est adaptée à l ’analyse de données Le datacube est au centre du processus décisionnel § transformation et visualisation 3 D § une algèbre du cube : l l Slice, Dice, Rollup, Drilldown Questions ? § Combien de datacubes à partir de N variables ? 15 G. Gardarin
3. Qu ’est-ce-que le data mining ? l Data mining § ensembles de techniques d'exploration de données afin d'en tirer des connaissances (la substantifique moelle) sous forme de modèles présentées à l ’utilisateur averti pour examen Données entrepôt l Connaissances Data mining Connaissances Découverte de modèles Compréhension Prédiction § analyses (distribution du trafic en fonction de l ’heure) § scores (fidélité d ’un client), classes (mauvais payeurs) § règles (si facture > 10000 alors départ à 70%) 16 G. Gardarin
Domaines d'utilisation l De plus en plus de domaines § explosion des données historisées § puissance des machines support l 17 Quelques domaines réputés § § § § Analyse de risque (Assurance) Marketing Grande distribution Médecine, Pharmacie Analyse financière Gestion de stocks Maintenance Contrôle de qualité G. Gardarin
Mécanismes de base l Déduction : base des systèmes experts § § l Induction : base du data mining § § § 18 schéma logique permettant de déduire un théorème à partir d'axiomes le résultat est sûr, mais la méthode nécessite la connaissance de règles méthode permettant de tirer des conclusions à partir d'une série de faits généralisation un peu abusive indicateurs de confiance permettant la pondération G. Gardarin
Découverte de modèles l Description ou prédiction Confiance Entrées Sortie l l l 19 Apprentissage sur la base Utilisation pour prédire le futur Exemple : régression linéaire Y = a X + B G. Gardarin
Principales Techniques l Analyse statistique § régression linéaire § régression logistique § réseaux baysiens l Découverte de modèles fonctionnels § fonctions probabilistes § réseaux de neurones l Segmentation § K-moyennes § Raisonnement à base de cas l 21 Classification § arbres de décision § réseaux d'agents G. Gardarin
Règles associatives l La découverte de règles § découverte de relations plus fines entre données § du style si X alors Y l l l si Achat(Vin) alors Achat(Boursin) (10%, 15%) su Achat(Pain) & Achat(Fromage) alors Achat(Vin) (70%, 80%) Support : probabilité absolue P(XY) § |XY|/ |BD| = % de transactions vérifiant la règle l Confiance : probabilité conditionnelle P(Y/X) § |XY|/|X| = % de transactions vérifiant l'implication = sup(XY) / sup(X) l Comment extraire les règles intéressantes ? § exemple : Supp. > 0. 1 et Conf. > 0. 7 § comment optimiser les calculs d'indicateurs sur des VLDB? 22 G. Gardarin
Recherche des règles intéressantes l Nécessité de calculer les supports § de tous les produits => 1 -ensemble fréquent § de tous les ensembles suceptibles d ’être fréquents l La confiance se déduit du support § conf (X-->Y) = suup(X) / sup(XY) l l l 23 Un ensemble de taille k est appelé un k-ensemble. Un ensemble de support plus grand que minsup est fréquent. Tout k-ensemble fréquent est composé de (k-1)ensembles fréquents § en effet, un ensemble ne peut être fréquent si ses sous G. Gardarin ensembles ne le sont pas
Comment évaluer efficacement ? l l l Réduire le nombre de passes (I/O) Réduire le temps CPU Nombreux algorithmes § § § 24 Apriori [Agrawal & Imielinski & Swami] Apriori-tid [Agrawal & Srikant] Partition[Savasete & Omseinski & Navatgr] Dynamic Counting [Brin & Ullman & Tsur] Bitmap [Gardarin & Pucheral & Fei]. . . G. Gardarin
Des règles plus générales l Les règles multi-attributs : § associent des valeurs d'attributs distincts § telephone : Source = "New-York" => Cible ="Paris" (5%, 30%) l Les règles à attributs numériques : § règles de la forme A��� [x, y] => C ou A est un attribut numérique et C une condition : il faut trouver x et y. § exemple Age ��[x, y] => Salaire > 300 KF (5%, 30%) x? y? l Les règles négatives et/ou disjonctives : § Expr(Ci) => Expr(Cj) avec ET, OU, NOT l 25 Les règles avec généralisation § associée à une taxonomie G. Gardarin
Les règles cycliques l Les règles cycliques : § règles vérifiées périodiquement § ex : tout les matins, café => sucre, gâteaux § X=>Ycycle (l, o) signifie que X=>Y tous les l unités de temps en commençant au temps o. l Les patterns séquentiels : § séquence d’items § similaire aux règles associatives mais l’ordre est important § exemple : achat de chaussures, puis de pantalons, puis de chemises 26 G. Gardarin
5. Conclusion l De nombreuses techniques d'exploration § La plupart ne passe pas à l'échelle l l limitées à quelques milliers d ’objets échantillonner puis valider § Un bon outil doit proposer plusieurs techniques ! l Les problèmes : § § § 27 Comment explorer de volumineuses bases de données ? L’index bitmap est intéressant pour les règles associatives Trouver d ’autres structures d ’indexation Maintenance incrémental des règles ? Exploration de types de données complexes ? Parallélisation des algorithmes ? G. Gardarin
Quelques produits l Data. Mind de Datamind SA § classification, modèles fonctionnels (agents), statistiques l Knowledge Seeker d'Angoss § statistiques, classification, arbres de décision l SPSS Chaid et Neural Connection de SPSS § statistiques, classification, réseaux de neurones l Mine. Set de Silicon Graphics § classification, visualisation de règles l SAS de SAS § Statistiques, arbres de décision, réseaux de neurones l 28 Intelligent Miner d'IBM, Clementine de Integral Solutions. . . G. Gardarin
Les Data Trucs l l Database Datawarehouse § entrepôt des données historisées de l'entreprise l Datamart § magasin de données ciblé sur un ou plusieurs sujets l Data mining § exploration des données afin de découvrir des connaissances l Datacube § cube de présentation d'unités selon 3 dimensions l Datawebhouse § entrepôt des données collectées sur le web 29 G. Gardarin
- Data mining in data warehouse
- Data warehouse dan data mining
- Data mining dan data warehouse
- Olap in data mining
- What are the three layers of data warehouse architecture
- Data warehouse dan data mining
- Datamart olap
- Eck
- Mining multimedia databases
- Strip mining vs open pit mining
- Strip mining vs open pit mining
- Difference between strip mining and open pit mining
- Difference between text mining and web mining
- Contoh data mart
- Components of data warehouse
- Apa itu data mart
- Introduction to data warehouse
- What is data acquisition in data warehouse
- Data warehouse vs data mart
- Data reduction in data mining
- What is missing data in data mining
- Concept hierarchy generation for nominal data
- Data reduction in data mining
- Data reduction in data mining
- Shell cube in data mining
- Data reduction in data mining
- Mining complex types of data
- Noisy data in data mining
- Data preparation for data mining