Le Data mining pour la fouille de donnes

  • Slides: 57
Download presentation
Le « Data mining » pour la fouille de données Cours INF 7115 Bases

Le « Data mining » pour la fouille de données Cours INF 7115 Bases de données Hiver 2004, groupe 10 Par: Javier Bentancur, Youssef Khlouf et Yvon L’Abbé 1

Motivation ® Pourquoi nous intéresser à ce sujet ? Élargir nos connaissances, Ø Évolution

Motivation ® Pourquoi nous intéresser à ce sujet ? Élargir nos connaissances, Ø Évolution normale sur le thème des bases de données, Ø Complément du « data-warehousing » pour une création de base de connaissances, Ø Un sujet de recherches d’actualité. Ø 2

Sommaire ® Introduction ® Domaines d’applications ® Catégories principales ® Le « Clustering »

Sommaire ® Introduction ® Domaines d’applications ® Catégories principales ® Le « Clustering » ® Algorithmes et logiciels ® Comparaison ® La recherche ® Conclusion 3

Vision ® Les découvertes de pépites d’or et de diamants sont évoqués bien souvent

Vision ® Les découvertes de pépites d’or et de diamants sont évoqués bien souvent lorsqu’il est question de « data mining » . ® Ces découvertes sont destinées à l’obtention d’avantages compétitifs, à améliorer le service à la clientèle et finalement, les profits. 4

Introduction ® Le savoir est source de pouvoir ® Les données qui dorment peuvent

Introduction ® Le savoir est source de pouvoir ® Les données qui dorment peuvent être dynamisées par des experts ou des logiciels « intelligents » ® Fouiller pour en extraire la quintessence ® Il faut une accélérer la synthèse de l’information à partir des données qui s’accumulent à grande vitesse 5

Actualité choc ® « Le Congrès coupe les fonds à un organisme qui a

Actualité choc ® « Le Congrès coupe les fonds à un organisme qui a créé un programme de fouille de données, soupçonné d’empiéter sur la vie privée de citoyens américains, sans raisons valables. » Washington Times, Audrey Hudson, 26 sept. 2003 Ce programme fut perçu comme le plus ambitieux aux USA pour la surveillance de citoyens en sol américain. 6

Le plaidoyer du milieu 1 - La technologie de fouille de données est une

Le plaidoyer du milieu 1 - La technologie de fouille de données est une te d’analyse qui doit être distinguée de la collecte ou l’agrégation des données et leurs utilisations. 2 - Support de la recherche dans la découverte de d’actions de médicaments, pour la biologie et les applications de protection de la vie, autant que pou d’innombrable applications d’affaires et de science 7

Constatations ® ® ® Les données aident à apprendre du passé pour prédire le

Constatations ® ® ® Les données aident à apprendre du passé pour prédire le futur Au rythme de croissance des banques de données, les statistiques n’arrivent plus à tout analyser Le data mining a émergé comme un domaine grandissant de recherches multidisciplinaires Cette technique est définie comme l’extraction de liens implicites, jusque-là inconnus et potentiellement utiles Une importante source de savoir serait donc à la porté de la main 8

 • Affaires • Insurance Premium Increase Optimization: Case Study • Insurance Fraud Detection:

• Affaires • Insurance Premium Increase Optimization: Case Study • Insurance Fraud Detection: MARS vs. Neural Networks • Predicting Customer Behavior Trends Over Space and Time • CART/ MARS Risk Assessment of Automobile Loans and Leases • Combined Time Series and Cross Sectional CART Modeling for Common Stock Selection Scientifiques • The Importance of CART and MARS in Environmental Fate and Risk Assessment for Pesticides • Atmospheric Pollution Forecasting" • Predictive and Spatial Modeling Applications for Wildlife Research and Conservation Biomédical • Using CART to Develop a Diagnostic Tool for Erectile Dysfunction • Using CART to Discern Models in Genetics: Alcoholism, Alzheimers and Aging • CART for Outcome Predictions in Clinical Settings: Emergency Department Triage, • Survival Prediction and Prediction of Neurologic Survival" • Application of MARS to Gene Expression Data: Predictive Models of Gene Regulation • Mining SELDI Protein. Chip Data for Biomarkers and Disease Stratification Découverte de médicaments • Drug Discovery using CART and MARS • Improving the Ability to Predict Drug-Like Compounds from Virtual Screening Using CART • CART in Drug Discovery: Identifying Rules for Making Better Small Molecules 9 • Drug Discovery Clinical Trials and Random Forests at Novartis

Définition ® “The process of exploration and analysis, by automatic or semi-automatic means, of

Définition ® “The process of exploration and analysis, by automatic or semi-automatic means, of large quantities of data in order to discover meaningful patterns and rules”. Knowledge Discovery ® Une classe d’applications de bases de données qui cherche des liens cachés dans un groupe de données qui peuvent être utilisés pour prédire un comportement futur. 10

“Data Mining” ® « Comment arriver à trouver un diamant dans un tas de

“Data Mining” ® « Comment arriver à trouver un diamant dans un tas de charbon sans se salir les mains » ! ® Le “Data Mining” ce n’est pas le “Data Warehousing”, ni OLAP. 11

Data mining & Entrepôt de données BD opérationnelle (OLTP) Extraction : épuration, filtrage, synthèse,

Data mining & Entrepôt de données BD opérationnelle (OLTP) Extraction : épuration, filtrage, synthèse, transformation, fusion Entrepôt de données « Data Wharehouse » Outils Data mining Autre source de données 12

Principales phases ® Compréhension du domaine et des buts ® Extraction de groupes de

Principales phases ® Compréhension du domaine et des buts ® Extraction de groupes de données cibles ® Purification des données ® Sélection de la tâche appropriée ® Sélection de l’algorithme de traitement ® Triturer les données pour en découvrir les secrets ® Passage au crible des liens découvert pour mettre en valeur les plus prometteurs 13

Casino Harrah’s ® Comment s’assurer de la loyauté des clients ? Ø Acquérir une

Casino Harrah’s ® Comment s’assurer de la loyauté des clients ? Ø Acquérir une information riche et complète par un système impliquant des cartes de membres Ø Triturer finement les données pour faciliter l’analyse Ø Utiliser la fouille de données pour identifier les clients principaux et prédire leur valeur à long terme Ø Obtenir d’avantage d’informations sur les préférences des clients, de sorte à les satisfaire Ø Déployer des stratégies de marketing intelligentes Ø Récompenser les employés qui donnent la priorité au service ! 14

Data mining 3, 920, 000 liens ! 15

Data mining 3, 920, 000 liens ! 15

Catégories principales en fouilles de données ® Classification ® Association ® Séquençage/profil temporel ®

Catégories principales en fouilles de données ® Classification ® Association ® Séquençage/profil temporel ® Regroupement/segmentation (Clustering) 16

Classification ® Chercher les règles pour prédire la classe à la quelle le cas

Classification ® Chercher les règles pour prédire la classe à la quelle le cas appartient à partir des attributs prédictifs. ® Technique supervisée : définition d’au moins un attribut. ® Catégorie des règles : Ø exactes (sans exceptions) Ø fortes (avec quelques exceptions) Ø probables (conditionnées à la probabilité) Ø de classification (avec assez de conditions pour classifier les objets). 17

Association ® Opération sur les éléments d’une collection d’objets qui donnent pour résultat les

Association ® Opération sur les éléments d’une collection d’objets qui donnent pour résultat les affinités trouvées parmi les éléments de la collection ® Le résultat est présenté comme règle : Ø « Le 70 % des éléments dans la collection qui contient l’élément A contient aussi les éléments D et F » ® L’usage le plus commun est la recherche de liens entre les produits achetés dans un super marché 18

Séquençage / profil temporel ® Consiste à analyser une collection de donnés pendant quelques

Séquençage / profil temporel ® Consiste à analyser une collection de donnés pendant quelques périodes de temps, pour identifier tendances. ® Trouve des liens entre des clients et les profils de fréquence des achats. 19

Regroupement / Clustering ® Processus par lequel seront créés des groupes de données +

Regroupement / Clustering ® Processus par lequel seront créés des groupes de données + ®Les objets dans ces groupes doivent présenter des similarités entre eux et se différencier des autres. ( ~ = ) 20

Type de Clustering pour le Data mining ® supervisé Ø savoir spécifiquement ce que

Type de Clustering pour le Data mining ® supervisé Ø savoir spécifiquement ce que nous recherchons. Input Processus Output 21

Type de Clustering ® Non Ø supervisé Pas exactement certain de ce que nous

Type de Clustering ® Non Ø supervisé Pas exactement certain de ce que nous recherchons Input Output 22

Différentes techniques ® ® ® Arbres de décision Réseaux neuronaux Régression Clustering Etc. Clustering

Différentes techniques ® ® ® Arbres de décision Réseaux neuronaux Régression Clustering Etc. Clustering Arbres de décision Neural Networks 23

Classification d’algorithmes de “Clustering” Hiérarchiques ® De partitionnement ® À base de densité ®

Classification d’algorithmes de “Clustering” Hiérarchiques ® De partitionnement ® À base de densité ® À base de grille ® 24

Méthodes de groupement ®Hiérarchiques Ø Séquences nichées de partitions Ø Agglomération • Chaque objet

Méthodes de groupement ®Hiérarchiques Ø Séquences nichées de partitions Ø Agglomération • Chaque objet est un groupe Ø Division • L’ensemble est divisé en groupes plus petits. Ø CURE, CHAMALEON, (BIRCH) 25

Méthodes de groupement ®Partitionnement Ø Groupement d’objets avec similarités entre eux et différenciés des

Méthodes de groupement ®Partitionnement Ø Groupement d’objets avec similarités entre eux et différenciés des autres. Ø CLARANS 26

Méthodes de groupement ®Densité Des Clusters sont des régions denses séparées par régions moins

Méthodes de groupement ®Densité Des Clusters sont des régions denses séparées par régions moins denses Ø DBSCAN, DENCLUE, OPTICS Ø ®Grille L’espace est divisé en segments rectangulaires Ø CLIQUE, STING Ø 27

Problèmes à résoudre ® Densité Ø d’information Différents attributs et domaines complexes (multimédia) ®

Problèmes à résoudre ® Densité Ø d’information Différents attributs et domaines complexes (multimédia) ® Interprétation Ø Assimilation par l’usager ® Ordre Ø Ø des résultats des données Vitesse d’obtention des résultats Nombre de lectures ® Qualité des groupes ® Bruit 28

Exemples d’algorithmes de Clustering CLARANS BIRCH DBSCAN CLIQUE OPTICS 29

Exemples d’algorithmes de Clustering CLARANS BIRCH DBSCAN CLIQUE OPTICS 29

CLARANS ® Usage pour la statistique ® Cluster : point central ® Data mining

CLARANS ® Usage pour la statistique ® Cluster : point central ® Data mining spatial ® K-medoid Maxneighbour Ø Local minimun Ø ® Recherche : R-Tree, plus de vitesse mais moins de qualité Clustering LARge Applications 30

BIRCH ® Très grande base de données ® Différences entre clusters et bruit Points

BIRCH ® Très grande base de données ® Différences entre clusters et bruit Points plus importantes qu’autres Ø Sommaire compacte Ø ® Mémoire disponible ® Une seule lecture, O(N) ® CF-tree (Cluster Feature) ® Recherche: parallélisme et apprentissage Balanced Iterative Reducing and Clustering using Hierarc 31

BIRCH 32

BIRCH 32

 • Image : 512 x 1024 pixels • BIRCH: 400 Kb mémoire, 80

• Image : 512 x 1024 pixels • BIRCH: 400 Kb mémoire, 80 kb disque 33

DBSCAN 34

DBSCAN 34

Comparaison entre BIRCH & DBSCAN 35

Comparaison entre BIRCH & DBSCAN 35

CLIQUE ® « Density & grid based » ® Trouve automatiquement les sous-espaces ®

CLIQUE ® « Density & grid based » ® Trouve automatiquement les sous-espaces ® Identifie les groupes denses dans les sousespaces de dimensionnement maximal ® Peu importe l’ordre ® Regroupement : hyper rectangles parallèles ® Échelle linéaire avec le nombre de données entrées CLustering In QUEst : research projet à IBM Almaden 36

OPTICS ® Analyse et ordonnancement des groupes distance au centre Ø distance aux autres

OPTICS ® Analyse et ordonnancement des groupes distance au centre Ø distance aux autres objets Ø ® Basé sur DBSCAN ® Analyse automatique et interactive ® Technique de visualisation Ordering Points to Identify the Clustering Structure 37

Le code derrière Optics 38

Le code derrière Optics 38

La visualisation 39

La visualisation 39

ANALYSE ® Générateur des données ® Paramètres des groupes (clusters) Nombre de points Ø

ANALYSE ® Générateur des données ® Paramètres des groupes (clusters) Nombre de points Ø Rayon Ø Centre Ø ® Externes Mémoire Ø Type d’accès Ø Dimensions Ø 40

Quelques progiciels ® Intégral Solutions-ISL (Clementine) ® Thinking Machines-TMC (Darwin) ® SAS Institute (Enterprise

Quelques progiciels ® Intégral Solutions-ISL (Clementine) ® Thinking Machines-TMC (Darwin) ® SAS Institute (Enterprise Miner) ® IBM (Intelligent Miner for Data) ® Unica Technologies (Pattern Recognition Workbench) « An Evaluation of High-end Data Mining Tools for Fraud Detection» 41

Outils de Data mining http: //www. kdnuggets. com Business Intelligence 42

Outils de Data mining http: //www. kdnuggets. com Business Intelligence 42

Outils de Data mining Sélection des outils de Data mining par q q q

Outils de Data mining Sélection des outils de Data mining par q q q expérience professionnelle du produit viabilité des fournisseurs ampleur des algorithmes d'extraction de données dans l'outil compatibilité avec une configuration matérielle spécifique facilité d'utilisation la capacité de manipuler de grands ensembles de données 43

Techniques de fouille de données supportées par les fournisseurs: 44

Techniques de fouille de données supportées par les fournisseurs: 44

Fouille de données: Microsoft SQL vs Oracle • Algorithmes pour Microsoft: - Arbres de

Fouille de données: Microsoft SQL vs Oracle • Algorithmes pour Microsoft: - Arbres de décision - « Microsoft Clustering » - algorithme EM 45

Microsoft Data Mining Model de data Mining sur SQL Server avec DMM Mining. Model

Microsoft Data Mining Model de data Mining sur SQL Server avec DMM Mining. Model 'Model 1_MDT_Non. Nested' Execute : CREATE MINING MODEL [Model 1_MDT_Non. Nested'S] ([Customer Id] LONG KEY, [Income] DOUBLE CONTINUOUS , [Other Income] DOUBLE CONTINUOUS , [Loan] DOUBLE CONTINUOUS , [Age] DOUBLE CONTINUOUS , [Region Name] TEXT DISCRETE , [Home Years] DOUBLE CONTINUOUS , [House Value] DOUBLE CONTINUOUS , [Education Level] TEXT DISCRETE , [Home Type] TEXT DISCRETE , [Churn Yes No] TEXT DISCRETE PREDICT) USING Microsoft_Decision_Trees 46

Oracle Data Mining ® Algorithme de Clustering d’Oracle : Enhanced hierarchical k-means clustering Ø

Oracle Data Mining ® Algorithme de Clustering d’Oracle : Enhanced hierarchical k-means clustering Ø Orthogonal Partitioning Clustering (O-Cluster) Ø ® Oracle Ø Data Mining (ODM) Permet de faire la classification, l’association, la régression et le regroupement 47

La recherche / Sigmod ® 2004 Ø Ø Statistical Grid-based Clustering over Data Streams

La recherche / Sigmod ® 2004 Ø Ø Statistical Grid-based Clustering over Data Streams State-of-the-art in Privacy Preserving Data Mining ® 2002 Ø Ø Data Mining: Practical Machine Learning Tools and Techniques Cluster Validity Methods: Part I, II Data Mining: Concepts and Techniques Mining the World Wide Web: An Information Search Approach ® 2001 Ø Data Mining-based Intrusion Detectors: An Overview of the Columbia IDS Project ADAM: A Testbed for Exploring the Use of Data Mining in Intrusion Detection Mining System Audit Data: Opportunities and Challenges Mining Email Content for Author Identification Forensics Ø Data Analysis and Mining in the Life Sciences Ø Ø Ø 48

La recherche de règles d’association ® Le « Data mining Group » de l’université

La recherche de règles d’association ® Le « Data mining Group » de l’université d’Helsinki est à la recherche de règles d’associations et étudie la taille d’échantillon de données pour obtenir des déductions fiables. 49

La découverte de connaissances dans les bases de données (KDD) Innovation ! Interprétation Savoir

La découverte de connaissances dans les bases de données (KDD) Innovation ! Interprétation Savoir Data Mining Transformation Pré-traitement Données « Paterns » transformées Sélection Données Pré-traitées Données Ciblage 50

Rôle déterminant L’outil et le spécialiste Le spécialiste 1990 L’outil 2010 Fouille de données

Rôle déterminant L’outil et le spécialiste Le spécialiste 1990 L’outil 2010 Fouille de données 51

Contrôle de la qualité ® ® ® La validité des regroupements comme importante préoccupation

Contrôle de la qualité ® ® ® La validité des regroupements comme importante préoccupation de l’analyse Évaluation des résultats et de la sélection de schèmes qui concordent le mieux avec les données Aucune indication à-priori sur le nombre de groupes présents dans les données Évaluations basées sur des tests statistiques ou par comparaisons On a besoin de déterminer les mesures de qualité: Ø Ø Ø Intra-groupe, Séparation inter-groupe, Géométrie des groupes. 52

Conclusions Il existe de nombreuses techniques et méthodes spécialisées pour différents types de données

Conclusions Il existe de nombreuses techniques et méthodes spécialisées pour différents types de données et de domaines. ® Il faut une meilleure compréhension de la fouille de données et des modèles permettant de clarifier les tâches. ® On doit Inciter les utilisateurs à mieux comprendre la contribution de ces outils au processus de découverte de connaissances. ® Il faut savoir que les résultats de la fouille de données incluent souvent des faux positifs et faux négatifs. ® On peut améliorer la situation en faisant plus de recherches, entre autre pour la sécurisation des données sur la vie privée. ® 53

Bibliographie ® 1. Congress kills data-mining computer program, Audrey Hudson, The Washington Times, 2003

Bibliographie ® 1. Congress kills data-mining computer program, Audrey Hudson, The Washington Times, 2003 ® 2. Spatial Clustering Methods in Data Mining : A Survey, Jiawei Han, M. Kamber & K. H. Tung, School of Computing Science, Simon Fraser University, B. C. , Canada, 2001 ® 3. An evaluation of High-end Data Mining Tools for Fraud Detection, Dean W. Abbot et al. , U. S. A. , 1998 ? ® ® 4. Survey of Clustering Data Mining Techniques, Pavel Berkhin, Accrue Software Inc. , année 2002, ® 5. Spatial Data Mining: Progress and Challenges, Krzysztof Koperski Jiawei Han Junas Adhikary, Simon Fraser University, Canada, 1997 ® 6. Data Mining: Clustering, Nina Mishra, HP Labs, oct. 2002 ® 7. Birch: An efficient Data Clustering Method for Very Large Databases, Tian Zhang, Raghu Ramakrishnan, Miron Livny, Univ. of Wisconsin-Madison, année 1998 54

Bibliographie / 2 ® 8. Automatic Suspace Clustering of High Dimensional Data for Data

Bibliographie / 2 ® 8. Automatic Suspace Clustering of High Dimensional Data for Data Mining Applications, Rakesh Agrawal, J. Gehrke, D. Gunopulos, P. Raghavan, IBM, année 1998 ® 9. OPTICS: Ordering Points To Identify the Clustering Structure, Mihael Ankerst, M. Breunig, H. P. Kriegel, J. Sander, Univ. of Munich, année 1999 ® 10. Statistical Grid-based Clustering over Data Streams, Nam Hun Park, Won Suk Lee, Yonsei University, 2002 ® 11. A Comparison of Leading Data Mining Tools, J. F. Elder IV & Dean W. Abbott, Elder Research, New. York, 1998 ® 12. Performance Study of Microsoft Data Mining Algorithms, Sanjay Soni, Zhaohui. Tang, Jim Yang, Unisys & Microsoft, March 2002. ® 13. Oracle Data Mining, Discover Patterns, Make Predictions, Develop Advanced BI Applications data sheet, Oracle Technology Network, web page, January 2004. ® 14. Clustering Validity Checking Methods: Part 1 -2, Maria Halkidi, Yannis Batistaki, Michalis Vazirgiannis, Athens Univ. of Economics & Business, Sigmod, Vol. 31, no. 3, sept. 2002. ® 15. Diamonds in the Data Mine, Gary Loveman, HBR On. Point, 2003. 55

Période de questions 56

Période de questions 56

57

57