Le Data mining pour la fouille de donnes
- Slides: 57
Le « Data mining » pour la fouille de données Cours INF 7115 Bases de données Hiver 2004, groupe 10 Par: Javier Bentancur, Youssef Khlouf et Yvon L’Abbé 1
Motivation ® Pourquoi nous intéresser à ce sujet ? Élargir nos connaissances, Ø Évolution normale sur le thème des bases de données, Ø Complément du « data-warehousing » pour une création de base de connaissances, Ø Un sujet de recherches d’actualité. Ø 2
Sommaire ® Introduction ® Domaines d’applications ® Catégories principales ® Le « Clustering » ® Algorithmes et logiciels ® Comparaison ® La recherche ® Conclusion 3
Vision ® Les découvertes de pépites d’or et de diamants sont évoqués bien souvent lorsqu’il est question de « data mining » . ® Ces découvertes sont destinées à l’obtention d’avantages compétitifs, à améliorer le service à la clientèle et finalement, les profits. 4
Introduction ® Le savoir est source de pouvoir ® Les données qui dorment peuvent être dynamisées par des experts ou des logiciels « intelligents » ® Fouiller pour en extraire la quintessence ® Il faut une accélérer la synthèse de l’information à partir des données qui s’accumulent à grande vitesse 5
Actualité choc ® « Le Congrès coupe les fonds à un organisme qui a créé un programme de fouille de données, soupçonné d’empiéter sur la vie privée de citoyens américains, sans raisons valables. » Washington Times, Audrey Hudson, 26 sept. 2003 Ce programme fut perçu comme le plus ambitieux aux USA pour la surveillance de citoyens en sol américain. 6
Le plaidoyer du milieu 1 - La technologie de fouille de données est une te d’analyse qui doit être distinguée de la collecte ou l’agrégation des données et leurs utilisations. 2 - Support de la recherche dans la découverte de d’actions de médicaments, pour la biologie et les applications de protection de la vie, autant que pou d’innombrable applications d’affaires et de science 7
Constatations ® ® ® Les données aident à apprendre du passé pour prédire le futur Au rythme de croissance des banques de données, les statistiques n’arrivent plus à tout analyser Le data mining a émergé comme un domaine grandissant de recherches multidisciplinaires Cette technique est définie comme l’extraction de liens implicites, jusque-là inconnus et potentiellement utiles Une importante source de savoir serait donc à la porté de la main 8
• Affaires • Insurance Premium Increase Optimization: Case Study • Insurance Fraud Detection: MARS vs. Neural Networks • Predicting Customer Behavior Trends Over Space and Time • CART/ MARS Risk Assessment of Automobile Loans and Leases • Combined Time Series and Cross Sectional CART Modeling for Common Stock Selection Scientifiques • The Importance of CART and MARS in Environmental Fate and Risk Assessment for Pesticides • Atmospheric Pollution Forecasting" • Predictive and Spatial Modeling Applications for Wildlife Research and Conservation Biomédical • Using CART to Develop a Diagnostic Tool for Erectile Dysfunction • Using CART to Discern Models in Genetics: Alcoholism, Alzheimers and Aging • CART for Outcome Predictions in Clinical Settings: Emergency Department Triage, • Survival Prediction and Prediction of Neurologic Survival" • Application of MARS to Gene Expression Data: Predictive Models of Gene Regulation • Mining SELDI Protein. Chip Data for Biomarkers and Disease Stratification Découverte de médicaments • Drug Discovery using CART and MARS • Improving the Ability to Predict Drug-Like Compounds from Virtual Screening Using CART • CART in Drug Discovery: Identifying Rules for Making Better Small Molecules 9 • Drug Discovery Clinical Trials and Random Forests at Novartis
Définition ® “The process of exploration and analysis, by automatic or semi-automatic means, of large quantities of data in order to discover meaningful patterns and rules”. Knowledge Discovery ® Une classe d’applications de bases de données qui cherche des liens cachés dans un groupe de données qui peuvent être utilisés pour prédire un comportement futur. 10
“Data Mining” ® « Comment arriver à trouver un diamant dans un tas de charbon sans se salir les mains » ! ® Le “Data Mining” ce n’est pas le “Data Warehousing”, ni OLAP. 11
Data mining & Entrepôt de données BD opérationnelle (OLTP) Extraction : épuration, filtrage, synthèse, transformation, fusion Entrepôt de données « Data Wharehouse » Outils Data mining Autre source de données 12
Principales phases ® Compréhension du domaine et des buts ® Extraction de groupes de données cibles ® Purification des données ® Sélection de la tâche appropriée ® Sélection de l’algorithme de traitement ® Triturer les données pour en découvrir les secrets ® Passage au crible des liens découvert pour mettre en valeur les plus prometteurs 13
Casino Harrah’s ® Comment s’assurer de la loyauté des clients ? Ø Acquérir une information riche et complète par un système impliquant des cartes de membres Ø Triturer finement les données pour faciliter l’analyse Ø Utiliser la fouille de données pour identifier les clients principaux et prédire leur valeur à long terme Ø Obtenir d’avantage d’informations sur les préférences des clients, de sorte à les satisfaire Ø Déployer des stratégies de marketing intelligentes Ø Récompenser les employés qui donnent la priorité au service ! 14
Data mining 3, 920, 000 liens ! 15
Catégories principales en fouilles de données ® Classification ® Association ® Séquençage/profil temporel ® Regroupement/segmentation (Clustering) 16
Classification ® Chercher les règles pour prédire la classe à la quelle le cas appartient à partir des attributs prédictifs. ® Technique supervisée : définition d’au moins un attribut. ® Catégorie des règles : Ø exactes (sans exceptions) Ø fortes (avec quelques exceptions) Ø probables (conditionnées à la probabilité) Ø de classification (avec assez de conditions pour classifier les objets). 17
Association ® Opération sur les éléments d’une collection d’objets qui donnent pour résultat les affinités trouvées parmi les éléments de la collection ® Le résultat est présenté comme règle : Ø « Le 70 % des éléments dans la collection qui contient l’élément A contient aussi les éléments D et F » ® L’usage le plus commun est la recherche de liens entre les produits achetés dans un super marché 18
Séquençage / profil temporel ® Consiste à analyser une collection de donnés pendant quelques périodes de temps, pour identifier tendances. ® Trouve des liens entre des clients et les profils de fréquence des achats. 19
Regroupement / Clustering ® Processus par lequel seront créés des groupes de données + ®Les objets dans ces groupes doivent présenter des similarités entre eux et se différencier des autres. ( ~ = ) 20
Type de Clustering pour le Data mining ® supervisé Ø savoir spécifiquement ce que nous recherchons. Input Processus Output 21
Type de Clustering ® Non Ø supervisé Pas exactement certain de ce que nous recherchons Input Output 22
Différentes techniques ® ® ® Arbres de décision Réseaux neuronaux Régression Clustering Etc. Clustering Arbres de décision Neural Networks 23
Classification d’algorithmes de “Clustering” Hiérarchiques ® De partitionnement ® À base de densité ® À base de grille ® 24
Méthodes de groupement ®Hiérarchiques Ø Séquences nichées de partitions Ø Agglomération • Chaque objet est un groupe Ø Division • L’ensemble est divisé en groupes plus petits. Ø CURE, CHAMALEON, (BIRCH) 25
Méthodes de groupement ®Partitionnement Ø Groupement d’objets avec similarités entre eux et différenciés des autres. Ø CLARANS 26
Méthodes de groupement ®Densité Des Clusters sont des régions denses séparées par régions moins denses Ø DBSCAN, DENCLUE, OPTICS Ø ®Grille L’espace est divisé en segments rectangulaires Ø CLIQUE, STING Ø 27
Problèmes à résoudre ® Densité Ø d’information Différents attributs et domaines complexes (multimédia) ® Interprétation Ø Assimilation par l’usager ® Ordre Ø Ø des résultats des données Vitesse d’obtention des résultats Nombre de lectures ® Qualité des groupes ® Bruit 28
Exemples d’algorithmes de Clustering CLARANS BIRCH DBSCAN CLIQUE OPTICS 29
CLARANS ® Usage pour la statistique ® Cluster : point central ® Data mining spatial ® K-medoid Maxneighbour Ø Local minimun Ø ® Recherche : R-Tree, plus de vitesse mais moins de qualité Clustering LARge Applications 30
BIRCH ® Très grande base de données ® Différences entre clusters et bruit Points plus importantes qu’autres Ø Sommaire compacte Ø ® Mémoire disponible ® Une seule lecture, O(N) ® CF-tree (Cluster Feature) ® Recherche: parallélisme et apprentissage Balanced Iterative Reducing and Clustering using Hierarc 31
BIRCH 32
• Image : 512 x 1024 pixels • BIRCH: 400 Kb mémoire, 80 kb disque 33
DBSCAN 34
Comparaison entre BIRCH & DBSCAN 35
CLIQUE ® « Density & grid based » ® Trouve automatiquement les sous-espaces ® Identifie les groupes denses dans les sousespaces de dimensionnement maximal ® Peu importe l’ordre ® Regroupement : hyper rectangles parallèles ® Échelle linéaire avec le nombre de données entrées CLustering In QUEst : research projet à IBM Almaden 36
OPTICS ® Analyse et ordonnancement des groupes distance au centre Ø distance aux autres objets Ø ® Basé sur DBSCAN ® Analyse automatique et interactive ® Technique de visualisation Ordering Points to Identify the Clustering Structure 37
Le code derrière Optics 38
La visualisation 39
ANALYSE ® Générateur des données ® Paramètres des groupes (clusters) Nombre de points Ø Rayon Ø Centre Ø ® Externes Mémoire Ø Type d’accès Ø Dimensions Ø 40
Quelques progiciels ® Intégral Solutions-ISL (Clementine) ® Thinking Machines-TMC (Darwin) ® SAS Institute (Enterprise Miner) ® IBM (Intelligent Miner for Data) ® Unica Technologies (Pattern Recognition Workbench) « An Evaluation of High-end Data Mining Tools for Fraud Detection» 41
Outils de Data mining http: //www. kdnuggets. com Business Intelligence 42
Outils de Data mining Sélection des outils de Data mining par q q q expérience professionnelle du produit viabilité des fournisseurs ampleur des algorithmes d'extraction de données dans l'outil compatibilité avec une configuration matérielle spécifique facilité d'utilisation la capacité de manipuler de grands ensembles de données 43
Techniques de fouille de données supportées par les fournisseurs: 44
Fouille de données: Microsoft SQL vs Oracle • Algorithmes pour Microsoft: - Arbres de décision - « Microsoft Clustering » - algorithme EM 45
Microsoft Data Mining Model de data Mining sur SQL Server avec DMM Mining. Model 'Model 1_MDT_Non. Nested' Execute : CREATE MINING MODEL [Model 1_MDT_Non. Nested'S] ([Customer Id] LONG KEY, [Income] DOUBLE CONTINUOUS , [Other Income] DOUBLE CONTINUOUS , [Loan] DOUBLE CONTINUOUS , [Age] DOUBLE CONTINUOUS , [Region Name] TEXT DISCRETE , [Home Years] DOUBLE CONTINUOUS , [House Value] DOUBLE CONTINUOUS , [Education Level] TEXT DISCRETE , [Home Type] TEXT DISCRETE , [Churn Yes No] TEXT DISCRETE PREDICT) USING Microsoft_Decision_Trees 46
Oracle Data Mining ® Algorithme de Clustering d’Oracle : Enhanced hierarchical k-means clustering Ø Orthogonal Partitioning Clustering (O-Cluster) Ø ® Oracle Ø Data Mining (ODM) Permet de faire la classification, l’association, la régression et le regroupement 47
La recherche / Sigmod ® 2004 Ø Ø Statistical Grid-based Clustering over Data Streams State-of-the-art in Privacy Preserving Data Mining ® 2002 Ø Ø Data Mining: Practical Machine Learning Tools and Techniques Cluster Validity Methods: Part I, II Data Mining: Concepts and Techniques Mining the World Wide Web: An Information Search Approach ® 2001 Ø Data Mining-based Intrusion Detectors: An Overview of the Columbia IDS Project ADAM: A Testbed for Exploring the Use of Data Mining in Intrusion Detection Mining System Audit Data: Opportunities and Challenges Mining Email Content for Author Identification Forensics Ø Data Analysis and Mining in the Life Sciences Ø Ø Ø 48
La recherche de règles d’association ® Le « Data mining Group » de l’université d’Helsinki est à la recherche de règles d’associations et étudie la taille d’échantillon de données pour obtenir des déductions fiables. 49
La découverte de connaissances dans les bases de données (KDD) Innovation ! Interprétation Savoir Data Mining Transformation Pré-traitement Données « Paterns » transformées Sélection Données Pré-traitées Données Ciblage 50
Rôle déterminant L’outil et le spécialiste Le spécialiste 1990 L’outil 2010 Fouille de données 51
Contrôle de la qualité ® ® ® La validité des regroupements comme importante préoccupation de l’analyse Évaluation des résultats et de la sélection de schèmes qui concordent le mieux avec les données Aucune indication à-priori sur le nombre de groupes présents dans les données Évaluations basées sur des tests statistiques ou par comparaisons On a besoin de déterminer les mesures de qualité: Ø Ø Ø Intra-groupe, Séparation inter-groupe, Géométrie des groupes. 52
Conclusions Il existe de nombreuses techniques et méthodes spécialisées pour différents types de données et de domaines. ® Il faut une meilleure compréhension de la fouille de données et des modèles permettant de clarifier les tâches. ® On doit Inciter les utilisateurs à mieux comprendre la contribution de ces outils au processus de découverte de connaissances. ® Il faut savoir que les résultats de la fouille de données incluent souvent des faux positifs et faux négatifs. ® On peut améliorer la situation en faisant plus de recherches, entre autre pour la sécurisation des données sur la vie privée. ® 53
Bibliographie ® 1. Congress kills data-mining computer program, Audrey Hudson, The Washington Times, 2003 ® 2. Spatial Clustering Methods in Data Mining : A Survey, Jiawei Han, M. Kamber & K. H. Tung, School of Computing Science, Simon Fraser University, B. C. , Canada, 2001 ® 3. An evaluation of High-end Data Mining Tools for Fraud Detection, Dean W. Abbot et al. , U. S. A. , 1998 ? ® ® 4. Survey of Clustering Data Mining Techniques, Pavel Berkhin, Accrue Software Inc. , année 2002, ® 5. Spatial Data Mining: Progress and Challenges, Krzysztof Koperski Jiawei Han Junas Adhikary, Simon Fraser University, Canada, 1997 ® 6. Data Mining: Clustering, Nina Mishra, HP Labs, oct. 2002 ® 7. Birch: An efficient Data Clustering Method for Very Large Databases, Tian Zhang, Raghu Ramakrishnan, Miron Livny, Univ. of Wisconsin-Madison, année 1998 54
Bibliographie / 2 ® 8. Automatic Suspace Clustering of High Dimensional Data for Data Mining Applications, Rakesh Agrawal, J. Gehrke, D. Gunopulos, P. Raghavan, IBM, année 1998 ® 9. OPTICS: Ordering Points To Identify the Clustering Structure, Mihael Ankerst, M. Breunig, H. P. Kriegel, J. Sander, Univ. of Munich, année 1999 ® 10. Statistical Grid-based Clustering over Data Streams, Nam Hun Park, Won Suk Lee, Yonsei University, 2002 ® 11. A Comparison of Leading Data Mining Tools, J. F. Elder IV & Dean W. Abbott, Elder Research, New. York, 1998 ® 12. Performance Study of Microsoft Data Mining Algorithms, Sanjay Soni, Zhaohui. Tang, Jim Yang, Unisys & Microsoft, March 2002. ® 13. Oracle Data Mining, Discover Patterns, Make Predictions, Develop Advanced BI Applications data sheet, Oracle Technology Network, web page, January 2004. ® 14. Clustering Validity Checking Methods: Part 1 -2, Maria Halkidi, Yannis Batistaki, Michalis Vazirgiannis, Athens Univ. of Economics & Business, Sigmod, Vol. 31, no. 3, sept. 2002. ® 15. Diamonds in the Data Mine, Gary Loveman, HBR On. Point, 2003. 55
Période de questions 56
57
- Mining complex types of data in data mining
- Mining multimedia databases
- Par ton corps tu nous donnes la vie
- Jsus
- Coop pour toi et pour moi
- Strip mining vs open pit mining
- Chapter 13 mineral resources and mining
- Difference between strip mining and open pit mining
- Web text mining
- Data reduction in data mining
- What is data mining and data warehousing
- What is missing data in data mining
- Data reduction in data mining
- Data reduction in data mining
- Data reduction in data mining
- Data cube technology in data mining
- Data reduction in data mining
- Data warehouse dan data mining
- Perbedaan data warehouse dan data mining
- Olap crm
- Mining complex data objects
- Data warehousing data mining and olap
- Noisy data in data mining
- Three-tier data warehouse architecture
- Data preparation for data mining
- Data compression in data mining
- Introduction to data warehouse
- Data warehouse dan data mining
- Cs 412 introduction to data mining
- Unsupervised learning in data mining
- Motivation for data mining
- Data mining concepts and techniques slides
- Reporting and query tools in data mining
- Pump it up: data mining the water table
- Tahapan utama proses data mining
- 5 peran data mining
- Olap stands for: *
- Bloom filter for stream data mining
- Data mining steps
- Data mining midterm exam with solutions
- Multidimensional space in data mining
- Data mining roadmap
- Pentaho data mining
- Spatial data mining applications
- Walmart data mining
- Ibm data mining
- Ibm spss data mining
- Frequent itemset mining methods
- Objective of data mining
- Emr data mining
- Cur decomposition in data mining
- Dss in data mining
- Data mining
- Underfitting and overfitting in data mining
- Svd data mining
- Data mining lectures
- Data mining functionalities with examples
- Nominal attribute in data mining