Fouille de donnes complexes Karine Zeitouni Master COSY

Fouille de données complexes Karine Zeitouni Master COSY – Université de Versailles Saint-Quentin Edition

Introduction n De plus en plus d’entrepôts de données sont ou seront créés n

Plan n Fouille de données spatiales n Les Bases de données spatiales n Méthodes

Bases de données spatiales K. Zeitouni Cours M 2 COSY - Fouille de données

Définition d’une BD spatiale n Ensemble organisé d’objets géographiques : n Chaque objet est

Interface graphique 6 K. Zeitouni Cours M 2 COSY - Fouille de données complexes

Parallèle relationnel – Spatial (1) n Parallèle entre Thème et table: n Un thème

Parallèle relationnel – Spatial (2) n Requêtes spatiales n Sélection n n Sélection spatiale

Parallèle relationnel – Spatial (3) n Cette comparaison montre que : n n 9

Exemple d’Oracle spatial n Niveau de fiabilité supérieur à celui des simples fichiers (sécurité

Fouille de données spatiales K. Zeitouni Cours M 2 COSY - Fouille de données

Problème type Dr. John Snow découvre la cause probable des cas de choléra 12

Autre application - Analyse de l’accidentologie routière n Vise à décrire et expliquer le

Fouille de données spatiales versus Analyse spatiale Applications décisionnelles : n n Analyse spatiale

Fouille de données spatiales versus Fouille de données classique n BD spatiales + n

Fouille de données spatiales - Définition n Découverte de connaissances implicites depuis une BDS

Statistiques spatiales n Analyse globale - Mesure d’auto-corrélation spatiale d’une variable n n 17

Application aux sections Ø Vert : moins corrélé que la moyenne globale Ø Rouge

Application aux régions Autocorrélation locale du nombre de blessés 19 K. Zeitouni Cours M

Problèmes engendrés n Problème 1: Les données spatiales sont liées n n n 20

Clustering n Groupage d’objets similaires / séparation dissimilaires n n n Similarité en spatial

Clustering spatial sous contraintes n Problème : n n 22 Trouver des regroupements qui

Exemple avec la machine GAM : caractériser les accidents de nuit/ WE Localisations des

Clustering sous Oracle 10 g But: Trouver les zones de concentration de criminologie. Moyen:

Clustering sous Oracle 10 g Visualiser les clusters par Oracle Map. Viewer USBG_data en

Règles d’associations spatiales 1. Règle d’association multi-dimensionnelle n Sur une table (attributs x Valeurs)

Exemple station_service ^ dans (zone_rurale) -> proche (autoroute) (25%, 80%) exprime que les stations

Co-localisation n 28 Sous ensemble d’objets spatiaux fréquemment situés ensemble K. Zeitouni Cours M

Arbre de décision spatial n Rappel n n Règles de classement pour expliquer une

Exemple – Spatial CART 30 K. Zeitouni Cours M 2 COSY - Fouille de

Approches proposées Etape 1 FD spatiales Index de Jointure Spatial FD multi-tables Adapter les

Approche préconisée par Oracle 10 g 32 K. Zeitouni Cours M 2 COSY -

Index de jointure spatiale? n Structure secondaire qui matérialise et codifie les relations spatiales

La FD classique est mono-table n Représentation des données en FD classique 1 table

Transformation préalable Bâtiment Index. JS Accident ID 1 Date Impliqué … An ID 1

Conclusion sur la FDS n La fouille de données spatiales = prolongement de la

Fouille de données textuelles K. Zeitouni Cours M 2 COSY - Fouille de données

Fouille de textes n Croissance phénoménale de données textuelles n n Comment faire supporter

Fouille de texte versus fouille de données Data Mining Text Mining numérique & catégorique

Classification de documents textes n Principe n n 40 Classification (par apprentissage) de textes

Site organisé par catégorie 41 K. Zeitouni Cours M 2 COSY - Fouille de

Processus global de catégorisation Documents d’apprentissage pré-traitement Termes uniques présents dans les documents Termes

Prétraitement des documents Document: doc Tokenizing Removing stop words Stemming words* Génère des données

Ex: Stop-words (mots chevilles) n Liste de mots (ex. ceux listés par Oracle text)

Représentation des documents et Mesure de similarité n Représentation des documents n Vecteurs de

Pondération TF-IDF signifie Term Frequency x Inverse Document Frequency : n Proposée par [Salton

Évaluation de Performances n Ex. pour la catégorisation binaire (Y/N): n 47 Mesures basés

Fouille de données séquentielles K. Zeitouni Cours M 2 COSY - Fouille de données

Utilisations n n Panier de la ménagère en considérant l’historique des transactions des clients.

Ex : Le Web Usage Mining n Le Weblog contient des informations riches sur

Sous-séquences fréquentes n Algorithme GSP [Skirant 95]: n n n Extension d’Apriori Génération de

Sous-séquences fréquentes (Suite) n Algorithme Prefix. Span [Pei 2001]: n n 52 Inspiré de

Sous-séquences fréquentes (Suite) n Algorithme TBI [Savary 2005]: n n n Méthode en 2

Sous-séquences fréquentes (Suite) n Structure de données Index VS 1 4 6 8 9

Sous-séquences fréquentes (Suite) n Algo TBI (Seuil-support, Tmax) Pour s dans la BD Gen-vecteur-séquences

Sous-séquences fréquentes (Suite) n Algo. Gen-vecteur-séquences (VS, s) --s : nouvelle séquence indice=1 --

Sous-séquences fréquentes (Suite) n Algo. Gen-séquences-fréquentes (Seuil-support, k) : Lk = // ensemble des

Conclusion n La recherche d’information a dominé la recherche au cours du demi-siècle passé.

Références Miller H. J. , Han J. , Geographic Data Mining and Knowledge Discovery,

Références (suite) R. Ng and J. Han, "Efficient and Effective Clustering Method for Spatial

Références (suite) Agrawal R. , Srikant R. : Mining sequential patterns. In Proc. of

Slides: 61

Download presentation

Fouille de données complexes Karine Zeitouni Master COSY – Université de Versailles Saint-Quentin Edition 2005 -2006 En ligne sur : http: //www. prism. uvsq. fr/users/karima/DM K. Zeitouni Cours M 2 COSY - Fouille de données complexes

Introduction n De plus en plus d’entrepôts de données sont ou seront créés n Raisons principales : n n Explosion des données multimédias n n n 2 Le tout numérique dans l’entreprise génère des données à entreposer échange et recherche de données facilités (via Internet) capteurs et numérisations de toute sorte (librairies digitales) SIG / Télédétection (données cartographiques, données satellitales) agence de photo de presses CAO, Bio-informatique, imagerie médicales (données techniques) finance (cours des actions= séries temporelles) GED (documents, emails) vidéo, … K. Zeitouni Cours M 2 COSY - Fouille de données complexes

Plan n Fouille de données spatiales n Les Bases de données spatiales n Méthodes de la FDS n Fouille de données textuelles n Fouille de données séquentielles 3 K. Zeitouni Cours M 2 COSY - Fouille de données complexes

Bases de données spatiales K. Zeitouni Cours M 2 COSY - Fouille de données complexes

Définition d’une BD spatiale n Ensemble organisé d’objets géographiques : n Chaque objet est une association d'une description qualitative ou quantitative et d’une localisation spatiale n Gérée au sein d’un SIG n Organisée en couches thématiques n Ex : découpage administratif, Réseaux routier, Cadastre, POS, Topographie (courbes de niveau). . . 5 K. Zeitouni Cours M 2 COSY - Fouille de données complexes

Interface graphique 6 K. Zeitouni Cours M 2 COSY - Fouille de données complexes

Parallèle relationnel – Spatial (1) n Parallèle entre Thème et table: n Un thème peut être vu comme une table avec un attribut de localisation Table 7 Id_route Nom_route Type. Surface Nb_voies 1 Av. Morane Saulnier Goudronnée 4 2 Rue Dewoitine Goudronnée 3 3 Av. Europe Goudronnée 1 K. Zeitouni Localisation Cours M 2 COSY - Fouille de données complexes

Parallèle relationnel – Spatial (2) n Requêtes spatiales n Sélection n n Sélection spatiale n n select c. nom, c. loc from commune c where Intersecte (c. loc, Rectangle(xmin, ymin, xmax, ymax)) select c. * from commune c, route r where r. nom = 'N 10' and adjacent(c. loc, r. loc) Zones d’intersection des communes select c. nom, f. nom, Intersection (c. loc, f. loc) from commune c, foret f et des forêts (map overlay) Agrégation n 8 Communes au bord de le N 10 Jointure spatiale n n Accès aux objets situés dans une fenêtre donnée Accès par relation à un objet n n Ville de plus de 10 000 select c. nom, c. loc from commune c where c. population > 10000 where Intersecte (c. loc, f. loc) select departement, fusion (loc) Fusion des communes par Cours M 2 COSY - Fouille de données from commune département K. Zeitouni complexes group by departement

Parallèle relationnel – Spatial (3) n Cette comparaison montre que : n n 9 les SGBD Géographiques sont spécifiques, mais ils peuvent être vus comme une extension des SGBD relationnels K. Zeitouni Cours M 2 COSY - Fouille de données complexes

Exemple d’Oracle spatial n Niveau de fiabilité supérieur à celui des simples fichiers (sécurité d’accès, intégrité transactionnelle…) n Intégration des données géo-spatiales dans un SGBD: =>utilisation beaucoup plus efficace des données =>garantie de l’universalité et de l’interopérabilité - conforme aux normes (Open. GIS, ISO, …) =>requêtes combinées aux informations géo-spatiales et classiques - dans un langage SQL (familier aux développeurs) 10 K. Zeitouni Cours M 2 COSY - Fouille de données complexes

Fouille de données spatiales K. Zeitouni Cours M 2 COSY - Fouille de données complexes

Problème type Dr. John Snow découvre la cause probable des cas de choléra 12 K. Zeitouni Cours M 2 COSY - Fouille de données complexes

Autre application - Analyse de l’accidentologie routière n Vise à décrire et expliquer le risque routier par : la description des accidents inventoriés n leur contexte géographique n Accidents inventoriés Fouille de Données Spatiales Voirie Cartes et connaissances extraites Activités. . . 13 K. Zeitouni Cours M 2 COSY - Fouille de données complexes

Fouille de données spatiales versus Analyse spatiale Applications décisionnelles : n n Analyse spatiale de phénomènes localisés : n risque routier, épidémiologie, criminologie, pollution, … FDS versus Analyse spatiale n Fouille de données spatiales Analyse spatiale (Dr J. Snow) Découverte automatique de connaissances Découverte visuelle de connaissances Exploratoire (génère des hypothèses) Confirmatoire Opère sur des gros volumes de données Inapplicable sur des BD volumineuses 14 K. Zeitouni Cours M 2 COSY - Fouille de données complexes

Fouille de données spatiales versus Fouille de données classique n BD spatiales + n n FD « classique » Requêtes avec critères spatiaux Pas d’analyse exploratoires + n Batterie de méthodes exploratoires Pas de raisonnement spatial ð Fouille de données spatiales + Intègre les techniques de BDS et de FD + Explore les données et les relations spatiales d ’une BDS 15 K. Zeitouni Cours M 2 COSY - Fouille de données complexes

Fouille de données spatiales - Définition n Découverte de connaissances implicites depuis une BDS n toute propriété, règle ou régularité n impliquant les objets de la BD spatiales et/ou les objets avoisinants et leurs relations spatiales n 16 Principales méthodes : n Statistiques spatiales n Clustering n Règles d’association n Classification K. Zeitouni Cours M 2 COSY - Fouille de données complexes

Statistiques spatiales n Analyse globale - Mesure d’auto-corrélation spatiale d’une variable n n 17 Indice global (par carte) de Moran et Geary (en 1945 et 54) Analyse locale - Indice local d’associations spatiales (LISA) [Anselin 90] n Particularités au niveau local => met en évidence les données atypiques n utilise une matrice de voisinage binaire ou pondérée (wij) n quantifie la contribution individuelle de chaque lieu à l’indice global K. Zeitouni Cours M 2 COSY - Fouille de données complexes

Application aux sections Ø Vert : moins corrélé que la moyenne globale Ø Rouge : plus corrélé que l’indice global Ø Jaune: comme l’indice global Ø Blanc : tronçons sans calcul (pas d’accidents) 18 K. Zeitouni Cours M 2 COSY - Fouille de données complexes

Application aux régions Autocorrélation locale du nombre de blessés 19 K. Zeitouni Cours M 2 COSY - Fouille de données complexes

Problèmes engendrés n Problème 1: Les données spatiales sont liées n n n 20 Les méthodes de FD supposent les données indépendantes Problème 2: Les relations spatiales sont implicites n Non stockées dans la BD n Leur calcul nécessite des jointures coûteuses n Leur intégration dans l’analyse est coûteuse Problème 3: Les relations spatiales sont multiples n Topologiques (adjacence, intersection, …) ou métriques (distance) n Le choix de la bonne relation spatiale est difficile K. Zeitouni Cours M 2 COSY - Fouille de données complexes

Clustering n Groupage d’objets similaires / séparation dissimilaires n n n Similarité en spatial = distance euclidienne Utilisé moins pour classer que pour découvrir des concentrations ou des points chauds n ex: criminologie, épidémiologie, accidents Méthodes en spatial : n n 21 orientés perf. : CLARANS, DBSCAN, . . . sur spatial & attributs : GDBSCAN, Neighborhood EM [Govaert] évitement obstacle : COE-CLARANS [Han] Concentration atypiques : machine GAM [Openshaw] K. Zeitouni Cours M 2 COSY - Fouille de données complexes

Clustering spatial sous contraintes n Problème : n n 22 Trouver des regroupements qui respectent des contraintes et des obstacles physiques Contraintes physiques « COE-CLARANS » [Tung ICDT’ 01] n Ex: installation de réseaux ATM doit tenir compte des obstacles géographiques (rivière, pont, etc. ) n Solution: calculer la distance entre p et q en considérant les obstacles K. Zeitouni Cours M 2 COSY - Fouille de données complexes

Exemple avec la machine GAM : caractériser les accidents de nuit/ WE Localisations des accidents de nuit WE en rouge 23 K. Zeitouni Recherche de concentrations spatiales locales atypiques Cours M 2 COSY - Fouille de données complexes

Clustering sous Oracle 10 g But: Trouver les zones de concentration de criminologie. Moyen: Grouper les données spatiales dans une table spécifiée USBG_high_crimes 1. Définir high_crimes>150 Create Table USBG_high_crimes As Select* From USBG_data Where Crime. Index>150 2. Appliquer la méthode de clustering (k=4) Select geometry From Table(sdo_sam. spatial_cluster(‘USBG_high_crimes’, ’geom’, 4)) 24 K. Zeitouni Cours M 2 COSY - Fouille de données complexes

Clustering sous Oracle 10 g Visualiser les clusters par Oracle Map. Viewer USBG_data en jaune, partie crimes élevés en bleu foncé et clusters en bleu transparent 25 K. Zeitouni Cours M 2 COSY - Fouille de données complexes

Règles d’associations spatiales 1. Règle d’association multi-dimensionnelle n Sur une table (attributs x Valeurs) en remplaçant les valeurs d ’"articles" d'une transaction par les valeurs d’attributs "A 1^A 2. . . ^Am => B 1^. . . ^Bn" avec support et confiance où Ai et Bj sont des valeurs d'attributs 2. Sur des données spatiales idem + Rel° spatiales => idem + Rel° spatiales ce qui revient à trouver des associations entre des propriétés des objets et celles de leurs "voisins" 26 K. Zeitouni Cours M 2 COSY - Fouille de données complexes

Exemple station_service ^ dans (zone_rurale) -> proche (autoroute) (25%, 80%) exprime que les stations service en zone rurales sont près des autoroutes, n à 80% (confiance) n et que ces stations forment 25% (support) des stations inventoriées. n Variantes n. Thème de référence [Koperski] n. Règle de co-localisation quelconque [Shashi] 27 K. Zeitouni Cours M 2 COSY - Fouille de données complexes

Co-localisation n 28 Sous ensemble d’objets spatiaux fréquemment situés ensemble K. Zeitouni Cours M 2 COSY - Fouille de données complexes

Arbre de décision spatial n Rappel n n Règles de classement pour expliquer une variable « classe » par des variables explicatives. En FDS Les propriétés du voisinage peuvent être explicatives n Exemple : classer les accidents selon 3 classes d’impliqués (piéton, 2 roues, véhicules) selon les propriétés des accidents et des objets voisins Ø Découvre des liens cachés avec certains types de voisins et les illustrer sur la carte. 29 K. Zeitouni Cours M 2 COSY - Fouille de données complexes

Exemple – Spatial CART 30 K. Zeitouni Cours M 2 COSY - Fouille de données complexes

Approches proposées Etape 1 FD spatiales Index de Jointure Spatial FD multi-tables Adapter les données aux algos existants Etape 2 Etendre les algorithmes au multi-tables Prendre en compte la duplication des objets Algos ILP Programme logique CROISEMENT algorithme classique Connaissances 31 K. Zeitouni Connaissances Cours M 2 COSY - Fouille de données complexes

Approche préconisée par Oracle 10 g 32 K. Zeitouni Cours M 2 COSY - Fouille de données complexes

Index de jointure spatiale? n Structure secondaire qui matérialise et codifie les relations spatiales Id …. . An ID 1 Relation spatiale ID 2 Id …. 01 60 12 01 …. 02 45 43 02 …. … … …. . …… …. . ……. …. 99 … 99 53 75 99 … Thème 1 33 … Index de jointure spatiale K. Zeitouni Bn … Thème 2 Cours M 2 COSY - Fouille de données complexes

La FD classique est mono-table n Représentation des données en FD classique 1 table unique Valeurs atomiques 1 exemple d’apprentissage par ligne 34 K. Zeitouni Cours M 2 COSY - Fouille de données complexes

Transformation préalable Bâtiment Index. JS Accident ID 1 Date Impliqué … An ID 1 ID 2 Dist ID Libelle 01 12/03/03 Piéton … an 1 01 01 10 01 Ecole 02 10/04/03 2 roues … An 2 01 02 55 02 Ecole 02 01 75 03 Marché 02 03 20 Opérateur CROISEMENT 35 ID 1 Date Impliqué … An 01 12/03/03 Piéton … an 1 10 Null 02 10/04/03 2 roues … An 2 75 20 K. Zeitouni Dist_ école Dist_ marché Cours M 2 COSY - Fouille de données complexes

Conclusion sur la FDS n La fouille de données spatiales = prolongement de la fouille de données n n La préparation des données peut changer la donne ? n n 36 Tient compte des interactions dans l’espace FD spatiale FD multi-tables grâce aux index de jointures spatiales FD classique grâce à l’opérateur C’est souvent le cas d’autres objets complexes : n Fouille de texte FD par transformation en vecteur de termes n Fouille d’images FD sur descripteurs K. Zeitouni Cours M 2 COSY - Fouille de données complexes

Fouille de données textuelles K. Zeitouni Cours M 2 COSY - Fouille de données complexes

Fouille de textes n Croissance phénoménale de données textuelles n n Comment faire supporter à la machine le traitement rapide du langage naturel ? Techniques d’Analyse du Langage Naturel (TALN): n n n Extraction d’éléments du langage : nom propres (personne, lieu, société) Utilise les règles de grammaire et des patrons linguistiques, des thésaurus (synonymes et hiérarchies de termes) ou des ontologies (règles en plus) Fouille de textes (si grand nombre de textes) n n n 38 Documents sur Internet, mail, rapports, … Besoin d’automatiser leur recherche et leur classement Clustering de texte Classification (catégorisation) Associations de termes K. Zeitouni Cours M 2 COSY - Fouille de données complexes

Fouille de texte versus fouille de données Data Mining Text Mining numérique & catégorique textuel Structure structuré non-structuré Représentation simple complexe Dimension dizaines milliers Objet Maturité 39 Implémentation vaste dès 1994 dès 2000 K. Zeitouni Cours M 2 COSY - Fouille de données complexes

Classification de documents textes n Principe n n 40 Classification (par apprentissage) de textes dans 1 ou plusieurs catégories Application en e-commerce : n n Moteur de Catégorisation sport culture santé politic economic vacances Relier une description de produit en texte libre à une classe de produits. Application web: n les sites tels que Yahoo constituent une exellente base d’apprentissage, car les catégories y ont été générées manuellement. Sert à générer un classifieur pour classer les prochains documents. n Ces classes peuvent servir comme balises sémantiques K. Zeitouni Cours M 2 COSY - Fouille de données complexes

Site organisé par catégorie 41 K. Zeitouni Cours M 2 COSY - Fouille de données complexes

Processus global de catégorisation Documents d’apprentissage pré-traitement Termes uniques présents dans les documents Termes uniques document Dictionnaire Représentation Vecteur des documents catégories affectées 42 Sélection des termes Calcul des scores des catégories K. Zeitouni Calcul des similarités k proches voisins Vecteurs des documents Apprentissage Catégorisation Cours M 2 COSY - Fouille de données complexes

Prétraitement des documents Document: doc Tokenizing Removing stop words Stemming words* Génère des données de type: (doc. ID, (term, term frequency)*) Calculating term frequency stopped. Terms. TF 43 K. Zeitouni Stemmed. Terms. TF* Cours M 2 COSY - Fouille de données complexes

Ex: Stop-words (mots chevilles) n Liste de mots (ex. ceux listés par Oracle text) sont les 200 suivants : a , beaucoup, comment, encore, lequel, moyennant, près, ses, toujours, afin, ça, concernant, entre, les, ne, puis, sien, tous, ailleurs, ce, dans, et, lesquelles, ni, puisque, sienne, toute, ainsi, ceci, de, étaient, lesquels, non, quand, siennes, toutes, alors, cela, dedans, était, leur, nos, quant, siens, très, après, celle, dehors, étant, leurs, notamment, que, soi, trop, attendant, celles, déjà, etc, lors, notre, quel, soi-même, tu, au, celui, delà, eux, lorsque, notres, quelle, soit, un, aucun, cependant, depuis, furent, lui, nôtre, quelqu’un, sont, une, aucune, certain, des, grâce, ma, nôtres, quelqu’une, suis, vos, au-dessous, certaine, desquelles, hormis, mais, nous, quelque, sur, votre, au-dessus, certaines, desquels, hors, malgré, nulle, quelques-unes, ta, vôtre, auprès, certains, dessus, ici, me, nulles, quelques-uns, tandis, vôtres, auquel, ces, dès, il, même, on, quels, tant, vous, aussi, cet, donc, ils, mêmes, ou, qui, te, vu, aussitôt, cette, donné, jadis, mes, où, quiconque, telle, y, autant, ceux, dont, je, mien, par, quoi, telles, autour, chacun, du, jusqu, mienne, parce, quoique, tes, aux, chacune, duquel, jusque, miennes, parmi, sa, tienne, auxquelles, chaque, durant, la, miens, plus, sans, tiennes, auxquels, chez, elle, laquelle, moins, plusieurs, sauf, tiens, avec, combien, elles, là, moment, pour, se, toi, à, comme, en, le, mon, pourquoi, selon, ton. Cours M 2 COSY - Fouille de données 44 K. Zeitouni complexes

Représentation des documents et Mesure de similarité n Représentation des documents n Vecteurs de document n ou matrice Document x terme n Pondération (ex: tf-idf) n + Réduction de dimension d 1 d 2 d. N t 1 t 2 t. T w 11 w 12 w 1 T w 21 w 22 w 2 T w. N 1 w. N 2 w. NT Similarité : n 45 Par le cosinus : Plus il est élevé (angle obtus) plus les documents sont similaires K. Zeitouni Cours M 2 COSY - Fouille de données complexes

Pondération TF-IDF signifie Term Frequency x Inverse Document Frequency : n Proposée par [Salton 1989], mesure l'importance d’un terme dans un document relativement à l’ensemble des documents. Avec: n tf i, j = fréquence du terme i dans le document j df i = nombre de documents du corpus contenant le terme i N = nombre de documents du corpus 46 K. Zeitouni Cours M 2 COSY - Fouille de données complexes

Évaluation de Performances n Ex. pour la catégorisation binaire (Y/N): n 47 Mesures basés sur la table de contingences : pré-étiqueté Y pré-étiquetéN Affecté à Y a b a+b Affecté à N c d c+d a+c b+d a+b+c+d n Rappel mesure la largeur de la catégorisation : ratio des documents bien classés par rapport à l’ensemble des documents appartenant réellement à la catégorie. r=a/(a+c) n Précision mesure la qualité de la catégorisation et correspond à la fraction des documents bien classés sur tous les documents affectés à la catégorie. p=a/(a+b) n F-mesure le compromis entre r et p: F 1=2 r*p/(r+p) K. Zeitouni Cours M 2 COSY - Fouille de données complexes

Fouille de données séquentielles K. Zeitouni Cours M 2 COSY - Fouille de données complexes

Utilisations n n Panier de la ménagère en considérant l’historique des transactions des clients. Le Web Usage Mining en considérant les succession des pages accédées par un même internaute. Analyse de séquences ADN Analyse de séquences d’événements quelconques : n n Différences avec les séries temporelles n n 49 Ex: Séquence d’activités de l’enquête «Ménages- Déplacements» Séries qualitatives et non numériques Parfois série d’ensembles, série de données multi-variées, … K. Zeitouni Cours M 2 COSY - Fouille de données complexes

Ex : Le Web Usage Mining n Le Weblog contient des informations riches sur la dynamique du Web => Son analyse permet de cibler les utilisateurs (clients, marchés) potentiels n La recherche de régularités (séquences fréquentes de pages) permet : n n D’ajuster la conception des pages et des liens et d’améliorer les performances des sites n Les associations de pages côté client permet d’optimiser le cache du navigateur, d’effectuer du « prefetching » L’analyse de tendance (temporelle): n 50 Indique les changements et la dynamique du web pour s’y adapter K. Zeitouni Cours M 2 COSY - Fouille de données complexes

Sous-séquences fréquentes n Algorithme GSP [Skirant 95]: n n n Extension d’Apriori Génération de candidats modifiée Inconvénient : plusieurs parcours de la base => coût élevé abbc abb aa ab abcb ba a 51 bbb abc ac bbcb bb b K. Zeitouni cbbc cbb bc ca c cbcb cbc cb cc Cours M 2 COSY - Fouille de données complexes

Sous-séquences fréquentes (Suite) n Algorithme Prefix. Span [Pei 2001]: n n 52 Inspiré de FP-tree et FP-growth de J. Han Code les données dans une structure d’arbre Plus performant que GSP si la structure tient en mémoire Problème : compacité moyenne => peut dépasser la taille de la mémoire K. Zeitouni Cours M 2 COSY - Fouille de données complexes

Sous-séquences fréquentes (Suite) n Algorithme TBI [Savary 2005]: n n n Méthode en 2 phases : n n 53 Un seul parcours de la base Codage compact au fur et à mesure dans un tableau binaire Maintien des fréquences des séquences lues et d’un index pour l’accès rapide par longueur. Plus performant que Prefix. Span Phase de codage dans la structure de donnée (Lit 1 fois la BD) Phase de génération de fréquents en mémoire K. Zeitouni Cours M 2 COSY - Fouille de données complexes

Sous-séquences fréquentes (Suite) n Structure de données Index VS 1 4 6 8 9 M T E S M R T M 0 1 1 1 Pointe sur le début 0 1 0 0 1 1 de séquences de 0 1 0 0 1 taille 3 5 240 . . Pointe sur le début de séquences de taille 1. 0 1 0 0 389 1 0 0 500 TB 54 Fréquence de la séquence entière K. Zeitouni NB Cours M 2 COSY - Fouille de données complexes

Sous-séquences fréquentes (Suite) n Algo TBI (Seuil-support, Tmax) Pour s dans la BD Gen-vecteur-séquences (VS, s) //génère le vecteur de séquences Coder et Insérer séquence dans le TBI Décalage éventuel pour séquences déjà codées Mettre à jour NB et Index Fin pour Pour k = 1 à Tmax //taille maximale des séquences de la base - Générer Ck - Gen-séquences-fréquentes (Seuil-support, k) Fin Pour 55 K. Zeitouni Cours M 2 COSY - Fouille de données complexes

Sous-séquences fréquentes (Suite) n Algo. Gen-vecteur-séquences (VS, s) --s : nouvelle séquence indice=1 -- Position courante dans VS Pour chaque article a de s Si a (VS à partir de indice) Si b s tel que b VS et position(b) > indice Insérer a avant b dans VS indice = indice + 1 Sinon insérer a à la fin de VS indice = Longueur VS+1 Fin Pour Fin 56 K. Zeitouni Cours M 2 COSY - Fouille de données complexes

Sous-séquences fréquentes (Suite) n Algo. Gen-séquences-fréquentes (Seuil-support, k) : Lk = // ensemble des séquences fréquentes de tailles k Pour toutes les sous-séquences candidates s de taille k - Pour toutes lignes l du TBI à partir de la ligne index[k] - Si s l - s. count = s. count + NB[k] // fréquence de s - Fin Pour - Si s. count >= Seuil-support - Lk= Lk s Fin Pour 57 K. Zeitouni Cours M 2 COSY - Fouille de données complexes

Conclusion n La recherche d’information a dominé la recherche au cours du demi-siècle passé. La découverte d’informations dominera la recherche au cours du siècle à venir. Directions de recherche n Vers les outils intégrés de data mining n n n Vers les méthodes intelligentes, efficaces et passant à l’échelle n n 58 “Vertical” (spécifique par application) data mining invisible (systèmes intelligents) Réduire les accès disque Surtout réduire les calculs tels que les similarités sur des données complexes. K. Zeitouni Cours M 2 COSY - Fouille de données complexes

Références Miller H. J. , Han J. , Geographic Data Mining and Knowledge Discovery, Research monographs in geographic information systems, 2001. § Ester M. , Kriegel H. -P. , Sander J. , Xu X. : A Density-Based Algorithm for Discovering Clusters in Large Spatial Databases with Noise, Proc. 2 nd Int. Conf. on Knowledge Discovery and Data Mining (KDD-96), Portland, 1996, pp. 226 -231. § Ester M. , Kriegel H. P. , Sander J. , "Spatial Data Mining: A Database Approach", Proc. of 5 th Symposium on Spatial Databases, Berlin, Germany, 1997. § K. Koperski, G. B. Marchisio, « Multi-level Indexing and GIS Enhanced Learning for Satellite Imageries » , In proceedings of Workshop on Multimedia Data Mining, August 20, 2000, Boston, MA, USA, pages 8 -13. In conjunctions with the 6 th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining 2000. § Lu, W. , Han, J. and Ooi, B. : Discovery of General Knowledge in Large Spatial Databases, in Proc. of 1993 Far East Workshop on Geographic Information Systems (FEGIS'93), Singapore, June 1993 § 59 K. Zeitouni Cours M 2 COSY - Fouille de données complexes

Références (suite) R. Ng and J. Han, "Efficient and Effective Clustering Method for Spatial Data Mining'', in Proc. of Int. Conf. on Very Large Data Bases (VLDB'94), Santiago, Chile, September 1994, pp. 144 -155. § Tung A. KH, Ng R T. , Lakshmanan L VS, Han J. , Constraint-based clustering in large databases. ICDT 2001. § Zeitouni K. , "Data Mining Spatial" - Numéro spécial, Revue internationale de géomatique, Editions Hermès, Vol. 9, 4 (99). § Zeitouni K. , Yeh L. , Aufaure M-A. , "Join indices as a tool for spatial data mining", Int. Workshop on Temporal, Spatial and Spatio-Temporal Data Mining, LNAI n° 2007, Springer, Lyon, September 2000. § § 60 Sites web : http: //www. kdnuggets. com/ http: //www. cs. bham. ac. uk/~anp/The. Data. Mine. html Site de DBMiner/Geo. Miner : http: //db. cs. sfu. ca/DBMiner/index. html K. Zeitouni Cours M 2 COSY - Fouille de données complexes

Références (suite) Agrawal R. , Srikant R. : Mining sequential patterns. In Proc. of the 11 th Int'l Conference on Data Engineering, Taipei, Taiwan, March 1995. n Han, J. , Jamil, H. M. , Lu, Y. , Chen, L. , Liao, Y. and Pei, J. DNA Miner: A system prototype for mining DNA sequences. In the proc. of the ACM SIGMOD International Conference on the management of data, Day 21 -24, 2001, Santa Barbara, CA, USA. n M. J. Zaki. 2001. SPADE: an efficient algorithm for mining frequent sequences. Machine Learning Journal, 42 (1/2): 31 -60. n R. Srikant and R. Agrawal. 1996. Mining sequential patterns: generalization and performance improvements. Proceedings of the 15 th International Conference on Extending Database Technology, 3 -17. n J. Pei, J. Han, B. Mortazavi-Asl, H. Pinto, Q. Chen, U. Dayal, and M-C. Hsu. 2001. Prefix. Span: mining sequential patterns efficiently by prefix-projected pattern growth. Proceedings of the 17 th International Conference on Data Engineering (ICDE), 215 -224. n F. Masseglia, P. Poncelet, M. Teisseire: Incremental mining of sequential patterns in large databases. Data Knowledge Engineering 46(1): 97 -121 (2003). n Savary L. , Zeitouni K. , “Indexed Bit Map (IBM) for Mining Frequent Sequences”, 9 th European Conference on Principles and Practice of Knowledge Discovery in Databases (PKDD 2005), Porto, Portugal, October 3 -7, 2005. Lecture Notes in Computer Science n° 3721 / 2005, Springer-Verlag Ed, pp. 659 – 666. Vesrion en Français ”Tableau de Bits Indexé (TBI) pour la Recherche de Séquences Fréquentes » , Actes de la conférence. Extraction et Cours M 2 COSY - Fouille de données Gestion de connaissances (EGC) 2005. 61 K. Zeitouni complexes n