19 Les entrepts de donnes et lanalyse de

  • Slides: 69
Download presentation
19 Les entrepôts de données et l'analyse de données 23/10/2021 © Robert Godin. Tous

19 Les entrepôts de données et l'analyse de données 23/10/2021 © Robert Godin. Tous droits réservés. 1

Architecture d'entrepôt de données Chaîne de traitement : extraction, transformations, analyses 23/10/2021 © Robert

Architecture d'entrepôt de données Chaîne de traitement : extraction, transformations, analyses 23/10/2021 © Robert Godin. Tous droits réservés. 2

19. 1 Schéma en étoile pour le OLAP Table de faits 23/10/2021 Tables de

19. 1 Schéma en étoile pour le OLAP Table de faits 23/10/2021 Tables de dimensions © Robert Godin. Tous droits réservés. 3

Cube de données Table Vente no. Client no. Article date. Vente montant 1 10

Cube de données Table Vente no. Client no. Article date. Vente montant 1 10 10/01/2000 100 2 20 10/01/2000 200 3 10 10/01/2000 500 1 10 15/01/2000 3 40 15/01/2000 100 2 60 16/01/2000 200 4 60 20/02/2000 400 2 10 20/02/2000 200 1 40 25/02/2000 100 4 10 04/03/2000 300 1 20 04/03/2000 200 … 23/10/2021 © Robert Godin. Tous droits réservés. 4

19. 2 Regroupements multidimensionnels (CUBE et ROLLUP SQL: 1999) GROUP BY SQL Tableau croisé

19. 2 Regroupements multidimensionnels (CUBE et ROLLUP SQL: 1999) GROUP BY SQL Tableau croisé 23/10/2021 © Robert Godin. Tous droits réservés. 5

Hiérarchie de cuboïdes 23/10/2021 © Robert Godin. Tous droits réservés. 6

Hiérarchie de cuboïdes 23/10/2021 © Robert Godin. Tous droits réservés. 6

GROUP BY pour tous les cuboïdes sous le cuboïde de base {Client, Article} 23/10/2021

GROUP BY pour tous les cuboïdes sous le cuboïde de base {Client, Article} 23/10/2021 © Robert Godin. Tous droits réservés. 7

Clause CUBE SQL: 1999 23/10/2021 © Robert Godin. Tous droits réservés. 8

Clause CUBE SQL: 1999 23/10/2021 © Robert Godin. Tous droits réservés. 8

Pliage basé sur la ville du Client 23/10/2021 © Robert Godin. Tous droits réservés.

Pliage basé sur la ville du Client 23/10/2021 © Robert Godin. Tous droits réservés. 9

Clause ROLLUP SQL: 1999 23/10/2021 © Robert Godin. Tous droits réservés. 10

Clause ROLLUP SQL: 1999 23/10/2021 © Robert Godin. Tous droits réservés. 10

Statistique d’ordonnancement rank() SQL: 1999 23/10/2021 © Robert Godin. Tous droits réservés. 11

Statistique d’ordonnancement rank() SQL: 1999 23/10/2021 © Robert Godin. Tous droits réservés. 11

dense_rank() élimine les trous dans la séquence 23/10/2021 © Robert Godin. Tous droits réservés.

dense_rank() élimine les trous dans la séquence 23/10/2021 © Robert Godin. Tous droits réservés. 12

Regroupement par fenêtrage: OVER SQL: 1999 23/10/2021 © Robert Godin. Tous droits réservés. 13

Regroupement par fenêtrage: OVER SQL: 1999 23/10/2021 © Robert Godin. Tous droits réservés. 13

Partition + fenêtre 23/10/2021 © Robert Godin. Tous droits réservés. 14

Partition + fenêtre 23/10/2021 © Robert Godin. Tous droits réservés. 14

19. 3 n OLAP relationnel (ROLAP) – n représentation relationnelle du SGBD OLAP multidimentionnel

19. 3 n OLAP relationnel (ROLAP) – n représentation relationnelle du SGBD OLAP multidimentionnel (MOLAP) – – – n Implémentation OLAP tableaux multidimensionnels adressage par indice de tableau plus rapide représentation coûteuse pour données creuses OLAP hybride (HOLAP) – 23/10/2021 combinaison © Robert Godin. Tous droits réservés. 15

Organisation physique ROLAP n Index bitmap – n Index de jointure – n jointure

Organisation physique ROLAP n Index bitmap – n Index de jointure – n jointure en étoile (star join) Vues matérialisées – n colonnes de dimensions de cardinalité faible stocker explicitement des cuboïdes Parallélisme – 23/10/2021 fragmentation physique des tables volumineuses © Robert Godin. Tous droits réservés. 16

Jointure en étoile entre table de faits et dimensions 23/10/2021 © Robert Godin. Tous

Jointure en étoile entre table de faits et dimensions 23/10/2021 © Robert Godin. Tous droits réservés. 17

Index de jointure 23/10/2021 © Robert Godin. Tous droits réservés. 18

Index de jointure 23/10/2021 © Robert Godin. Tous droits réservés. 18

19. 4 n Découverte de règles d'association – n Exemple. Poids. En. Kg =

19. 4 n Découverte de règles d'association – n Exemple. Poids. En. Kg = 50*Taille. En. Mètre + 5*Tour. De. Taille. En. Cm Regroupement (cluster analysis) – n Exemple. nez bloqué et toux classe : rhume Prédiction numérique – n Exemple. pain et fromage vin Classification – n La fouille de données Exemple. Groupes de documents similaires … 23/10/2021 © Robert Godin. Tous droits réservés. 19

19. 5 Règles d'association n (23) = FPV PTV = PV (PV) = 1236

19. 5 Règles d'association n (23) = FPV PTV = PV (PV) = 1236 n support(PV) = 4/10 n 23/10/2021 © Robert Godin. Tous droits réservés. 20

Support n n Support (Pain Vin) = support(PV) = 4/10 (40%) Support(Anti-acide Bière, Croustilles,

Support n n Support (Pain Vin) = support(PV) = 4/10 (40%) Support(Anti-acide Bière, Croustilles, Salsa, Huître) = support(ABCHS) = 1/10 (10%) 23/10/2021 © Robert Godin. Tous droits réservés. 21

Confiance n n Confiance(Pain Vin) = support(PV)/support(P)= 4/6 = 66% Confiance(Anti-acide Bière, Croustilles, Salsa,

Confiance n n Confiance(Pain Vin) = support(PV)/support(P)= 4/6 = 66% Confiance(Anti-acide Bière, Croustilles, Salsa, Huître) = support(ABCSH)/support(A) = 1/1 = 100% 23/10/2021 © Robert Godin. Tous droits réservés. 22

Terminologie n Règle exacte – n Règle forte – – n support ≥ minsupport

Terminologie n Règle exacte – n Règle forte – – n support ≥ minsupport confiance ≥ minconfiance Règle multiniveau – n confiance 100% remonter dans une dimension hiérarchique discrétisation d'attributs numériques Règle multidimensionnelle Fouille contrainte 23/10/2021 © Robert Godin. Tous droits réservés. 23

19. 5. 1 Algorithmes d'extraction des itemsets fréquents Approche de base n – –

19. 5. 1 Algorithmes d'extraction des itemsets fréquents Approche de base n – – 23/10/2021 1. extraire l'ensemble des itemsets fréquents 2. générer les règles à partir des itemsets fréquents © Robert Godin. Tous droits réservés. 24

Algorithme Apriori : balayage 1 23/10/2021 © Robert Godin. Tous droits réservés. 25

Algorithme Apriori : balayage 1 23/10/2021 © Robert Godin. Tous droits réservés. 25

Balayage 2 de Apriori 23/10/2021 © Robert Godin. Tous droits réservés. 26

Balayage 2 de Apriori 23/10/2021 © Robert Godin. Tous droits réservés. 26

Production des k-itemsets candidats par jointure des itemsets de Fk-1 23/10/2021 © Robert Godin.

Production des k-itemsets candidats par jointure des itemsets de Fk-1 23/10/2021 © Robert Godin. Tous droits réservés. 27

Les sous-ensembles d’un fréquent sont fréquents 23/10/2021 © Robert Godin. Tous droits réservés. 28

Les sous-ensembles d’un fréquent sont fréquents 23/10/2021 © Robert Godin. Tous droits réservés. 28

Sur-ensembles d'un infréquent sont infréquents 23/10/2021 © Robert Godin. Tous droits réservés. 29

Sur-ensembles d'un infréquent sont infréquents 23/10/2021 © Robert Godin. Tous droits réservés. 29

Balayage 3 de Apriori 23/10/2021 © Robert Godin. Tous droits réservés. 30

Balayage 3 de Apriori 23/10/2021 © Robert Godin. Tous droits réservés. 30

Amélioration de Apriori Réduire le nombre de balayages n Réduire le nombre de candidats

Amélioration de Apriori Réduire le nombre de balayages n Réduire le nombre de candidats à considérer n – n générer tous les sous-ensembles fréquents d'un long fréquent (exponentiel dans la taille) Faciliter le calcul du support des candidats 23/10/2021 © Robert Godin. Tous droits réservés. 31

19. 5. 2 Génération des règles à partir des itemsets fréquents 23/10/2021 © Robert

19. 5. 2 Génération des règles à partir des itemsets fréquents 23/10/2021 © Robert Godin. Tous droits réservés. 32

19. 5. 3 Bases pour les règles d'association exactes n Redondance – – n

19. 5. 3 Bases pour les règles d'association exactes n Redondance – – n Couverture minimale – n F PV FP V Quel critère ? Règle Informative Maximale (RIM) – – 23/10/2021 Antécédent minimal Conséquent maximal © Robert Godin. Tous droits réservés. 33

19. 5. 4 Itemset fermé et treillis de concepts Concept (I, T) : I

19. 5. 4 Itemset fermé et treillis de concepts Concept (I, T) : I = T' et T = I' RIM : I I'' - I 23/10/2021 © Robert Godin. Tous droits réservés. 34

19. 5. 5 La base de Duquenne-Guigues n Base de Duquenne-Guigues – n I

19. 5. 5 La base de Duquenne-Guigues n Base de Duquenne-Guigues – n I I''-I où I est un pseudofermé Itemset pseudo-fermé – I pas fermé et pseudo-fermés J I J' I n Redondance – n F PV : conséquent non minimal (car V P) Pas toujours RIM – – Exemple avec minsupport = 1 : BCHS A n'est pas pleine car CH A 23/10/2021 © Robert Godin. Tous droits réservés. 35

19. 5. 6 Base générique pour règles d'association exactes n Redondance logique ne tient

19. 5. 6 Base générique pour règles d'association exactes n Redondance logique ne tient pas compte du support – – – n Base générique – n n IG IG'' - IG où IG est un générateur non fermé (IG ≠IG'') Itemset générateur – n TV P conséquence logique de V P support(TV P) = 2/10 support(V P) = 4/10 générateur IG est un itemset minimal dont la fermeture est IG'' RIM Permet d’inférer le support et confiance de toutes les règles exactes fortes n 23/10/2021 support(I) = support(I'') © Robert Godin. Tous droits réservés. 36

Base générique Générateur IG Fermé IG" 23/10/2021 © Robert Godin. Tous droits réservés. 37

Base générique Générateur IG Fermé IG" 23/10/2021 © Robert Godin. Tous droits réservés. 37

19. 5. 7 Extraction des itemsets fermés fréquents support(I) = support(I'') 23/10/2021 © Robert

19. 5. 7 Extraction des itemsets fermés fréquents support(I) = support(I'') 23/10/2021 © Robert Godin. Tous droits réservés. 38

ALGORITHME CLOSE DE GENERATION DES ITEMSETS FERMES FREQUENTS AVEC LEURS GENERATEURS 23/10/2021 © Robert

ALGORITHME CLOSE DE GENERATION DES ITEMSETS FERMES FREQUENTS AVEC LEURS GENERATEURS 23/10/2021 © Robert Godin. Tous droits réservés. 39

Elagage supplémentaire vs Apriori 23/10/2021 © Robert Godin. Tous droits réservés. 40

Elagage supplémentaire vs Apriori 23/10/2021 © Robert Godin. Tous droits réservés. 40

Balayage 2 Terminé ! 23/10/2021 © Robert Godin. Tous droits réservés. 41

Balayage 2 Terminé ! 23/10/2021 © Robert Godin. Tous droits réservés. 41

Résultat final de Close => base générique 23/10/2021 © Robert Godin. Tous droits réservés.

Résultat final de Close => base générique 23/10/2021 © Robert Godin. Tous droits réservés. 42

ALGORITHME ACLOSE DE GENERATION DES FERMES FREQUENTS AVEC LEURS GENERATEURS 23/10/2021 © Robert Godin.

ALGORITHME ACLOSE DE GENERATION DES FERMES FREQUENTS AVEC LEURS GENERATEURS 23/10/2021 © Robert Godin. Tous droits réservés. 43

Bases pour les règles approximatives n Base de couverture de Luxenberger 23/10/2021 © Robert

Bases pour les règles approximatives n Base de couverture de Luxenberger 23/10/2021 © Robert Godin. Tous droits réservés. 44

Base de couverture de Luxenberger Pas une RIM : V FPs=2/10, c=2/4 23/10/2021 ©

Base de couverture de Luxenberger Pas une RIM : V FPs=2/10, c=2/4 23/10/2021 © Robert Godin. Tous droits réservés. 45

Réduction transitive de la base informative (RI) => RIM 23/10/2021 © Robert Godin. Tous

Réduction transitive de la base informative (RI) => RIM 23/10/2021 © Robert Godin. Tous droits réservés. 46

Raffinements Close, Closet+, CHARM, Pascal, Titanic n Incrémentalité n – n Galicia, Jen, Magalice

Raffinements Close, Closet+, CHARM, Pascal, Titanic n Incrémentalité n – n Galicia, Jen, Magalice Base représentative (Kryszkiewicz) 23/10/2021 © Robert Godin. Tous droits réservés. 47

19. 6 Algorithmes de regroupement (clustering) n Types de classification – – – n

19. 6 Algorithmes de regroupement (clustering) n Types de classification – – – n Partition Arbre Ordre partiel Treillis Chevauchante Regroupement conceptuel Approches classiques – – 23/10/2021 ascendante (par fusion) descendante (par division) © Robert Godin. Tous droits réservés. 48

19. 6. 1 Regroupement ascendant hiérarchique Distance entre classes ? n Recherche des deux

19. 6. 1 Regroupement ascendant hiérarchique Distance entre classes ? n Recherche des deux classes les plus proches ? n 23/10/2021 © Robert Godin. Tous droits réservés. 49

Méthode single-link n Distance(C 1, C 2) = min [Distance (c 1, c 2)|

Méthode single-link n Distance(C 1, C 2) = min [Distance (c 1, c 2)| c 1 C 1 , c 2 C 2 ] 23/10/2021 © Robert Godin. Tous droits réservés. 50

Méthode complete-link n Distance(C 1, C 2) = max [Distance (c 1, c 2)|

Méthode complete-link n Distance(C 1, C 2) = max [Distance (c 1, c 2)| c 1 C 1 , c 2 C 2] 23/10/2021 © Robert Godin. Tous droits réservés. 51

19. 6. 2 Partionnement descendant 23/10/2021 © Robert Godin. Tous droits réservés. 52

19. 6. 2 Partionnement descendant 23/10/2021 © Robert Godin. Tous droits réservés. 52

Développements récents n n n Méthodes hiérarchiques (BIRCH, CURE, ROCK, Chameleon, …) Méthodes de

Développements récents n n n Méthodes hiérarchiques (BIRCH, CURE, ROCK, Chameleon, …) Méthodes de partitionnement (CLARA, CLARANS, …) Basé densité (DBSCAN, OPTICS, DENCLUE, …) – n Basé grille (STING, Wave. Cluster, CLIQUE, …) – n n Découpage de l’espace en une grille Regroupement conceptuel (COBWEB, FCA, …) RNA Kohonen (Self Organizing Maps) Approches génétiques Survol – n Croissance d’une grappe basée sur la densité du voisinage http: //citeseer. ist. psu. edu/cache/papers/cs/26235/http: z. Szwww. isi. uu. nl z. Sz. Meetingsz. Sz. TGVz. Szjain. pdf/jain 99 data. pdf Survol du clustering en data mining (gros volume) – 23/10/2021 http: //citeseer. ist. psu. edu/cache/papers/cs/26278/http: z. Szwww. accrue. comz. Szproductsz. Szrp_cluster_review. pdf/berkhin 02 survey. pdf © Robert Godin. Tous droits réservés. 53

Classification Classes connues à l’avance n Prédire la classe d’appartenance d’un élément à partir

Classification Classes connues à l’avance n Prédire la classe d’appartenance d’un élément à partir de ses caractéristiques n Apprentissage supervisé n 23/10/2021 © Robert Godin. Tous droits réservés. 54

Classification Bayesienne n n Classer e dans Ci si P(Ci | e) > P(Cj|

Classification Bayesienne n n Classer e dans Ci si P(Ci | e) > P(Cj| e) i ≠ j Règle de Bayes – n P(Ci | e) = P(e | Ci) P(Ci)/ P(e) Classer e dans Ci si P(e | Ci) P(Ci) > P(e | Cj) P(Cj) i ≠ j 23/10/2021 © Robert Godin. Tous droits réservés. 55

Utilisateur d’internet ? n (sexe = M, âge = vieux, revenu = élevé) –

Utilisateur d’internet ? n (sexe = M, âge = vieux, revenu = élevé) – n internet = oui si – n internet = oui ou non ? (deux classes) P(internet = oui | sexe = M, âge = vieux, revenu = élevé) > P(Internet = non | sexe = M, âge = vieux, revenu = élevé) internet = oui si – 23/10/2021 P(sexe = M, âge = vieux, revenu = élevé | internet = oui) P(internet = oui) > P(sexe = M, âge = vieux, revenu = élevé | internet = non) P(internet = non) © Robert Godin. Tous droits réservés. 56

Estimation des probabilités à partir des données n P(internet = oui) = 4/10 n

Estimation des probabilités à partir des données n P(internet = oui) = 4/10 n P(internet = non) = 6/10 23/10/2021 © Robert Godin. Tous droits réservés. 57

Bayes naïf : attributs indépendants n P(sexe = M, âge = vieux, revenu =

Bayes naïf : attributs indépendants n P(sexe = M, âge = vieux, revenu = élevé | Internet = oui) = P(sexe = M | Internet = oui) P(âge = vieux | Internet = oui) P(revenu = élevé | Internet = oui) – n = 3/4 * 1/4 * 3/4= 9/64 P(sexe = M, âge = vieux, revenu = élevé | Internet = non) = P(sexe = M | Internet = non) P(âge = vieux | Internet = non) P(revenu = élevé | Internet = non) – 23/10/2021 = 2/6 * 4/6 * 1/6 = 1/27 © Robert Godin. Tous droits réservés. 58

En remplaçant dans la règle de décision : n n internet = oui si

En remplaçant dans la règle de décision : n n internet = oui si – P(sexe = M, âge = vieux, revenu = élevé | internet = oui) P(internet = oui) > P(sexe = M, âge = vieux, revenu = élevé | internet = non) P(internet = non) – 9/64 * 4/10 = 0, 05625 > 1/27 * 6/10 = 0, 022 => internet = oui 23/10/2021 © Robert Godin. Tous droits réservés. 59

19. 7. 2 Arbre de décision 23/10/2021 © Robert Godin. Tous droits réservés. 60

19. 7. 2 Arbre de décision 23/10/2021 © Robert Godin. Tous droits réservés. 60

Entropie d’une partition n n E (C 1, C 2, …, Cn) = -

Entropie d’une partition n n E (C 1, C 2, …, Cn) = - ∑ pi log 2 (pi) où pi = | Ci|/(∑| Ci|) E (C internet = oui, C internet = non) = – n n Minimum (0) lorsque tout dans la même classe Entropie d’un attribut – n - (0, 4 log 2 (0, 4) + 0, 6 log 2 (0, 6)) = 0, 97 moyenne des entropies des partitions de chacune des valeurs de l’attribut Gain(A) = E (C 1, C 2, …, Cn) - Entropie(A) 23/10/2021 © Robert Godin. Tous droits réservés. 61

Exemple n Gain en information de sexe : – sexe = m : n

Exemple n Gain en information de sexe : – sexe = m : n n – sexe = f : n n internet = oui : 1/5 = 0, 2 internet = non : 4/5 = 0, 8 Gain(sexe) = 0, 97 – (0, 5 *-(0, 6 log 2 (0, 6) + 0, 4 log 2 (0, 4)) + 0, 5 *-(0, 2 log 2 (0, 2) + 0, 8 log 2 (0, 8))) = 0, 12 Gain en information de revenu : – revenu = faible : n n – internet = oui : 1/6 = 0, 17 internet = non : 5/6 = 0, 83 revenu = élévé : n n n internet = oui : 3/5 = 0, 6 internet = non : 2/5 = 0, 4 internet = oui : 3/4 = 0, 75 internet = non : 1/4 = 0, 25 Gain(revenu) = 0, 97 -(6/10 *-(1/6 log 2 (1/6) + 5/6 log 2 (5/6)) + 4/10*-(0, 75 log 2 (0, 75) + 0, 25 log 2 (0, 25))) = 0, 26 23/10/2021 © Robert Godin. Tous droits réservés. 62

Premier niveau 23/10/2021 © Robert Godin. Tous droits réservés. 63

Premier niveau 23/10/2021 © Robert Godin. Tous droits réservés. 63

Deuxième niveau 23/10/2021 © Robert Godin. Tous droits réservés. 64

Deuxième niveau 23/10/2021 © Robert Godin. Tous droits réservés. 64

Troisième niveau 23/10/2021 © Robert Godin. Tous droits réservés. 65

Troisième niveau 23/10/2021 © Robert Godin. Tous droits réservés. 65

19. 7. 3 Réseau de Neurones Artificiels (RNA) supervisé 23/10/2021 © Robert Godin. Tous

19. 7. 3 Réseau de Neurones Artificiels (RNA) supervisé 23/10/2021 © Robert Godin. Tous droits réservés. 66

Fonction d’activation d’un neurone 23/10/2021 © Robert Godin. Tous droits réservés. 67

Fonction d’activation d’un neurone 23/10/2021 © Robert Godin. Tous droits réservés. 67

Entraînement par rétropropagation de l’erreur n Comparer la sortie obtenue et attendue Ajuster les

Entraînement par rétropropagation de l’erreur n Comparer la sortie obtenue et attendue Ajuster les poids dans la bonne direction wij = wij + wij n wij = vitesse. Apprentissage * Erreurj * yi n Erreurj n n – – 23/10/2021 yj (1 - yj)(valeur. Attendue- yj) pour neurone j en sortie pour neurone j caché © Robert Godin. Tous droits réservés. 68

Prédiction numérique La variable à prédire est numérique n y = f(X) n –

Prédiction numérique La variable à prédire est numérique n y = f(X) n – y Régression n Machines à vecteurs support et noyaux n Séries chronologiques n – 23/10/2021 xn = f(xn-1, xn-2, … ) © Robert Godin. Tous droits réservés. 69