19 Les entrepts de donnes et lanalyse de
- Slides: 69
19 Les entrepôts de données et l'analyse de données 23/10/2021 © Robert Godin. Tous droits réservés. 1
Architecture d'entrepôt de données Chaîne de traitement : extraction, transformations, analyses 23/10/2021 © Robert Godin. Tous droits réservés. 2
19. 1 Schéma en étoile pour le OLAP Table de faits 23/10/2021 Tables de dimensions © Robert Godin. Tous droits réservés. 3
Cube de données Table Vente no. Client no. Article date. Vente montant 1 10 10/01/2000 100 2 20 10/01/2000 200 3 10 10/01/2000 500 1 10 15/01/2000 3 40 15/01/2000 100 2 60 16/01/2000 200 4 60 20/02/2000 400 2 10 20/02/2000 200 1 40 25/02/2000 100 4 10 04/03/2000 300 1 20 04/03/2000 200 … 23/10/2021 © Robert Godin. Tous droits réservés. 4
19. 2 Regroupements multidimensionnels (CUBE et ROLLUP SQL: 1999) GROUP BY SQL Tableau croisé 23/10/2021 © Robert Godin. Tous droits réservés. 5
Hiérarchie de cuboïdes 23/10/2021 © Robert Godin. Tous droits réservés. 6
GROUP BY pour tous les cuboïdes sous le cuboïde de base {Client, Article} 23/10/2021 © Robert Godin. Tous droits réservés. 7
Clause CUBE SQL: 1999 23/10/2021 © Robert Godin. Tous droits réservés. 8
Pliage basé sur la ville du Client 23/10/2021 © Robert Godin. Tous droits réservés. 9
Clause ROLLUP SQL: 1999 23/10/2021 © Robert Godin. Tous droits réservés. 10
Statistique d’ordonnancement rank() SQL: 1999 23/10/2021 © Robert Godin. Tous droits réservés. 11
dense_rank() élimine les trous dans la séquence 23/10/2021 © Robert Godin. Tous droits réservés. 12
Regroupement par fenêtrage: OVER SQL: 1999 23/10/2021 © Robert Godin. Tous droits réservés. 13
Partition + fenêtre 23/10/2021 © Robert Godin. Tous droits réservés. 14
19. 3 n OLAP relationnel (ROLAP) – n représentation relationnelle du SGBD OLAP multidimentionnel (MOLAP) – – – n Implémentation OLAP tableaux multidimensionnels adressage par indice de tableau plus rapide représentation coûteuse pour données creuses OLAP hybride (HOLAP) – 23/10/2021 combinaison © Robert Godin. Tous droits réservés. 15
Organisation physique ROLAP n Index bitmap – n Index de jointure – n jointure en étoile (star join) Vues matérialisées – n colonnes de dimensions de cardinalité faible stocker explicitement des cuboïdes Parallélisme – 23/10/2021 fragmentation physique des tables volumineuses © Robert Godin. Tous droits réservés. 16
Jointure en étoile entre table de faits et dimensions 23/10/2021 © Robert Godin. Tous droits réservés. 17
Index de jointure 23/10/2021 © Robert Godin. Tous droits réservés. 18
19. 4 n Découverte de règles d'association – n Exemple. Poids. En. Kg = 50*Taille. En. Mètre + 5*Tour. De. Taille. En. Cm Regroupement (cluster analysis) – n Exemple. nez bloqué et toux classe : rhume Prédiction numérique – n Exemple. pain et fromage vin Classification – n La fouille de données Exemple. Groupes de documents similaires … 23/10/2021 © Robert Godin. Tous droits réservés. 19
19. 5 Règles d'association n (23) = FPV PTV = PV (PV) = 1236 n support(PV) = 4/10 n 23/10/2021 © Robert Godin. Tous droits réservés. 20
Support n n Support (Pain Vin) = support(PV) = 4/10 (40%) Support(Anti-acide Bière, Croustilles, Salsa, Huître) = support(ABCHS) = 1/10 (10%) 23/10/2021 © Robert Godin. Tous droits réservés. 21
Confiance n n Confiance(Pain Vin) = support(PV)/support(P)= 4/6 = 66% Confiance(Anti-acide Bière, Croustilles, Salsa, Huître) = support(ABCSH)/support(A) = 1/1 = 100% 23/10/2021 © Robert Godin. Tous droits réservés. 22
Terminologie n Règle exacte – n Règle forte – – n support ≥ minsupport confiance ≥ minconfiance Règle multiniveau – n confiance 100% remonter dans une dimension hiérarchique discrétisation d'attributs numériques Règle multidimensionnelle Fouille contrainte 23/10/2021 © Robert Godin. Tous droits réservés. 23
19. 5. 1 Algorithmes d'extraction des itemsets fréquents Approche de base n – – 23/10/2021 1. extraire l'ensemble des itemsets fréquents 2. générer les règles à partir des itemsets fréquents © Robert Godin. Tous droits réservés. 24
Algorithme Apriori : balayage 1 23/10/2021 © Robert Godin. Tous droits réservés. 25
Balayage 2 de Apriori 23/10/2021 © Robert Godin. Tous droits réservés. 26
Production des k-itemsets candidats par jointure des itemsets de Fk-1 23/10/2021 © Robert Godin. Tous droits réservés. 27
Les sous-ensembles d’un fréquent sont fréquents 23/10/2021 © Robert Godin. Tous droits réservés. 28
Sur-ensembles d'un infréquent sont infréquents 23/10/2021 © Robert Godin. Tous droits réservés. 29
Balayage 3 de Apriori 23/10/2021 © Robert Godin. Tous droits réservés. 30
Amélioration de Apriori Réduire le nombre de balayages n Réduire le nombre de candidats à considérer n – n générer tous les sous-ensembles fréquents d'un long fréquent (exponentiel dans la taille) Faciliter le calcul du support des candidats 23/10/2021 © Robert Godin. Tous droits réservés. 31
19. 5. 2 Génération des règles à partir des itemsets fréquents 23/10/2021 © Robert Godin. Tous droits réservés. 32
19. 5. 3 Bases pour les règles d'association exactes n Redondance – – n Couverture minimale – n F PV FP V Quel critère ? Règle Informative Maximale (RIM) – – 23/10/2021 Antécédent minimal Conséquent maximal © Robert Godin. Tous droits réservés. 33
19. 5. 4 Itemset fermé et treillis de concepts Concept (I, T) : I = T' et T = I' RIM : I I'' - I 23/10/2021 © Robert Godin. Tous droits réservés. 34
19. 5. 5 La base de Duquenne-Guigues n Base de Duquenne-Guigues – n I I''-I où I est un pseudofermé Itemset pseudo-fermé – I pas fermé et pseudo-fermés J I J' I n Redondance – n F PV : conséquent non minimal (car V P) Pas toujours RIM – – Exemple avec minsupport = 1 : BCHS A n'est pas pleine car CH A 23/10/2021 © Robert Godin. Tous droits réservés. 35
19. 5. 6 Base générique pour règles d'association exactes n Redondance logique ne tient pas compte du support – – – n Base générique – n n IG IG'' - IG où IG est un générateur non fermé (IG ≠IG'') Itemset générateur – n TV P conséquence logique de V P support(TV P) = 2/10 support(V P) = 4/10 générateur IG est un itemset minimal dont la fermeture est IG'' RIM Permet d’inférer le support et confiance de toutes les règles exactes fortes n 23/10/2021 support(I) = support(I'') © Robert Godin. Tous droits réservés. 36
Base générique Générateur IG Fermé IG" 23/10/2021 © Robert Godin. Tous droits réservés. 37
19. 5. 7 Extraction des itemsets fermés fréquents support(I) = support(I'') 23/10/2021 © Robert Godin. Tous droits réservés. 38
ALGORITHME CLOSE DE GENERATION DES ITEMSETS FERMES FREQUENTS AVEC LEURS GENERATEURS 23/10/2021 © Robert Godin. Tous droits réservés. 39
Elagage supplémentaire vs Apriori 23/10/2021 © Robert Godin. Tous droits réservés. 40
Balayage 2 Terminé ! 23/10/2021 © Robert Godin. Tous droits réservés. 41
Résultat final de Close => base générique 23/10/2021 © Robert Godin. Tous droits réservés. 42
ALGORITHME ACLOSE DE GENERATION DES FERMES FREQUENTS AVEC LEURS GENERATEURS 23/10/2021 © Robert Godin. Tous droits réservés. 43
Bases pour les règles approximatives n Base de couverture de Luxenberger 23/10/2021 © Robert Godin. Tous droits réservés. 44
Base de couverture de Luxenberger Pas une RIM : V FPs=2/10, c=2/4 23/10/2021 © Robert Godin. Tous droits réservés. 45
Réduction transitive de la base informative (RI) => RIM 23/10/2021 © Robert Godin. Tous droits réservés. 46
Raffinements Close, Closet+, CHARM, Pascal, Titanic n Incrémentalité n – n Galicia, Jen, Magalice Base représentative (Kryszkiewicz) 23/10/2021 © Robert Godin. Tous droits réservés. 47
19. 6 Algorithmes de regroupement (clustering) n Types de classification – – – n Partition Arbre Ordre partiel Treillis Chevauchante Regroupement conceptuel Approches classiques – – 23/10/2021 ascendante (par fusion) descendante (par division) © Robert Godin. Tous droits réservés. 48
19. 6. 1 Regroupement ascendant hiérarchique Distance entre classes ? n Recherche des deux classes les plus proches ? n 23/10/2021 © Robert Godin. Tous droits réservés. 49
Méthode single-link n Distance(C 1, C 2) = min [Distance (c 1, c 2)| c 1 C 1 , c 2 C 2 ] 23/10/2021 © Robert Godin. Tous droits réservés. 50
Méthode complete-link n Distance(C 1, C 2) = max [Distance (c 1, c 2)| c 1 C 1 , c 2 C 2] 23/10/2021 © Robert Godin. Tous droits réservés. 51
19. 6. 2 Partionnement descendant 23/10/2021 © Robert Godin. Tous droits réservés. 52
Développements récents n n n Méthodes hiérarchiques (BIRCH, CURE, ROCK, Chameleon, …) Méthodes de partitionnement (CLARA, CLARANS, …) Basé densité (DBSCAN, OPTICS, DENCLUE, …) – n Basé grille (STING, Wave. Cluster, CLIQUE, …) – n n Découpage de l’espace en une grille Regroupement conceptuel (COBWEB, FCA, …) RNA Kohonen (Self Organizing Maps) Approches génétiques Survol – n Croissance d’une grappe basée sur la densité du voisinage http: //citeseer. ist. psu. edu/cache/papers/cs/26235/http: z. Szwww. isi. uu. nl z. Sz. Meetingsz. Sz. TGVz. Szjain. pdf/jain 99 data. pdf Survol du clustering en data mining (gros volume) – 23/10/2021 http: //citeseer. ist. psu. edu/cache/papers/cs/26278/http: z. Szwww. accrue. comz. Szproductsz. Szrp_cluster_review. pdf/berkhin 02 survey. pdf © Robert Godin. Tous droits réservés. 53
Classification Classes connues à l’avance n Prédire la classe d’appartenance d’un élément à partir de ses caractéristiques n Apprentissage supervisé n 23/10/2021 © Robert Godin. Tous droits réservés. 54
Classification Bayesienne n n Classer e dans Ci si P(Ci | e) > P(Cj| e) i ≠ j Règle de Bayes – n P(Ci | e) = P(e | Ci) P(Ci)/ P(e) Classer e dans Ci si P(e | Ci) P(Ci) > P(e | Cj) P(Cj) i ≠ j 23/10/2021 © Robert Godin. Tous droits réservés. 55
Utilisateur d’internet ? n (sexe = M, âge = vieux, revenu = élevé) – n internet = oui si – n internet = oui ou non ? (deux classes) P(internet = oui | sexe = M, âge = vieux, revenu = élevé) > P(Internet = non | sexe = M, âge = vieux, revenu = élevé) internet = oui si – 23/10/2021 P(sexe = M, âge = vieux, revenu = élevé | internet = oui) P(internet = oui) > P(sexe = M, âge = vieux, revenu = élevé | internet = non) P(internet = non) © Robert Godin. Tous droits réservés. 56
Estimation des probabilités à partir des données n P(internet = oui) = 4/10 n P(internet = non) = 6/10 23/10/2021 © Robert Godin. Tous droits réservés. 57
Bayes naïf : attributs indépendants n P(sexe = M, âge = vieux, revenu = élevé | Internet = oui) = P(sexe = M | Internet = oui) P(âge = vieux | Internet = oui) P(revenu = élevé | Internet = oui) – n = 3/4 * 1/4 * 3/4= 9/64 P(sexe = M, âge = vieux, revenu = élevé | Internet = non) = P(sexe = M | Internet = non) P(âge = vieux | Internet = non) P(revenu = élevé | Internet = non) – 23/10/2021 = 2/6 * 4/6 * 1/6 = 1/27 © Robert Godin. Tous droits réservés. 58
En remplaçant dans la règle de décision : n n internet = oui si – P(sexe = M, âge = vieux, revenu = élevé | internet = oui) P(internet = oui) > P(sexe = M, âge = vieux, revenu = élevé | internet = non) P(internet = non) – 9/64 * 4/10 = 0, 05625 > 1/27 * 6/10 = 0, 022 => internet = oui 23/10/2021 © Robert Godin. Tous droits réservés. 59
19. 7. 2 Arbre de décision 23/10/2021 © Robert Godin. Tous droits réservés. 60
Entropie d’une partition n n E (C 1, C 2, …, Cn) = - ∑ pi log 2 (pi) où pi = | Ci|/(∑| Ci|) E (C internet = oui, C internet = non) = – n n Minimum (0) lorsque tout dans la même classe Entropie d’un attribut – n - (0, 4 log 2 (0, 4) + 0, 6 log 2 (0, 6)) = 0, 97 moyenne des entropies des partitions de chacune des valeurs de l’attribut Gain(A) = E (C 1, C 2, …, Cn) - Entropie(A) 23/10/2021 © Robert Godin. Tous droits réservés. 61
Exemple n Gain en information de sexe : – sexe = m : n n – sexe = f : n n internet = oui : 1/5 = 0, 2 internet = non : 4/5 = 0, 8 Gain(sexe) = 0, 97 – (0, 5 *-(0, 6 log 2 (0, 6) + 0, 4 log 2 (0, 4)) + 0, 5 *-(0, 2 log 2 (0, 2) + 0, 8 log 2 (0, 8))) = 0, 12 Gain en information de revenu : – revenu = faible : n n – internet = oui : 1/6 = 0, 17 internet = non : 5/6 = 0, 83 revenu = élévé : n n n internet = oui : 3/5 = 0, 6 internet = non : 2/5 = 0, 4 internet = oui : 3/4 = 0, 75 internet = non : 1/4 = 0, 25 Gain(revenu) = 0, 97 -(6/10 *-(1/6 log 2 (1/6) + 5/6 log 2 (5/6)) + 4/10*-(0, 75 log 2 (0, 75) + 0, 25 log 2 (0, 25))) = 0, 26 23/10/2021 © Robert Godin. Tous droits réservés. 62
Premier niveau 23/10/2021 © Robert Godin. Tous droits réservés. 63
Deuxième niveau 23/10/2021 © Robert Godin. Tous droits réservés. 64
Troisième niveau 23/10/2021 © Robert Godin. Tous droits réservés. 65
19. 7. 3 Réseau de Neurones Artificiels (RNA) supervisé 23/10/2021 © Robert Godin. Tous droits réservés. 66
Fonction d’activation d’un neurone 23/10/2021 © Robert Godin. Tous droits réservés. 67
Entraînement par rétropropagation de l’erreur n Comparer la sortie obtenue et attendue Ajuster les poids dans la bonne direction wij = wij + wij n wij = vitesse. Apprentissage * Erreurj * yi n Erreurj n n – – 23/10/2021 yj (1 - yj)(valeur. Attendue- yj) pour neurone j en sortie pour neurone j caché © Robert Godin. Tous droits réservés. 68
Prédiction numérique La variable à prédire est numérique n y = f(X) n – y Régression n Machines à vecteurs support et noyaux n Séries chronologiques n – 23/10/2021 xn = f(xn-1, xn-2, … ) © Robert Godin. Tous droits réservés. 69
- Par ton corps tu nous donnes la vie
- Le pain de ta vie
- Podc management
- Variables et invariables
- Parts d una flor
- Calorie dragibus
- Allez vous en sur les places paroles
- Les constellations les plus connues
- J'aime les bouches sans venin les cœurs sans stratagème
- Les mots variables et les mots invariables
- Les lettres en français
- Texte expressif
- Les trois obstacles et les quatre démons
- Preactionneurs
- Pronoms convenable
- Les mots qu'on ne dit pas sont les fleurs du silence
- Trouvez les réponses. écrivez-les en chiffres (numbers).
- Fonction technique scooter
- Le volcan le plus dangereux du monde
- Veux-tu briser du péché le pouvoir parole
- Parts de la fulla
- Organisateur textuel de succession
- Le train de la vie grand corps malade
- Les voitures les plus rapides du monde
- Le titre de la ficelle
- Zoé et les gros monstres
- Composició oberta o tancada
- Développement texte descriptif
- Les conjonctive
- Les bons troglodytes
- Fais correspondre
- Les stoma
- La boucle repeter en c
- Carel struycken prisonnier
- Comparateur 2 bits table de vérité
- Bantu migration ap world history
- Allitération
- Activer les modules complémentaires firefox
- Parts d'una planta
- Les articles contractes
- Les vergers du bosquet
- Les valeurs personnelles
- Introduction sur les capteurs
- Production écrite sur les nouvelles technologies
- Tableau a deux dimension algorithme
- Mots en gras
- Différents types de gladiateurs
- Les pleureuses siciliennes
- La vie clairr
- Les joueurs de skat
- Les domaines de la linguistique
- Meu coração penetras e lês meus pensamentos
- L'entree menu
- Les mesures de volume
- Felicien tenait les pinceaux daniel la plume
- Gestion de projet : les fondamentaux
- Quelles sont les différentes
- Personnages des enfers
- Les flagellés intestinaux
- Les phobies
- Les lois des exposants
- Sara el attar origine
- Les outils du diagnostic financier
- Fonctions techniques définition
- Henri fayol
- Schéma de processus de communication
- Les aigues marines grandcamp maisy
- Les 15 pouvoirs magiques du coca-cola
- Les vecteurs de clonage
- Tma vzor