Cline Frambourg Zhao Xin Wu et JeanPaul Minh
Céline Frambourg - Zhao Xin Wu et Jean-Paul Minh Truong - Axel Van Leeuw Présentent l'algorithme Ch. ARM (Close Association Rules Mining) Références: Ch. ARM : An efficient Algorithm for Closed Association Rule Mining ZAKI, M. j. , Hsiao C. -J. , 1999 Les entrepôts de données et l’analyse de données, GODIN, R. , 2002 08/12/2002 Ch. ARM 1
L'extraction de règles d'associations s'effectue en deux étapes: Trouver l'ensemble de tous les itemsets fréquents Tester et extraire toutes les règles ayant une confiance élevée parmi ces itemsets. 08/12/2002 Ch. ARM 2
Avantages de Ch. ARM Il n'est pas nécessaire d'extraire tous les itemsets fréquents, mais seulement l'ensemble des itemsets fermés frequents Il n'est pas nécessaire d'extraire l'ensemble de toutes les règles possibles 08/12/2002 Ch. ARM 3
Particularités de Ch. ARM Charm explore à la fois l'espace des itemsets et celui des tidsets. Ch. ARM utilise les opérations d’union sur les itemsets et d’intersection sur les tidsets Ch. ARM élague : n n Les itemsets non fréquents Les itemsets non fermés. 08/12/2002 Ch. ARM 4
Quelques rappels et notions Soit I={1, 2, …, m} un ensemble d’itemsets Soit T={1, 2, …, n} un ensemble de tidsets ou d'identificateurs de transactions. L’entrée d’une base de donnée est une relation binaire : δ I x T 08/12/2002 Ch. ARM 5
Une règle d'association est une expression de la forme : La confiance d’une règle est : 08/12/2002 Ch. ARM 6
Treillis de Galois Un treillis un ensemble ordonné non vide (P, ) dans lequel chaque couple d’éléments x, y P admet un supremum (join) (x v y) et un infimum (meet) (x y) Un treillis est complet si tous les sousensemble S P admettent un supremum et un infimum 08/12/2002 Ch. ARM 7
Connexion(s) de Galois Contexte d’extraction C= (I, T, ) Soit X I et Y T alors: t: I T, t(X)={y T | x X, x y} i: T I, i(Y)={x I | y Y, x y} Où : t(X) est l'ensemble de toutes les transactions (tidset) contenant l'itemset X i(Y) est l'itemset qui est contenu dans toutes les transactions dans Y. 08/12/2002 Ch. ARM 8
Théorèmes La règle est équivalente à la règle où q=p Pour tout itemset X, son support est égal au support de sa fermeture 08/12/2002 Ch. ARM 9
Propriétés de base pour les couples itemsets-tidsets Soit X 1 et X 2 deux itemsets tels que X 1≤X 2 qui implique σ(X 1)≤σ(X 2). Ch. ARM construit l’arbre des itemsets fermés fréquents en suivant quatre propriétés. 08/12/2002 Ch. ARM 10
Première propriété Si t(X 1)=t(X 2) alors t(X 1 X 2)=t(X 1) t(X 2)=t(X 1)=t(X 2). Dans ce cas, on remplace toutes les occurrences de X 1 par X 1 X 2 et on enlève X 2 de toutes les considérations ultérieures. En effet, sa fermeture est la même que la fermeture de X 1 X 2. 08/12/2002 Ch. ARM 11
Deuxième propriété Si t(X 1) t(X 2) alors t(X 1 X 2)=t(X 1) t(X 2)=t(X 1)≠t(X 2). Dans ce cas, on remplace toutes les occurrences de X 1 par X 1 X 2 mais on ne peut pas enlever X 2 de toutes considérations ultérieures parce que t(X 1)≠t(X 2). 08/12/2002 Ch. ARM 12
Troisième propriété Si t(X 1) t(X 2) alors t(X 1 X 2)=t(X 1) t(X 2)=t(X 2)≠t(X 1). Dans ce cas, on remplace toutes les occurrences de X 2 par X 1 X 2 mais on ne peut pas enlever X 1 de toutes considérations ultérieures parce que t(X 2)≠t(X 1). 08/12/2002 Ch. ARM 13
Quatrième propriété Si t(X 1)≠t(X 2) alors t(X 1 X 2)=t(X 1) t(X 2)≠t(X 1)≠t(X 2). Dans ce cas, on ne peut rien éliminer parce qu’à la fois X 1 et X 2 ont une fermeture différentes. Par contre, on ajoute le nœud X 1 X 2 avec son tidset associé qui est : t(X 1 X 2)=t(X 1) t(X 2) 08/12/2002 Ch. ARM 14
Contexte d’extraction 08/12/2002 Ch. ARM 15
Pseudo code de l’algorithme 08/12/2002 Ch. ARM 16
Construction de l’arbre des itemsets fermés fréquents {}x 123456 Ax 1345 Dx 2456 Tx 1356 Wx 12345 Cx 123456 On commence par mettre les 1 -itemsets ainsi que leurs tidsets associés. 08/12/2002 Ch. ARM 17
Construction de l’arbre des itemsets fermés fréquents {}x 123456 Ax 1345 Dx 2456 Tx 1356 Wx 12345 Cx 123456 ADx 45 t(A) ≠ t(D) => On utilise la propriété 4 08/12/2002 Ch. ARM 18
Construction de l’arbre des itemsets fermés fréquents {}x 123456 Ax 1345 Dx 2456 Tx 1356 Wx 12345 Cx 123456 ADx 45 AD n’est pas un itemset fréquent donc Ch. ARM l’élague 08/12/2002 Ch. ARM 19
Construction de l’arbre des itemsets fermés fréquents {}x 123456 Ax 1345 Dx 2456 Tx 1356 Wx 12345 Cx 123456 ATx 135 t(A) ≠ t(T) => On utilise la propriété 4 08/12/2002 Ch. ARM 20
Construction de l’arbre des itemsets fermés fréquents {}x 123456 AWx 1345 Dx 2456 Tx 1356 Wx 12345 Cx 123456 ATWx 135 t(A) t(W) => On utilise la propriété 2 08/12/2002 Ch. ARM 21
Construction de l’arbre des itemsets fermés fréquents {}x 123456 ACWx 1345 Dx 2456 Tx 1356 Wx 12345 Cx 123456 ACTWx 135 t(A) t(C) => On utilise la propriété 2 08/12/2002 Ch. ARM 22
Construction de l’arbre des itemsets fermés fréquents {}x 123456 ACWx 1345 Dx 2456 Tx 1356 ACTWx 135 Wx 12345 Cx 123456 DTx 56 t(D) ≠ t(T) => On utilise la propriété 4 08/12/2002 Ch. ARM 23
Construction de l’arbre des itemsets fermés fréquents {}x 123456 ACWx 1345 Dx 2456 Tx 1356 ACTWx 135 Wx 12345 Cx 123456 DTx 56 DT n’est pas un itemset fréquent donc Ch. ARM l’élague 08/12/2002 Ch. ARM 24
Construction de l’arbre des itemsets fermés fréquents {}x 123456 ACWx 1345 Dx 2456 Tx 1356 Wx 12345 Cx 123456 ACTWx 135 DWx 245 t(D) ≠ t(W) => On utilise la propriété 4 08/12/2002 Ch. ARM 25
Construction de l’arbre des itemsets fermés fréquents {}x 123456 ACWx 1345 CDx 2456 Tx 1356 Wx 12345 Cx 123456 ACTWx 135 CDWx 245 t(D) t(C) => On utilise la propriété 2 08/12/2002 Ch. ARM 26
Construction de l’arbre des itemsets fermés fréquents {}x 123456 ACWx 1345 CDx 2456 Tx 1356 Wx 12345 ACTWx 135 CDWx 245 Cx 123456 TWx 135 t(T) ≠ t(W) => On utilise la propriété 4 08/12/2002 Ch. ARM 27
Construction de l’arbre des itemsets fermés fréquents {}x 123456 ACWx 1345 CDx 2456 Tx 1356 Wx 12345 ACTWx 135 CDWx 245 Cx 123456 TWx 135 TW ⊆ ACTW et σ(TW) = σ(ACTW) donc Ch. ARM l’élague 08/12/2002 Ch. ARM 28
Construction de l’arbre des itemsets fermés fréquents {}x 123456 ACWx 1345 Dx 2456 CTx 1356 Wx 12345 Cx 123456 ACTWx 135 DWx 245 t(T) t(C) => On utilise la propriété 2 08/12/2002 Ch. ARM 29
Construction de l’arbre des itemsets fermés fréquents {}x 123456 ACWx 1345 Dx 2456 CTx 1356 CWx 12345 Cx 123456 ACTWx 135 DWx 245 t(W) t(C) => On utilise la propriété 2 08/12/2002 Ch. ARM 30
- Slides: 30