58882498 Email xushistic ac cn OR pzczxsgmail com

  • Slides: 71
Download presentation
数据挖掘与决策支持 教师:徐硕 电话: 58882498 Email: xush@istic. ac. cn OR pzczxs@gmail. com 微信号:pzczxs 课程网址: http:

数据挖掘与决策支持 教师:徐硕 电话: 58882498 Email: xush@istic. ac. cn OR pzczxs@gmail. com 微信号:pzczxs 课程网址: http: //168. 160. 17. 216/DMWiki/index. php? id=course : datamining 16 2016年 09月29日

课程主要内容 v 关联规则挖掘(Association Rule Mining) v 相似项发现(Similar Item Finding) v 分类及预测(Classification & Prediction) v

课程主要内容 v 关联规则挖掘(Association Rule Mining) v 相似项发现(Similar Item Finding) v 分类及预测(Classification & Prediction) v 支持向量机及其他(SVM and Beyond) v 序列标注方法(Sequence Labeling) v 聚类分析(Clustering) v 概率主题模型(Probabilistic Topic Model) v 深度学习(Deep Learning) 2016年 09月29日

频繁项集挖掘方法 v Apriori算法(Agrawal & Srikant, 1994) v Apriori. TID算法(Agrawal & Srikant, 1994) v Eclat算法(Zaki,

频繁项集挖掘方法 v Apriori算法(Agrawal & Srikant, 1994) v Apriori. TID算法(Agrawal & Srikant, 1994) v Eclat算法(Zaki, 2000) v d. Eclat算法(Zaki & Gouda, 2003) v FP-Growth算法(Han et al. , 2004) v LCMFreq算法(Uno et al. , 2004) v Relim算法(Borgelt, 2005) v H-Mine算法(Pei et al. , 2007) v Pre. Post及Pre. Post+算法(Deng et al. , 2012; 2015) v FIN算法(Deng et al. , 2014) v… 2016年 09月29日

Aprior算法:伪码 v (1) L 1 = {频繁1项集}; v (2) for (k = 2; Lk-1

Aprior算法:伪码 v (1) L 1 = {频繁1项集}; v (2) for (k = 2; Lk-1 ; k++) do begin v (3) Ck = apriori_gen(Lk-1); //新的候选频繁项集 v (4) for all transactions t D do begin v (5) Ct = subset(Ck, t); //t中包含的候选频繁项集 v (6) for all candidates c Ct do v (7) c. count++; v (8) end; v (9) Lk = {c Ck | c. count minsup} v (10) end; v (11) Answer = k Lk 2016年 09月29日

Apriori算法:实例 s=2 Database TDB Tid Items 10 A, C, D 20 B, C, E

Apriori算法:实例 s=2 Database TDB Tid Items 10 A, C, D 20 B, C, E 30 A, B, C, E 40 B, E Itemset {A, C} {B, E} {C, E} sup {A} 2 {B} 3 {C} 3 {D} 1 {E} 3 C 1 1 st scan C 2 L 2 Itemset sup 2 2 3 2 Itemset {A, B} {A, C} {A, E} {B, C} {B, E} {C, E} sup 1 2 3 2 L 1 Itemset sup {A} 2 {B} 3 {C} 3 {E} 3 C 2 2 nd scan Itemset {A, B} {A, C} {A, E} {B, C} {B, E} {C, E} C 3 Itemset {B, C, E} 3 rd scan L 3 Itemset sup {B, C, E} 2 2016年 09月29日

FP-tree:构建 TID 100 200 300 400 500 步骤: Items bought (ordered) frequent items {f,

FP-tree:构建 TID 100 200 300 400 500 步骤: Items bought (ordered) frequent items {f, a, c, d, g, i, m, p} {f, c, a, m, p} {a, b, c, f, l, m, o} {f, c, a, b, m} {b, f, h, j, o} {f, b} {b, c, k, s, p} {c, b, p} {a, f, c, e, l, p, m, n} {f, c, a, m, p} 最小支持度 = 3 {} 头表 1. 扫描数据库一次,得到频繁1 Item frequency head f 4 -项集 c 4 a 3 2. 把项按支持度递减排序 b 3 3. 再一次扫描数据库,建立FP- m 3 tree p 3 f: 4 c: 3 c: 1 b: 1 a: 3 b: 1 p: 1 m: 2 b: 1 p: 2 m: 1 2016年 09月29日

步骤 1:从FP-tree到条件模式 v 从FP-tree的头表开始 v 按照每个频繁项的连接遍历 FP-tree v 列出能够到达此项的所有前缀路径,得到条件 模式库 头表 Item frequency head

步骤 1:从FP-tree到条件模式 v 从FP-tree的头表开始 v 按照每个频繁项的连接遍历 FP-tree v 列出能够到达此项的所有前缀路径,得到条件 模式库 头表 Item frequency head f 4 c 4 a 3 b 3 m 3 p 3 条件模式库 {} f: 4 c: 3 c: 1 b: 1 a: 3 b: 1 p: 1 m: 2 b: 1 p: 2 m: 1 item cond. pattern base c f: 3 a fc: 3 b fca: 1, f: 1, c: 1 m fca: 2, fcab: 1 p fcam: 2, cb: 1 2016年 09月29日

步骤 2:建立条件FP-tree v 对每个模式库 § 计算库中每个项的支持度 § 用模式库中的频繁项建立FP-tree {} 头表 f: 4 Item frequency

步骤 2:建立条件FP-tree v 对每个模式库 § 计算库中每个项的支持度 § 用模式库中的频繁项建立FP-tree {} 头表 f: 4 Item frequency head f 4 c: 3 b: 1 a 3 a: 3 b 3 m: 2 b: 1 p 3 p: 2 m: 1 m-条件模式库: fca: 2, fcab: 1 c: 1 {} b: 1 p: 1 f: 3 c: 3 All frequent patterns concerning m m, fm, cm, am, fcm, fam, cam, fcam a: 3 m-conditional FP-tree 2016年 09月29日

案例: Web日志格式 58. 61. 164. 141 – - [22/Feb/2010: 09: 51: 46 +0800] “GET

案例: Web日志格式 58. 61. 164. 141 – - [22/Feb/2010: 09: 51: 46 +0800] “GET /reference-and-source/weblogformat/ HTTP/1. 1″ 206 6326 ” http: //www. google. cn/search? q=webdataanalysis” “Mozilla/4. 0 (compatible; MSIE 6. 0; Windows NT 5. 1)” Field Example 访问主机(User IP) 58. 61. 164. 141 用户ID(User ID) -- 访问日期(Timestamp) [22/Feb/2010: 09: 51: 46 +0800] 请求方法(Method) GET 请求资源(URL) /reference-and-source/weblog-format/ HTTP版本(HTTP version) HTTP/1. 1 状态码(Status) 206 传输字节数(Bytes transferred) 6326 来源页面(Referer page) http: //www. google. cn/search? q=webdataanal ysis 浏览器(Brower used) Mozilla/4. 0 客户端操作系统(Client OS) (compatible; MSIE 6. 0; Windows NT 2016年 09月29日 5. 1)

案例:Web日志挖掘(1/3) ◆Shuo Xu, Xiaodong Qiao, Lijun Zhu, and Huixia Zheng, 2010. Deep Analysis on

案例:Web日志挖掘(1/3) ◆Shuo Xu, Xiaodong Qiao, Lijun Zhu, and Huixia Zheng, 2010. Deep Analysis on Mining Freuent & Maximal Reference Sequences with Generalized Suffix Tree. Jounral of Computational Information Systems, Vol. 6, No. 7, pp. 2187 -2197. 2016年 09月29日

闭项集挖掘方法 v. Apriori. TID Close算法(Pasquier et al. , 1999; Agrawal & Srikant, 1994) vd.

闭项集挖掘方法 v. Apriori. TID Close算法(Pasquier et al. , 1999; Agrawal & Srikant, 1994) vd. CHARM算法(Zaki & Gouda, 2001) v. CHARM算法(Zaki & Hsiao, 2002) v. LCM算法(Udo et al. , 2003) v. DCI_Closed算法(Lucchese et al. , 2004) v. FPClose算法(Grahne & Zhu, 2005) v. Apriori. Close算法(Pasquier et al. , 2005) v… 2016年 09月29日

最大项集挖掘方法 v. Max. Miner算法(Bayardo & Roberto, 1998) v. MAFIA算法(Burdick, Calimlim, & Gehrke, 2001) v.

最大项集挖掘方法 v. Max. Miner算法(Bayardo & Roberto, 1998) v. MAFIA算法(Burdick, Calimlim, & Gehrke, 2001) v. FPMax算法(Grahne & Zhu, 2003) v. Gen. Max算法(Gouda & Zaki, 2001; 2005) v. Princer-Search算法(Lin & Kedem, 2005) v. CHARM-MFI算法(Szathmary, 2006) v. HBMFI算法(Zubai Rahman, 2008) v… 2016年 09月29日

案例:共现聚类分析(4/5) ABCDE: 1 ABCD: 1 ABC: 1 ABD: 2 ABE: 2 ACD: 4 AB:

案例:共现聚类分析(4/5) ABCDE: 1 ABCD: 1 ABC: 1 ABD: 2 ABE: 2 ACD: 4 AB: 2 AC: 4 AD: 5 AE: 3 A: 5 ABDE: 2 ABCE: 1 B: 7 ACDE: 2 BCDE: 1 ACE: 2 ADE: 3 BCD: 3 BCE: 1 BDE: 2 CDE: 2 BC: 5 BD: 5 BE: 2 CD: 6 CE: 2 DE: 5 C: 8 D: 10 E: 5 2016年 09月29日

案例:共现聚类分析(5/5) ABDE: 2 ABD: 2 AB: 2 A: 5 AD: 5 ABE: 2 AE:

案例:共现聚类分析(5/5) ABDE: 2 ABD: 2 AB: 2 A: 5 AD: 5 ABE: 2 AE: 3 B: 7 ACDE: 2 ADE: 3 BD: 5 D: 10 BDE: 2 BE: 2 ACD: 4 DE: 5 AC: 4 E: 5 AD: 5 ACE: 2 AE: 3 C: 8 ADE: 3 CD: 6 D: 10 CDE: 2 CE: 2 DE: 5 BCD: 3 BC: 5 BD: 5 CD: 6 B: 7 C: 8 D: 10 2016年 09月29日

序列数据库:实例 顾客ID 交易时间 购买物品 1 June 25 '93 30 1 June 30 '93 90

序列数据库:实例 顾客ID 交易时间 购买物品 1 June 25 '93 30 1 June 30 '93 90 2 June 10 '93 10, 20 2 June 15 '93 30 2 June 20 '93 40, 60, 70 3 June 25 '93 4 顾客ID 序列 1 <(30), (90)> 2 <(10 20), (30), (40 60 70)> 30, 50, 70 3 <(30), (50), (70)> June 25 '93 30 4 <(30), (40 70), (90)> 4 June 30 '93 40, 70 5 <(90)> 4 July 25 '93 90 5 June 12 '93 90 2016年 09月29日

频繁序列挖掘方法 v. GSP算法(Srikant et al. , 1996) v. SPADE算法(Zaki et al. , 2001) v.

频繁序列挖掘方法 v. GSP算法(Srikant et al. , 1996) v. SPADE算法(Zaki et al. , 2001) v. SPAM算法(Ayres et al. , 2002) v. Prefix. Span算法(Pei et al. , 2004) v. LAPIN算法(Yang et al. , 2005) v. CM-SPADE算法(Fournier-Viger et al. , 2014) v. CM-SPAM算法(Fournier-Viger et al. , 2014) v… 2016年 09月29日

SPADE算法(1/3) 2016年 09月29日

SPADE算法(1/3) 2016年 09月29日

SPADE算法(2/3) 2016年 09月29日

SPADE算法(2/3) 2016年 09月29日

SPADE算法(3/3) 2016年 09月29日

SPADE算法(3/3) 2016年 09月29日

SPMF开源库(1/3) http: //www. philippe-fournier-viger. com/spmf/index. php 2016年 09月29日

SPMF开源库(1/3) http: //www. philippe-fournier-viger. com/spmf/index. php 2016年 09月29日

SPMF开源库(2/3) 2016年 09月29日

SPMF开源库(2/3) 2016年 09月29日

SPMF开源库(3/3) 2016年 09月29日

SPMF开源库(3/3) 2016年 09月29日