58882498 Email xushistic ac cn OR pzczxsgmail com
- Slides: 71
数据挖掘与决策支持 教师:徐硕 电话: 58882498 Email: xush@istic. ac. cn OR pzczxs@gmail. com 微信号:pzczxs 课程网址: http: //168. 160. 17. 216/DMWiki/index. php? id=course : datamining 16 2016年 09月29日
课程主要内容 v 关联规则挖掘(Association Rule Mining) v 相似项发现(Similar Item Finding) v 分类及预测(Classification & Prediction) v 支持向量机及其他(SVM and Beyond) v 序列标注方法(Sequence Labeling) v 聚类分析(Clustering) v 概率主题模型(Probabilistic Topic Model) v 深度学习(Deep Learning) 2016年 09月29日
频繁项集挖掘方法 v Apriori算法(Agrawal & Srikant, 1994) v Apriori. TID算法(Agrawal & Srikant, 1994) v Eclat算法(Zaki, 2000) v d. Eclat算法(Zaki & Gouda, 2003) v FP-Growth算法(Han et al. , 2004) v LCMFreq算法(Uno et al. , 2004) v Relim算法(Borgelt, 2005) v H-Mine算法(Pei et al. , 2007) v Pre. Post及Pre. Post+算法(Deng et al. , 2012; 2015) v FIN算法(Deng et al. , 2014) v… 2016年 09月29日
Aprior算法:伪码 v (1) L 1 = {频繁1项集}; v (2) for (k = 2; Lk-1 ; k++) do begin v (3) Ck = apriori_gen(Lk-1); //新的候选频繁项集 v (4) for all transactions t D do begin v (5) Ct = subset(Ck, t); //t中包含的候选频繁项集 v (6) for all candidates c Ct do v (7) c. count++; v (8) end; v (9) Lk = {c Ck | c. count minsup} v (10) end; v (11) Answer = k Lk 2016年 09月29日
Apriori算法:实例 s=2 Database TDB Tid Items 10 A, C, D 20 B, C, E 30 A, B, C, E 40 B, E Itemset {A, C} {B, E} {C, E} sup {A} 2 {B} 3 {C} 3 {D} 1 {E} 3 C 1 1 st scan C 2 L 2 Itemset sup 2 2 3 2 Itemset {A, B} {A, C} {A, E} {B, C} {B, E} {C, E} sup 1 2 3 2 L 1 Itemset sup {A} 2 {B} 3 {C} 3 {E} 3 C 2 2 nd scan Itemset {A, B} {A, C} {A, E} {B, C} {B, E} {C, E} C 3 Itemset {B, C, E} 3 rd scan L 3 Itemset sup {B, C, E} 2 2016年 09月29日
FP-tree:构建 TID 100 200 300 400 500 步骤: Items bought (ordered) frequent items {f, a, c, d, g, i, m, p} {f, c, a, m, p} {a, b, c, f, l, m, o} {f, c, a, b, m} {b, f, h, j, o} {f, b} {b, c, k, s, p} {c, b, p} {a, f, c, e, l, p, m, n} {f, c, a, m, p} 最小支持度 = 3 {} 头表 1. 扫描数据库一次,得到频繁1 Item frequency head f 4 -项集 c 4 a 3 2. 把项按支持度递减排序 b 3 3. 再一次扫描数据库,建立FP- m 3 tree p 3 f: 4 c: 3 c: 1 b: 1 a: 3 b: 1 p: 1 m: 2 b: 1 p: 2 m: 1 2016年 09月29日
步骤 1:从FP-tree到条件模式 v 从FP-tree的头表开始 v 按照每个频繁项的连接遍历 FP-tree v 列出能够到达此项的所有前缀路径,得到条件 模式库 头表 Item frequency head f 4 c 4 a 3 b 3 m 3 p 3 条件模式库 {} f: 4 c: 3 c: 1 b: 1 a: 3 b: 1 p: 1 m: 2 b: 1 p: 2 m: 1 item cond. pattern base c f: 3 a fc: 3 b fca: 1, f: 1, c: 1 m fca: 2, fcab: 1 p fcam: 2, cb: 1 2016年 09月29日
步骤 2:建立条件FP-tree v 对每个模式库 § 计算库中每个项的支持度 § 用模式库中的频繁项建立FP-tree {} 头表 f: 4 Item frequency head f 4 c: 3 b: 1 a 3 a: 3 b 3 m: 2 b: 1 p 3 p: 2 m: 1 m-条件模式库: fca: 2, fcab: 1 c: 1 {} b: 1 p: 1 f: 3 c: 3 All frequent patterns concerning m m, fm, cm, am, fcm, fam, cam, fcam a: 3 m-conditional FP-tree 2016年 09月29日
案例: Web日志格式 58. 61. 164. 141 – - [22/Feb/2010: 09: 51: 46 +0800] “GET /reference-and-source/weblogformat/ HTTP/1. 1″ 206 6326 ” http: //www. google. cn/search? q=webdataanalysis” “Mozilla/4. 0 (compatible; MSIE 6. 0; Windows NT 5. 1)” Field Example 访问主机(User IP) 58. 61. 164. 141 用户ID(User ID) -- 访问日期(Timestamp) [22/Feb/2010: 09: 51: 46 +0800] 请求方法(Method) GET 请求资源(URL) /reference-and-source/weblog-format/ HTTP版本(HTTP version) HTTP/1. 1 状态码(Status) 206 传输字节数(Bytes transferred) 6326 来源页面(Referer page) http: //www. google. cn/search? q=webdataanal ysis 浏览器(Brower used) Mozilla/4. 0 客户端操作系统(Client OS) (compatible; MSIE 6. 0; Windows NT 2016年 09月29日 5. 1)
案例:Web日志挖掘(1/3) ◆Shuo Xu, Xiaodong Qiao, Lijun Zhu, and Huixia Zheng, 2010. Deep Analysis on Mining Freuent & Maximal Reference Sequences with Generalized Suffix Tree. Jounral of Computational Information Systems, Vol. 6, No. 7, pp. 2187 -2197. 2016年 09月29日
闭项集挖掘方法 v. Apriori. TID Close算法(Pasquier et al. , 1999; Agrawal & Srikant, 1994) vd. CHARM算法(Zaki & Gouda, 2001) v. CHARM算法(Zaki & Hsiao, 2002) v. LCM算法(Udo et al. , 2003) v. DCI_Closed算法(Lucchese et al. , 2004) v. FPClose算法(Grahne & Zhu, 2005) v. Apriori. Close算法(Pasquier et al. , 2005) v… 2016年 09月29日
最大项集挖掘方法 v. Max. Miner算法(Bayardo & Roberto, 1998) v. MAFIA算法(Burdick, Calimlim, & Gehrke, 2001) v. FPMax算法(Grahne & Zhu, 2003) v. Gen. Max算法(Gouda & Zaki, 2001; 2005) v. Princer-Search算法(Lin & Kedem, 2005) v. CHARM-MFI算法(Szathmary, 2006) v. HBMFI算法(Zubai Rahman, 2008) v… 2016年 09月29日
案例:共现聚类分析(4/5) ABCDE: 1 ABCD: 1 ABC: 1 ABD: 2 ABE: 2 ACD: 4 AB: 2 AC: 4 AD: 5 AE: 3 A: 5 ABDE: 2 ABCE: 1 B: 7 ACDE: 2 BCDE: 1 ACE: 2 ADE: 3 BCD: 3 BCE: 1 BDE: 2 CDE: 2 BC: 5 BD: 5 BE: 2 CD: 6 CE: 2 DE: 5 C: 8 D: 10 E: 5 2016年 09月29日
案例:共现聚类分析(5/5) ABDE: 2 ABD: 2 AB: 2 A: 5 AD: 5 ABE: 2 AE: 3 B: 7 ACDE: 2 ADE: 3 BD: 5 D: 10 BDE: 2 BE: 2 ACD: 4 DE: 5 AC: 4 E: 5 AD: 5 ACE: 2 AE: 3 C: 8 ADE: 3 CD: 6 D: 10 CDE: 2 CE: 2 DE: 5 BCD: 3 BC: 5 BD: 5 CD: 6 B: 7 C: 8 D: 10 2016年 09月29日
序列数据库:实例 顾客ID 交易时间 购买物品 1 June 25 '93 30 1 June 30 '93 90 2 June 10 '93 10, 20 2 June 15 '93 30 2 June 20 '93 40, 60, 70 3 June 25 '93 4 顾客ID 序列 1 <(30), (90)> 2 <(10 20), (30), (40 60 70)> 30, 50, 70 3 <(30), (50), (70)> June 25 '93 30 4 <(30), (40 70), (90)> 4 June 30 '93 40, 70 5 <(90)> 4 July 25 '93 90 5 June 12 '93 90 2016年 09月29日
频繁序列挖掘方法 v. GSP算法(Srikant et al. , 1996) v. SPADE算法(Zaki et al. , 2001) v. SPAM算法(Ayres et al. , 2002) v. Prefix. Span算法(Pei et al. , 2004) v. LAPIN算法(Yang et al. , 2005) v. CM-SPADE算法(Fournier-Viger et al. , 2014) v. CM-SPAM算法(Fournier-Viger et al. , 2014) v… 2016年 09月29日
SPADE算法(1/3) 2016年 09月29日
SPADE算法(2/3) 2016年 09月29日
SPADE算法(3/3) 2016年 09月29日
SPMF开源库(1/3) http: //www. philippe-fournier-viger. com/spmf/index. php 2016年 09月29日
SPMF开源库(2/3) 2016年 09月29日
SPMF开源库(3/3) 2016年 09月29日
- Dậy thổi cơm mua thịt cá
- Cơm
- Informal and formal email
- Procedures of handling outgoing mail
- Picnic with friends email
- Kyrene homepage
- Dear mr email
- Uef 365
- Task completion email sample
- Email providers
- Splel
- Webraider.ttuhsc.edu
- Kependekan dari electronik mail adalah ... *
- Jak zakončit formální email
- Testproject email
- Isg twiki
- Adding pronouns to email signature
- Learning objectives of email writing
- Finishgrant.world
- Netiquette of confidentiality
- Assarts farm medical centre
- Email @timingads.com
- "roberta thomson" and phone
- Owl purdue email etiquette flaming
- Practice email assignment
- Email phishing
- Candy crush email
- Dish tv complaint email id ceo
- Mubarrak email
- Samuel merritt email outlook
- Dreamhost email forwarding to gmail
- Protection from liability in email etiquette
- Cc and bcc in email
- Email address
- Replies and quotations letter
- Uwaterloo mail services
- Uio email
- Jeff edmonds york
- Ifi uio
- Cyber security playbooks
- Sap scot email configuration
- Nsbe monthly reports
- Why is email etiquette important?
- Ette email
- R email happyplus com ph
- Email @tianfeng.com
- Email topics
- Unifiji moodle
- Msu denver email
- Formal email examples
- Kevan collins eef
- Apa itu microsoft dynamics ax
- Pf jcu email
- Email @nstong.com
- 1 enter your email
- Writing email exercises
- Ats internet
- Linking words addition examples
- Kth email outlook
- E mail email
- Sbcglobal email not working
- Ccsj email
- Wiitfm
- Formal email
- Service component architecture
- Dear engineers email
- Urinal barrier fluid
- Amadeus ard web
- Identify goodwill messages
- Ipmi pef
- You are receiving this email because
- Email ettiquette