BI 3 Episodes v lut Episode 1 Cc

  • Slides: 33
Download presentation
BÀI 3 Episodes và luật Episode 1

BÀI 3 Episodes và luật Episode 1

Các khái niệm l Luật kết hợp trong bài toán dùng Episode mô tả

Các khái niệm l Luật kết hợp trong bài toán dùng Episode mô tả các sự kiện xuất hiện cùng nhau trong dữ liệu. l Các luật Episode mô tả quan hệ thời gian giữa các sự vật • Ví dụ: IF một tổ hợp các tín hiệu báo nguy xảy ra trong một khoảng thời gian THEN sẽ có một tổ hợp các tính hiệu báo nguy khác sẽ xảy ra trong một khoảng thời gian xác định khác" 2

Các khái niệm (tt) l Dữ liệu: • Dữ liệu là tập R các

Các khái niệm (tt) l Dữ liệu: • Dữ liệu là tập R các biến cố • Mỗi biến cố là một cặp (A, t), với • A R là loại biến cố (ví dụ loại tín hiệu báo động ) • t là một số nguyên xác định thời điểm xuất hiện của • biến cố Các chuỗi biến cố s trên R là bộ ba (s, Te) • Ts là thời điểm bắt đầu và Te là thời điểm kết thúc • Ts < Te là các số nguyên • s = (A 1, t 1), (A 2, t 2), …, (An, tn) • Ai R và Ts ti < Te với mọi i=1, …, n 3

Các khái niệm (tt) l Cho 1 chuỗi tín hiệu báo động 0 l

Các khái niệm (tt) l Cho 1 chuỗi tín hiệu báo động 0 l D C A B 10 20 30 40 D A B 50 60 70 C A D C A B D A 80 90 100 110 120 130 140 150 Với: • A, B, C và D là các loại sự kiện (ở đây là tín hiệu báo động) • 10… 150 là các thời điểm xảy ra • s = (D, 10), (C, 20), …, (A, 150) • Ts (thời điểm bắt đầu) = 10 và Te (thời điểm kết thúc) = 150 4

Khái niệm Episodes • Episode là cặp (V, ) • V là tập hợp

Khái niệm Episodes • Episode là cặp (V, ) • V là tập hợp các loại sự kiện, ví dụ loại tín hiệu báo động • là thứ tự riêng phần trên V • Nhận xét: episodes chứa các tín hiệu báo động có các tính chất nào đó và xày ra theo một thứ tự riêng phần nào đó. 5

Phân lọai Episode l Episode tuần tự A B A l Episode song B

Phân lọai Episode l Episode tuần tự A B A l Episode song B l Episode vừa song vừa tuận tự A C B 6

Tiếp cận WINEPI l l Tên của phương pháp WINEPI xuất phát từ kỹ

Tiếp cận WINEPI l l Tên của phương pháp WINEPI xuất phát từ kỹ thuật dùng cửa số trƯợt Nhận xét: • Cửa sổ được trượt qua chuỗi dữ liệu các sự kiện • Mỗi cửa sổ là một “khung ảnh" giống như một dòng của CSDL • Tập các “khung ảnh" tạo thành các dòng của CSDL 7

Tiếp cận WINEPI l Ví dụ chuỗi dữ liệu tín hiệu báo động 0

Tiếp cận WINEPI l Ví dụ chuỗi dữ liệu tín hiệu báo động 0 l l D C A B 10 20 30 40 D A B 50 60 70 C 80 90 Bề rộng cửa sổ là 40 giây Cửa sổ đầu/cuối chỉ chứa sự kiện đầu/cuối 8

Tiếp cận WINEPI l Cho tập E các loại sự kiện, chuỗi sự kiện

Tiếp cận WINEPI l Cho tập E các loại sự kiện, chuỗi sự kiện S = (s, Te) là một chuỗi có thứ tự các sự kiện eventi sao cho eventi+1 với mọi i=1, …, n-1, và Ts eventi < Te với mọi i=1, …, n event 1 event 2 event 3 … … eventn Ts t 1 Te t 2 t 3 … … tn 9

Tiếp cận WINEPI l l Cửa sổ trên chuỗi sự kiện S là chuỗi

Tiếp cận WINEPI l l Cửa sổ trên chuỗi sự kiện S là chuỗi sự kiện S=(w, ts, te), với ts < Te, te > Ts, và w chứa các cặp (event, t) của s mà ts t < te Giá trị ts t < te được gọi là bề rộng cửa sổ W event 1 event 2 event 3 … … eventn Ts t 1 Te t 2 t 3 ts W te tn 10

Tiếp cận WINEPI l Theo định nghĩa, cửa sổ đầu và cuối trên chuỗi

Tiếp cận WINEPI l Theo định nghĩa, cửa sổ đầu và cuối trên chuỗi vƯơn ra ngoài chuỗi, do vậy cửa sổ đầu tiên chỉ chứa thời điểm đầu và cửa sổ cuối cùng chỉ chứa thời điểm cuối event 1 event 2 event 3 … … eventn Ts ts W tt 1 e Te t 2 t 3 tn ts W te 11

Tìm Episode phổ biến l l l Tìm các Episode theo bề rộng của

Tìm Episode phổ biến l l l Tìm các Episode theo bề rộng của cửa sổ trược cho trước. Tính độ phổ biến của từng Episode phổ biến là Episode thỏa 1 ngưỡng min_fr cho trước 12

Độ phổ biến của Episode l Độ phổ biến (Tần suất) của episode là

Độ phổ biến của Episode l Độ phổ biến (Tần suất) của episode là tỷ số giữa các cửa số có xuất hiện với tổng sổ các cửa sổ khả dĩ (có thể có) |Sw W(S, W) | xuất hiện trong Sw | fr( , S, W) = |W(S, W)| v. Số cửa sổ chứa Episode/ tổng số các cửa sổ v. Với W(S, W) là tập tất cả các cửa sổ Sw của chuỗi S sao cho bề rộng cửa sổ là W, lk 13

Episode phổ biến l l l Episode là phổ biến nếu fr( , s,

Episode phổ biến l l l Episode là phổ biến nếu fr( , s, win) min_fr, ví dụ, “nếu tần suất của vượt quá ngưỡng tần suất nhỏ nhất trong phạm vi chuỗi dữ liệu s và với bề rộng cửa sổ win" F(s, win, min_fr): tập hợp các episodes phổ biến trong s ứng với win và min_fr Meo Apriori: Nếu episode là phổ biến trong chuỗi sự kiện s, thì tất cả các episodes con là phổ biến. 14

Luật Episode và độ tin cậy của luật Luật episode là biểu thức l

Luật Episode và độ tin cậy của luật Luật episode là biểu thức l fr( , S, W) = tần suất của toàn bộ episode trong luật fr( , S, W) = tần suất của episode về trái Độ tin cậy được xem như xác suất điều kiện của toàn bộ của xảy ra trong cửa sổ khi cho trước xảy ra trong cửa sổ đó. 15

Nhận xét • Các luật WINEPI giống luật kết hợp nhưng có thêm •

Nhận xét • Các luật WINEPI giống luật kết hợp nhưng có thêm • yếu tố thời gian: Nếu sự kiện (tín hiệu báo động) thỏa về trái của luật xuất hiện theo thứ tự bên phải trong phạm vi W đơn vị thời gian, thì cũng xuất hiện trong phần kết luận (vế phải ) xuất hiện trong vị trí được mô tả bởi quan hệ thứ tự , trong phạm vi W đơn vị thời gian. Phần thân kết luận [bề rộng cửa sổ] (f, c) 16

Ví dụ Episode song l Ví dụ chuỗi dữ liệu tín hiệu báo động

Ví dụ Episode song l Ví dụ chuỗi dữ liệu tín hiệu báo động 0 D C A B 10 20 30 40 D A B 50 60 70 C 80 90 l Bề rộng cửa sổ là 40 giây, bước di chuyển là 10 giây l Chiều dài của chuỗi là 70 giây (10 -80) 17

Ví dụ Episode song l Bằng cách trượt cửa sổ, chúng ta có 11

Ví dụ Episode song l Bằng cách trượt cửa sổ, chúng ta có 11 cửa sổ (U 1 -U 11) … U 1 U 2 U 11 0 D C A B 10 20 30 40 D A B 50 60 70 C 80 90 v Ngưỡng tần số được ấn định là 40%(ngưỡng phổ biến), ví dụ episode xảy ra tối thiểu trong 5 của 11 cửa sổ. 18

Cửa số Ui U 1[-20, 20] U 2[-10, 30] U 3[0, 40] U 4[10,

Cửa số Ui U 1[-20, 20] U 2[-10, 30] U 3[0, 40] U 4[10, 50] U 5[20, 60] U 6[30, 70] U 7[40, 80] U 8[50, 90] U 9[60, 100] U 10[70, 110] U 11[80, 120] Nội dung cửa sổ [_, _, _, D] [_, _, D, C] [_, D, C, A] [D, C, A, B] [C, A, B, D] [A, B, D, A] [B, D, A, B] [D, A, B, C] [A, B, C, _] [B, C_, _] [C, _, _, _] 19

Các bước tìm Episode song phổ biến • • Tìm Episodes song có kích

Các bước tìm Episode song phổ biến • • Tìm Episodes song có kích thước là 1: A, B, C, D Nhận diện các Episodes phổ biến Từ Episode phổ biến, tìm Episodes song có kích thuớc là 2: AB, AC, AD, BC, BD, CD Nhận diện các Episode song phổ biến có 2 phần tử Từ các episodes phổ biến, tạo các episodes phổ biến có kích thước là 3: ABC, ABD, ACD, BCD Khi nhận dạng các episodes phổ biến, chỉ có ABD xuất hiện trong hơn 4 cửa sổ Không có episodes ứng viên có kích thước là 4. 20

Luật Episode l Tần suất Episode và các luật ví dụ với WINEPI: D

Luật Episode l Tần suất Episode và các luật ví dụ với WINEPI: D C A B DC DA DB CA CB AB DAB : 73% : 64% : 45% : 55% : 45% : 45% D A [40] (55%, 75%) D A B [40] (45%, 82%) 21

Các bước tìm Episode phổ biến tuần tự • Đầu tiên, tìm episodes có

Các bước tìm Episode phổ biến tuần tự • Đầu tiên, tìm episodes có kích thước là • • 1 (A, B, C, D) Sau đó, nhận dạng các Episode phổ biến(với ví dụ này là tất cả) Từ các episodes phổ biến này, tạo các episodes ứng viên có kích thước là 2: AB, BA, AC, CA, AD, DA, BC, CB, BD, DB, CD, DC Nhận dạng các Episode phổ biến có 2 phần tử. Từ các Episodes phổ biến này, tạo các Episodes có 3 phần tử: ABD, ADB, . . 22

Các Episode và tầng suất xuất hiện 23

Các Episode và tầng suất xuất hiện 23

Bài tập áp dụng Cho chuỗi sự kiện sau đây: A B R BA

Bài tập áp dụng Cho chuỗi sự kiện sau đây: A B R BA KA DA B R A 1 2 3 4 5 6 7 8 9 10 11 12 a. Có bao nhiêu cửa sổ có bề rộng là 5 được xử lý để tìm các episodes phổ biến theo tiếp cận WINEPI? b. Giả sử ngưỡng min_fr là 0. 4. Tìm các episode phổ biến tuần tự và song trong chuỗi sự kiện trên? l 24

Các Episode song có bề rộng là 5 l Episode có 1 phần tử

Các Episode song có bề rộng là 5 l Episode có 1 phần tử • A: fr([A]) = 16/16=1 >0. 4 • B: fr([B]) = 12/16=0. 75>0. 4 • R: fr([R]) = 9/16=0. 56>0. 4 • K: fr([K]) = 5/16=0. 31<0. 4 • D: fr([D]) = 5/16=0. 31<0. 4 • Tập các Episode song phổ biến có 1 phần tử là C 1={A, B, R} 26

Episode song có 2 phần tử từ C 1 AB: fr([AB])=12/16 >0. 4 l

Episode song có 2 phần tử từ C 1 AB: fr([AB])=12/16 >0. 4 l AR: fr([AR])=10/16>0. 4 l BR: fr([BR])=9/16>0. 4 Vậy tập Episode phổ biến song có 2 phần tử C 2 = {AB, AR, BR} l 27

Episode song có 3 phần tử từ C 2 ABR : fr([ABR])=9/16 >0. 4

Episode song có 3 phần tử từ C 2 ABR : fr([ABR])=9/16 >0. 4 v Episode song phổ biến có 3 phần tử là {ABR} v Tập Episode song phổ biến là C={A, B, R, AB, AR, BR, ABR} v Episode phổ biến tối đại là: ABR l 28

Một số luật Episode l l A=> RB[40][56%, 56%] AB=>R[40](56%, 75%) AR=>B[40](56%, 9%) BR=>A[40](56,

Một số luật Episode l l A=> RB[40][56%, 56%] AB=>R[40](56%, 75%) AR=>B[40](56%, 9%) BR=>A[40](56, 100%) 29

Dùng phương pháp WINEP để tìm các Episode tuần tự phổ biến l Tìm

Dùng phương pháp WINEP để tìm các Episode tuần tự phổ biến l Tìm Episode phổ biến có 1 phần tử • A: fr([A]) = 16/16=1 >0. 4 • B: fr([B]) = 12/16=0/75>0. 4 • R: fr([R]) = 9/16=0. 56>0. 4 • K: fr([K]) = 5/16=0. 31<0. 4 • D: fr([D]) = 5/16=0. 31<0. 4 v Episode phổ biến có 1 phần tử là: C 1={A, B, R} 30

Tìm episode tuần tự phổ biến có 2 phần tử từ tập phổ biến

Tìm episode tuần tự phổ biến có 2 phần tử từ tập phổ biến có 1 phần tử AB: fr([AB])=8/16 >0. 4 l AR: fr([AR])=6/16<0. 4 l BR: fr([BR])=8/16>0. 4 l BA: fr([BA])=7/16>0. 4 l RA: fr([RA])=7/16>0. 4 l RB: fr([RB])=4/16<0. 4 v Tập Episode phổ biến có 2 phần tử: C 2={AB, BR, BA, RA} l 31

Xây dựng Episode phổ biến có 3 phần tử từ C 2 l l

Xây dựng Episode phổ biến có 3 phần tử từ C 2 l l l v v v ABR : fr([ABR])=6/16<0. 4 ARB : fr([ARB])=2/16<0. 4 BRA : fr([BRA])=5/16<0. 4 BAR : fr([BAR])=0/16<0. 4 RAB : fr([RAB])=0/16<0. 4 RBA : fr([RBA])=3/16<0. 4 Không có Episode nào phổ biến có 3 phần tử Vậy tập Episode tuần tự phổ biến là: C = {A, B, R, AB, BR, BA, RA} Episode phổ biến tối đại là: AB, AR, RA, BR 32

Một số luật l l A=>B[40](50%, 50%) A=>R[40](37%, 37%) R=>A[40](44%, 77%) B=>R[40](50%, 66%) 33

Một số luật l l A=>B[40](50%, 50%) A=>R[40](37%, 37%) R=>A[40](44%, 77%) B=>R[40](50%, 66%) 33