Objavovanie ritulov pouvatea webu Contextaware Association Rules Mining
Objavovanie rituálov používateľa webu Context-aware Association Rules Mining from Server Logs Juraj Višňovský – visnovsky. j@gmail. com Ing. Dušan Zeleník
Motivácia Súčasný pohľad na odporúčanie a predikciu • • • Obsah Podobnosť používateľov (zhlukovanie) Sekvencie, asociačné pravidlá Použitie kontextu Čo je kontext? Akákoľvek informácia (osoba, miesto, čas, objekt) relevantná interakcii medzi používateľom a aplikáciou.
Metóda objavovania rituálov 1) Predspracovanie údajov 2) Obohatenie údajov o kontexty 3) Generovanie asociačných pravidiel
Predspracovanie logov Pe. We proxy servera Odstránenie záznamov: bez používateľského identifikátora bez IP adresy z informačných kioskov vykonaných botmi Identifikácia botov / automatické sťahovanie Adaptive Proxy server 77 používateľov 342 460 navštívených web stránok Celkovo 3 427 160 záznamov
Obohatenie logov o kontexty Čas ( Timestamp ) – Hodina, deň v týždni, deň v mesiaci a pod. Lokalita ( Free. Geo. IP ) Počasie ( Wunderground ) Typ webového sídla ( produktívne vs. neproduktívne ) – ( Delicious + Alchemy + Meta Keywords ) Činnosť ( práca vs. ostatné )
Generovanie asociačných pravidiel FP-Growth algoritmus ( mahout ) Hadoop – Možnosť spracovania veľkého množstva údajov
Využitie Predikcia budúcich akcií Odporúčanie E-commerce Weekday + 8: 00 -9: 00 => futbal. sme. sk (support 0. 8) –> odporučenie športovej reklamy
Overenie Rozdelenie logov: Trénovacia množina Verifikačná množina Porovnanie asociačných pravidiel Klasicky, tj. bez kontextov S kontextami
Objavovanie rituálov používateľa webu Predspracovanie záznamov Obohatenie o kontexty Odstránenie nepoužiteľných / zavádzajúcich Počasie, čas, kategória domény atď. Asociačné pravidlá FP-Growth + Hadoop
- Slides: 9