DW Data Webhouse Osnovni koncepti Webhousea praenje akcija
DW Data Webhouse
Osnovni koncepti Webhouse-a: - - - praćenje akcija korisnika sajtova, analiziranje korisničkih komunikacija u realnom vremenu, analiziranje tehnike za prikupljanje podataka o kupcima, dizajniranje Web-sajtova da podrže warehousing, dizajniranje Web-enabled Data Marts (skladišta podataka organizovanih na data warehousing konceptu, orijentisanih na jedan konkretan problem) 2
Osnovna Webhouse arhitektura Web Logs Warehouse Builder Clickstream Loader Database OLAP Alati 3
Clickstream Collector Server Farm Firewall Agent Clickstream Intelligence System http(s) or ftp Collector Server Agent 4
Primer Log File rekorda Field Value Host 148. 87. 9. 44 Ident - Authuser - Time Request [21/May/2006: 17: 52: 29 -0800] GET /admin/images/logo. gif HTTP/1. 1 Status 200 Bytes 881 Referrer User-agent http: //otn. oracle. com Mozilla/4. 0 (compatible; MSIE 6. 0; Windows NT 5. 0) 5 5
WEBHOUSE MODEL - podaci o vremenu pristupa sajtu, - podaci o korisniku, - stranice koje su posećene, - specijalne kontrole (npr. da li je stranica potpuno učitana), - podaci iz “cookie-ja” o korisniku. Iz toga se izvlače: - činjenična tabela clickstream-a i - dimenzione tabele u okviru šeme zvezde. 6
Clickstream analitika Koji je odnos novih i ponovnih posetilaca? 7
Studija slučaja: Portal Nekretnine. Srbije autor: Milena Jovanović, master FON-a
Analiza logova portala Nekretnine. Srbije 9
Proces obrade Web server logova n n Prikupljanje podataka Analiza Web server logova Konstrukcija skladišta podataka (Webhouse) Otkrivanje i evaluacija paterna 10
Prikupljanje podataka Pet izvora: 1. 2. 3. 4. 5. Web server logovi koji beleže putanju kojom se korisnik kretao na sajtu Informacije o proizvodima Informacije o sadržaju Web sajta (slike, video klipovi …) Podaci o kupovini (količina kupljenih proizvoda, način plaćanja i suma, adresa isporuke …) Demografske informacije Analysis service SQL Server 2005 11
Analiza Web server logova n Tipičan log fomat portala Nekretnine Srbije: 93. 86. 166. 228 - - [25/Oct/2009: 47: 02 +0100] "GET /styles/ie/slider. css? 23451 HTTP/1. 1" 304 "http: //www. nekretninesrbije. com/izdavanje_nekretnina/ detaljni_prikaz_oglasa/iznajmljivanje_stan_beograd_vozd ovac_cena-330 -eur_povrsina-52 m 2_22164" "Mozilla/4. 0 (compatible; MSIE 8. 0; Windows NT 5. 1; Trident/4. 0; Mozilla/4. 0 (compatible; MSIE 6. 0; Windows NT 5. 1; SV 1) ; . NET CLR 2. 0. 50727; . NET CLR 1. 1. 4322; Info. Path. 2; . NET CLR 3. 0. 4506. 2152; . NET CLR 3. 5. 30729)"par 12
Web Log Parser 13
Konstrukcija skladišta podataka (Webhouse) n n Analiza zahteva Postavljanje ciljeva analize n Koji tipovi oglasa su najtraženiji i na kojim teritorijama n Najčešći korisnici, njihov profil n U koje vreme se dešava vrhunac posete n Propusti na Web sajtu – najčešća strana napuštanja sajta 14
Dimenzije i mere Webhouse-a n n n Dimenzija Korisnik –IP Adresu korisnika, korisničko ime i pasword, demografske podatke o korisnicima, kao što su ime, prezime, godište, adresa itd. Vremenska dimenzija –Dimenzije Datuma i Dimenzija Vremena. Dimenzija Ponude – tipovi : Iznajmljivanje, Kratkoročno iznajmljivanje, Prodaja, Cimeri, Biznis, Turistički smeštaj, Prostori za manifestacije i Ostalo. Dimenzija Pretraživač Dimenzija Oglas –adresa, površina, lokacija, tip nekretnine, specifikacije (lift, telefon, sprat itd. ). Dimenzija Lokacija (grad, opština gde se nalazi nekretnina), Dimenzija Tip Nekretnine (kuća, zgrada, garaža itd. ), Dimenzija Struktura Stana (jednosoban, dvosoban, trosoban itd. ), Dimenzija Grejanje (etažno, podno, centralno itd. ) Mere – cena, broj poseta korisnika 15
Webhouse šema 16
Transformacija podataka Izvršiti dva tipa transformacija: n n podaci se moraju prebaciti iz OLTP sistema u OLAP sistem - ETL Transformacije radi dobijanja novih vrednosti n Generalizacija ili ekstrakovanje primitivnih vrednosti na viši nivo n Grupisanje informacija iz više kolona n Kreiranje nove kolone koja sadrži informacije koje nisu direktno prisutne u postojećim kolonama 17
Pregled oglasa individualnih korisnika Posmatra se broj poseta korisnika koji je gledao određen oglas, na osnovu toga predlažemo povoljniji oglas na istoj teritoriji 18
Određivanje profila posetilaca portala Starosna struktura posetilaca sajta po tipu ponude i vrsti nekretnina: Najaktivniji korisnici 1974. i 1980. godište, Najaktuelniji oglasi predstavljaju iznajmljivanje stanova. 19
Određivanje učestalosti poseta portala Najaktivniji u intervalu od 12 do 2 sata popodne, najviše interesa za prodaju nekretnina Najviše koriste kraj radne nedelje (četvratk i petak) i nedelju za razgledanje oglasa. 20
Otkrivanje i evaluacija paterna n Algoritmi asocijativnih pravila n n Detektivanje povezanih Web stranica – ukoliko je korisnik gledao oglas A kolika je verovatnoća da će pogledati oglas B Klastering tehnike n Grupisanje objekta na osnovu zajedničlih osobina n n n Klasifikacije n Kreiranje modela ponašanja i primena tog modela na nove elemente n n Profilisanje korisnika Grupisanje navigacionih putanja pogodaka strana kreiranje ciljnih kampanja ili targeting kupaca Evaluacija paterna - oslanja na SQL upite nad bazama podataka 21
Primer detektovanja kategorija Ulaganja firme u pozicioniranje portala na google-u je opravdano Poboljšanje koje možemo uvesti je agresivnija reklama portala na Facebook-u 22
Analiza ključnih faktora U Zemunu se uglavnom prodaju kuće i zemjište, a na Novom Beogradu se pretežno prodaju stanovi 23
Primena asocijativnih pravila pet oglasa sa najvećom verovatnoćom koje će korisnik pogledati zajedno 24
Problemi: § Identifikacija posetilaca § IP adresa nije uvek pouzdana § Cookie identifikuje računar, a ne osobu Sigurnost i zaštita podataka i način njihovog učitavanja i stavljanja na raspolaganje; § Prilagođavanje interfejsa za višekorisničke varijante; § Prilagođavanje browser-a za dinamičke analize; § Integracija sa postojećim aplikacijama koje nisu razvijene za Web okruženje. § 25
Poboljšanja koja se u budućnosti očekuju u Webhouse sistemima : - Upotreba generičkih algoritama; - Upotreba inteligentnih agenata; - Upotreba novih načina indeksiranja; - Novi načini pretraživanja podataka. 26
Dodatni izvori n n Ralph Kimball: “The Data Warehouse Toolkit: The Complete Guide to Dimensional Modeling”, http: //www. chrispeiris. com/articles/data_ Web. Housing. html 27
- Slides: 27