21 05 2001 Martin Klossek Seminar WWW und
- Slides: 51
21. 05. 2001 - Martin Klossek Seminar „WWW und Datenbanken“ - SS 2001 21. 05. 2001 Web Log Mining - Martin Klossek
Web Log Mining Ø Im World Wide Web werden täglich unzählbar viele Dateien von Servern an Arbeitsplatzrechner geliefert. . . Anfra gen Webserver n e i e t Da 21. 05. 2001 Web Log Mining - Martin Klossek 2
Web Log Mining Ø Die Webserversoftware protokolliert dabei jede gelieferte Datei wie Ø statische + dynamische Htmlseiten Ø Bilder (. png, . gif, . jpg, . . . ) Ø Java-Applets, Flash, . . . Ø Speicherung der Zugriffe in Logdatei 21. 05. 2001 Web Log Mining - Martin Klossek 3
Web Log Mining Ø Erzeugte Logfiles werden sehr groß! Ø Auswertung und Visualisierung Ø Informationen wie Ø Ø Ø 21. 05. 2001 # Zugriffe pro Monat / Woche / Tag # Zugriffe pro Datei / Seite Zugreifende Rechner Browsertypen. . . Web Log Mining - Martin Klossek 4
Web Log Mining e. Commerce 21. 05. 2001 Web Log Mining - Martin Klossek 5
Web Log Mining Ø Komplexe Sites wie Portale und Online -Shops verlangen Informationen über ihre Besucher Ø Können Logfiles mehr als nur die bloßen Verbindungsdaten lieferen? Ja!. . . mit Web Log Mining 21. 05. 2001 Web Log Mining - Martin Klossek 6
Web Log Mining Ø Web Log Mining beantwortet Fragen von Websitebetreibern Ø Wer besucht meine Website? Wer kauft dort ein (bei Online-Shops!)? Ø Welche Seiten werden in einer Session zusammen besucht? Ø Welche Seiten werden nacheinander besucht (Sequenz)? 21. 05. 2001 Web Log Mining - Martin Klossek 7
Web Log Mining Ø oder auch folgende Fragen 1. Welche Werbemaßnahmen, welche Banner sollte ich einsetzen? 2. Wie unterscheiden sich Käufer von Nicht-Käufern (e. Commerce)? 3. Verhalten sich registrierte Benutzer anders als anonyme? 4. Wie erhöhe ich die Anzahl meiner Besucher und Kunden? 21. 05. 2001 Web Log Mining - Martin Klossek 8
Übersicht 1. 2. 3. 4. Motivation Begriffsabgrenzung Data. Mining Domäne Web Log Mining Prozess des Web Log Mining unterstützt durch Fallbeispiele 5. Ausblick 21. 05. 2001 Web Log Mining - Martin Klossek 9
Data Mining Ø Data Mining is Ø data and discovery driven Ø not: confirmation or verification driven Information Daten Data Mining Muster Regeln 21. 05. 2001 Web Log Mining - Martin Klossek 10
Data Mining Ø Data Mining Software analysiert Daten und liefert Regeln und Muster Ø Mustererkennung Ø Hypothesenfindung Ø Statistiksoftware bietet Ø Mittel zum Bestätigen von Hypothesen, die Sachverständige aufgestellt haben 21. 05. 2001 Web Log Mining - Martin Klossek 11
Data Mining Ø Einige Verfahren sind Ø Ø Assoziationsanalyse Sequenzanalyse Clusteranalyse Entscheidungsbäume Ø Allgemein sind Methoden des „Maschinellen Lernens“ nutzbar (beispielsweise Neuronale Netze) 21. 05. 2001 Web Log Mining - Martin Klossek 12
Data Mining Ø Anwendungen von Data Mining haben spezifischen Kontext, der mit Domänenwissen bezeichnet wird Ø Beachte: Data Mining und hier im speziellen Web Log Mining sind nicht standardisiert, sondern anwendungsund fragenabhängig. . . 21. 05. 2001 Web Log Mining - Martin Klossek 13
Übersicht 1. 2. 3. 4. Motivation Begriffsabgrenzung Data. Mining Domäne Web Log Mining Prozess des Web Log Mining unterstützt durch Fallbeispiele 5. Ausblick 21. 05. 2001 Web Log Mining - Martin Klossek 14
Webserver Architektur Anfragen Daten Logfiles Webserver - Requestobjekt - Client-Infos - Cookies Protokoll - Dateien - Status - Cookies 21. 05. 2001 Web Log Mining - Martin Klossek Dateien Skripte Datenbank 15
Protokollierung Protokoll Logfiles Ø Verschiedene Webserver am Markt Ø Ø Ø Apache Internet Information Server Netscape i. Planet NCSA http: //www. netcraft. com CERN. . . Ø Aber: Ein Format für Logdateien 21. 05. 2001 Web Log Mining - Martin Klossek 16
Format Logfiles Protokoll Logfiles Ø Common Log Format Ø ascii-Datei Ø jede Zeile entspricht einer Anfrage an den Webserver Ø verschiedene Felder beschreiben die Anfrage IP rfc 931 authuser Datum requeststring 21. 05. 2001 Web Log Mining - Martin Klossek . . . 17
Format Logfiles Protokoll Logfiles Ø Felder sind. . . IP rfc 931 z. B. 141. 2. 114. 129 authuser z. B. [21/May/2001: 17: 02: 22 +0100] . . . “requeststring“ z. B. "GET /start. php 3 HTTP/1. 1" 21. 05. 2001 [Datum]. . . statuscode bytes z. B. 202, 304 oder 404. . . Web Log Mining - Martin Klossek 18
Format Logfiles Protokoll Logfiles Ø Im Extended Log Format erweitert um die Felder Ø Referrer Ø Die im Browser zuvor angezeigte URL, z. B. "http: //www. stormzone. de/uni/future. html" Ø user_agent Ø Der Browserstring des Clients, z. B. "Mozilla/4. 0 (compatible; MSIE 5. 01; Windows 98)" 21. 05. 2001 Web Log Mining - Martin Klossek 19
Transaktionen Ø Jede Zeile im Logfile stellt eine Anfrage an den Webserver dar Ø Eine Anfrage besteht dabei aus Ø Html-Datei / Skript Ø Grafikdateien, Stylesheets, Applets, . . . Ø Eine Transaktion ist der Abruf einer Folge von Seiten. . . 21. 05. 2001 Web Log Mining - Martin Klossek 20
Session Ø Menge von Anfragen eines Besuchers in einer begrenzten Zeitspanne wird als Session bezeichnet Ø Charakterisiert durch Ø IP Ø Uhrzeit Session. Benutzer. A, 2001 -05 -21 = { index. html, seite 1. html, seite 2. html, . . . } 21. 05. 2001 Web Log Mining - Martin Klossek 21
Session Ø Problem: Datensätze nicht immer eindeutig, daher zur Unterscheidung: Ø Begrenzung der Session auf ca. 25 Minuten oder Inaktivitätsspanne Ø Identifizierung über Sessionkeys in URL oder Cookies, beispielsweise https: //ssl. moneyshelf. com/DE/de/functions/Cash/ cash. All. Accounts. jhtml; $sessionid$P 4 AB 000 FXLO PKCQCECCSFFIKAIQIIIV 0 21. 05. 2001 Web Log Mining - Martin Klossek 22
Weitere Daten Ø Für weitere Analysen ist Anreicherung der Daten sinnvoll, beispielsweise Ø Benutzerdaten aus Formularen Ø Demographische Datenbanken 21. 05. 2001 Web Log Mining - Martin Klossek 23
Übersicht 1. 2. 3. 4. Motivation Begriffsabgrenzung Data. Mining Domäne Web Log Mining Prozess des Web Log Mining unterstützt durch Fallbeispiele 5. Ausblick 21. 05. 2001 Web Log Mining - Martin Klossek 24
Prozess Web Log Mining Ø Aufgabenstellung: Ø Gegeben sind Logdaten einer Website Ø Ziel: Gewinnen neuer Informationen Ø Hier: Einige Ergebnisse aus einem Web Log Mining Projekt Ø Allgemein: Je nach Fragestellungen variieren die verwendeten Analysen 21. 05. 2001 Web Log Mining - Martin Klossek 25
Prozess Web Log Mining Aufbereitung Bereinigung Anreicherung 1 2 Mustererkennung Bewertung 3 21. 05. 2001 Integration in laufendes System Web Log Mining - Martin Klossek 4 26
Datenaufbereitung Ø Übertragen der Daten aus Logfiles in Format, das für die eingesetzte Data Mining Software lesbar ist Ø Auswahl der relevanten Felder im Logfile Ø Speicherung in Datenbank Ø Extraktion von Transaktionen und Sessions 21. 05. 2001 Web Log Mining - Martin Klossek 27
Datenaufbereitung Ø Entfernen von redundanten und überflüssigen Daten falls möglich Ø Entdecken und Entfernen von Ausreißern - falls möglich Ø Anreichern der Logdaten mit Daten aus Personendatenbank – falls vorhanden und den Fragestellungen entsprechend 21. 05. 2001 Web Log Mining - Martin Klossek 28
Mustererkennung Ø Zu Beginn wurden einige Fragestellungen vorgestellt. Schauen wir uns einige näher an 1. Welche Seiten wurden in einer Session zusammen besucht? 2. Clickstreams der Besucher 3. Gruppen von Besuchern ähnlichen Verhaltens? 4. Unterschiede zwischen Käufern und Nichtkäufern? 21. 05. 2001 Web Log Mining - Martin Klossek 29
Assoziationsanalyse Ø Welche Seiten wurden in einer Session zusammen besucht? Ø Assoziationsanalye Ø Erzeugt Regeln der Form Prämisse Konsequenz „wenn A. html“ „dann B. html“ A. html B. html 0, 9; 0, 2 21. 05. 2001 Mit Konfidenzfaktor conf und Supportfaktor sup Web Log Mining - Martin Klossek 30
Assoziationsanalyse Ø Die gefundenen Regeln geben Aufschluß darüber, wie sich die jeweiligen Seiten ergänzen Ø Umgestaltung der Website denkbar, so dass von Seite A auf Seite B und umgekehrt verwiesen wird. . . Ø. . . je deutlicher Support- und Konfidenzfaktor für diese Regel 21. 05. 2001 Web Log Mining - Martin Klossek 31
Assoziationsanalyse 21. 05. 2001 Web Log Mining - Martin Klossek 32
Assoziationsanalyse Visualisierung von Regeln mit conf + sup-Faktor 21. 05. 2001 Web Log Mining - Martin Klossek 33
Sequenzanalyse Ø Clickstreams der Besucher Ø Die Assoziationsanalye sagt nichts über die Reihenfolge der Seitenabrufe aus, dazu die: Ø Sequenzanalyse (hier Pfadanalyse) Ø Finden von Regeln für nacheinander besuchte Seiten mit Häufigkeit A. html D. html F. html B. html 0, 05 21. 05. 2001 Web Log Mining - Martin Klossek 34
Sequenzanalyse Ø Gewinnen von Erkenntnissen über die Reihenfolge der Informationssuche von Besuchern ( Siteoptimierung!) A D E G B C F 21. 05. 2001 „clickstreams“ Web Log Mining - Martin Klossek 35
Sequenzanalyse „clickstreams“ Häufigkeiten Ergebnisse einer Sequenzanalyse (unter Zusammenfassung von Seiten zu semantischen Gruppen) 21. 05. 2001 Web Log Mining - Martin Klossek 36
Clusteranalyse Ø Suche nach Gruppen von Besuchern mit ähnlichen Verhalten Ø Clusteranalyse Ø Bilden von Clustern mit Ø homogenen Merkmalen im Cluster Ø hoher Heterogenität zwischen den Clustern Ø Dabei werden die Merkmale aller Objekte miteinander über ein Proximitätsmaß verglichen (z. B. Euklidische Norm) 21. 05. 2001 Web Log Mining - Martin Klossek 37
Clusteranalyse Ø Reine Logdaten bieten nur Pfade, Verweildauer und technische Details (wie Browsertyp) als Merkmale an Ø Sinnvoll daher bei Logdaten von registrierten Benutzern mit Personeninformationen Ø Im folgenden ein Beispiel mit Anreicherung durch Personendaten 21. 05. 2001 Web Log Mining - Martin Klossek 38
Clusteranalyse Datenbank mit Personendaten 21. 05. 2001 Web Log Mining - Martin Klossek 39
Clusteranalyse Gefundene Cluster 21. 05. 2001 Web Log Mining - Martin Klossek 40
Clusteranalyse Cluster: „Männer über 38 wohnhaft in Region 4 Mögen e. Commerce“ 21. 05. 2001 Web Log Mining - Martin Klossek 41
Clusteranalyse Ø Mit Hilfe der Clusteranalyse und angereicherten Logdaten lassen sich also Angaben über die Art der Besucher der Website machen Ø Denkbar: „Automatische Personalisierung“, um Besuchern des gleichen Clusters ähnliche Informationen anzubieten! 21. 05. 2001 Web Log Mining - Martin Klossek 42
Entscheidungsbäume 1. Online-Shop: Unterscheidung zwischen Käufern und Nichtkäufern? 1. Entscheidungsbäume 2. Hier Segmentierung der um Personendaten angereicherten Logdaten, um Käufer von Nicht-Käufern zu unterscheiden 3. Ableiten von Regeln zur Vorhersage des Kaufverhaltens von Besuchern 21. 05. 2001 Web Log Mining - Martin Klossek 43
Entscheidungsbäume Kauf wahrscheinlich bei: „Keine Requests Information/Fun, mehr als 5 Requests von Communication“ 21. 05. 2001 Web Log Mining - Martin Klossek 44
Übersicht 1. 2. 3. 4. Motivation Begriffsabgrenzung Data. Mining Domäne Web Log Mining Prozess des Web Log Mining unterstützt durch Fallbeispiele 5. Ausblick 21. 05. 2001 Web Log Mining - Martin Klossek 45
Ausblick Ø Beobachtungen und Vermutungen Ø Für große Sites ist Web Log Mining unerläßlich, um Ø Bannerwerbung optimal zu platzieren Ø Personalisierung zu ermöglichen und so vermutlich den Umsatz zu steigern (Kundenbindung contra Kundenaquise!) Ø Streuverluste durch one 2 one-Marketing zu verringern 21. 05. 2001 Web Log Mining - Martin Klossek 46
Ausblick Ø Interessante Möglichkeiten Ø Standardisierung von Web Log Mining Verfahren Ø Integration in Serversoftware – siehe Microsoft Commerce Server 21. 05. 2001 Web Log Mining - Martin Klossek 47
Ausblick Ø sowie zu überlegen. . . Ø Verbindung von Web Content und Web Log Mining? Ø Optimierung und Weiterentwicklung von Analyseverfahren Ø Aber auch: Datenschutzrechtliche Begrenzungen! 21. 05. 2001 Web Log Mining - Martin Klossek 48
Fazit „Web Log Mining“ ist kein Hypethema sondern ein aus wirtschaftlichen Erfordernissen enstandenes Verfahren zur Analyse von Verbindungsdaten, das Anwendung findet. 21. 05. 2001 Web Log Mining - Martin Klossek 49
Kontakt Ø Kontakt: Ø martin@klossek 3000. de Ø Folien und Ausarbeitung in verschiedenen Formaten unter Ø http: //www. stormzone. de/uni/ Hauptstudium/seminare/wwwdb/list. php 3 21. 05. 2001 Web Log Mining - Martin Klossek 50
Das war‘s 21. 05. 2001 Web Log Mining - Martin Klossek 51
- Martin klossek
- 2001-2021
- Nom 010 tur 2001
- Chiavenato 2001
- Modified kuppuswamy
- 2001
- Weaver 2001
- Gothenburg riots 2001
- Latimer case
- Welcar 2001
- 27 april 2001
- Só doi quando eu respiro. porto alegre l&pm 2001
- Apprenticeship and traineeship act 2001
- Samsung organization
- La vida en las aulas jackson
- Tritan tx 2001
- Copyright 2001
- Mayer 2001
- 2001 khushhal
- Hazard hunt game
- Ist project
- Copyright 2001
- 2001 course
- 2001 ke 20
- Ilo-osh 2001
- Dlgs 68/2001 poteri gdf
- 2001 draft articles on state responsibility
- Destination imagination 2001
- Neuroplasticity ib psychology
- Meissner & brigham, 2001
- Copyright 2001
- Computing curricula 2001
- Dilution ventilation
- Konvensi unesco 2001
- Nccpl
- 25 september 2001
- Factores que conforman el modelo interactivo de la cif 2001
- Criciúma ec
- Muhammad yusuf maylida
- Psdays
- 1994 2001
- Kawastuhan ng mga kaisipan
- 18 12 2001
- 2001: a space odyssey the sentinel
- 2001 case
- Gfsm 2001
- 11 de septiembre de 2001
- Nom 008 ener 2001
- Androgyne iii
- Materi angka indeks
- 7,488:0,01
- Brink and wood 2001