21 05 2001 Martin Klossek Seminar WWW und

  • Slides: 51
Download presentation
21. 05. 2001 - Martin Klossek Seminar „WWW und Datenbanken“ - SS 2001 21.

21. 05. 2001 - Martin Klossek Seminar „WWW und Datenbanken“ - SS 2001 21. 05. 2001 Web Log Mining - Martin Klossek

Web Log Mining Ø Im World Wide Web werden täglich unzählbar viele Dateien von

Web Log Mining Ø Im World Wide Web werden täglich unzählbar viele Dateien von Servern an Arbeitsplatzrechner geliefert. . . Anfra gen Webserver n e i e t Da 21. 05. 2001 Web Log Mining - Martin Klossek 2

Web Log Mining Ø Die Webserversoftware protokolliert dabei jede gelieferte Datei wie Ø statische

Web Log Mining Ø Die Webserversoftware protokolliert dabei jede gelieferte Datei wie Ø statische + dynamische Htmlseiten Ø Bilder (. png, . gif, . jpg, . . . ) Ø Java-Applets, Flash, . . . Ø Speicherung der Zugriffe in Logdatei 21. 05. 2001 Web Log Mining - Martin Klossek 3

Web Log Mining Ø Erzeugte Logfiles werden sehr groß! Ø Auswertung und Visualisierung Ø

Web Log Mining Ø Erzeugte Logfiles werden sehr groß! Ø Auswertung und Visualisierung Ø Informationen wie Ø Ø Ø 21. 05. 2001 # Zugriffe pro Monat / Woche / Tag # Zugriffe pro Datei / Seite Zugreifende Rechner Browsertypen. . . Web Log Mining - Martin Klossek 4

Web Log Mining e. Commerce 21. 05. 2001 Web Log Mining - Martin Klossek

Web Log Mining e. Commerce 21. 05. 2001 Web Log Mining - Martin Klossek 5

Web Log Mining Ø Komplexe Sites wie Portale und Online -Shops verlangen Informationen über

Web Log Mining Ø Komplexe Sites wie Portale und Online -Shops verlangen Informationen über ihre Besucher Ø Können Logfiles mehr als nur die bloßen Verbindungsdaten lieferen? Ja!. . . mit Web Log Mining 21. 05. 2001 Web Log Mining - Martin Klossek 6

Web Log Mining Ø Web Log Mining beantwortet Fragen von Websitebetreibern Ø Wer besucht

Web Log Mining Ø Web Log Mining beantwortet Fragen von Websitebetreibern Ø Wer besucht meine Website? Wer kauft dort ein (bei Online-Shops!)? Ø Welche Seiten werden in einer Session zusammen besucht? Ø Welche Seiten werden nacheinander besucht (Sequenz)? 21. 05. 2001 Web Log Mining - Martin Klossek 7

Web Log Mining Ø oder auch folgende Fragen 1. Welche Werbemaßnahmen, welche Banner sollte

Web Log Mining Ø oder auch folgende Fragen 1. Welche Werbemaßnahmen, welche Banner sollte ich einsetzen? 2. Wie unterscheiden sich Käufer von Nicht-Käufern (e. Commerce)? 3. Verhalten sich registrierte Benutzer anders als anonyme? 4. Wie erhöhe ich die Anzahl meiner Besucher und Kunden? 21. 05. 2001 Web Log Mining - Martin Klossek 8

Übersicht 1. 2. 3. 4. Motivation Begriffsabgrenzung Data. Mining Domäne Web Log Mining Prozess

Übersicht 1. 2. 3. 4. Motivation Begriffsabgrenzung Data. Mining Domäne Web Log Mining Prozess des Web Log Mining unterstützt durch Fallbeispiele 5. Ausblick 21. 05. 2001 Web Log Mining - Martin Klossek 9

Data Mining Ø Data Mining is Ø data and discovery driven Ø not: confirmation

Data Mining Ø Data Mining is Ø data and discovery driven Ø not: confirmation or verification driven Information Daten Data Mining Muster Regeln 21. 05. 2001 Web Log Mining - Martin Klossek 10

Data Mining Ø Data Mining Software analysiert Daten und liefert Regeln und Muster Ø

Data Mining Ø Data Mining Software analysiert Daten und liefert Regeln und Muster Ø Mustererkennung Ø Hypothesenfindung Ø Statistiksoftware bietet Ø Mittel zum Bestätigen von Hypothesen, die Sachverständige aufgestellt haben 21. 05. 2001 Web Log Mining - Martin Klossek 11

Data Mining Ø Einige Verfahren sind Ø Ø Assoziationsanalyse Sequenzanalyse Clusteranalyse Entscheidungsbäume Ø Allgemein

Data Mining Ø Einige Verfahren sind Ø Ø Assoziationsanalyse Sequenzanalyse Clusteranalyse Entscheidungsbäume Ø Allgemein sind Methoden des „Maschinellen Lernens“ nutzbar (beispielsweise Neuronale Netze) 21. 05. 2001 Web Log Mining - Martin Klossek 12

Data Mining Ø Anwendungen von Data Mining haben spezifischen Kontext, der mit Domänenwissen bezeichnet

Data Mining Ø Anwendungen von Data Mining haben spezifischen Kontext, der mit Domänenwissen bezeichnet wird Ø Beachte: Data Mining und hier im speziellen Web Log Mining sind nicht standardisiert, sondern anwendungsund fragenabhängig. . . 21. 05. 2001 Web Log Mining - Martin Klossek 13

Übersicht 1. 2. 3. 4. Motivation Begriffsabgrenzung Data. Mining Domäne Web Log Mining Prozess

Übersicht 1. 2. 3. 4. Motivation Begriffsabgrenzung Data. Mining Domäne Web Log Mining Prozess des Web Log Mining unterstützt durch Fallbeispiele 5. Ausblick 21. 05. 2001 Web Log Mining - Martin Klossek 14

Webserver Architektur Anfragen Daten Logfiles Webserver - Requestobjekt - Client-Infos - Cookies Protokoll -

Webserver Architektur Anfragen Daten Logfiles Webserver - Requestobjekt - Client-Infos - Cookies Protokoll - Dateien - Status - Cookies 21. 05. 2001 Web Log Mining - Martin Klossek Dateien Skripte Datenbank 15

Protokollierung Protokoll Logfiles Ø Verschiedene Webserver am Markt Ø Ø Ø Apache Internet Information

Protokollierung Protokoll Logfiles Ø Verschiedene Webserver am Markt Ø Ø Ø Apache Internet Information Server Netscape i. Planet NCSA http: //www. netcraft. com CERN. . . Ø Aber: Ein Format für Logdateien 21. 05. 2001 Web Log Mining - Martin Klossek 16

Format Logfiles Protokoll Logfiles Ø Common Log Format Ø ascii-Datei Ø jede Zeile entspricht

Format Logfiles Protokoll Logfiles Ø Common Log Format Ø ascii-Datei Ø jede Zeile entspricht einer Anfrage an den Webserver Ø verschiedene Felder beschreiben die Anfrage IP rfc 931 authuser Datum requeststring 21. 05. 2001 Web Log Mining - Martin Klossek . . . 17

Format Logfiles Protokoll Logfiles Ø Felder sind. . . IP rfc 931 z. B.

Format Logfiles Protokoll Logfiles Ø Felder sind. . . IP rfc 931 z. B. 141. 2. 114. 129 authuser z. B. [21/May/2001: 17: 02: 22 +0100] . . . “requeststring“ z. B. "GET /start. php 3 HTTP/1. 1" 21. 05. 2001 [Datum]. . . statuscode bytes z. B. 202, 304 oder 404. . . Web Log Mining - Martin Klossek 18

Format Logfiles Protokoll Logfiles Ø Im Extended Log Format erweitert um die Felder Ø

Format Logfiles Protokoll Logfiles Ø Im Extended Log Format erweitert um die Felder Ø Referrer Ø Die im Browser zuvor angezeigte URL, z. B. "http: //www. stormzone. de/uni/future. html" Ø user_agent Ø Der Browserstring des Clients, z. B. "Mozilla/4. 0 (compatible; MSIE 5. 01; Windows 98)" 21. 05. 2001 Web Log Mining - Martin Klossek 19

Transaktionen Ø Jede Zeile im Logfile stellt eine Anfrage an den Webserver dar Ø

Transaktionen Ø Jede Zeile im Logfile stellt eine Anfrage an den Webserver dar Ø Eine Anfrage besteht dabei aus Ø Html-Datei / Skript Ø Grafikdateien, Stylesheets, Applets, . . . Ø Eine Transaktion ist der Abruf einer Folge von Seiten. . . 21. 05. 2001 Web Log Mining - Martin Klossek 20

Session Ø Menge von Anfragen eines Besuchers in einer begrenzten Zeitspanne wird als Session

Session Ø Menge von Anfragen eines Besuchers in einer begrenzten Zeitspanne wird als Session bezeichnet Ø Charakterisiert durch Ø IP Ø Uhrzeit Session. Benutzer. A, 2001 -05 -21 = { index. html, seite 1. html, seite 2. html, . . . } 21. 05. 2001 Web Log Mining - Martin Klossek 21

Session Ø Problem: Datensätze nicht immer eindeutig, daher zur Unterscheidung: Ø Begrenzung der Session

Session Ø Problem: Datensätze nicht immer eindeutig, daher zur Unterscheidung: Ø Begrenzung der Session auf ca. 25 Minuten oder Inaktivitätsspanne Ø Identifizierung über Sessionkeys in URL oder Cookies, beispielsweise https: //ssl. moneyshelf. com/DE/de/functions/Cash/ cash. All. Accounts. jhtml; $sessionid$P 4 AB 000 FXLO PKCQCECCSFFIKAIQIIIV 0 21. 05. 2001 Web Log Mining - Martin Klossek 22

Weitere Daten Ø Für weitere Analysen ist Anreicherung der Daten sinnvoll, beispielsweise Ø Benutzerdaten

Weitere Daten Ø Für weitere Analysen ist Anreicherung der Daten sinnvoll, beispielsweise Ø Benutzerdaten aus Formularen Ø Demographische Datenbanken 21. 05. 2001 Web Log Mining - Martin Klossek 23

Übersicht 1. 2. 3. 4. Motivation Begriffsabgrenzung Data. Mining Domäne Web Log Mining Prozess

Übersicht 1. 2. 3. 4. Motivation Begriffsabgrenzung Data. Mining Domäne Web Log Mining Prozess des Web Log Mining unterstützt durch Fallbeispiele 5. Ausblick 21. 05. 2001 Web Log Mining - Martin Klossek 24

Prozess Web Log Mining Ø Aufgabenstellung: Ø Gegeben sind Logdaten einer Website Ø Ziel:

Prozess Web Log Mining Ø Aufgabenstellung: Ø Gegeben sind Logdaten einer Website Ø Ziel: Gewinnen neuer Informationen Ø Hier: Einige Ergebnisse aus einem Web Log Mining Projekt Ø Allgemein: Je nach Fragestellungen variieren die verwendeten Analysen 21. 05. 2001 Web Log Mining - Martin Klossek 25

Prozess Web Log Mining Aufbereitung Bereinigung Anreicherung 1 2 Mustererkennung Bewertung 3 21. 05.

Prozess Web Log Mining Aufbereitung Bereinigung Anreicherung 1 2 Mustererkennung Bewertung 3 21. 05. 2001 Integration in laufendes System Web Log Mining - Martin Klossek 4 26

Datenaufbereitung Ø Übertragen der Daten aus Logfiles in Format, das für die eingesetzte Data

Datenaufbereitung Ø Übertragen der Daten aus Logfiles in Format, das für die eingesetzte Data Mining Software lesbar ist Ø Auswahl der relevanten Felder im Logfile Ø Speicherung in Datenbank Ø Extraktion von Transaktionen und Sessions 21. 05. 2001 Web Log Mining - Martin Klossek 27

Datenaufbereitung Ø Entfernen von redundanten und überflüssigen Daten falls möglich Ø Entdecken und Entfernen

Datenaufbereitung Ø Entfernen von redundanten und überflüssigen Daten falls möglich Ø Entdecken und Entfernen von Ausreißern - falls möglich Ø Anreichern der Logdaten mit Daten aus Personendatenbank – falls vorhanden und den Fragestellungen entsprechend 21. 05. 2001 Web Log Mining - Martin Klossek 28

Mustererkennung Ø Zu Beginn wurden einige Fragestellungen vorgestellt. Schauen wir uns einige näher an

Mustererkennung Ø Zu Beginn wurden einige Fragestellungen vorgestellt. Schauen wir uns einige näher an 1. Welche Seiten wurden in einer Session zusammen besucht? 2. Clickstreams der Besucher 3. Gruppen von Besuchern ähnlichen Verhaltens? 4. Unterschiede zwischen Käufern und Nichtkäufern? 21. 05. 2001 Web Log Mining - Martin Klossek 29

Assoziationsanalyse Ø Welche Seiten wurden in einer Session zusammen besucht? Ø Assoziationsanalye Ø Erzeugt

Assoziationsanalyse Ø Welche Seiten wurden in einer Session zusammen besucht? Ø Assoziationsanalye Ø Erzeugt Regeln der Form Prämisse Konsequenz „wenn A. html“ „dann B. html“ A. html B. html 0, 9; 0, 2 21. 05. 2001 Mit Konfidenzfaktor conf und Supportfaktor sup Web Log Mining - Martin Klossek 30

Assoziationsanalyse Ø Die gefundenen Regeln geben Aufschluß darüber, wie sich die jeweiligen Seiten ergänzen

Assoziationsanalyse Ø Die gefundenen Regeln geben Aufschluß darüber, wie sich die jeweiligen Seiten ergänzen Ø Umgestaltung der Website denkbar, so dass von Seite A auf Seite B und umgekehrt verwiesen wird. . . Ø. . . je deutlicher Support- und Konfidenzfaktor für diese Regel 21. 05. 2001 Web Log Mining - Martin Klossek 31

Assoziationsanalyse 21. 05. 2001 Web Log Mining - Martin Klossek 32

Assoziationsanalyse 21. 05. 2001 Web Log Mining - Martin Klossek 32

Assoziationsanalyse Visualisierung von Regeln mit conf + sup-Faktor 21. 05. 2001 Web Log Mining

Assoziationsanalyse Visualisierung von Regeln mit conf + sup-Faktor 21. 05. 2001 Web Log Mining - Martin Klossek 33

Sequenzanalyse Ø Clickstreams der Besucher Ø Die Assoziationsanalye sagt nichts über die Reihenfolge der

Sequenzanalyse Ø Clickstreams der Besucher Ø Die Assoziationsanalye sagt nichts über die Reihenfolge der Seitenabrufe aus, dazu die: Ø Sequenzanalyse (hier Pfadanalyse) Ø Finden von Regeln für nacheinander besuchte Seiten mit Häufigkeit A. html D. html F. html B. html 0, 05 21. 05. 2001 Web Log Mining - Martin Klossek 34

Sequenzanalyse Ø Gewinnen von Erkenntnissen über die Reihenfolge der Informationssuche von Besuchern ( Siteoptimierung!)

Sequenzanalyse Ø Gewinnen von Erkenntnissen über die Reihenfolge der Informationssuche von Besuchern ( Siteoptimierung!) A D E G B C F 21. 05. 2001 „clickstreams“ Web Log Mining - Martin Klossek 35

Sequenzanalyse „clickstreams“ Häufigkeiten Ergebnisse einer Sequenzanalyse (unter Zusammenfassung von Seiten zu semantischen Gruppen) 21.

Sequenzanalyse „clickstreams“ Häufigkeiten Ergebnisse einer Sequenzanalyse (unter Zusammenfassung von Seiten zu semantischen Gruppen) 21. 05. 2001 Web Log Mining - Martin Klossek 36

Clusteranalyse Ø Suche nach Gruppen von Besuchern mit ähnlichen Verhalten Ø Clusteranalyse Ø Bilden

Clusteranalyse Ø Suche nach Gruppen von Besuchern mit ähnlichen Verhalten Ø Clusteranalyse Ø Bilden von Clustern mit Ø homogenen Merkmalen im Cluster Ø hoher Heterogenität zwischen den Clustern Ø Dabei werden die Merkmale aller Objekte miteinander über ein Proximitätsmaß verglichen (z. B. Euklidische Norm) 21. 05. 2001 Web Log Mining - Martin Klossek 37

Clusteranalyse Ø Reine Logdaten bieten nur Pfade, Verweildauer und technische Details (wie Browsertyp) als

Clusteranalyse Ø Reine Logdaten bieten nur Pfade, Verweildauer und technische Details (wie Browsertyp) als Merkmale an Ø Sinnvoll daher bei Logdaten von registrierten Benutzern mit Personeninformationen Ø Im folgenden ein Beispiel mit Anreicherung durch Personendaten 21. 05. 2001 Web Log Mining - Martin Klossek 38

Clusteranalyse Datenbank mit Personendaten 21. 05. 2001 Web Log Mining - Martin Klossek 39

Clusteranalyse Datenbank mit Personendaten 21. 05. 2001 Web Log Mining - Martin Klossek 39

Clusteranalyse Gefundene Cluster 21. 05. 2001 Web Log Mining - Martin Klossek 40

Clusteranalyse Gefundene Cluster 21. 05. 2001 Web Log Mining - Martin Klossek 40

Clusteranalyse Cluster: „Männer über 38 wohnhaft in Region 4 Mögen e. Commerce“ 21. 05.

Clusteranalyse Cluster: „Männer über 38 wohnhaft in Region 4 Mögen e. Commerce“ 21. 05. 2001 Web Log Mining - Martin Klossek 41

Clusteranalyse Ø Mit Hilfe der Clusteranalyse und angereicherten Logdaten lassen sich also Angaben über

Clusteranalyse Ø Mit Hilfe der Clusteranalyse und angereicherten Logdaten lassen sich also Angaben über die Art der Besucher der Website machen Ø Denkbar: „Automatische Personalisierung“, um Besuchern des gleichen Clusters ähnliche Informationen anzubieten! 21. 05. 2001 Web Log Mining - Martin Klossek 42

Entscheidungsbäume 1. Online-Shop: Unterscheidung zwischen Käufern und Nichtkäufern? 1. Entscheidungsbäume 2. Hier Segmentierung der

Entscheidungsbäume 1. Online-Shop: Unterscheidung zwischen Käufern und Nichtkäufern? 1. Entscheidungsbäume 2. Hier Segmentierung der um Personendaten angereicherten Logdaten, um Käufer von Nicht-Käufern zu unterscheiden 3. Ableiten von Regeln zur Vorhersage des Kaufverhaltens von Besuchern 21. 05. 2001 Web Log Mining - Martin Klossek 43

Entscheidungsbäume Kauf wahrscheinlich bei: „Keine Requests Information/Fun, mehr als 5 Requests von Communication“ 21.

Entscheidungsbäume Kauf wahrscheinlich bei: „Keine Requests Information/Fun, mehr als 5 Requests von Communication“ 21. 05. 2001 Web Log Mining - Martin Klossek 44

Übersicht 1. 2. 3. 4. Motivation Begriffsabgrenzung Data. Mining Domäne Web Log Mining Prozess

Übersicht 1. 2. 3. 4. Motivation Begriffsabgrenzung Data. Mining Domäne Web Log Mining Prozess des Web Log Mining unterstützt durch Fallbeispiele 5. Ausblick 21. 05. 2001 Web Log Mining - Martin Klossek 45

Ausblick Ø Beobachtungen und Vermutungen Ø Für große Sites ist Web Log Mining unerläßlich,

Ausblick Ø Beobachtungen und Vermutungen Ø Für große Sites ist Web Log Mining unerläßlich, um Ø Bannerwerbung optimal zu platzieren Ø Personalisierung zu ermöglichen und so vermutlich den Umsatz zu steigern (Kundenbindung contra Kundenaquise!) Ø Streuverluste durch one 2 one-Marketing zu verringern 21. 05. 2001 Web Log Mining - Martin Klossek 46

Ausblick Ø Interessante Möglichkeiten Ø Standardisierung von Web Log Mining Verfahren Ø Integration in

Ausblick Ø Interessante Möglichkeiten Ø Standardisierung von Web Log Mining Verfahren Ø Integration in Serversoftware – siehe Microsoft Commerce Server 21. 05. 2001 Web Log Mining - Martin Klossek 47

Ausblick Ø sowie zu überlegen. . . Ø Verbindung von Web Content und Web

Ausblick Ø sowie zu überlegen. . . Ø Verbindung von Web Content und Web Log Mining? Ø Optimierung und Weiterentwicklung von Analyseverfahren Ø Aber auch: Datenschutzrechtliche Begrenzungen! 21. 05. 2001 Web Log Mining - Martin Klossek 48

Fazit „Web Log Mining“ ist kein Hypethema sondern ein aus wirtschaftlichen Erfordernissen enstandenes Verfahren

Fazit „Web Log Mining“ ist kein Hypethema sondern ein aus wirtschaftlichen Erfordernissen enstandenes Verfahren zur Analyse von Verbindungsdaten, das Anwendung findet. 21. 05. 2001 Web Log Mining - Martin Klossek 49

Kontakt Ø Kontakt: Ø martin@klossek 3000. de Ø Folien und Ausarbeitung in verschiedenen Formaten

Kontakt Ø Kontakt: Ø martin@klossek 3000. de Ø Folien und Ausarbeitung in verschiedenen Formaten unter Ø http: //www. stormzone. de/uni/ Hauptstudium/seminare/wwwdb/list. php 3 21. 05. 2001 Web Log Mining - Martin Klossek 50

Das war‘s 21. 05. 2001 Web Log Mining - Martin Klossek 51

Das war‘s 21. 05. 2001 Web Log Mining - Martin Klossek 51