Rocchio Algorithmus Vortrag im Rahmen des Seminars Neue

  • Slides: 18
Download presentation
Rocchio Algorithmus Vortrag im Rahmen des Seminars Neue Ansätze der Künstlichen Intelligenz Prof. Dr.

Rocchio Algorithmus Vortrag im Rahmen des Seminars Neue Ansätze der Künstlichen Intelligenz Prof. Dr. Katharina Morik Lehrstuhl für Künstliche Intelligenz Guido Müller guido. mueller@uni-dortmund. de 18. Juni 2002 im Westfalenpark J. J. Rocchio, relevance feedback in information retrieval, 1971

Lehrstuhl für Künstliche Intelligenz Gliederung des Vortrages: 1. Einleitung 2. Der Rocchio Algorithmus 3.

Lehrstuhl für Künstliche Intelligenz Gliederung des Vortrages: 1. Einleitung 2. Der Rocchio Algorithmus 3. Naiver Bayes'scher Klassifikator 4. Kollaboratives Filtern 5. Literatur Rocchio Algorithmus ~2~ Guido Müller 18. 06. 2002

Lehrstuhl für Künstliche Intelligenz 1. Einleitung Intelligente Suchmaschinen Lernfähigkeiten bezüglich Information Retrieval Konzentration auf

Lehrstuhl für Künstliche Intelligenz 1. Einleitung Intelligente Suchmaschinen Lernfähigkeiten bezüglich Information Retrieval Konzentration auf Basis-Lernalgorithmus: Rocchio 1971 Modellierung von Text mit probabilistischen Methoden: Bayes'scher Klassifikator Rocchio Algorithmus ~2~ Guido Müller 18. 06. 2002

Lehrstuhl für Künstliche Intelligenz 2. Der Rocchio Algorithmus Kapitelaufbau Zweck und Einordnung Hauptidee Definitionen

Lehrstuhl für Künstliche Intelligenz 2. Der Rocchio Algorithmus Kapitelaufbau Zweck und Einordnung Hauptidee Definitionen Beispiel (interaktiv) Bedeutsamkeit Rocchio Algorithmus ~2~ Guido Müller 18. 06. 2002

Lehrstuhl für Künstliche Intelligenz 2. Der Rocchio Algorithmus Zweck und Einordnung Methode zum Relevance

Lehrstuhl für Künstliche Intelligenz 2. Der Rocchio Algorithmus Zweck und Einordnung Methode zum Relevance Feedback (optimierte) Dokumentensuche Klassifizierung von Textdokumenten Dokumente als Wortvektoren (Bag-of-words-Ansatz) Einfachheit ►Effizienz Equal Effectiveness Paradoxon: „. . . all reasonable text reprentations have been found to result in very similar effictiveness on the retrieval task. “(Lewis, 1992) Rocchio Algorithmus ~2~ Guido Müller 18. 06. 2002

Lehrstuhl für Künstliche Intelligenz 2. Der Rocchio Algorithmus Grundidee Bag-of-words-Ansatz (Wortvektor) Gleicher Inhalt =>

Lehrstuhl für Künstliche Intelligenz 2. Der Rocchio Algorithmus Grundidee Bag-of-words-Ansatz (Wortvektor) Gleicher Inhalt => gleicher Vektor δ Vektoren „ähnlich“ => Ähnlichkeit von Dokumenten Relevance Feedback: Relevanz-Erkenntnisse fließen in neue Suchanfrage ein Rocchio Algorithmus ~2~ Guido Müller 18. 06. 2002

Lehrstuhl für Künstliche Intelligenz 2. Der Rocchio Algorithmus Definitionen: TF = term frequency wie

Lehrstuhl für Künstliche Intelligenz 2. Der Rocchio Algorithmus Definitionen: TF = term frequency wie oft kommt ein Wort im Dokument vor DF = document freq. |Dokumente, in denen ein Wort vorkommt| IDF = inverse DF Vektor: d(i) = TF(wi, d) • IDF(wi) => je öfter ein Wort vorkommt, desto wichtiger ist es => je mehr Dokumente dieses Wort beinhalten, desto unwichtiger ists Rocchio Algorithmus ~2~ Guido Müller 18. 06. 2002

Lehrstuhl für Künstliche Intelligenz 2. Der Rocchio Algorithmus Definitionen: TF = term frequency wie

Lehrstuhl für Künstliche Intelligenz 2. Der Rocchio Algorithmus Definitionen: TF = term frequency wie oft kommt ein Wort im Dokument vor DF = document freq. |Dokumente, in denen das Wort vorkommt| IDF = inverse DF Vektor: d(i) = TF(wi, d) • IDF(wi) Rocchio Algorithmus ~2~ Beispiel: Guido Müller 18. 06. 2002

Lehrstuhl für Künstliche Intelligenz 2. Der Rocchio Algorithmus Kategorisierung: Wie ähnlich sind nun zwei

Lehrstuhl für Künstliche Intelligenz 2. Der Rocchio Algorithmus Kategorisierung: Wie ähnlich sind nun zwei Dokumente? Maß der Ähnlichkeit: Kosinus der Vektoren δ 1 und δ 2 Rocchio Algorithmus ~2~ Guido Müller 18. 06. 2002

Lehrstuhl für Künstliche Intelligenz 2. Der Rocchio Algorithmus Relevance Feedback : Der Benutzer stuft

Lehrstuhl für Künstliche Intelligenz 2. Der Rocchio Algorithmus Relevance Feedback : Der Benutzer stuft die ihm präsentierten Dokumente ein als relevant, bzw. irrelevant Rocchio generiert verfeinerte Anfrage: Σ Aneu = Aneu + 1/n 0 δ+ Σ - 1/(n-n 0) δ- δ+ - bezeichnet die „relevanten“ Dokumente δ- - bezeichnet die „ nicht relevanten“ Dokumente Rocchio Algorithmus ~2~ Guido Müller 18. 06. 2002

Lehrstuhl für Künstliche Intelligenz 2. Der Rocchio Algorithmus Eignet sich auch zur Textkategorisierung Statt

Lehrstuhl für Künstliche Intelligenz 2. Der Rocchio Algorithmus Eignet sich auch zur Textkategorisierung Statt Relevanz-Einstufungen des Benutzers bildet sich die δ+ - Klasse aus Trainingsdokumenten. Schwellenwert Θ, ab dem der cos-Wert die beiden Dokumente als „ähnlich“ einstuft. Rocchio Algorithmus ~2~ Guido Müller 18. 06. 2002

Lehrstuhl für Künstliche Intelligenz 2. Der Rocchio Algorithmus Bedeutsamkeit Vielfältige Einsatzmöglichkeiten Einfach und deshalb

Lehrstuhl für Künstliche Intelligenz 2. Der Rocchio Algorithmus Bedeutsamkeit Vielfältige Einsatzmöglichkeiten Einfach und deshalb schnell und gut Existiert in vielen Abwandlungen/Verbesserungen als Grundgerüst Joachims: probabilistische Analyse des Rocchio-Algos als state-of-the-art Rocchio Algorithmus ~2~ Guido Müller 18. 06. 2002

Lehrstuhl für Künstliche Intelligenz 3. Naiver Bayes'scher Klassifikator Konzept Probabilistisches Modell von Text Grundidee,

Lehrstuhl für Künstliche Intelligenz 3. Naiver Bayes'scher Klassifikator Konzept Probabilistisches Modell von Text Grundidee, -annahme: Dokumente enstehen durch zufälliges Ziehen von Wörtern aus einer Klassen-Urne Klassifizierung erfolgt durch Berechnung der Wahrscheinlichkeit, dass ein Dokument zu einer Klasse gehört => Das Dokument wird in jene Klasse einsortiert, die am warscheinlichsten dieses Dok. erzeugt hat Rocchio Algorithmus ~2~ Guido Müller 18. 06. 2002

Lehrstuhl für Künstliche Intelligenz 3. Naiver Bayes'scher Klassifikator Vereinfachende Annahmen: z. B. „konditionale Unabhängigkeitsannahme“

Lehrstuhl für Künstliche Intelligenz 3. Naiver Bayes'scher Klassifikator Vereinfachende Annahmen: z. B. „konditionale Unabhängigkeitsannahme“ ein auftretendes Wort im Dokument ist unabhägig vom Vorgänger Ist zwar falsch, hat sich in der Praxis aber als sinnvoll erwiesen => einfachere Berechnung der Wahrscheinlichkeiten: Wahrscheinlichkeit für Klassen zurückführbar auf die für das Erzeugen der Wörter Rocchio Algorithmus ~2~ Guido Müller 18. 06. 2002

Lehrstuhl für Künstliche Intelligenz 4. Kollaboratives Filtern Daten werden individuell gefiltert Modelle werden erstellt

Lehrstuhl für Künstliche Intelligenz 4. Kollaboratives Filtern Daten werden individuell gefiltert Modelle werden erstellt Content based filtering: Rating-Verfahren und Beschreibungen des Benutzers Collaborative filtering Daten anderer/ähnlicher Benutzer werden herangezogen Unabhängig von Daten Es wird präsentiert, was andere Benutzer, die gleiche Ratings hatten gut gefunden haben z. B. bei amazon. de gibt's beides Rocchio Algorithmus ~2~ Guido Müller 18. 06. 2002

Lehrstuhl für Künstliche Intelligenz 4. Kollaboratives Filtern Beispiel Bücherkauf: Bücher: Karl: Jan: Paula: Frank:

Lehrstuhl für Künstliche Intelligenz 4. Kollaboratives Filtern Beispiel Bücherkauf: Bücher: Karl: Jan: Paula: Frank: Java-Einführung X - - ? Der Klient X - X - ? - - X ? - ? X Das Tee-Buch Bilderbuch La. Te. X X - Rocchio Algorithmus ~2~ Guido Müller 18. 06. 2002

Lehrstuhl für Künstliche Intelligenz Literatur: 1. Thorsten Joachims. A Probabilistic Analysis of the Rocchio

Lehrstuhl für Künstliche Intelligenz Literatur: 1. Thorsten Joachims. A Probabilistic Analysis of the Rocchio Algorithm with TFIDF for Text Categorization. School of Computer Science, Carnegie Mellon University, Pittsburgh 1996 2. Thorsten Joachims. Diplomarbeit: Einsatz eines intelligenten, lernenden Agenten für das World Wide Web. Universität Dortmund, 1996 3. J. J. Rocchio. Relevance Feedback in Information Retrieval in The SMART Retrieval System: Experiments in Automatic Document Processing, Ch. 14, Prentice Hall Inc. , 1971 4. Koji Miyahara/ Michael J. Pazzani. Collaborative Filtering with the Simple Bayesian Classifier at Pacific Rim International Conference on Artificial Intelligence, 2000 Rocchio Algorithmus ~2~ Guido Müller 18. 06. 2002

Der Rocchio Algorithmus Vielen Dank für Eure Aufmerksamkeit ; -)

Der Rocchio Algorithmus Vielen Dank für Eure Aufmerksamkeit ; -)