STALKER Lerntheoretische Modellierung und Untersuchung Technische Universitt Darmstadt

  • Slides: 32
Download presentation
STALKER: Lerntheoretische Modellierung und Untersuchung Technische Universität Darmstadt Fachbereich Informatik Fachgebiet Knowledge Engineering Diplomarbeit

STALKER: Lerntheoretische Modellierung und Untersuchung Technische Universität Darmstadt Fachbereich Informatik Fachgebiet Knowledge Engineering Diplomarbeit Matthias Degen

Übersicht n Einführung / Was sind Wrapper-Systeme? n Wrapperinduktionssystem STALKER n Modellierung von STALKER

Übersicht n Einführung / Was sind Wrapper-Systeme? n Wrapperinduktionssystem STALKER n Modellierung von STALKER in Termini formaler Sprachen n Modell des induktiven Lernens im Limes n Lernergebnisse STALKER: Lerntheoretische Modellierung und Untersuchung Seite 1/30

Was sind Wrapper-Systeme ? n Ermöglichen die Extraktion von Informationen aus semistrukturierten Dokumenten semi-strukturiertes

Was sind Wrapper-Systeme ? n Ermöglichen die Extraktion von Informationen aus semistrukturierten Dokumenten semi-strukturiertes Dokument n n n Wrapper strukturierte Informationen Wissen um Einbettung der Information -> Nutzung für die Lokalisation Wrapper benötigt Regel zur Bestimmung des Anfangs und Endes einer Information Wrapper sind durch diese Regeln definiert STALKER: Lerntheoretische Modellierung und Untersuchung Seite 2/30

STALKER: Lerntheoretische Modellierung und Untersuchung Seite 3/30

STALKER: Lerntheoretische Modellierung und Untersuchung Seite 3/30

Übersicht n Einführung / Was sind Wrapper-Systeme? n Wrapperinduktionssystem STALKER n Modellierung von STALKER

Übersicht n Einführung / Was sind Wrapper-Systeme? n Wrapperinduktionssystem STALKER n Modellierung von STALKER in Termini formaler Sprachen n Modell des induktiven Lernens im Limes n Lernergebnisse STALKER: Lerntheoretische Modellierung und Untersuchung Seite 4/30

Embedded Catalog Tree: STALKER: Lerntheoretische Modellierung und Untersuchung Seite 5/30

Embedded Catalog Tree: STALKER: Lerntheoretische Modellierung und Untersuchung Seite 5/30

Regeln bei STALKER n n Extraktionsregeln für Knoten und Iterationsregeln für Listen Teilregel für

Regeln bei STALKER n n Extraktionsregeln für Knoten und Iterationsregeln für Listen Teilregel für den Anfang und Teilregel für das Ende Teilregeln können Vorwärts- oder Rückwärtsregeln sein Regelformen: n n Skip. To(LM 1). . . Skip. To(LMn)Skip. Until(LMn+1) Skip. To(LM 1). . . Skip. To(LMn)Next(LMn+1) Zusätzlich sind Disjunktionen möglich: n Either Regel 1 Or Regel 2 STALKER: Lerntheoretische Modellierung und Untersuchung Seite 6/30

STALKER: Lerntheoretische Modellierung und Untersuchung Seite 7/30

STALKER: Lerntheoretische Modellierung und Untersuchung Seite 7/30

Informationsextraktion mit STALKER n Benötigte Regeln: n n n Extraktionsregel für Liste(Restaurant) Iterationsregel für

Informationsextraktion mit STALKER n Benötigte Regeln: n n n Extraktionsregel für Liste(Restaurant) Iterationsregel für Liste(Restaurant) Extraktionsregel für Preiskategorie Embedded Catalog Tree: STALKER: Lerntheoretische Modellierung und Untersuchung Seite 8/30

Extraktionsregel für Liste(Restaurant) n n Anfang: Skip. To(<hr noshade>) Ende: Skip. To(<hr noshade>) STALKER:

Extraktionsregel für Liste(Restaurant) n n Anfang: Skip. To(<hr noshade>) Ende: Skip. To(<hr noshade>) STALKER: Lerntheoretische Modellierung und Untersuchung Seite 9/30

Iterationsregel für Liste(Restaurant) n n Anfang: Skip. Until(<td> <b> Capitalized) Ende: Either Skip. Until(<hr>)

Iterationsregel für Liste(Restaurant) n n Anfang: Skip. Until(<td> <b> Capitalized) Ende: Either Skip. Until(<hr>) Or Skip. Until(<hr noshape>) STALKER: Lerntheoretische Modellierung und Untersuchung Seite 10/30

Extraktionsregel für Preiskategorie n n Anfang: Skip. To(Price Range)Skip. To(</b>) Ende: Skip. Until( )

Extraktionsregel für Preiskategorie n n Anfang: Skip. To(Price Range)Skip. To(</b>) Ende: Skip. Until( ) STALKER: Lerntheoretische Modellierung und Untersuchung Seite 11/30

Landmarks n n Argumente der Operationen Aneinanderreihung von Tokens und Wildcards Tokens können Wörter,

Landmarks n n Argumente der Operationen Aneinanderreihung von Tokens und Wildcards Tokens können Wörter, Zahlen, HTML-Befehle, Satzzeichen sein Wildcards sind Mengen von Tokens: STALKER: Lerntheoretische Modellierung und Untersuchung

Übersicht n Einführung / Was sind Wrapper-Systeme? n Wrapperinduktionssystem STALKER n Modellierung von STALKER

Übersicht n Einführung / Was sind Wrapper-Systeme? n Wrapperinduktionssystem STALKER n Modellierung von STALKER in Termini formaler Sprachen n Modell des induktiven Lernens im Limes n Lernergebnisse STALKER: Lerntheoretische Modellierung und Untersuchung Seite 11/30

Modellierung von STALKER in Termini formaler Sprachen n n Wrapper ist vollständig durch seine

Modellierung von STALKER in Termini formaler Sprachen n n Wrapper ist vollständig durch seine Regeln definiert Ein Disjunkt einer Teilregel wird durch Folgendes bestimmt: n n Anzahl der Operationen Letzte Operation Argumente der Operation Annahmen bei der Modellierung: n n Anfangs- und Endregel sind Vorwärtsregeln Landmarks sind Sprachen: L * Es werden immer die kürzesten Begrenzer berücksichtigt Es wird immer der erste gefundene Begrenzer berücksichtigt STALKER: Lerntheoretische Modellierung und Untersuchung

Definition der Extraktionsregeln n n n L 1, . . . , Ln :

Definition der Extraktionsregeln n n n L 1, . . . , Ln : Argumentsprachen op {ST, SU, NT } : die Art der letzten Operation R = (L 1, . . . , Ln , op ) : eine Regel AR : Anfangsregel ER : Endregel AR und ER sind dabei geordnete Listen von Regeln EX = (AR, ER ) : Extraktionsregel STALKER: Lerntheoretische Modellierung und Untersuchung

Definition der Extraktionsregeln STALKER: Lerntheoretische Modellierung und Untersuchung

Definition der Extraktionsregeln STALKER: Lerntheoretische Modellierung und Untersuchung

Definition der Extraktionsregeln STALKER: Lerntheoretische Modellierung und Untersuchung Seite 5/30

Definition der Extraktionsregeln STALKER: Lerntheoretische Modellierung und Untersuchung Seite 5/30

Definition der Iterationsregeln n IR = (AR, ER ) : Iterationsregel STALKER: Lerntheoretische Modellierung

Definition der Iterationsregeln n IR = (AR, ER ) : Iterationsregel STALKER: Lerntheoretische Modellierung und Untersuchung Seite 3/30

Wrapperinduktion n n Manuelle Bestimmung von Wrappern aufwändig Ziel: automatisches Lernen von Wrappern Es

Wrapperinduktion n n Manuelle Bestimmung von Wrappern aufwändig Ziel: automatisches Lernen von Wrappern Es ist einfacher, in einem Dokument Beispiele zu markieren Wrapper Induktion: Identifizierung des Wrappers mit Hilfe einer Menge von Beispielen. Bei STALKER: Identifizierung der Regeln STALKER: Lerntheoretische Modellierung und Untersuchung

Übersicht n Einführung / Was sind Wrapper-Systeme? n Wrapperinduktionssystem STALKER n Modellierung von STALKER

Übersicht n Einführung / Was sind Wrapper-Systeme? n Wrapperinduktionssystem STALKER n Modellierung von STALKER in Termini formaler Sprachen n Modell des induktiven Lernens im Limes n Lernergebnisse STALKER: Lerntheoretische Modellierung und Untersuchung Seite 11/30

Induktives Lernen im Limes (Gold, 1967) n Zu erlernen: Zielsprache L n Informationspräsentation n

Induktives Lernen im Limes (Gold, 1967) n Zu erlernen: Zielsprache L n Informationspräsentation n n Informant positive und negative Beispiele Text nur positive Beispiele STALKER: Lerntheoretische Modellierung und Untersuchung

Induktives Lernen im Limes (Gold, 1967) n n Lernverfahren M bekommt als Eingabe wachsende

Induktives Lernen im Limes (Gold, 1967) n n Lernverfahren M bekommt als Eingabe wachsende Abschnitte eines Textes t von L und generiert eine Hypothese. M lernt die Zielsprache L aus einem Text t, wenn sich die Folge der Ausgabe auf eine Hypothese stabilisiert, die genau L beschreibt. STALKER: Lerntheoretische Modellierung und Untersuchung

Lernen aus markiertem Text n n n Benutzer markiert in einem Dokument die zu

Lernen aus markiertem Text n n n Benutzer markiert in einem Dokument die zu extrahierende Information v nur implizite Information über die zu lernenden Regeln Benutzer bestimmt Anfangs- und Endposition der zu extrahierenden Information Benutzer teilt dadurch das Dokument in 3 aufeinander folgende Textteile n-markiertes Dokument: x, v, y STALKER: Lerntheoretische Modellierung und Untersuchung

Lernen aus markiertem Text n n Ein Text ist eine unendliche Folge von Wörtern

Lernen aus markiertem Text n n Ein Text ist eine unendliche Folge von Wörtern einer Sprache, so dass jedes Wort dieser Sprache mindestens einmal vorkommt Dann ist der markierte Text Darstellung des markierten Dokumentes durch x#v#y, wobei # kein Element von ist Da sich das Lernen von Anfangsregel und Endregel nicht unterscheidet betrachten wir im Folgenden nur noch x#v STALKER: Lerntheoretische Modellierung und Untersuchung

Lernen von Regeln mit einem Skip. To STALKER: Lerntheoretische Modellierung und Untersuchung

Lernen von Regeln mit einem Skip. To STALKER: Lerntheoretische Modellierung und Untersuchung

Lernen von Regeln mit einem Skip. Until STALKER: Lerntheoretische Modellierung und Untersuchung

Lernen von Regeln mit einem Skip. Until STALKER: Lerntheoretische Modellierung und Untersuchung

Lernen von Regeln mit einem Next STALKER: Lerntheoretische Modellierung und Untersuchung

Lernen von Regeln mit einem Next STALKER: Lerntheoretische Modellierung und Untersuchung

Weitere Regeln n Regeln mit n Skip. To-Operationen: n Regeln mit n Skip. To-Operationen

Weitere Regeln n Regeln mit n Skip. To-Operationen: n Regeln mit n Skip. To-Operationen und einem Skip. Until: n Regeln mit n Skip. To-Operationen und einem Next: STALKER: Lerntheoretische Modellierung und Untersuchung

Übersicht n Einführung / Was sind Wrapper-Systeme? n Wrapperinduktionssystem STALKER n Modellierung von STALKER

Übersicht n Einführung / Was sind Wrapper-Systeme? n Wrapperinduktionssystem STALKER n Modellierung von STALKER in Termini formaler Sprachen n Modell des induktiven Lernens im Limes n Lernergebnisse STALKER: Lerntheoretische Modellierung und Untersuchung Seite 11/30

Lernbarkeitsergebnisse Angenommen, die Argumentensprachen sind endlich. Dann sind folgende Regelklassen aus Text lernbar: n

Lernbarkeitsergebnisse Angenommen, die Argumentensprachen sind endlich. Dann sind folgende Regelklassen aus Text lernbar: n n n STALKER: Lerntheoretische Modellierung und Untersuchung

Lernbarkeitsergebnisse Angenommen, die Argumentensprachen sind endlich. Sei n > 1. Dann sind folgende Regelklassen

Lernbarkeitsergebnisse Angenommen, die Argumentensprachen sind endlich. Sei n > 1. Dann sind folgende Regelklassen nicht aus Text lernbar: n n n STALKER: Lerntheoretische Modellierung und Untersuchung