STALKER Lerntheoretische Modellierung und Untersuchung Technische Universitt Darmstadt
- Slides: 32
STALKER: Lerntheoretische Modellierung und Untersuchung Technische Universität Darmstadt Fachbereich Informatik Fachgebiet Knowledge Engineering Diplomarbeit Matthias Degen
Übersicht n Einführung / Was sind Wrapper-Systeme? n Wrapperinduktionssystem STALKER n Modellierung von STALKER in Termini formaler Sprachen n Modell des induktiven Lernens im Limes n Lernergebnisse STALKER: Lerntheoretische Modellierung und Untersuchung Seite 1/30
Was sind Wrapper-Systeme ? n Ermöglichen die Extraktion von Informationen aus semistrukturierten Dokumenten semi-strukturiertes Dokument n n n Wrapper strukturierte Informationen Wissen um Einbettung der Information -> Nutzung für die Lokalisation Wrapper benötigt Regel zur Bestimmung des Anfangs und Endes einer Information Wrapper sind durch diese Regeln definiert STALKER: Lerntheoretische Modellierung und Untersuchung Seite 2/30
STALKER: Lerntheoretische Modellierung und Untersuchung Seite 3/30
Übersicht n Einführung / Was sind Wrapper-Systeme? n Wrapperinduktionssystem STALKER n Modellierung von STALKER in Termini formaler Sprachen n Modell des induktiven Lernens im Limes n Lernergebnisse STALKER: Lerntheoretische Modellierung und Untersuchung Seite 4/30
Embedded Catalog Tree: STALKER: Lerntheoretische Modellierung und Untersuchung Seite 5/30
Regeln bei STALKER n n Extraktionsregeln für Knoten und Iterationsregeln für Listen Teilregel für den Anfang und Teilregel für das Ende Teilregeln können Vorwärts- oder Rückwärtsregeln sein Regelformen: n n Skip. To(LM 1). . . Skip. To(LMn)Skip. Until(LMn+1) Skip. To(LM 1). . . Skip. To(LMn)Next(LMn+1) Zusätzlich sind Disjunktionen möglich: n Either Regel 1 Or Regel 2 STALKER: Lerntheoretische Modellierung und Untersuchung Seite 6/30
STALKER: Lerntheoretische Modellierung und Untersuchung Seite 7/30
Informationsextraktion mit STALKER n Benötigte Regeln: n n n Extraktionsregel für Liste(Restaurant) Iterationsregel für Liste(Restaurant) Extraktionsregel für Preiskategorie Embedded Catalog Tree: STALKER: Lerntheoretische Modellierung und Untersuchung Seite 8/30
Extraktionsregel für Liste(Restaurant) n n Anfang: Skip. To(<hr noshade>) Ende: Skip. To(<hr noshade>) STALKER: Lerntheoretische Modellierung und Untersuchung Seite 9/30
Iterationsregel für Liste(Restaurant) n n Anfang: Skip. Until(<td> <b> Capitalized) Ende: Either Skip. Until(<hr>) Or Skip. Until(<hr noshape>) STALKER: Lerntheoretische Modellierung und Untersuchung Seite 10/30
Extraktionsregel für Preiskategorie n n Anfang: Skip. To(Price Range)Skip. To(</b>) Ende: Skip. Until( ) STALKER: Lerntheoretische Modellierung und Untersuchung Seite 11/30
Landmarks n n Argumente der Operationen Aneinanderreihung von Tokens und Wildcards Tokens können Wörter, Zahlen, HTML-Befehle, Satzzeichen sein Wildcards sind Mengen von Tokens: STALKER: Lerntheoretische Modellierung und Untersuchung
Übersicht n Einführung / Was sind Wrapper-Systeme? n Wrapperinduktionssystem STALKER n Modellierung von STALKER in Termini formaler Sprachen n Modell des induktiven Lernens im Limes n Lernergebnisse STALKER: Lerntheoretische Modellierung und Untersuchung Seite 11/30
Modellierung von STALKER in Termini formaler Sprachen n n Wrapper ist vollständig durch seine Regeln definiert Ein Disjunkt einer Teilregel wird durch Folgendes bestimmt: n n Anzahl der Operationen Letzte Operation Argumente der Operation Annahmen bei der Modellierung: n n Anfangs- und Endregel sind Vorwärtsregeln Landmarks sind Sprachen: L * Es werden immer die kürzesten Begrenzer berücksichtigt Es wird immer der erste gefundene Begrenzer berücksichtigt STALKER: Lerntheoretische Modellierung und Untersuchung
Definition der Extraktionsregeln n n n L 1, . . . , Ln : Argumentsprachen op {ST, SU, NT } : die Art der letzten Operation R = (L 1, . . . , Ln , op ) : eine Regel AR : Anfangsregel ER : Endregel AR und ER sind dabei geordnete Listen von Regeln EX = (AR, ER ) : Extraktionsregel STALKER: Lerntheoretische Modellierung und Untersuchung
Definition der Extraktionsregeln STALKER: Lerntheoretische Modellierung und Untersuchung
Definition der Extraktionsregeln STALKER: Lerntheoretische Modellierung und Untersuchung Seite 5/30
Definition der Iterationsregeln n IR = (AR, ER ) : Iterationsregel STALKER: Lerntheoretische Modellierung und Untersuchung Seite 3/30
Wrapperinduktion n n Manuelle Bestimmung von Wrappern aufwändig Ziel: automatisches Lernen von Wrappern Es ist einfacher, in einem Dokument Beispiele zu markieren Wrapper Induktion: Identifizierung des Wrappers mit Hilfe einer Menge von Beispielen. Bei STALKER: Identifizierung der Regeln STALKER: Lerntheoretische Modellierung und Untersuchung
Übersicht n Einführung / Was sind Wrapper-Systeme? n Wrapperinduktionssystem STALKER n Modellierung von STALKER in Termini formaler Sprachen n Modell des induktiven Lernens im Limes n Lernergebnisse STALKER: Lerntheoretische Modellierung und Untersuchung Seite 11/30
Induktives Lernen im Limes (Gold, 1967) n Zu erlernen: Zielsprache L n Informationspräsentation n n Informant positive und negative Beispiele Text nur positive Beispiele STALKER: Lerntheoretische Modellierung und Untersuchung
Induktives Lernen im Limes (Gold, 1967) n n Lernverfahren M bekommt als Eingabe wachsende Abschnitte eines Textes t von L und generiert eine Hypothese. M lernt die Zielsprache L aus einem Text t, wenn sich die Folge der Ausgabe auf eine Hypothese stabilisiert, die genau L beschreibt. STALKER: Lerntheoretische Modellierung und Untersuchung
Lernen aus markiertem Text n n n Benutzer markiert in einem Dokument die zu extrahierende Information v nur implizite Information über die zu lernenden Regeln Benutzer bestimmt Anfangs- und Endposition der zu extrahierenden Information Benutzer teilt dadurch das Dokument in 3 aufeinander folgende Textteile n-markiertes Dokument: x, v, y STALKER: Lerntheoretische Modellierung und Untersuchung
Lernen aus markiertem Text n n Ein Text ist eine unendliche Folge von Wörtern einer Sprache, so dass jedes Wort dieser Sprache mindestens einmal vorkommt Dann ist der markierte Text Darstellung des markierten Dokumentes durch x#v#y, wobei # kein Element von ist Da sich das Lernen von Anfangsregel und Endregel nicht unterscheidet betrachten wir im Folgenden nur noch x#v STALKER: Lerntheoretische Modellierung und Untersuchung
Lernen von Regeln mit einem Skip. To STALKER: Lerntheoretische Modellierung und Untersuchung
Lernen von Regeln mit einem Skip. Until STALKER: Lerntheoretische Modellierung und Untersuchung
Lernen von Regeln mit einem Next STALKER: Lerntheoretische Modellierung und Untersuchung
Weitere Regeln n Regeln mit n Skip. To-Operationen: n Regeln mit n Skip. To-Operationen und einem Skip. Until: n Regeln mit n Skip. To-Operationen und einem Next: STALKER: Lerntheoretische Modellierung und Untersuchung
Übersicht n Einführung / Was sind Wrapper-Systeme? n Wrapperinduktionssystem STALKER n Modellierung von STALKER in Termini formaler Sprachen n Modell des induktiven Lernens im Limes n Lernergebnisse STALKER: Lerntheoretische Modellierung und Untersuchung Seite 11/30
Lernbarkeitsergebnisse Angenommen, die Argumentensprachen sind endlich. Dann sind folgende Regelklassen aus Text lernbar: n n n STALKER: Lerntheoretische Modellierung und Untersuchung
Lernbarkeitsergebnisse Angenommen, die Argumentensprachen sind endlich. Sei n > 1. Dann sind folgende Regelklassen nicht aus Text lernbar: n n n STALKER: Lerntheoretische Modellierung und Untersuchung
- Modellierung
- Universitt wien
- Universitt
- Harvard universitt
- Ccc freiburg
- Psychologie
- Arbeitsmedizinische untersuchung fit2work
- Klinische untersuchung
- Dr kathrin hilbert
- Stalker
- Stalker radar trailer
- Lawrence e lorsch
- Burns ve stalker çevre grupları
- Stalker skills
- Stalker programme
- Straßenverkehrsamt darmstadt parkausweis
- Multimedia mail extension
- Hans holbein christ in the tomb
- Lichtenbergschule darmstadt
- Schulamt darmstadt dieburg
- Darmstadt alex
- Sondenentwöhnung darmstadt
- Abendrealschule darmstadt
- Schubkarre hebelgesetz
- Uni bielefeld technische fakultät
- Wassertrupp aufgaben
- Stage technische informatica
- Indeling overige bedrijfskosten
- Gerätekunde technische hilfeleistung
- Argenta proslide handleiding
- Memory z dortmund
- Vorlesung
- Intornatie