Entitten Extraktion Einfhrung Petra Maier WS 0506 Begriffe
Entitäten Extraktion Einführung Petra Maier WS 05/06
Begriffe Information Retrieval Entity Extraction Information Extraction Text Understanding Data Mining
Begriffe • Information Retrieval: – Finde relevante Dokumente für Anfrage • Information Extraction – Extrahiere beliebige Information aus Dokumenten • Entitäten • Relationen • Fakten • Entity Extraction: – Extrahiere speziell Entitäten aus Dokumenten • Data Mining – Benutze Ergebnisse der Informations Extraktion aus einer gesamten Dokumentenkollektion, um neue Information zu erhalten • Text Understanding – Vollständige automatische Erfassung des Inhalts (semantische Analyse) – Beinhaltet aus Summarization
Arten von Entitäten • Named Entities“ – Personen – Geos • • Länder Städte Berge etc – Organisationen • • • Universitäten Parteien Firmen Vereine Etc – Ereignisse • Sportereignisse (z. B. Tour de France) • Kulturelle Ereignisse (z. B. Bayreuther Festspiele) • Historische Ereignisse • Etc. • Andere Entitäten – – – – Terminologie, Keywords Datums- und Zeitangaben Preise URLS Adressen Massausdrücke ISBN Nummern Etc.
Warum Entitäten Extraktion? • • Grundlage für Informations Extraktion Verbesserung der Retrievalqualität Einzelne Wörter enthalten zu wenig Information Basis für weiterfürhrende Techniken ( Vektorraum Modell) – – Clustering Summarization Automatische Klassifikation Navigation
Beispiel • Wikipedia Suche: Search
Methoden • Regel-/Lexikonbasiert • Statistisch • Mischformen
Regel-/Lexikonbasierte Verfahren • Rein Lexikonbasiert ( Gazetters): – Listen von berühmten Persönlichkeiten – Listen von geographischen Entitäten – Listen von Parteien, Firmen • Regelbasiert – Einfache reguläre Ausdrücke • URLS, Preise, Datum, etc – Lokale Grammatiken • Personen, Firmen etc. – Syntaktische Muster • Terminologe, Keywords
Statistische Verfahren • 2 Aufgaben: – Identifikation von Kandidaten für Entitäten • Syntaktische Muster (NN, etc) • Simple Heuristiken: Großgeschriebene Sequenzen – Bestimmung des Typs • Methoden des Machine Learning • Einbeziehung des Kontexts
Probleme • Ambiguitäten: – Washington – Apple, Sun • Normalisierung: – George Bush – George W. Bush – George Bush jr -. . • Groß-/Kleinschreibung
- Slides: 10