Stemming und Lemmatisierung Orthographische und morphologische Normalisierung von

Motivation • Simultane Suche nach allen morphologischen oder orthographischen Varianten • Verbesserung des Recalls

Beispiele (Zahlen von Alta. Vista) • • • „neuer Markt“ : 102. 117 „neue

Vorgehen • Führe alle morphologischen oder orthographischen Varianten auf eine kanonische Form zurück •

Stopwörter • Stopwörter sind Wörter, die in einer Dokumentenkollektion so häufig vorkommen, dass es

Stemming Algorithmen • Bekanntester und verbreitetster: Porter Stemmer • Entwickelt fürs Englische • Idee:

Porter Stemmer • Jedes Wort hat die Form C? (VC){m}V? , C ist beliebige

Porter Algorithmus Step 1 a SSES -> SS caresses -> caress IES ponies ->

Porter Algorithmus If the second or third of the rules in Step 1 b

Porter Algorithmus Step 2 (m>0) ATIONAL -> (m>0) (m>0) (m>0) (m>0) (m>0) ENCI ANCI

Porter Algorithmus Step 3 (m>0) ICATE -> (m>0) ATIVE -> (m>0) ALIZE -> (m>0)

Porter Algorithmus Step 5 a (m>1) E -> (m=1 and not *o) E ->

Probleme beim Porter Stemmer • Erzeugung nicht existenter Stämme: iteration -> iter, general ->

Stemming im Deutschen nicht anwendbar • Wortinterne Prozesse, Präfigierung: lesen – las – gelesen,

Beispiel (mit Stopwortelimination) • This document will describe marketing strategies carried out by U.

Lemmatisierung • Reduktion der Wortformen auf ihre Grundform (und weitere Information) durch Nachschlagen in

Nachteile von Lemmatisierung • Erfordert umfangreiches elektronisches Wörterbuch, aufwendig in der Erstellung und Wartung

Probleme bei der Lemmatisierung im Deutschen • Ambiguitäten: „laden“ kann lemmatisiert werden zu (laden,

Probleme bei der Kompositazerlegung im Deutschen • Verschiedene korrekte Zerlegungen: Wachstube in wachs +

Lemmatisierung und Suchmaschinen • Grundformreduktion bei Query- und Index. Termen • Query-Expansion um alle

Query-Expansion Vorteile: Nachteile: • Leicht in bestehende Systeme zu integrieren, da Index nicht verändert

Expansion der Indexterme Vorteile: Nachteile: • Sprache der Query muss nicht bekannt sein, Dokumentensprache

Normalisierung von Query- und Index. Termen Vorteile: Nachteile: • Index wird im schlimmsten Fall

Slides: 23

Download presentation

Stemming und Lemmatisierung Orthographische und morphologische Normalisierung von Index/Query Termen

Motivation • Simultane Suche nach allen morphologischen oder orthographischen Varianten • Verbesserung des Recalls ohne Verschlechterung der Precision • „einfache Lösung“: Benutzer muss durch Verwendung von Trunkierungsoperatoren (*) oder Disjunktion über alle Formen selbst dafür Sorge tragen • Problem bei Trunkierung: es werden ungewollte Fortsetzungen erzeugt: auto* findet Auto und Autos, aber auch automatisch, Autor oder Automorphismus usw.

Beispiele (Zahlen von Alta. Vista) • • • „neuer Markt“ : 102. 117 „neue Markt“ : 15. 058 „neuen Markt“ : 90. 716 „neuem Markt“: 404 Disjunktion: 176. 749 • • • „grosser Busen“ „große Busen“ „grossen Busen“ „großem Busen“ „grossem Busen“ Disjunktion: : 152 : 180 : 175 : 126 : 277 : 478 : 77 : 110 : 2. 869

Vorgehen • Führe alle morphologischen oder orthographischen Varianten auf eine kanonische Form zurück • Stemming: kanonische Form ist ein (künstlicher) Wortstamm, der durch regelbasiertes Abschneiden von Suffixen entsteht, ohne Konsultation eines Wörterbuchs. z. B. {Museum, Museen}-> muse • Lemmatisierung: kanonische Form ist die Grundform, die in einem (elektronischen) Wörterbuch nachgeschlagen wird. Z. B {Museum, Museen} -> Museum

Stopwörter • Stopwörter sind Wörter, die in einer Dokumentenkollektion so häufig vorkommen, dass es keinen Sinn macht nach ihnen zu suchen bzw. sie zu indexieren (z. B. der, die, das, ist, . . . ) • Erstellung einer Stopwortliste entweder auf der Basis einer Frequenzliste, oder nach linguistischen Kriterien: Funktionswörter • Vorteil der Eliminierung von Stopwörtern: Index wird wesentlich kleiner • Nachteil: keine Phrasensuche möglich: „to be or not to be“

Stemming Algorithmen • Bekanntester und verbreitetster: Porter Stemmer • Entwickelt fürs Englische • Idee: in verschiedenen Durchgängen werden jeweils unterschiedliche Suffixe entfernt (soll Abfolge von Flexions- und Derivationssuffixen widerspiegeln) • Entfernung von Suffixen kann durch Bedingungen an den verbleibenden Stamm eingeschränkt werden

Porter Stemmer • Jedes Wort hat die Form C? (VC){m}V? , C ist beliebige Folge von Konsonanten, V beliebige Folge von Vokalen, 0<=m • Jede Regel hat die Form: (condition) S 1 -> S 2 • Mögliche Conditions: m > n, *S (Stamm endet mit s), *v* (Stamm enthält Vokal), *d (Stamm endet mit Doppelkonsonant), *o (Stamm endet mit cvc) • S 1 ist ein Suffix des Worts, S 2 kann entweder leer sein oder ein neues Suffix sein

Porter Algorithmus Step 1 a SSES -> SS caresses -> caress IES ponies -> poni ties -> ti -> I SS -> SS caress -> caress S -> cats -> cat feed -> feed agreed -> agree Step 1 b (m>0) EED -> EE (*v*) ED -> (*v*) ING -> plastered -> plaster bled -> bled motoring -> motor sing -> sing

Porter Algorithmus If the second or third of the rules in Step 1 b is successful, the following is done: AT -> ATE conflat(ed) -> conflate BL -> BLE troubl(ed) -> trouble IZ -> IZE siz(ed) -> size hopp(ing) -> hop fall(ing) -> fall hiss(ing) -> hiss fizz(ed) -> fizz fail(ing) -> fail fil(ing) -> file happy -> happi sky -> sky (*d and not (*L or *S or *Z)) -> single letter (m=1 and *o) -> E Step 1 c (*v*) Y -> I

Porter Algorithmus Step 2 (m>0) ATIONAL -> (m>0) (m>0) (m>0) (m>0) (m>0) ENCI ANCI IZER ABLI ALLI ENTLI ELI OUSLI IZATION ATOR ALISM IVENESS FULNESS OUSNESS ALITI IVITI BILITI -> -> -> -> -> ATE TION ENCE ANCE IZE ABLE AL ENT E OUS IZE ATE AL IVE FUL OUS AL IVE BLE relational -> conditional -> rational -> valenci -> hesitanci -> digitizer -> conformabli -> radicalli -> differentli -> vileli - > analogousli -> vietnamization -> predication -> operator -> feudalism -> decisiveness -> hopefulness -> callousness -> formaliti -> sensitiviti -> sensibiliti -> relate condition rational valence hesitance digitize conformable radical different vile analogous vietnamize predicate operate feudal decisive hopeful callous formal sensitive sensible

Porter Algorithmus Step 3 (m>0) ICATE -> (m>0) ATIVE -> (m>0) ALIZE -> (m>0) ICITI -> (m>0) ICAL -> (m>0) FUL -> (m>0) NESS -> Step 4 (m>1) AL -> (m>1) ANCE -> (m>1) ER -> (m>1) IC -> (m>1) ABLE -> (m>1) IBLE -> (m>1) ANT -> (m>1) EMENT -> (m>1) ENT -> (m>1 and (*S or (m>1) OU -> (m>1) ISM -> (m>1) ATE -> (m>1) ITI -> (m>1) OUS -> (m>1) IVE -> (m>1) IZE -> IC AL IC IC *T)) ION -> triplicate formative formalize electriciti electrical hopeful goodness -> -> triplic formal electric hope good revival allowance inference airliner gyroscopic adjustable defensible irritant replacement adjustment dependent adoption homologou communism activate angulariti homologous effective bowdlerize -> -> -> -> -> reviv allow infer airlin gyroscop adjust defens irrit replac adjust depend adopt homolog commun activ angular homolog effect bowdler

Porter Algorithmus Step 5 a (m>1) E -> (m=1 and not *o) E -> probate rate cease -> -> -> probat rate ceas -> -> control roll Step 5 b (m > 1 and *d and *L) -> single letter controll

Probleme beim Porter Stemmer • Erzeugung nicht existenter Stämme: iteration -> iter, general -> gener. An sich kein Problem, da bei der Query derselbe Stamm erzeugt wird. • Künstliche Ambiguitäten: {organization, organ} -> organ, {policy, police} -> polic, {execute, executive} -> execut, {arm, army} -> arm, usw. • Verwandte Formen werden nicht identifiziert: european/europe, create/creation, matrices/matrix, usw.

Stemming im Deutschen nicht anwendbar • Wortinterne Prozesse, Präfigierung: lesen – las – gelesen, Baum – Bäume • Komposita verhindern sinnvolle Formulierung von Constraints: Ferienende – lesende – Ende • Zerlegung von Komposita notwendig für wirkliche Verbesserung der Suche

Beispiel (mit Stopwortelimination) • This document will describe marketing strategies carried out by U. S. companies for their agricultural chemicals, report predictions for market share of such chemicals, or report market statistics for agrochemicals, pesticide, herbicide, fungicide, insecticide, fertilizer, predicted sales, market share, stimulate demand price cut, volume of sales • market strateg carr compan agricultur chemic report predict market share chemic report market statist agrochem pesticid harbicid fungicid insecticid fertil sale stimul demand price cut volum sale

Lemmatisierung • Reduktion der Wortformen auf ihre Grundform (und weitere Information) durch Nachschlagen in einem elektronischen Wörterbuch • Vollformenlexikon: jede Wortform kann direkt im Lexikon nachgeschlagen werden • Grundformenlexikon: Wortform wird durch morphologische Regeln auf eine potentielle Grundform reduziert, die dann im Lexikon nachgeschlagen wird • Vollformenlexikon ist aufwendiger hinsichtlich Speicherplatz aber effizienter bei der Verarbeitung

Nachteile von Lemmatisierung • Erfordert umfangreiches elektronisches Wörterbuch, aufwendig in der Erstellung und Wartung • Relativ hohe Anforderungen an Verarbeitungszeit oder Speicherplatz • Was passiert mit Wortformen, die nicht im Lexikon gefunden werden • Eigennamen • Komposita im Deutschen • In der Regel keine Derivationsanalyse

Probleme bei der Lemmatisierung im Deutschen • Ambiguitäten: „laden“ kann lemmatisiert werden zu (laden, N, mask), (lade, N, fem), (laden, V), „geäst“ kann lemmatisiert werden zu (äsen, V), (geäst, N, neut) • Was wird als Lemma bei systematischen Konversionen angenommen: Verbinfinitiv – Nomen (lachen – das Lachen), Partizip – Adjektiv (gestrichen), Adjektiv – Nomen (süchtig – der Süchtige) • Erfassung aller Komposita im Lexikon unmöglich, deshalb Kompositazerlegung notwendig

Probleme bei der Kompositazerlegung im Deutschen • Verschiedene korrekte Zerlegungen: Wachstube in wachs + tube oder wach + stube • Simplizia können irrtümlich zerlegt werden: Pomade -> po + made, Proletarier -> prolet + arier, Tangente -> tang + ente • große Anzahl von Zerlegungsambiguitäten, die nicht korrekt sind: Aluminiumherstellung kann auf 12 versch. Arten zerlegt werden, z. B. alu+mini+umher+stellung, Alleinerziehende -> all+ein+erzieh+ende

Lemmatisierung und Suchmaschinen • Grundformreduktion bei Query- und Index. Termen • Query-Expansion um alle anderen Flexionsformen • Expansion der Indexterme um alle Flexionsformen

Query-Expansion Vorteile: Nachteile: • Leicht in bestehende Systeme zu integrieren, da Index nicht verändert werden muss • Keine Vergrößerung des Indexes • Expandierte Query kann vom Benutzer nacheditiert werden • Sprache der Query muss bekannt sein • Disjunktion kann bei stark flektierenden Sprachen zu grossem Performanzverlust führen • Problematisch im Zusammenhang mit Phrasensuche • Nicht vorhersehbare Interaktion mit dem Ranking

Expansion der Indexterme Vorteile: Nachteile: • Sprache der Query muss nicht bekannt sein, Dokumentensprache i. d. R. leicht zu ermitteln • Keine Manipulation der Query notwendig • Kein Performanzverlust durch aufgeblasene Query • Zur Disambiguierung steht der Kontext zur Verfügung • Immense Vergrößerung des Index • Wörtliche Suche muss weiterhin möglich sein (Eigennamen) • Keine Phrasensuche wenn kein Positionsindex vorhanden • Einbeziehung der expandierten Formen ins Ranking unklar

Normalisierung von Query- und Index. Termen Vorteile: Nachteile: • Index wird im schlimmsten Fall doppelt so groß • Kein Performanzverlust bei der Suche durch große Disjunktionen • Fehlertolerant: bei Index- und Query-Termen wird derselbe Fehler gemacht • Sprache der Query muss bekannt sein • Wörtliche Suche muss weiterhin möglich sein (Eigennamen) • Keine Phrasensuche wenn kein Positionsindex vorhanden • Behandlung ambiger Grundformen unklar