Rechtschreibkontrolle Artikel Schwere deutsche Sprache Aufschlsselung der enthaltenen

  • Slides: 20
Download presentation
Rechtschreibkontrolle Artikel: Schwere deutsche Sprache (Aufschlüsselung der enthaltenen Fehler ) PRÜFTEXT (1): Während Eduard

Rechtschreibkontrolle Artikel: Schwere deutsche Sprache (Aufschlüsselung der enthaltenen Fehler ) PRÜFTEXT (1): Während Eduard Mioras falsche Reflektionen mit Zuckerlächeln infrage stellt, hat sie in soweit nur gelacht, da sie din hohe Erblast einer fotogenen Bergeroberung ablehnt, stattdessen, schließlich, im Zenith ihrer rauschenden Examenserfolge, im Pool, auf gut Deutsch, rumplanscht. G. Heyer 1 Fehler im Zusammenhang insoweit- nicht erkannt din - erkannt Zenith - erkannt deutsch (hier müsste es klein geschrieben werden - nicht erkannt Sprachprodukttechnologie SS 2001

PRÜFTEXT (2) Er hat alles Mögliche versucht, um ihre Brillanten und die wertvollen Bestecke

PRÜFTEXT (2) Er hat alles Mögliche versucht, um ihre Brillanten und die wertvollen Bestecke laut Testament des Erblassers in einer sehr exakten Liste zu nummerieren und das Gelände, 112 Hektar groß, mitutiös instandzusetzen. sie werden beobachtet Satzanfang haben, dass also alles Erdenkliche getan wurde. Nur - nicht das blassblau Linoleum ist der andern Laderinnung erkannt überlassen. Stofffutter wurde erfasst. Bei viel niedrigeren Gastemperaturen muss keine Anästhesie mehr erfolgen. In der klinischen Norm. Psychatrie sind daher die Redoxsysteme auch nach bestinformierten Koryphäen ohne Bedeutung. Weitere psychologische Daten sind ignoriert worden, hoher pädagogischer Nutzen scheint infolgedessen nur in synergetischer Weise als existenziell wertvoll prophezeiht werden zu können. In einem Wort: Die Innovation macht ihre Reverenz vor dem Thron der Wissenschaft - und zu zu recht. G. Heyer 2 Wort. Wiederholung erkannt, aber zu Recht nicht erkannt Sprachprodukttechnologie SS 2001

Fehlerverteilung im Heidelberg Corpus G. Heyer 3 Sprachprodukttechnologie SS 2001

Fehlerverteilung im Heidelberg Corpus G. Heyer 3 Sprachprodukttechnologie SS 2001

Korrigierbarkeit der Fehler im Heidelberg Corpus G. Heyer 4 Sprachprodukttechnologie SS 2001

Korrigierbarkeit der Fehler im Heidelberg Corpus G. Heyer 4 Sprachprodukttechnologie SS 2001

Orthographische Fehler (strukturell) 1) Ersetzung 2) Löschung 3) Hinzufügen 4) Vertauschen 1. Ersetzung Die

Orthographische Fehler (strukturell) 1) Ersetzung 2) Löschung 3) Hinzufügen 4) Vertauschen 1. Ersetzung Die Funktion subn : Wn x { 1, 2, . . . , n} x a An mit subn ( (l 1, l 2. . . , li, . . . , ln ), i, a ) = (l 1, l 2. . . , li-1, a, li+1, . . . , ln ) wird orthographischer Ersetzungsfehler genannt. 2. Löschen omin : Wn x (1, 2, . . . n) An-1 mit omin ( (l 1, l 2, . . . li-1, li+1, . . . ln), i) = ( l 1, l 2, . . . , li-1, li+1 , . . . ln ) G. Heyer 5 Sprachprodukttechnologie SS 2001

3. Einfügen insn : Wn x (1, 2, . . . , n+l) x

3. Einfügen insn : Wn x (1, 2, . . . , n+l) x a An+1 mit insn ( (l 1, l 2, . . . , li+1, . . . ln), i, a) = ( l 1, l 2, . . . , a, li+1, . . . , ln ) 4. Vertauschen tran : Wn x (1, 2, . . . , n) An mit tran ( (l 1, l 2, . . . li, li+1, . . . , ln), i) = ( l 1, l 2, . . . , li+1, li , . . . ln ) Beispiel: "naer", n=4, i=2 tra 4 ("naer", 2) = "near" "lovated", n=7, i=3 sub 7 ("lovated, 3, c) = located G. Heyer 6 Sprachprodukttechnologie SS 2001

Orthographische Fehler der Distanz d Die Komposition der Funktionen e = e 1 e

Orthographische Fehler der Distanz d Die Komposition der Funktionen e = e 1 e 2. . . ed (mit E 1 = n>0 (subn omin insn tran ) ) wird orthographischer Fehler der Distanz d genannt. |Ed| (n (2 k+1) + k-1)d (Mehrfachfehler heben sich auf!) Menge der Fehler mit Distanz d wächst exponentiell ! G. Heyer 7 Sprachprodukttechnologie SS 2001

Beispiel: Einfache Rechtschreibfehler des Wortes "near" sub 4 ("near", 1, a) = aear sub

Beispiel: Einfache Rechtschreibfehler des Wortes "near" sub 4 ("near", 1, a) = aear sub 4 ("near", 1, b) = bear (? ). . . sub 4 ("near", 4, z) = neaz omi 4 ("near", 1) = ear. . . omi 4 ("near", 4) = nea ins 4 ("near", 1, a) = anear. . . ins 4 ("near", 5, z) = nearz tra 4 ("near", 1) = enar. . . tra 4 ("near", 3) = nera 237 G. Heyer Gesamtzahl der Fehler: 4* (2 * 26 + 1) + 26 - 1) = 8 Sprachprodukttechnologie SS 2001

Typographische Fehler motorische Fehler die durch Tippen einer falschen Sequenz von Tasten verursacht werden

Typographische Fehler motorische Fehler die durch Tippen einer falschen Sequenz von Tasten verursacht werden Beispiel: Typographische Fehler der Distanz 1 sub 5 ("house", 3, y) = hoyse ins 5 ("house", 4, w) = houwse q w e r t y n i o p a s d f g h j k l Andere Anwendung: Scannen ln m i l G. Heyer 9 Sprachprodukttechnologie SS 2001

Architektur Anwendung Erkennen Korrigieren Lex 1 Lex 2 1) Strategie 2) Erkennen: lexikonbasiert 3)

Architektur Anwendung Erkennen Korrigieren Lex 1 Lex 2 1) Strategie 2) Erkennen: lexikonbasiert 3) Korrigieren: Soundex (Phonetische Ähnlichkeit) Trigrammanalyse Levensthein - Metrik G. Heyer 10 Sprachprodukttechnologie SS 2001

Principles of Error Treatment für Language Checking Strategy 1 Error detection: based on a

Principles of Error Treatment für Language Checking Strategy 1 Error detection: based on a grammar of what is right Error correction: deduction on deviance from that standard Variant A Weak parsing - strong filtering (weak notion of what is "right") Variant B Unification failure approach (non-monotonic reasoning procedure to derive error descriptions from a model of correctness) Strategy 2 Error detection: based on a grammar of what is wrong Error correction: rule based correction of detected mistakes Variant A Strong parsing - weak filtering (rule relaxation approach) Variant B Error dictionary 11 G. Heyer Sprachprodukttechnologie SS 2001

Rechtschreibprüfung / II Anwendungsprogramm Erkennen Korrigiere n Lex 1 Lex 2 Erkennen: Überprüfen ob

Rechtschreibprüfung / II Anwendungsprogramm Erkennen Korrigiere n Lex 1 Lex 2 Erkennen: Überprüfen ob Wort / Eingabe im Lex 1 G. Heyer 12 Sprachprodukttechnologie SS 2001

Beispiel: Implementierung des Lexikonvergleichs Wortlisten Aachen ab aber. . . Bach bauen. . .

Beispiel: Implementierung des Lexikonvergleichs Wortlisten Aachen ab aber. . . Bach bauen. . . Suche a z a b e r sequentielle Zeiger Zug Eingabewort match G. Heyer 13 Sprachprodukttechnologie SS 2001

Indexsequentielle Suche nur bis 15. 000 Wörter in Lex 1 Kompression erforderlich (z. B.

Indexsequentielle Suche nur bis 15. 000 Wörter in Lex 1 Kompression erforderlich (z. B. Lauflängen) besser: Hauptspeicher alternativ: Digitalbäume, Hashing Generelle Probleme/Parameter Speicherbedarf Zugriffszeit Benutzererweiterbarkeit G. Heyer 14 Sprachprodukttechnologie SS 2001

Korrektur 1) Soundex (Knuth) vgl. http: //theoryx 5. uwinnipeg. ca/CPAN/perl/Text/Soundex. html i) Tilge Vokale;

Korrektur 1) Soundex (Knuth) vgl. http: //theoryx 5. uwinnipeg. ca/CPAN/perl/Text/Soundex. html i) Tilge Vokale; Doppelbuchstaben ii) Weise jedem Buchstaben eine Ziffer nach Tabelle zu (ergibt Schlüssel) iii) Zeige Wörter mit gleichem Schlüssel Tabelle b, p, f, v 1 c, g, j, k, q, s, x, z 2 d, t 3 l 4 m, n 5 r 6 G. Heyer 15 Sprachprodukttechnologie SS 2001

Beispiel i mediate m d t 5 3 3 (immediate) Schlüssel 533 weitere Vorschläge:

Beispiel i mediate m d t 5 3 3 (immediate) Schlüssel 533 weitere Vorschläge: annota te 5 3 3 unneded 5 3 3 großer recall (a 533) (unneeded) Verbesserung: erster Buchstabe muß identisch sein immediate G. Heyer i 533 16 Sprachprodukttechnologie SS 2001

2) Trigramm-Verfahren w = a 1. . . an T(w) = {< , ,

2) Trigramm-Verfahren w = a 1. . . an T(w) = {< , , a 1>, < , a 1, a 2>, <a 1, a 2, a 3>. . . <an-1, an, >, <an, , >} Gegeben Alphabet mit 26 Buchstaben a a a insgesamt 263 Trigramme: 17576 a a b. . . a a z a b a. . . z z y z z z G. Heyer 17 Sprachprodukttechnologie SS 2001

Ähnlichkeitsmaß für Wörter Dice-Koeffizient Beispiel work 1) w 2) wo 3) wor 4) ork

Ähnlichkeitsmaß für Wörter Dice-Koeffizient Beispiel work 1) w 2) wo 3) wor 4) ork 5) rk 6) k G. Heyer wirk w wi wir irk rk k 6/12 = 1/2 18 Sprachprodukttechnologie SS 2001

Korrektur: 1) gleicher Anfangsbuchstabe 2) höchstes Ähnlichkeitsmaß Länge des Wortes bestimmt Ähnlichkeit ! warkaholic

Korrektur: 1) gleicher Anfangsbuchstabe 2) höchstes Ähnlichkeitsmaß Länge des Wortes bestimmt Ähnlichkeit ! warkaholic wirkaholic 3/4 3) Levenshtein Matrix sub (a 1, . . . , ai-1, ai+1, . . . , an, i, b ) = a 1, . . . , ai-1, b, ai+1, . . . , an del ins tra G. Heyer 19 Sprachprodukttechnologie SS 2001

NP-schwierig ! d ( , ) = 1 + min = d ( sub

NP-schwierig ! d ( , ) = 1 + min = d ( sub ( , i, a ), ) 1 i | | d (del ( , j ) ) 1 j | | d ( ins ( , k , b) ) 0 k | | + l d (tra ( , l) , ) 1 l | | - l 1. ) d ( , ) = dann und nur dann wenn i, j, k, l, a, b = , sonst d ( , ) > 2. ) d ( , ) = d ( , ) 3. ) d ( , ) + d ( , ) 4. ) Maß ist Länge 5. ) d (abc, axc ) = 1 + ( sub ( abc, 2, x ) , axc) = = 1 + d ( axc, axc ) = 1 G. Heyer 20 Sprachprodukttechnologie SS 2001