Mitglied der LeibnizGemeinschaft TokenAnnotation im FOrschungs und Lehr

Mitglied der Leibniz-Gemeinschaft Token-Annotation im FOrschungs- und Lehr. Korpus Gesprochenes Deutsch Thomas Schmidt, IDS Mannheim thomas. schmidt@ids-mannheim. de

Mitglied der Leibniz-Gemeinschaft FOLK • Forschungs- und Lehrkorpus gesprochenes Deutsch • Großes, breit stratifiziertes, computergestützt verarbeitbares, öffentlich verfügbares Korpus deutscher Gespräche • Seit 2008 am IDS • Erstes offizielles Release: Dezember 2012 als Bestandteil der Datenbank Gesprochenes Deutsch (DGD 2) • Anfang 2014: Ca. 100 h Audio-Aufnahmen, ca. 1 Millionen transkribierte Wort-Tokens • Weiter im Aufbau

Mitglied der Leibniz-Gemeinschaft Gliederung • (semi-)automatisierte Normalisierung literarischer Umschrift in FOLK – – Literarische Umschrift Orthographische Normalisierung Automatisierung / Evaluation Verbesserungsmöglichkeiten • (semi-)automatisiertes POS-Tagging von Transkriptionen

Mitglied der Leibniz-Gemeinschaft Literarische Umschrift = „Repräsentation von Mündlichkeit, so wie in der (schönen) Literatur üblich“ • „Sei glöcklich, du gutes Kend“ [Sesemi Weichbrodt, Buddenbrooks] • Zwirner/Bethge (1958): Deutsche Mundarten • Ehlich/Rehbein (1976): Halbinterpretative Arbeitstranskriptionen • Selting et. al. (1998): Gesprächsanalytisches Transkriptionssystem • „Modified Orthography“, „Eye dialect“, „Orthographe adaptée“ • „I wuz de on‘y one dat had much. So I stuck out for mo‘ dan fo‘ dollars, en I said […]“ [Jim, Adventures of Huckleberry Finn] • „b'jour“, „chais pas“ [Convention ICOR, CLAPI Lyon]

Mitglied der Leibniz-Gemeinschaft Literarische Umschrift

Mitglied der Leibniz-Gemeinschaft Literarische Umschrift • • • Ellisionen Verschleifungen Assimilationen dialektale Färbungen generelle Kleinschreibung

Mitglied der Leibniz-Gemeinschaft Literarische Umschrift • Warum nicht Standardorthographie? – relevante Charakteristika der Mündlichkeit – (hist. ) visuelle Abgrenzung von geschriebenem Text • Warum nicht phonetische Umschrift? – Arbeitsökonomie – Zugänglichkeit / Lesbarkeit – Verlust morphologischer/lexikalischer Systematik

Mitglied der Leibniz-Gemeinschaft Literarische Umschrift • „Bewusstes Abweichen von schriftsprachlichen Standards“ • Regelgeleitet? – „Von der Orthographie soll […] abgewichen werden, wo der gesprochene Laut durch einen anderen Buchstaben […] besser wiedergegeben wird“ [Zwirner/Bethge 1958] – standardsprachliche Realisierungen Standardorthographie, – nicht-standardsprachliche Realisierungen literarische Umschrift – „[…] abweichende Ausdrücke werden […] nachgebildet, wenn sie vereinzelt auftreten […], allgemein verbreitete Phänomene […] werden nicht notiert“ [Rehbein et al. 1993] – Beispiellisten bei HIAT, GAT, Verbmobil – (süddeutsch) [lustik] lustig? lustick? lustik? – (norddeutsch) [stain] ? ? ?

Mitglied der Leibniz-Gemeinschaft Warum normalisieren? • Vorhersagbarkeit bei Suchen – nein, nee, na, neeh, nehee, nö, näh, nää – bleibsch, bleibscht, gebliewe, gebliwwe • Anwendung von NLP-Methoden – Lemmatisierung – POS-Tagging – syntaktische Annotation etc.

Mitglied der Leibniz-Gemeinschaft FOLK-Annotationsebenen Transkription da gehst de jetz einfach über dem bild Normalisierung da gehst du jetzt einfach über dem Bild Lemmatisierung da gehen du jetzt einfach über d Bild POS ADV VFIN PPER ADV ADJD APPR ART NN Maskierung 2 h-10 h Transkription / Kontrolle Korrekturen 30 h-80 h Normalisierung • Effektivierung des Workflows: - Beschleunigung - Vereinfachung 1 h-3 h POS-Tagging 2 h-4 h

Mitglied der Leibniz-Gemeinschaft Normalisierungsregeln • „Interpretationsarme Annäherung an Standardorthographie“ • Normalisierung auf Ebene von Lexikon und Morphosyntax, keine syntaktischen oder stilistischen Korrekturen • Orientierung am DUDEN, bei gleichberechtigten Schreibweisen (Spaghetti vs. Spagetti) redaktionell bevorzugte Varianten • Explizite Regelungen für – Interjektionen: Häsitationen, Rezeptionssignale, Frageanhängsel etc. – Unvollständige Formen: (rekonstruierbare vs. nicht rekonstruierbare) Abbrüche, fragmentierte Wörter – Umgangssprachliche Verkürzungen – … • Diskussion und Dokumentation von Einzelfallentscheidungen Konsistenz

Mitglied der Leibniz-Gemeinschaft Normalisierungsregeln • Zweifelsfälle – Rekonstruktion von Abbrüchen – Kontraktionen • • hammers haben wir es kannst Du? durchs durch das zum zu dem? [ugs. ]? / Frequenz?

Mitglied der Leibniz-Gemeinschaft Evaluation • • 22 manuell normalisierte Transkriptionen aus FOLK 61. 495 Wort-Tokens, 6. 219 Wort-Types Quote: Ø 29. 89% / max. 42. 45% / min. 20. 93% Häufige Typen: – Klein- Großschreibung: 12. 99% – Ergänzung / Klassifizierung unvollständiger Formen: 6. 49% – Häsitation (ähm äh): 1. 46% • 18 Trainings- / 4 Evaluationsdaten

Mitglied der Leibniz-Gemeinschaft Automatisierung • Lexikonbasiert – Transkribierte Form W mehr als n-mal zu Form W‘ normalisiert Zuweisung von Form W‘ – Nur großgeschriebene Variante in De. Re. Wo Großschreibung

Mitglied der Leibniz-Gemeinschaft Automatisierung Schwellenwert 1 5 10 50 100 • • Precision 86. 76% 87. 81% 87. 89% 92. 53% 91. 75% Recall 84. 14% 77. 50% 74. 30% 61. 70% 53. 88% Error 17. 80% 16. 67% 16. 41% 11. 89% 12. 71% höhere Präzision inakzeptabler Recall deutliche Erleichterung der manuellen Korrektur mehr Lexikondaten Erhöhung von Precision und Recall? keine Annäherung an 100%

Mitglied der Leibniz-Gemeinschaft Phänomenologie: Lexikon • Eindeutige Fälle • Mehrdeutige Fälle heut mein 115 meine 39 meinen 2 meiner 1 frag heute 67 frage 19 sache Sache 19 frag 2 sagen Frage 1 Sachen ma hallgewersignal Hallgebersignal a a 3 109 mal 280 16 man 221 ah 1 wir 123 auch 8 % 3 aber 7 # 2 an 5 ma 2 ach 2 mir 2 acht 2 Mama 1 also 2 mach 1 abgestanden 1 machen 1 akut 1 meinst 1 alles 1 als 1 17

Mitglied der Leibniz-Gemeinschaft Phänomenologie: Lexikon • Regelmäßigkeiten abbauen 2 abziehe 2 abgezogen 2 akzeptiere 1 abklopfen 2 alle 1 absetzen 1 anfange 1 abstellen 1 anhabe 1 abwenden 1 aufmache 1 abziehen 1 baue 1 achten 1 bedanke 1 alten 1 behandele 1 anderen 3 beinahe 1 anfangen 1 bekomme 1 angeben 1 bereue 1 angesprochen 1 bestelle 3 anrufen 1 besuche 1 bleibe 2 brauche 33

Mitglied der Leibniz-Gemeinschaft Phänomenologie: Lexikon • Ähnlichkeiten abber ankucken gsagt hintn isch odder sauwer schaun spieln verdrehn warn widder würdst zusammenarbeiden zusammengearbeidet aber angucken gesagt hinten ich oder sauber schauen spielen verdrehen waren wieder würdest zusammenarbeiten zusammengearbeitet (Levenshtein-Distanz) ansonschten aufgawestellung besserwischerisch blätterteigstücksche eklichem gescheüber geschtern hihänge karteikarde linsensup näkschten runnergugge spätdiensch wollis ansonsten Aufgabenstellung besserwisserisch Blätterteigstückchen ekligem gegenüber gestern hinhängen Karteikarten Linsensuppe nächsten runtergucken Spätdienst Wallace (Phonetische Distanz)

Mitglied der Leibniz-Gemeinschaft Phänomenologie: Fehler kann s un losgehn es losgehen es ∅ also ihr sollt jetzt bis zur auch höhe des toasters bei dem bildrand des toasters n und gehst du zu der Höhe das ∅ da so n ganz normal reden auch sollte dann gehste au Toasters stück fleisch ein Mann einem Stück Fleisch ein Mann ein Stück Fleisch watte ma warte mal Watte mal wo soll ich Toasters ein Bildrand das ∅ mann mit n watte ma Bildrand lang ein stückchen Stückchen

Mitglied der Leibniz-Gemeinschaft Verbesserung der automatischen Normalisierung • Ermittlung von Kandidaten (Recall) – Abgleich mit bereits normalisierten Formen – Abgleich mit Wortliste (De. Re. Wo) • Ermittlung von möglichen Normalisierungen – aus bereits normalisierten Formen – ähnliche Formen aus Wortliste – (Regeln: n-Ellision, e-Ellision)? • Entscheidung zwischen Alternativen (Precision) – einfache Häufigkeiten aus FOLK – einfache Häufigkeiten aus anderen Korpora? – (kombinatorische Häufigkeiten)?

Mitglied der Leibniz-Gemeinschaft FOLK-Lexikon Transkribierte Form Bereits normalisiert? nein De. Re. Wo etc. In Wortliste? ja keine Normalisierung nein ja Normalisierte Form(en) Häufigkeit in FOLK Ähnliche Form(en) Häufigkeit in De. Re. Ko Kandidatenliste n-gram-Häufigkeiten? Auswahl Normalisierte Form Manuelle Korrektur (Ortho. Normal)

Mitglied der Leibniz-Gemeinschaft Effektivierung der manuellen Korrektur

Mitglied der Leibniz-Gemeinschaft Test: POS-Tagging • Tree. Tagger / STTS / „Default“-Parameterdatei • 3 manuell korrigierte Transkripte aus Testdatensatz • Fehlerquoten: Transkript 1 Transkript 2 Transkript 3 normalisiert 33. 22% 18. 79% 29. 96% 18. 62% 31. 33% 19. 5% (optimiert) 13. 38% 11. 52% 16. 13% 8. 7% 7. 5% 11. 9% literarische Umschrift (vereinfacht) Gesamt 31. 39% 18. 84%

Mitglied der Leibniz-Gemeinschaft POS-Tagging: aktuelle Arbeiten • Erweiterung/Anpassung des STTS-Tagsets: – Interaktive Einheiten: Responsive, Interjektionen – Partikeln – Koordiniert mit STTS-Workshops / Arbeiten zu IBK • Erstellen eines Trainings- und Evaluationskorpus • Neu-Training des Tree. Taggers / andere Tagger (? ) Westpfahl/Schmidt (2013): POS für(s) FOLK. In: JLCL.

Mitglied der Leibniz-Gemeinschaft Zusammenfassung • Brauchbare Automatisierung durch lexikonbasierte Verfahren • Annäherung an 100% vorerst nicht realistisch • Weitere Verbesserungen möglich durch – – größere/andere Lexika Ermitteln ähnlicher Formen als Kandidaten verfeinerte Methoden zur Auswahl des besten Kandidaten Effektivierung manueller Korrektur

Mitglied der Leibniz-Gemeinschaft Ausblick • „Anwenderbedarf“ – Sprachtechnologie/Ressourcen zur Verbesserung der Normalisierung? • Ähnliche Wörter (phonetische, orthographische Distanz) • N-gramm-Methoden • „Support“ – Web-Service „Normalisierung“? – Ortho. Normal für IBK-Daten (Dortmunder Chat-Korpus)? – Web. Licht für Transkriptionen?