Vznamy morfologickch kategori v PDT 2 0 Magda

  • Slides: 15
Download presentation
Významy morfologických kategorií v PDT 2. 0 Magda Razímová Ústav formální a aplikované lingvistiky

Významy morfologických kategorií v PDT 2. 0 Magda Razímová Ústav formální a aplikované lingvistiky Matematicko-fyzikální fakulta Univerzita Karlova v Praze Collegium Informaticum 25. listopadu 2005 8. 11. 2004

PDT 2. 0 – roviny anotace • slovní rovina (W-rovina) – bez anotace •

PDT 2. 0 – roviny anotace • slovní rovina (W-rovina) – bez anotace • morfologická rovina (tvarosloví; M-rovina) – morfologické lema a tag • analytická rovina (A-rovina) – povrchová struktura věty, A-strom • tektogramatická rovina (T-rovina) – hloubková struktura věty, T-strom; gramatémy Collegium Informaticum, 25. 11. 2005 2/15 2

Atributy uzlu T- stromu • T-lemma – lexikální hodnota uzlu, sekvence grafémů (nebo „umělé“

Atributy uzlu T- stromu • T-lemma – lexikální hodnota uzlu, sekvence grafémů (nebo „umělé“ lema, př. #Gen) Nejvážnějším problémem příjmů Collegium Informaticum, je nízký výnos 25. 11. 2005 • funktor – funkce slova v hloubkové struktuře věty + subfunktor • tfa – zařazení uzlu do tematické / rematické části výpovědi • sempos – sémantický slovní druh tektogramatického uzlu • gramatémy – nejčastěji tektogramatické protějšky morfologických kategorií 3/15 3

Gramatémy a reprezentace významu věty T-stromem • Nejvážnějším problémem příjmů je nízký výnos daně

Gramatémy a reprezentace významu věty T-stromem • Nejvážnějším problémem příjmů je nízký výnos daně z obratu. ? Vážnějším problémem příjmů byly nízké výnosy daně z obratu. ? Nevážným problémem příjmů bude nižší výnos daně z obratu. ? . . . Collegium Informaticum, 25. 11. 2005 4/15 4

Gramatémy vs. morfologický tag • gramatémy • morfologický tag – 16 gramatémů – –

Gramatémy vs. morfologický tag • gramatémy • morfologický tag – 16 gramatémů – – náleží pouze T-uzlům – reprezentujícím autosémantická slova – pouze významově relevantní – kategorie – přidělování hodnot – z hlediska významu • „významové“ číslo • . . . 15 pozic náleží každému tokenu všechny morfologické kategorie přidělování hodnot podle formální realizace dané kategorie + další informace (nemorfologické) Collegium Informaticum, 25. 11. 2005 5/15 5

Přiřazování gramatémů T-uzlům Atributy nodetype a sempos odetype: 8 typů T-uzlů root complex T-uzly

Přiřazování gramatémů T-uzlům Atributy nodetype a sempos odetype: 8 typů T-uzlů root complex T-uzly atom coap fphr dphr list qcomplex sémantická adjektiva adverbia slovesa Collegium Informaticum, 25. 11. 2005 sempos: zařazení komplexních T -uzlů do sémantických slovních druhů 6/15 6

Přiřazování gramatémů T-uzlům Sémantické vs. „tradiční“ slovní druhy substantiv a adjektiva sémantická substantiva zájmena

Přiřazování gramatémů T-uzlům Sémantické vs. „tradiční“ slovní druhy substantiv a adjektiva sémantická substantiva zájmena sémantická adjektiva číslovky adverbia sémantická adverbia slovesa předl. spojk y částic e citosl. sémantická slovesa „ prototypické“ vztahy mezi sémantickými a „tradičními“ slovními druhy rozřazení zájmen a číslovek do sémantických slovních druhů zařazení podle slovotvorných vztahů Collegium Informaticum, 25. 11. 2005 7/15 7

Gramatémy • na tektogramatické rovině 16 gramatémů: • gender • indeftype • sentmod •

Gramatémy • na tektogramatické rovině 16 gramatémů: • gender • indeftype • sentmod • person • numertype • numb er • negation • deontm od • degcm p • iterativene ss • tense • verbm od • resultati ve • politene ss • aspect Collegium Informaticum, 25. 11. 2005 • dispmod 8/15 8

Gramatém čísla number • hodnoty: sg, pl (+ nr) • hodnota gramatému zpravidla koresponduje

Gramatém čísla number • hodnoty: sg, pl (+ nr) • hodnota gramatému zpravidla koresponduje s morfologickou kategorií čísla • asymetrie mezi povrchovou a hloubkovou hodnotou: – pluralia tantum: př. jedny dveře. sg, dvoje dveře. pl – zdvořilé užití zájmen 2. osoby: vy. sg jste přišel Collegium Informaticum, 25. 11. 2005 9/15 9

Gramatém stupně degcmp • hodnoty: pos, comp, acomp, sup (+ nr) • hodnota gramatému

Gramatém stupně degcmp • hodnoty: pos, comp, acomp, sup (+ nr) • hodnota gramatému koresponduje s morfologickou kategorií čísla – kromě: • acomp – „absolutní komparativ“ (2. stupeň bez významu srovnání): př. muž tmavší pleti, starší žena, vyšší odborná škola, každá větší pobočka, Otakar Brousek starší Collegium Informaticum, 25. 11. 2005 10/15 10

Gramatém času tense (i) • hodnoty – u T-uzlů reprezentujících neimperativní určité formy slovesa

Gramatém času tense (i) • hodnoty – u T-uzlů reprezentujících neimperativní určité formy slovesa nebo přechodníky: • sim (současný s okamžikem promluvy / jiným dějem) př. Rád spí, Rád by spal, Hlasitě naříkajíc, odcházela… • ant (předcházející k okamžiku promluvy / jinému ději) př. Spal, Probudil se, Byl by spal, ale… Napsavši vzkaz, odešla… • post (následný k okamžiku promluvy / jinému ději) př. Až se vyspí, bude přemýšlet, zda tam půjde… – u ostatních slovesných T-uzlů (u imperativu, infinitivu): nil (+ nr) • hodnota gramatému „zkombinována“ z časových charakteristik všech částí Collegium Informaticum, 11/15 slovesného tvaru 11 25. 11. 2005

Gramatém času tense (ii) S napětím budeme sledovat, jak tento boj dopadne… T-rovina: M-rovina:

Gramatém času tense (ii) S napětím budeme sledovat, jak tento boj dopadne… T-rovina: M-rovina: budeme sledovat: být, VB-P--1 F-AA--sledovat_: T, Vf----A-rovina: Collegium Informaticum, 25. 11. 2005 12/15 12

Vyhledávání v PDT 2. 0 pomocí gramatémů Při zakládání nových družstev nebo při vyčleňování

Vyhledávání v PDT 2. 0 pomocí gramatémů Při zakládání nových družstev nebo při vyčleňování části družstva by jejich zakladatelé měli mít reálnou představu o fungování a povinnostech malého bytového družstva jako právnické osoby. ? KONDICIONÁL ? PREDIKÁT S MODÁLNÍM SLOVESEM by měli mít: být, Vc------mít, Vp. MP---XR-AA--mít, Vf----A---Collegium Informaticum, 25. 11. 2005 13/15 13

Na závěr • význam gramatémů pro strojový překlad – př. : – adekvátní strojový

Na závěr • význam gramatémů pro strojový překlad – př. : – adekvátní strojový překlad pomnožných substantiv (otevřel dveře he opened the door; nikoli the doors) – zmenšení slovníku adjektiv: ve slovníku pro každé adjektivum pouze pozitiv; komparativ a superlativ ošetřeny pomocí gramatému – hledání odpovídajícího vyjádření celého slovesného tvaru jako celku, nikoli překládání jednotlivých částí tvaru (měly by mít they should have). . . • další práce – rozpracování systému gramatémů především u sloves – revize systému gramatémů vzhledem ke zpracovávání pojmenovaných entit. . . Collegium Informaticum, 25. 11. 2005 14/15 14

Reference • http: //ufal. mff. cuni. cz/pdt 2. 0/ • Hajič, J. et al.

Reference • http: //ufal. mff. cuni. cz/pdt 2. 0/ • Hajič, J. et al. , Prague Dependency Treebank 1. 0 (Final Production Label), CDROM CAT: LDC 2001 T 10, ISBN 1 -58563 -212 -0, 2001. • Panevová, J. , Formy a funkce ve stavbě české věty, Praha, Academia, 1980. • Sgall, P. , Generativní popis jazyka a česká deklinace, Praha, Academia, 1967. • Sgall, P. , E. Hajičová, and J. Panevová, The Meaning of the Sentence in Its Semantic and Pragmatic Aspects, Dordrecht, Reidel – Praha, Academia, 1986. • Razímová, M. , Z. Žabokrtský, Morphological Meanings in the Prague Dependency Treebank 2. 0, in Proceedings of Text, Speech and Dialogue (ed. V. Matoušek, P. Mautner, T. Pavelka), Springer. Verlag, pp. 148 -155, 2005. • Razímová, M. , Meanings of Morphological Categories on the Tectogrammatical Level, in WDS'05 Proceedings of Contributed Papers: Part I - Mathematics and Computer Sciences (ed. J. Šafránková), Prague, Matfyzpress, pp. 72 -77, 2005. Collegium Informaticum, 25. 11. 2005 15/15 15