Potaov zpracovn pirozenho jazyka Lingvistick terminologie Daniel Zeman

  • Slides: 41
Download presentation
Počítačové zpracování přirozeného jazyka Lingvistická terminologie Daniel Zeman http: //ufal. mff. cuni. cz/course/popj 1/

Počítačové zpracování přirozeného jazyka Lingvistická terminologie Daniel Zeman http: //ufal. mff. cuni. cz/course/popj 1/

Slovní druhy slovní druh part of speech podstatné jméno substantivum noun přídavné jméno adjektivum

Slovní druhy slovní druh part of speech podstatné jméno substantivum noun přídavné jméno adjektivum adjective zájmeno pronomium pronoun číslovka numeralium numeral sloveso verbum verb příslovce adverbium adverb předložka, záložka prepozice, postpozice preposition, postposition spojka konjunkce conjunction částice partikule particle citoslovce interjekce interjection člen 4. 11. 1999 determiner, article http: //ufal. mff. cuni. cz/course/popj 1 2

Rody a čísla rod genus gender mužský maskulinum masculine neživotný inanimatum inanimate ženský femininum

Rody a čísla rod genus gender mužský maskulinum masculine neživotný inanimatum inanimate ženský femininum feminine střední neutrum neuter číslo numerus number jednotné singulár singular dvojné duál dual množné plurál plural 4. 11. 1999 http: //ufal. mff. cuni. cz/course/popj 1 3

Pády a osoby pád casus case 1. nominative 2. genitive 3. dative 4. akuzativ

Pády a osoby pád casus case 1. nominative 2. genitive 3. dative 4. akuzativ accusative 5. vokativ vocative 6. lokál local 7. instrumentál instrumental osoba person 1. 1 st 2. 2 nd 3. 3 rd 4. 11. 1999 http: //ufal. mff. cuni. cz/course/popj 1 4

Časy, vidy, způsoby čas tempus tense přítomný prézens present minulý préteritum past budoucí futurum

Časy, vidy, způsoby čas tempus tense přítomný prézens present minulý préteritum past budoucí futurum future neurčitek infinitive vid aspect dokonavý perfektum perfect nedokonavý imperfektum imperfect způsob modus mode oznamovací indikativ indicative rozkazovací imperative podmiňovací kondicionál conditional 4. 11. 1999 http: //ufal. mff. cuni. cz/course/popj 1 5

Slovesné rody, větné způsoby, stupně, zápory slovesný rod voice činný aktivní active trpný pasivní

Slovesné rody, větné způsoby, stupně, zápory slovesný rod voice činný aktivní active trpný pasivní passive tázací (zájmeno, věta…) interrogativum interrogative (ne)určitý (in)definite zápor negativeness kladný afirmativ affirmative záporný negative stupeň degree (of comparison) 1. pozitiv positive 2. komparativ comparative 3. superlative 4. 11. 1999 http: //ufal. mff. cuni. cz/course/popj 1 6

Větné členy přísudek predikát predicate podmět subjekt subject předmět objekt object příslovečné určení adverbiale

Větné členy přísudek predikát predicate podmět subjekt subject předmět objekt object příslovečné určení adverbiale adverbial přívlastek atribut attribute přechodné sloveso tranzitivní verbum transitive verb nepřechodné sloveso intranzitivní verbum intransitive verb 4. 11. 1999 http: //ufal. mff. cuni. cz/course/popj 1 7

Počítačové zpracování přirozeného jazyka Roviny zpracování přirozeného jazyka Daniel Zeman http: //ufal. mff. cuni.

Počítačové zpracování přirozeného jazyka Roviny zpracování přirozeného jazyka Daniel Zeman http: //ufal. mff. cuni. cz/course/popj 1/

Formální popis jazyka • Gramatika – soubor pravidel, popisujících, co je v jazyce přípustné

Formální popis jazyka • Gramatika – soubor pravidel, popisujících, co je v jazyce přípustné • Klasické gramatiky – určeny lidem, kteří daný jazyk znají – definice a pravidla na základě příkladů – (skoro) žádné nástroje pro formalizaci; nelze naprogramovat • Explicitní gramatiky (CFG, HPSG, závislostní gramatiky, spojové gramatiky, …) – formální popis – lze naprogramovat a testovat na datech (textech) 4. 11. 1999 http: //ufal. mff. cuni. cz/course/popj 1 9

Jazykové roviny – – – pragmatika (znalost světa…), logika aj. , mezivětné vztahy… sémantika

Jazykové roviny – – – pragmatika (znalost světa…), logika aj. , mezivětné vztahy… sémantika (hloubková syntaxe, význam) syntaxe (povrchová) morfologie fonologie, morfonologie fonetika / pravopis syntéza analýza • Základní roviny, víceméně společné všem teoriím • Každá rovina má vstupní a výstupní reprezentaci – výstup z nižší roviny je vstup do následující vyšší roviny – někdy je vhodné některé roviny dále rozdělit, nebo naopak sloučit či přeskočit 4. 11. 1999 http: //ufal. mff. cuni. cz/course/popj 1 10

Vztahy mezi rovinami vyšší rovina jednoduchý C složený R nižší rovina Nižší je formou

Vztahy mezi rovinami vyšší rovina jednoduchý C složený R nižší rovina Nižší je formou vyššího. Vyšší je funkcí nižšího. Shora dolů = od významu k výrazu (povrchu). 4. 11. 1999 http: //ufal. mff. cuni. cz/course/popj 1 11

Fonetická rovina • Vstup: – akustický signál • Výstup: – posloupnost fónů (zvuků —

Fonetická rovina • Vstup: – akustický signál • Výstup: – posloupnost fónů (zvuků — vektorů různých charakteristik, rysů, které lze vysledovat ve vstupním signálu) • Obsah: – základní: charakteristiky (např. délka samohlásky); silový slabičný přízvuk, tóny, délka samohlásek – složené: fóny (kombinace hodnot) zapsané fonetickou abecedou – suprasegmentální: intonace (větný přízvuk) – klasifikace hlásek ve vztahu k tvaru a pozici jazyka apod. 4. 11. 1999 http: //ufal. mff. cuni. cz/course/popj 1 12

Fonetická rovina rys 3 rys 2 Cp Cp rys 1 fonetika Cp fón z

Fonetická rovina rys 3 rys 2 Cp Cp rys 1 fonetika Cp fón z b a ņ k o u akustický signál 4. 11. 1999 http: //ufal. mff. cuni. cz/course/popj 1 13

Fonetická rovina • „Nelingvistická“ rovina. Nejde o funkci a formu, pouze o konverzi akustického

Fonetická rovina • „Nelingvistická“ rovina. Nejde o funkci a formu, pouze o konverzi akustického signálu na řadu charakteristik: – – – samohláska / souhláska dlouhá / krátká tón vysoký / nízký / klesající / … znělá / neznělá nosová / nenosová • Ne všechny zjištěné rozdíly jsou v daném jazyku relevantní. Tedy: ne všechny mají funkci. Ty, které ji mají, nazýváme distinktivní rysy. 4. 11. 1999 http: //ufal. mff. cuni. cz/course/popj 1 14

Příklad: distinktivní rysy • Znělost je v češtině distinktivní rys: tři – dři. Odlišuje

Příklad: distinktivní rysy • Znělost je v češtině distinktivní rys: tři – dři. Odlišuje různé hlásky, zde t/d. • Podobně v angličtině je distinktivní rys i rozdíl mezi n a ng: thin (tenký) – thing (věc). • Tento rozdíl však není distinktivním rysem v češtině: rána – ranka. Nejde o dvě hlásky, ale o dvě poziční varianty jedné hlásky! • V němčině je distinktivní rys rozdíl mezi ü a ie: Abfahrt der Züge (odjezd vlaků) – Abfahrt der Ziege (odjezd kozy). V češtině tento rozdíl neodlišuje dvě hlásky, pro nás je obojí í. 4. 11. 1999 http: //ufal. mff. cuni. cz/course/popj 1 15

Fonologická rovina • Vstup: – posloupnost fónů zapsaných ve fonetické abecedě • Výstup: –

Fonologická rovina • Vstup: – posloupnost fónů zapsaných ve fonetické abecedě • Výstup: – posloupnost hlásek (fonémů — zvuků majících „význam“ (funkci), zapsaných písmeny abstraktní abecedy — třeba podmnožiny té fonetické) • Obsah: – základní: distinktivní rysy – složené: hlásky (fonémy) – vztah R mezi fóny a fonémy (jednotky, které mohou mít nějakou funkci na vyšší rovině) 4. 11. 1999 http: //ufal. mff. cuni. cz/course/popj 1 16

Fonologická rovina distinktivní rys 3 distinktivní Cp rys 2 distinktivní rys 1 Cp fonologie

Fonologická rovina distinktivní rys 3 distinktivní Cp rys 2 distinktivní rys 1 Cp fonologie fonetika 4. 11. 1999 Cp foném z b a n k o u R z b a ņ k o u http: //ufal. mff. cuni. cz/course/popj 1 17

Fonologická rovina • Žádné složené struktury, jen jednoduché symboly. • Kromě symbolů, které popisují

Fonologická rovina • Žádné složené struktury, jen jednoduché symboly. • Kromě symbolů, které popisují určitý úsek výpovědi a jdou za sebou, i takové, které se vztahují k celé posloupnosti úseků: větná intonace. • I u větné intonace pouze takové rysy, které v daném jazyce rozlišují význam. 4. 11. 1999 http: //ufal. mff. cuni. cz/course/popj 1 18

Pravopisná rovina • Vstup: – text (posloupnost písmen — grafémů — symbolů abecedy konkrétního

Pravopisná rovina • Vstup: – text (posloupnost písmen — grafémů — symbolů abecedy konkrétního jazyka) • Výstup: – posloupnost symbolů abstraktní abecedy, použitelná na fonologické rovině • Obsah: – normalizace, interpunkce, konce slov a vět 4. 11. 1999 http: //ufal. mff. cuni. cz/course/popj 1 19

Pravopisná rovina fonémy fonologie pravopis j a b l o ň e R j

Pravopisná rovina fonémy fonologie pravopis j a b l o ň e R j a b l o n ě grafémy 4. 11. 1999 http: //ufal. mff. cuni. cz/course/popj 1 20

Stejné znění, různý zápis fonologie pravopis 4. 11. 1999 v i l y R

Stejné znění, různý zápis fonologie pravopis 4. 11. 1999 v i l y R v i/y l i/y R v i l y v i l i http: //ufal. mff. cuni. cz/course/popj 1 fonetika 21

Opačný případ: stejný zápis, jiná výslovnost fonologie pravopis 4. 11. 1999 r e d

Opačný případ: stejný zápis, jiná výslovnost fonologie pravopis 4. 11. 1999 r e d r í d R r e a d r í d http: //ufal. mff. cuni. cz/course/popj 1 fonetika 22

Opačný případ: stejný zápis, jiná výslovnost fonologie pravopis 4. 11. 1999 k u t

Opačný případ: stejný zápis, jiná výslovnost fonologie pravopis 4. 11. 1999 k u t u b k a t a b knihy psát ﻙ ﺕ ﺏ ﻛﺘﺐ R http: //ufal. mff. cuni. cz/course/popj 1 23

Morfonologická rovina • Vstup: – posloupnost fonémů zapsaných v abstraktní abecedě • Výstup: –

Morfonologická rovina • Vstup: – posloupnost fonémů zapsaných v abstraktní abecedě • Výstup: – posloupnost morfonémů členěná do morfů • Obsah: – – 4. 11. 1999 základní prvky: morfonémy složené prvky: morfy morfonémů víc než fonémů: vedle k|c|č nadále existuje i k, c a č morfy = kmeny a afixy (= koncovky, ale i předpony, přípony a infixy) http: //ufal. mff. cuni. cz/course/popj 1 24

Morfonologická rovina morfoném Cs mat(k|c|č) a morfonologie 4. 11. 1999 m a t k|c|č

Morfonologická rovina morfoném Cs mat(k|c|č) a morfonologie 4. 11. 1999 m a t k|c|č … R m a t k a m a t c e m a t č i n http: //ufal. mff. cuni. cz/course/popj 1 25

Morfematická rovina • Vstup: – posloupnost morfů • Výstup: – posloupnost slovních tvarů spolu

Morfematická rovina • Vstup: – posloupnost morfů • Výstup: – posloupnost slovních tvarů spolu s lexikální (významovou) a gramatickou informací • Obsah: – základní prvek: séma (lexikální nebo gramatické) – složený prvek: morfém (lexikální / gramatický (skloňovací / časovací)) – složený prvek: formém – nejen ohýbání, ale i odvozování a skládání 4. 11. 1999 http: //ufal. mff. cuni. cz/course/popj 1 26

Morfematická rovina Cs [k, R 3] ([zdravý, A(M|N)S 33 N]) morfematika morfonologie sémata formém

Morfematická rovina Cs [k, R 3] ([zdravý, A(M|N)S 33 N]) morfematika morfonologie sémata formém morfémy rod = M|N číslo = S pád = 3 Cp k nej ne zdrav ější mu R k nej ne zdrav ější mu morfy 4. 11. 1999 http: //ufal. mff. cuni. cz/course/popj 1 27

Morfematická rovina • Formém zhruba odpovídá slovnímu tvaru, ale po morfologické analýze jde hlavně

Morfematická rovina • Formém zhruba odpovídá slovnímu tvaru, ale po morfologické analýze jde hlavně o dvojici [lemma, značka]. • Morfémy jsou lexikální (např. kmen „zdrav“) a gramatické (např. koncovka „ější“). • Sémata jsou lexikální (např. kmen „zdrav“, slovní druh „přídavné jméno“, „zájmeno osobní“) a gramatická (např. „mužský rod“, „ 3. stupeň“). • Morfém někdy ~ 1 séma (aglutinační jazyky), častěji více sémat. 4. 11. 1999 http: //ufal. mff. cuni. cz/course/popj 1 28

Odvozování × ohýbání • Odvozování slov je spolu s ohýbáním součástí morfologie. • Některé

Odvozování × ohýbání • Odvozování slov je spolu s ohýbáním součástí morfologie. • Některé pravidelné způsoby odvozování lze stejně jako skloňování, časování apod. řešit automaticky: – dělat udělat, předělat, dodělat, oddělat, prodělat, vydělat, zadělat, přidělat, podělat… — stačí vyjmenovat povolené předpony. – dělat dělávat, dělání, dělající, udělavší, udělaný, dělníkův, dělnický, dělnice; dílo, dílna dílnový… – učitel, ale ne dělat *dělatel, ani učit *učitník! (učedník ano, ale význam je jiný než u „dělník“) 4. 11. 1999 http: //ufal. mff. cuni. cz/course/popj 1 29

Syntaktická (povrchová) rovina • Vstup: – posloupnost formémů (obvykle [lemma, značka]) • Výstup: –

Syntaktická (povrchová) rovina • Vstup: – posloupnost formémů (obvykle [lemma, značka]) • Výstup: – větná struktura (strom) s označením větných vztahů • Obsah: – – 4. 11. 1999 základní prvek: tagmém (větný člen) složený prvek: syntagmém (věta: strom + povrchový slovosled) vztah mezi morfologickými kategoriemi a větnou strukturou syntaktické kategorie (podmět, přísudek, předmět…) http: //ufal. mff. cuni. cz/course/popj 1 30

Syntaktická rovina přísudek syntagmém předmět přívlastek tagmémy syntaxe psát dopis svůj VPS 3 A

Syntaktická rovina přísudek syntagmém předmět přívlastek tagmémy syntaxe psát dopis svůj VPS 3 A NIS 4 A PSRMS 3 . Z … … R morfematika … 4. 11. 1999 přítel NMS 3 A … … http: //ufal. mff. cuni. cz/course/popj 1 31

Syntaktická rovina • Tagmém je větný člen, tedy nejen slovo, ale třeba i několik

Syntaktická rovina • Tagmém je větný člen, tedy nejen slovo, ale třeba i několik slov: „v domě“, „dělal jsem“. • Nepraktické: uzel stromu by musel být strukturovaný, aby uchoval informace o více slovech — protože nechceme zapomenout informaci z nižších rovin. 4. 11. 1999 http: //ufal. mff. cuni. cz/course/popj 1 32

Sémantická (tektogramatická, hloubková) rovina • Vstup: – větná struktura (strom) s pojmenováním vztahů •

Sémantická (tektogramatická, hloubková) rovina • Vstup: – větná struktura (strom) s pojmenováním vztahů • Výstup: – rovněž stromová struktura, ale: hloubkové funkce, odstraněná pomocná slova • Obsah: – základní prvek: sémantém (odpovídá tagmému) • sémoglyf (lexikální sémantém: synonyma jedním symbolem, syntaktické odvozeniny (nominalizace)) • typ doplnění (sémantický větný člen) – složený prvek: propozice (strom, hloubkový slovosled) – vztah mezi povrchovými kategoriemi jako „podmět“, „předmět“ a hloubkovými kategoriemi jako „konatel“, „trpitel“ 4. 11. 1999 http: //ufal. mff. cuni. cz/course/popj 1 33

Tektogramatická rovina žít, V, F druh doplnění koordinace slučovací Jana, N, T 35 ona,

Tektogramatická rovina žít, V, F druh doplnění koordinace slučovací Jana, N, T 35 ona, PP, T koreference 4. 11. 1999 aktuální členění 36 bratr, N, T 23 (v) založit, V, F 3 jenž, WH, T Praha, N, F 30 rodina, N, F Jana a její bratr, jež založili rodinu, žijí v Praze. http: //ufal. mff. cuni. cz/course/popj 1 34

Sémantická rovina • Koordinace – poměr slučovací (a, i, ani, nebo) – poměr odporovací

Sémantická rovina • Koordinace – poměr slučovací (a, i, ani, nebo) – poměr odporovací (ale, avšak, nýbrž) – poměr vylučovací (buď-nebo) • Koreference – něco jako shoda podmětu s přísudkem, ale na jiné úrovni (na dlouhé vzdálenosti) – zvratné zájmeno • Hloubkové × povrchové funkce: „Pavel viděl Petra. “ „Petr byl viděn Pavlem. “ 4. 11. 1999 http: //ufal. mff. cuni. cz/course/popj 1 35

Aktuální členění věty • Věta se dělí na téma (základ, východisko, topic) a réma

Aktuální členění věty • Věta se dělí na téma (základ, východisko, topic) a réma (jádro, ohnisko, focus). – Východisko: to, co už víme. – Ohnisko: to, co o tom známém nového sdělujeme. • Podrobnější členění: kontextová zapojenost členů frází: východisko je kontextově zapojené, ohnisko je kontextově nezapojené. • V rámci východiska nebo ohniska se členy řadí do tzv. systémového slovosledu daného daným jazykem. • Dohromady jde o hloubkový slovosled (× povrchový). 4. 11. 1999 http: //ufal. mff. cuni. cz/course/popj 1 36

Rovina diskurzu • Vstup: – posloupnost vět (propozic) patřících k sobě (např. jeden článek)

Rovina diskurzu • Vstup: – posloupnost vět (propozic) patřících k sobě (např. jeden článek) = diskurz • Výstup: – diskurz s vyřešenými mezivětnými vztahy • Obsah: – např. anafora, katafora: „Pavel přišel po desáté. Dala jsem mu večeři. “ 4. 11. 1999 http: //ufal. mff. cuni. cz/course/popj 1 37

Pragmatická (logická) rovina • Vstup: – hloubková struktura věty (propozice) • Výstup: – logická

Pragmatická (logická) rovina • Vstup: – hloubková struktura věty (propozice) • Výstup: – logická forma, která může být vyhodnocena (pravda/nepravda) • Obsah: – – přiřazení objektů reálného světa uzlům větné struktury mimolingvistický obsah: znalost světa („oči barvy nebe“) kvantif. („mnoho knih čte málo lidí“ × „mnoho lidí čte málo knih“) například (já/Sg/Pat/t (vidět(Past/Pred/t) babička/Sg/Ag/f) ~ vidět(babička-BN[SSN: …], Němcová[SSN: …])[čas: před 5. 6. 2021 8: 42][místo: mezi (50° 20’ 00”N 15° 30’ 00”E, 51° 00’ 00”N 16° 30’ 20”E)] 4. 11. 1999 http: //ufal. mff. cuni. cz/course/popj 1 38

Teorie a praxe • Některé roviny jsou zbytečně podrobně členěné, aniž to konkrétní aplikace

Teorie a praxe • Některé roviny jsou zbytečně podrobně členěné, aniž to konkrétní aplikace potřebuje: např. skládání morfonémů, pravopisná pravidla ďe = dě apod. lze řešit najednou. • Některé roviny lze někdy vypustit, např. často máme text a fonetické problémy odpadnou. • Některá členění přinášejí technické obtíže, např. u syntaktických stromů je lepší pracovat se slovy než s formémy. 4. 11. 1999 http: //ufal. mff. cuni. cz/course/popj 1 39

Zjednodušený systém rovin • tektogramatická – hloubkový slovosled (aktuální členění) – koordinace – koreference,

Zjednodušený systém rovin • tektogramatická – hloubkový slovosled (aktuální členění) – koordinace – koreference, doplnění vypuštěných členů, spojování členů • analytická (syntaktická) – posloupnost dvojic stromová struktura • morfologická – slovní tvar dvojice [lemma, značka] • předzpracování – posloupnost znaků (písmen) posloupnost slov (a interpunkce) 4. 11. 1999 http: //ufal. mff. cuni. cz/course/popj 1 40

Treex: nástroj nejen pro analýzu • Open-source, napsáno v Perlu • Webové demo: https:

Treex: nástroj nejen pro analýzu • Open-source, napsáno v Perlu • Webové demo: https: //lindat. mff. cuni. cz/services/treex-web/ 4. 11. 1999 http: //ufal. mff. cuni. cz/course/popj 1 41