Ctlina Mrnduc Facultatea de Informatic Univ Al I



















- Slides: 19

Cătălina Mărănduc Facultatea de Informatică, Univ. Al. I. Cuza Institutul de lingvistică Iorgu Iordan – Al. Rosetti

Corpusul UAIC-Ro. Dia = ISLRN 156 -635 -615 -024 -0 Are acum 25. 000 fraze Este un corpus balansat Pentru a ne axa doar pe Limba română contemporană am ales 10 000 de fraze din el, care sunt generate după 1916 Se presupune că un corpus de antrenare pentru parser sintactic este indicat să aibă minim 10 000 fraze

Gramatici de dependență Spre deosebire de gramaticile de constituenți, acestea consideră noduri doar cuvintele și elementele de punctuație, nu și conceptele teoretice, gen grup nominal, grup verbat, etc. Relațiile de dependență se inscripționează pe arcele dintre noduri, ceea ce constituie o economie de noduri


TREEBANK Un treebank este un corpus de texte în care fiecare propoziţie are asociată structură sintactică arborescentă (ceea ce explică denumirea de „treebank”). Structurile sintactice constau în unităţi lexicale legate prin relaţii binare de dependență, asimetrice, între un regent și un dependent. Treebankurile sunt de cele mai multe ori create pe baza unor corpusuri care au fost deja adnotate prin POS-tagging (părţi de vorbire și caracteristici flexionare).

AXIOME DG. 1. Există şi este unic determinat un element independent (fără predecesor direct). 2. Cu excepţia elementului din axioma 1, toate elementele unei fraze au măcar un predecesor direct. 3. Niciun element nu depinde direct de mai mult de un element (orice element are cel mult un predecesor direct).

Cu toate că pornesc de la același model teoretic, treebankurile de dependență pot avea convenții foarte diferite. În convenția noastră, cuvintele de legătură, prepoziții și conjuncții, se află între elementele pe care le relaționează, adică sunt head pentru cuvântul subordonat și dependente de cuvântul regent. Cuvintele de relație în frază sunt prepozițiile pe care le vom adnota prep. Cuvintele de relație în frază sunt conjuncțiile, subordonatoare sau coordonatoare, precum și alte elemente de relație, pronume adjective, adverbe relative, particule etc. Relația este coord. sau subord.



COORDONAREA

În convenția noastră, relația de coordonare este asimetrică, sub forma de lanț descendent spre dreapta. Ea se stabilește între headurile sub-arborilor, care pot fi verbe, substantive sau prepoziții, conjuncții. Mai pot exista coordonări între adjective și propoziții subordonate. Se presupune că al doilea sau al n-lea coordonat are relația de dependență a primului, dar aici este vorba doar de atribut, felul lui fiind diferit.

Numele relațiilor de dependență sunt cele din tabele. Numim relație narativ. Sau textual. O relație care se stabilește între rădăcinile a două sau mai multe fraze, de aceea am scris-o deasupra rădăcinii

Numim relațiie incidentă relația dintre textul ramă și un text în text, spus de alt personaj. Este marcat printr-un verb zice, zicănd sau ceva similar și prin elemente de punctuație.

Relația dintre verbul copulativ și numele predicati este iar greu de transpus în DG, fiindcă numele predicativ de fapt este subordonat atât de verb cțt și de subiect. Noi le subordonăm pe ambele, subiect și nume predicativ, de verbul copulativ. La fel se întâmplă cu elementul predicativ suplimentar, cu sigla el. pred. care determină un subiect sau un complement direct și un verb oarecare, nu unul copulativ ()adică nu un verb de legătură, ci unul cu o informație semantică mai specifică). Figura privea așezată

Îl arăta pe el, plescăind (cum plescăia)

PUNCTUAȚIA În general marhează coordonarea sau izolează o structură care nu este absolut necesară, reprezintă o completare Ele se atașează de headul structurii izolate, compelment circumstanțial, Apoziție, vocativ, etc. Nu de root sau cuvântul regent al structurii subordonate.

Pentru coordonare, prin convenție, am stabilit că dacă există și conjuncție și puncțiație, aceasta din urmă va fi subordonată de conjuncție, Pentru a nu marc de două ori relația de coordonare.

Pentru alte cazuri complicate, așteptăm să fim întrebați, pentru a indica soluția care este folosită în convenția noastră, căci adnotarea trebuie să fie consistentă, consecventă. Altfel, în cazul unor rezolvări contradictorii, parserul antrenat va avea rezultate slabe.

UGLA