Hrvatski nacionalni korpus Marko Tadi marko tadicffzg hr

  • Slides: 30
Download presentation
Hrvatski nacionalni korpus Marko Tadić (marko. tadic@ffzg. hr, hnk. ffzg. hr/mt) Odsjek za lingvistiku,

Hrvatski nacionalni korpus Marko Tadić (marko. tadic@ffzg. hr, hnk. ffzg. hr/mt) Odsjek za lingvistiku, Filozofski fakultet Sveučilište u Zagrebu (hnk. ffzg. hr) Sveučilište u Grazu, 2006 -04 -04

Plan predavanja l Hrvatski nacionalni korpus (HNK) – struktura – obilježavanje – dostupnost putem

Plan predavanja l Hrvatski nacionalni korpus (HNK) – struktura – obilježavanje – dostupnost putem Interneta l Hrvatski morfološki leksikon (HML) – teorijska pozadina – primjena flektivnoga dijela leksikona l POS/MSD označavanje – sraz HNK-a i HML-a – POS/MSD označivač za hrvatski l Hrvatska ovisnosna banka stabala (HOBS) l Perspektive: novoprijavljeni projekti

Hrvatski nacionalni korpus (HNK) l projekti Ministarstva znanosti i tehnologije Republike Hrvatske – 130718,

Hrvatski nacionalni korpus (HNK) l projekti Ministarstva znanosti i tehnologije Republike Hrvatske – 130718, Računalna obradba hrvatskoga jezika, zapravo započeo krajem 1998. – 0130418, Razvitak hrvatskih jezičnih resursa, započeo 2002. l teorijske osnove za HNK još 1995. , objavljene u 2 članka: – Tadić (1996) Računalna obradba hrvatskoga i nacionalni korpus, Suvremena lingvistika 41 -42, 603 -612 – Tadić (1998) Raspon, opseg i sastav korpusa suvremenoga hrvatskoga jezika, Filologija 30 -31, 337 -347 l iskazana potreba za hrvatskim referentnim sin- i dijakronijskim korpusom l dân je prijedlog za sastav korpusa razrađen je opseg, vremenski raspon i njegova struktura l predložena je dostupnost putem WWW-a l

HNK v 1. 0: Struktura l 30 m 30 -milijunski korpus suvremenoga hrvatskoga jezika

HNK v 1. 0: Struktura l 30 m 30 -milijunski korpus suvremenoga hrvatskoga jezika – tekstovi od 1990. do danas – različita područja i žanrovi – reprezentativan za suvremeni hrvatski standard l HETA Hrvatski elektronički tekstovni arhiv – tekstovi stariji od 1990. – tekstovi čitavih serija publikacija / autora nakon 1990. koji bi poremetili ravnotežu i reprezentativnost 30 m-a

HNK v 1. 0: 30 m tipologija tekstova l nema novijih istraživanja o produkciji

HNK v 1. 0: 30 m tipologija tekstova l nema novijih istraživanja o produkciji / recepciji teksta u hrvatskom l nema usustavljenih podataka o protoku teksta u društvu – broj naslova koji se posuđuju u javnim knjižnicama – broj tjedana koliko neki naslov ostaje na popisu uspješnica – ukupna naklada novina, revija i časopisa –. . . l kriteriji za odabir tekstova u korpus – podatci iz komercijalnih marketinških istraživanja o recepciji novina i revija – književna kritika o suvremenoj hrvatskoj prozi – strukture ostalih velikih referentnih korpusa (BNC, CNC. . . )

HNK v 1. 0: 30 m tipologija tekstova 2 1. Informativni tekstovi 1. 1.

HNK v 1. 0: 30 m tipologija tekstova 2 1. Informativni tekstovi 1. 1. novine 1. 1. 1. dnevnici 1. 1. 2. tjednici 1. 1. 3. dvotjednici 1. 1. 4. sporadičnici 1. 2. magazini 1. 2. 1. tjednici 1. 2. 2. dvotjednici 1. 2. 3. mjesečnici 1. 2. 4. dvo-/tromjesečnici 1. 3. knjige 1. 3. 1. publicistika 1. 3. 2. vještine itd. 1. 3. 3. znanost 2. Imaginativni tekstovi (Fiction) 2. 1. proza 2. 1. 1. romani 2. 1. 2. pripovijetke 2. 1. 3. ogledi 2. 1. 4. dnevnici, putopisi. . . 3. Miješani tekstovi 3. 1. imaginativno-faktografska djela 3. 3. govori 74 37 22 9 3 3 16 9 1 3 3 21 4 4 13 23 23 13 5 4 1 3 2 1 22200000 11100000 6600000 2700000 900000 4800000 2700000 300000 900000 6300000 1200000 3900000 6900000 3900000 1500000 1200000 300000 900000 600000 300000

HNK v 1. 0: Prikupljanje tekstova l na početku je doneseno nekoliko tehničkih odluka

HNK v 1. 0: Prikupljanje tekstova l na početku je doneseno nekoliko tehničkih odluka – bez utipkavanja – bez optičkoga prepoznavanja pismena (OCR) – samo e-tekst l neki su tekstni tipovi / žanrovi lakše dobavljivi – nema problema s • novinama • književnošću • znanstvenim knjigama (društvene i humanističke znanosti) – ozbiljan nedostatak građe iz • prirodnih znanosti (kemija, fizika) • tehničkih znanosti l do sada skupljeno više od 200 Mw, ali nije uravnoteženo l problemi s autorskim pravima – pojedinačni sporazumi s nakladnicima

HNK v 1. 0: Obilježavanje tekstova l XML – XCES (XML inačica CES-a =

HNK v 1. 0: Obilježavanje tekstova l XML – XCES (XML inačica CES-a = Corpus Encoding Standard) & XML TEI – Ide, Bonhomme & Romary (2000) – pridržavajte se standarda! za razmjenu: • podataka: vaš korpus može na isti način biti čitljiv negdje drugdje • aplikacija: različiti alati mogu se primijeniti na vaš korpus bez ikakve potrebe za prilagodbom / preoblikom podataka l XML = UNICODE kompatibilan (bez problema s kodnim stranicama) l obilježavanje – <DIV> – <P> – (<W> l 1. razina 2. razina) detekcija rečeničnih granica <S> – problem: redni brojevi koji se u hrvatskome pišu s točkom, (npr. VII. ili 2002. ) gdje točka može biti i kraj rečenice (28% su oboje!)

HNK v 1. 0: Konverzija tekstova l formati ulaznih tekstova – WWW izvori: HTML,

HNK v 1. 0: Konverzija tekstova l formati ulaznih tekstova – WWW izvori: HTML, XML – DTP izvori: RTF, DOC, QXD, WP, TXT itd. l vlastiti software: 2 XML – ulaz: HTML, RTF – izlaz: XML, bez zaglavlja – dvostupanjska konverzija s pomoću korisničkih skripata – omogućuje visoku razinu automatizacije (batch processing)

HNK v 1. 0: korpusni format 1 <? xml version="1. 0"? > <!DOCTYPE ces.

HNK v 1. 0: korpusni format 1 <? xml version="1. 0"? > <!DOCTYPE ces. Doc PUBLIC "-//CES//DTD XML ces. Doc//EN" "xces. Doc. dtd" [ ]> <ces. Doc version="3. 19"> <ces. Header type="text" version="3. 19"> <file. Desc> <title. Stmt> <h. title>Electronic version of Vecernji list, vl 990311</h. title> <resp. Stmt> <resp. Type>XCES markup prepared by</resp. Type> <resp. Name>Bosko Bekavac</resp. Name> </resp. Stmt> </title. Stmt> <extent> <word. Count>4456</word. Count> <byte. Count>25385</byte. Count> </extent> <publication. Stmt> <distributor>Project MZT RH 130718</distributor> <pub. Address>Institute of linguistics</pub. Address> <telephone>+385 1 6120 -142</telephone> <fax>+385 1 6856 -118</fax> <e. Address>http: //www. ffzg. hr/zzl-home. htm</e. Address> <idno>76676665676</idno> <availability status="free"> </availability> <pub. Date>1999 -12 -20</pub. Date> </publication. Stmt> <source. Desc> <bibl. Struct>

HNK v 1. 0: korpusni format 2 <BODY> <DIV 0 type="article"> <HEAD type="nn">U GORICI

HNK v 1. 0: korpusni format 2 <BODY> <DIV 0 type="article"> <HEAD type="nn">U GORICI SVETOJANSKOJ ODRŽAN 12. FESTIVAL PJEVAČA AMATERA</HEAD> <HEAD type="na">Ivana osvojila županijski Sanremo</HEAD> <HEAD type="pn">* Od 20 natjecatelja žiri je najboljom proglasio Ivanu Erdeljac s pjesmom "Crazy", druga <FIGURE>Publici su se najviše svidjeli Marija Šalić i Petar Puhijera</FIGURE> <P>Pod medijskim pokroviteljstvom "Večernjeg lista" i Radio Jaske, a uz pomoć DIR "Rubinić" kao generaln pokraj Jastrebarskog održan je 12. festival pjevača amatera. </P> <P>Prve festivalske večeri, na kojoj su nastupila 22 izvođača do 15 godina, prvu nagradu stručnog žirija nagrada pripala je Nikolini Oslaković iz Gornje Reke za pjesmu "Neka mi ne svane", a treća Mariji Jurini "Mrvice" s pjesmom "Mrvica", dok je drugu nagradu dodijelila Natali Rajnović iz Jaske za pjesmu "Don"t e debitanta prve večeri proglašena je Irena Kišan iz Zdenčine s pjesmom "Izdali me". </P> <P>Druga večer - s dvadeset starijih izvođača iz Jaske, Karlovca, Bjelovara, Zagreba i Velike Gorice - b interpretacije pa nije bilo lako odabrati najbolje. </P> <P>Nakon poduže stanke tijekom koje su izbrojani glasovi - a koju su publici kratili gost večeri Ivo Pat pobjednici. Prema ocjeni stručnog žirija, prvu nagradu i zlatnu plaketu "Večernjaka" dobila je Karlovčan Antoniji Mikiti iz Velike Gorice za pjesmu "To", a treća Kseniji Cvetetić iz Petrovine za pjesmu "Neka m <P>Publika je najviše glasova dodijelila svetojansko-zagrebačkom duetu Mariji Šalić i Petru Puhijeri za zlatna plaketa. Na drugo mjesto publika je svrstala "Svetojanske tamburaše" koji su nastupili s pjesmom ljude". </P> <P>Najboljom debitanticom završne večeri proglašena je Zagrepčanka Marina Posilović s pjesmom "Piši, piš lajt" s pjesmom "Oj suseda, suseda". Čini se da su ovogodišnje nagrade - a bilo ih je doista mnogo, od s poklon-bonova - završile u pravim rukama. Oni koji ih nisu dobili, a možda su ih također zaslužili, neka Svetojanskog festivala - svojevrsnog Sanrema zagrebačke županije - nastavlja se. </P> <BYLINE>N. Godrijan-Videc</BYLINE> </DIV 0> </BODY>

HNK v 1. 0: korpusni format 3 l opojavničenje (tokenization) – TOKENIZER: vlastiti software

HNK v 1. 0: korpusni format 3 l opojavničenje (tokenization) – TOKENIZER: vlastiti software • ulaz: XML • izlaz 1: tab-datoteka kao ulaz u bazu podataka (vertikalizirani korpus) • izlaz 2: opojavničeni XML <BODY> <DIV 0 type="article"> <HEAD type="nn"> U GORICI SVETOJANSKOJ ODRŽ AN 12. FESTIVAL PJEVAČ A AMATERA </HEAD> <HEAD type="na"> Ivana osvojila ž upanijski Sanremo </HEAD> <HEAD type="pn"> * Od 20 natjecatelja ž iri je najboljom proglasio Ivanu Erdeljac s pjesmom " Crazy " , druga je Antonija Mikita s pjesmom vl 990301 gr 01 vl 990301 gr 01 vl 990301 gr 01 vl 990301 gr 01 vl 990301 gr 01 vl 990301 gr 01 vl 990301 gr 01 vl 990301 gr 01 vl 990301 gr 01 vl 990301 gr 01 vl 990301 gr 01 1 7 28 44 46 53 66 78 80 82 91 104 111 118 134 140 149 165 172 179 195 197 200 203 216 229 239 249 255 264 266 275 276 281 282 284 290 293 302 309 311 X X X R R B I R R R X X I R B R R R R R I I R R R

HNK v 1. 0: korpusni format 4 l izlaz 2: opojavničeni XML <BODY> <DIV

HNK v 1. 0: korpusni format 4 l izlaz 2: opojavničeni XML <BODY> <DIV 0 type="article"> <HEAD type="nn"> <W type="R">U</W> <W type="R">GORICI</W> <W type="R">SVETOJANSKOJ</W> <W type="R">ODRŽAN</W> <W type="B">12</W> <W type="I">. </W> <W type="R">FESTIVAL</W> <W type="R">PJEVAČA</W> <W type="R">AMATERA</W> </HEAD> <HEAD type="na"> <W type="R">Ivana</W> <W type="R">osvojila</W> <W type="R">županijski</W> <W type="R">Sanremo</W> </HEAD> <HEAD type="pn"> <W type="I">*</W> <W type="R">Od</W> <W type="B">20</W> <W type="R">natjecatelja</W> <W type="R">žiri</W> <W type="R">je</W> <W type="R">najboljom</W> <W type="R">proglasio</W> <W type="R">Ivanu</W> <W type="R">Erdeljac</W> <W type="R">s</W> <W type="R">pjesmom</W> <W type="I">"</W> <W type="I">, </W> <W type="R">druga</W> <W type="R">je</W> <W type="R">Antonija</W> <W type="R">Mikita</W> <W type="R">s</W> <W type="R">pjesmom</W> <W type="I">"</W> <W type="R">To</W> <W type="I">"</W> <W type="I">, </W> <W type="R">a</W> <W type="R">treće</W> <W type="R">je</W> <W type="R">mjesto</W> <W type="R">osvojila</W> <W type="R">Ksenija</W> <W type="R">Cvetetić</W> </HEAD> <FIGURE> <W type="R">Publici</W> <W type="R">su</W> <W type="R">se</W> <W type="R">najviše</W> <W type="R">svidjeli</W> <W type="R">Marija</W> <W type="R">Šalić</W> <W type="R">i</W> <W type="R">Petar</W> <W type="R">Puhijera</W> </FIGURE> <P> <W type="R">Pod</W> <W <W <W <W <W <W <W <W <W type="R">medijskim</W> type="R">pokroviteljstvom</W> type="I">"</W> type="R">Večernjeg</W> type="R">lista</W> type="I">"</W> type="R">i</W> type="R">Radio</W> type="R">Jaske</W> type="I">, </W> type="R">a</W> type="R">uz</W> type="R">pomoć</W> type="R">DIR</W> type="I">"</W> type="R">Rubinić</W> type="I">"</W> type="R">kao</W> type="R">generalnog</W> type="R">te</W> type="R">još</W> type="R">sedamdesetak</W> type="R">drugih</W> type="R">sponzora</W> type="I">, </W> type="R">u</W> type="R">petak</W> type="R">i</W> type="R">u</W> type="R">subotu</W> type="R">Gorici</W> type="R">Svetojanskoj</W> type="R">pokraj</W>

HNK v 1. 0: korpus na www-u http: //hnk. ffzg. hr l probna inačica

HNK v 1. 0: korpus na www-u http: //hnk. ffzg. hr l probna inačica V 1. 0: 1998 -12 -05 – 30 m: 3 Mw l probna inačica V 1. 1: 1999 -02 -14 & 1999 -07 -20 – 30 m: 7, 67 Mw – HETA: 2, 9 Mw s CD-ROM-a: Klasici hrvatske književnosti, Naklada Bulaja, Zagreb, 1999. l probna inačica V 1. 2 (oko 10 Mw): 2001 -10 – tekst format: quasi-HTML, bez XML-a l probna inačica V 1. 3 (oko 17 Mw): 2002 -06 l tehničke pojedinosti – – Win. NT platforma MS-SQL server 6. 5 s ASP/ODBC i vlastitim sučeljem za pretraživanje jednostavni jedno-rječni upiti bez redanja i bez POS / MSD podataka konkordancije i čestota

HNK v 2. 0: korpus na www-u http: //hnk. ffzg. hr l nova inačica

HNK v 2. 0: korpus na www-u http: //hnk. ffzg. hr l nova inačica v 2. 0ß: 2004 -12 -20 – napušta se razdioba na 30 m i HETA-u – korpus 3. generacije (John Sinclair: “The bigger, the better”) – >46 Mw l inačica v 2. 0: 2005 -12 -18 – 101, 2 Mw l tehničke pojedinosti – nova platforma (Linux), sustav Pavela Rychlýa: http: //www. textforge. cz • poslužitelj (“korpusový manažer”): Manatee • korisnički klijent: Bonito – – – znatno razrađenije i pristupačnije sučelje konkordancije (više riječi, regularni izrazi, strukturne oznake itd. ) statistički podatci pronalaženje kolokacija upiti po lemama, MSD-ovima

POS/MSD označavanje HNK l POS / MSD podatci u korpusu znatno mu pospješuju uporabivost

POS/MSD označavanje HNK l POS / MSD podatci u korpusu znatno mu pospješuju uporabivost l hrvatski (poput bilo kojeg drugoga slavenskoga jezika) – flektivno bogat jezik • • • imenice: 7 padeža, 2 broja, 3 roda pridjevi: + 2 lika (određeni i neodređeni), 3 stupnja u komparaciji prilozi: 3 stupnja u komparaciji zamjenice: 7 padeža, 2 broja, 3 roda, 3 lica brojevi: 7 padeža, 3 roda(, 2 broja) glagoli: – – – l 2 broja, 3 lica 3 jednostavna, 3 analitička vremena (s 3 roda i 2 broja u glagolskim pridjevima) 2 dodatna participa (glagolski prilozi) 2 kondicionala imperativ iznimno složen sustav glagolskoga vida (svršeni i nesvršeni / iterativni) većina je sintaktičkih odnosa u rečenici kodirana fleksijom – POS/MSD označavanje/lematizacija značajno pomaže sintaktičkoj analizi

Hrvatski morfološki leksikon (HML) l model hrvatskoga morfološkoga sustava l sve kombinacije morfema u

Hrvatski morfološki leksikon (HML) l model hrvatskoga morfološkoga sustava l sve kombinacije morfema u skladu s morfotaktičkim pravilima hrvatskoga na 2 razine – derivacija/kompozicija – fleksija l ostvarive generiranjem – osnova riječi – oblika riječi l pohranjenih u bazu podataka za daljnju primjenu – leksikon osnova riječi – leksikon oblika riječi l i-projekt 2002 -100 Ministarstva znanosti i tehnologije Republike Hrvatske – jednogodišnji projekt usmjeren na primjenu IT u znanosti

Leksikon oblika l flektivni model hrvatskoga tj. flektivni dio HML-a već je ostvaren l

Leksikon oblika l flektivni model hrvatskoga tj. flektivni dio HML-a već je ostvaren l već postoje preporuke za flektivne oznake – MULTEXT East projekt (1995 -1997): 6 CEE jezika – MULTEXT East v 3. 0, http: //nl. ijs. si/ME/V 3 – hrvatska specifikacija dodana još 1998. l Hrvatski flektivni generator: Gen. Oblik (Tadić 1994) – klasifikacijski utemeljen flektivni model – 613 flektivnih uzoraka • • 404 imeničnih 42 pridjevskih 12 komparacijskih 155 glagolskih – jednostavan model, poštuje jezične jedinice, nije računalno optimiziran – nastavci i alomorfske preoblike osnova upravljane su flektivnim uzorkom

Leksikon oblika 2: generiranje l generator uzimlje 3 ulazna popisa – lema s osnovama

Leksikon oblika 2: generiranje l generator uzimlje 3 ulazna popisa – lema s osnovama (leksikon) – nastavaka – preoblika l leksikon lema osnova flektivni uzorak deklinacija bacati baciti bagatelizirati bagerirati bajati baktati balansirati balegati baliti balzamirati baljezgati bac bagatelizir bagerir baj bakt balansir baleg balzamir baljezg 0/501/0 0/511/0 0/501, 502/0 0/501/0 0/509, 510/0 0/501, 502/0 0/501/0 konjugacija komparacija

HML v 1. 0 l natuknički popis iz Rječnika hrvatskoga jezika (Anić 11991) –

HML v 1. 0 l natuknički popis iz Rječnika hrvatskoga jezika (Anić 11991) – oko 36, 000 natuknica • 18, 019 imenica • 7, 735 glagola • 5, 504 pridjeva • 6, 517 priloga • . . . l ručno označeni pripadajućim im brojem flektivnoga uzorka l generirano imenice glagoli pridjevi prilozi lema 12, 076 7, 735 5, 504 6, 617 oblika 171, 380 232, 276 1, 207, 786 11, 706

HML v 1. 0 = abdikacija Ncfpg abdikacija Ncfsn abdikacijama abdikacija Ncfpd abdikacijama abdikacija

HML v 1. 0 = abdikacija Ncfpg abdikacija Ncfsn abdikacijama abdikacija Ncfpd abdikacijama abdikacija Ncfpi abdikacijama abdikacija Ncfpl abdikacije abdikacija Ncfpa abdikacije abdikacija Ncfpn abdikacije abdikacija Ncfpv abdikacije abdikacija Ncfsg abdikaciji abdikacija Ncfsd abdikaciji abdikacija Ncfsl abdikacijo abdikacija Ncfsv abdikacijom abdikacija Ncfsi abdikaciju abdikacija Ncfsa = abeceda Ncfsn abecede abeceda Ncfsg abecedi abeceda Ncfsd abecedu abeceda Ncfsa abecedo abeceda Ncfsv abecedi abeceda Ncfsl abecedom abeceda Ncfsi abecede abeceda Ncfpn abeceda Ncfpg abecedama abeceda Ncfpd abecede abeceda Ncfpa abecede abeceda Ncfpv abecedama abeceda Ncfpl abecedama abeceda Ncfpi = abolicija Ncfsn abolicije abolicija Ncfsg aboliciji abolicija Ncfsd aboliciju abolicija Ncfsa abolicijo abolicija Ncfsv aboliciji abolicija Ncfsl abolicijom abolicija Ncfsi abolicije abolicija Ncfpn abolicija Ncfpg abolicijama abolicija Ncfpd abolicije abolicija Ncfpa abolicije abolicija Ncfpv abolicijama abolicija Ncfpl abolicijama abolicija Ncfpi = abrazija Ncfsn abrazija Ncfpg abrazijama abrazija Ncfpd abrazijama abrazija Ncfpi abrazijama abrazija Ncfpl abrazije abrazija Ncfpa abrazije abrazija Ncfpn abrazije abrazija Ncfpv abrazije abrazija Ncfsg abraziji abrazija Ncfsd abraziji abrazija Ncfsl abrazijo abrazija Ncfsv abrazijom abrazija Ncfsi abraziju abrazija Ncfsa

Hrvatski lematizacijski poslužitelj l HML v 2. 0 tj. leksikon oblika pohranjen je u

Hrvatski lematizacijski poslužitelj l HML v 2. 0 tj. leksikon oblika pohranjen je u bazu podataka l slobodno pretraživ na http: //hml. ffzg. hr – – – korisničko ime: proba; zaporka: proba oko 45. 000 lema općega jezika oko 15. 000 osobnih muških i ženskih imena oko 50. 000 prezimena registriranih u RH preko 3. 500. 000 generiranih oblika riječi mogućnost pokretranja pretrage preko Googlea s upitom koji obuhvaća sve oblike hrvatskih riječi –

POS / MSD označavanje HNK l ostvareni koraci – stvaranje potkorpusa HNK od barem

POS / MSD označavanje HNK l ostvareni koraci – stvaranje potkorpusa HNK od barem 100. 000 riječi (CW 2000) – sraz CW 2000 s HML-om – dobivanje svih mogućih MSD/lema interpretacija na unigramskoj razini (kotekst se ne uzimlje u obzir) – (polu-)ručno razobličavanje (disambiguation) MSD označen i lematiziran CW 2000: pretraživ s pomoću Bonita po lemama i MSD-ovima – uporaba razobličenoga CW 2000 korpusa kao trening korpusa za označivač (tagger) Tn. T – vrjednovanje označavanja (Agić & Tadić, LREC 2006) – označavanje HNK treniranim označivačem

Označavanje HNK l sraz na unigramskoj razini l dobivanje “homografske težine” svake pojavnice i

Označavanje HNK l sraz na unigramskoj razini l dobivanje “homografske težine” svake pojavnice i različnice l homografija izrazito visoka

Označavanje HNK l HML se popunjava s novim natuknicama – postupak automatskoga proširivanja HML-a

Označavanje HNK l HML se popunjava s novim natuknicama – postupak automatskoga proširivanja HML-a (Oliver & Tadić, LREC 2004) – metode automatskoga učenja paradigmi – provjeren od prije na ruskome – primjena na hrvatskome – preliminarni rezultati dali ohrabrujuće rezultate

Označavanje HNK: razobličenje l uporaba lokalnih gramatika (regularnih gramatika) za razobličenje u stanovitim vrstama

Označavanje HNK: razobličenje l uporaba lokalnih gramatika (regularnih gramatika) za razobličenje u stanovitim vrstama konstrukcija – nazivi, brojčani izrazi, izrazi za mjere – vremenski i prostorni izrazi – prijedložni izrazi: ((u)P ((bližem)Adj (gradu)N)NP)PP (Bekavac, 2006) l Intex i Unitex sustavi: regularne gramatike, transduktori l statistika POS / MSD kolokacijskih uzoraka – u pilot-korpusu AN NN NAN ANN 40935 21931 10033 5172 5021

Označavanje HNK: treniranje označivača l TNT označivač (Brants 2000), trigramski statistički označivač l dobro

Označavanje HNK: treniranje označivača l TNT označivač (Brants 2000), trigramski statistički označivač l dobro se nosi s velikih skupovima oznaka – očekivana veličina = preko 2000 oznaka l korišten u eksperimentima za slovenski (Džeroski i dr. 2000) l moguć redizajn skupa oznaka: dvo-stupanjsko označavanje (? ) – 1. stupanj: skup oznaka sa širim kategorijama (samo vrsta riječi) – 2. stupanj: finiji skup oznaka l npr. hrvatski pasivni participi – dio glagolske paradigme • Rukavice su bile bačene na stol. – adjektivizirani participi dijelovi pridjevske paradigme • Bačene rukavice ležale su na stolu. – visoka čestota mnogo “ručnog” razrješavanja homografa • rješenje: uvođenje međukategorije (npr. participa) i prepuštanje razrješenja homografa na sljedećoj razini obradbe

Sintaktičko označavanje HNK: HOBS l izgradnja Hrvatske ovisnosne banke stabala (HOBS) l preuzeta metodologija

Sintaktičko označavanje HNK: HOBS l izgradnja Hrvatske ovisnosne banke stabala (HOBS) l preuzeta metodologija iz Praške ovisnosne banke stabala (PDT) – 1. označavanje analitičkoga sloja – 2. označavanje tektogramatičkoga sloja l ručno označavanje ovisnosnih sintaktičkih funkcija l korpus: CW 2000 l alat: Tr. Ed (Tree editor) Petra Pajasa (PDT) l na hnk. ffzg. hr/hobs – opis banke – primjeri >50 rečenica –

Perspektive l HNK – daljnje povećanje na 200 Mw do 2010. – uključivanje POS

Perspektive l HNK – daljnje povećanje na 200 Mw do 2010. – uključivanje POS / MSD podataka u korpus (bez razobličenja već 2006. ) l HML – proširiti leksikon oblika novim lemama – dovršiti model leksikona osnova i generirati osnove (dugoročan plan) l POS / MSD označavanje HNK – razvitak lokalnih gramatika i njihova primjena u razrješenju homografa – treniranje označivača na ostalim vrstama tekstova l MZOŠ-u u ožujku prijavljen program Računalnolingvistički modeli i jezične tehnologije za hrvatski jezik s 5 projekata – – – Hrvatski jezični resursi i njihovo označavanje Hrvatska računalna sintaksa Leksička semantika u izgradnji hrvatskoga Word. Neta Informacijska tehnologija u prevođenju hrvatskoga i učenju jezika Otkrivanje znanja u hrvatskim dokumentima

Hrvatski nacionalni korpus Marko Tadić (marko. tadic@ffzg. hr, hnk. ffzg. hr/mt) Odsjek za lingvistiku,

Hrvatski nacionalni korpus Marko Tadić (marko. tadic@ffzg. hr, hnk. ffzg. hr/mt) Odsjek za lingvistiku, Filozofski fakultet Sveučilište u Zagrebu (hnk. ffzg. hr) Sveučilište u Grazu, 2006 -04 -04