Puudepangad treebanks Heli Uibo T arvutiteaduse instituut levaade
Puudepangad (treebanks) Heli Uibo TÜ arvutiteaduse instituut
Ülevaade n n n n Mis on treebank (TB)? Milleks TB-sid vaja on? TB-des kasutatavad süntaksimudelid TB-de loomise ja kasutamise vahendid, visualiseerimine Kuulsamad TB-d maailmas Nordic Treebank Network Eesti keele süntaksipuude pank – mis on olemas ja mida vaja teha?
Mis on puudepank? n n n Puudepank (inglise k. treebank) on süntaktiliselt (+ semantiliselt) märgendatud tekstikorpus. Korpuse tekstid võimalikult loomulikku päritolu, näiteks ajalehetekstid, suuline kõne. Märgendus peab võimaldama iga lause jaoks konstrueerida puu, seega peab kasutatav süntaksimudel kirjeldama lause osade vahelisi sõltuvussuhteid.
Milleks puudepanku vaja on? n Keeletarkvara testimine, sh. eriti ¨ süntaksianalüsaatorid ¨ leksikograafi abivahendid ¨ masintõlge ¨ küsimus-vastussüsteemid n n lingvistiliste teooriate paikapidavuse kontroll masintõlkesüsteemide arendamine (eeldab paralleel-puudepanka, millest tuletatakse struktuuride transformatsioonireeglid)
Puudepankades kasutatavad süntaksimudelid Dependency Grammar erinevad realisatsioonid n Head-driven Phrase Structure Grammar (HPSG) = puustruktuur + tippude tunnusstruktuurid n
Puudepanga loomine n Eesmärk on lingvistiline korrektsus, seepärast toimub märgendamine ¨ täielikult käsitsi või ¨ poolautomaatselt (näiteks esmalt rakendatakse tekstile süntaksianalüsaatorit, märgendust parandavad ja täiendavad eksperdid)
Puudepanga kasutamine n Päringud: ¨ Millistes kontekstides esines antud struktuur? Jne. ¨ Paralleelpuudepankades: Kuidas tõlgiti mingi struktuur ühest keelest teise? masintõlkesüsteemid n Keeletarkvara arendamine ¨ parserid ¨ leksikograafi abivahendid ¨ masintõlge ¨ küsimus-vastussüsteemid
Visualiseerimisvahendid Märgendatud teksti põhjal joonistatakse välja süntaksipuu n Ka puudepanga arendamise tarkvara võib olla graafilise kasutajaliidesega - hõlbustab lingvisti tööd n
Kuulsamad puudepangad maailmas Penn Treebank – Univ of Pennsylvania n Prague Treebank (tšehhi k. ) n Verbmobil (saksa) n Ti. Ger (saksa) n Lin. GO – CSLI, Stanford (HPSG) n
Nordic Treebank Network n Osalejad: ¨ Rootsi: Växjö, Göteborgi, Stockholmi, Uppsala Ülikool, KTH (Stockholm) ¨ Norra: NTNU (Trondheim), Bergeni ja Oslo Ülikool ¨ Taani: CBS (Copenhagen Business School), SDU (Univ. of Southern Denmark) ¨ Island: Islandi Ülikool ¨ Soome: CSC (Scientific Computing Ltd. ), Espoo ¨ Eesti: Tartu Ülikool
Nordic Treebank Network n Eesmärgid: ¨ Dokumenteerida olemasolevad ressursid ja jooksvad projektid korpuste süntaktilise märgendamise alal. ¨ Toetada keeletehnoloogia-alast doktoriõpet Põhjamaades. ¨ Luua väike paralleel-puudepank. samad tekstid, tõlke-relatsioonis n sama märgendussüsteem n ¨ Toetada suuremate puudepankade loomist Põhjamaade keelte jaoks. ¨ Rahvusvaheline koostöö.
Nordic Treebank Network n Tegevused: ¨ Rahvusvaheline konverents TLT 2003 (Treebanks and Linguistic Theories) 14. -15. nov. 2003 Växjö’s ¨ Ph. D kursused: 2004 kevadel ja sügisel n Teemad (esialgsed): n ¨ Treebanks for spoken language (Jens Allwood) ¨ Dependency structures in treebanks (Sabine Kirchmeier-Andersen) ¨ Treebanks: Volk) Formats, Tools and Usage (Martin
Nordic Treebank Network ¨ Ressursside ja projektide dokumenteerimine ¨ Ühiselt kasutatava puudepanga arendamise tarkvara hankimine/kirjutamine ¨ Esimene kohtumine 17. -18. sept. 2003
Eesti keele süntaksipuude pank – mis on olemas? n kitsenduste grammatikal (constraint grammar) põhinevad ¨ morfoloogiline ühestaja (T. Puolakainen), valib sõnavormi morfoloogilistest tõlgendustest välja ühe ja õige (rakendatakse pärast morf. analüsaatorit) ¨ süntaksianalüsaator (K. Müürisep) = shallow syntactic parser, määrab sõnade süntaktilised funktsioonid lauses ¨ Tulemused (2000. a. lõpp): recall = 99. 2%, precision = 89. 6%, kui sisendis pole vigu (käsitsi üle kontrollitud) n recall = 96. 4%, precision = 78. 1%, kui sisend on automaatselt morfoloogiliselt analüüsitud. n
Eesti keele süntaksipuude pank – mis on olemas? n n kitsenduste grammatika järgi morfoloogiliselt ja süntaktiliselt märgendatud ja ühestatud korpus mahuga ca 123 000 sõna, (ilukirjandus 106 500 + ajalehed 10 000 + juura 6000) eelmärgendamiseks on kasutatud programme estmorf (H. -J. Kaalep), estyhmm (Markovi peitmudelil põhinev statistiline morf. ühestaja, H. J. Kaalep, T. Vaino) ja CGP (constraint grammar parser, K. Müürisep)
Eesti k. puudepank – mis olemas? n Märgendamine viiakse lõpule käsitsi ¨ lõplik morfoloogiline ühestamine pärast programmide estmorf ja estyhmm rakendamist; ¨ lõplik süntaktiline ühestamine pärast programmi CGP rakendamist. n Metoodika: ¨ Ühte ja sama teksti ühestavad sõltumatult kaks lingvisti. ¨ Tulemusi võrreldakse automaatselt. ¨ Kui mõlemad lingvistid on määranud sõnale sama süntaktilise funktsiooni, siis loetakse see õigeks. ¨ Kui hinnangud lahknevad, siis probleemi arutatakse ja lahendatakse erimeelsused.
Eesti keele kitsenduste grammatika süntaksianalüsaatori märgendid n n n n n SUBJ – alus OBJ – sihitis +FMV, -FMV, +FCV, -FCV – öeldise märgendid PRD – öeldistäide ADVL – määrus NN>, <NN – nimisõnaline ees- ja järeltäiend AN>, <AN – omadussõnaline ees- ja järeltäiend P>, <P – kaassõnafraasi laiend Q>, <Q – kvantorifraasi laiend
Näide märgendatud lausest Mitmekesisus mitme_kesi=sus+0 //_S_ com sg nom #cap // **CLB @SUBJ on ole+0 //_V_ main indic pres ps 3 sg ps af #Fin. V #Intr // @+FMV elu+0 //_S_ com sg gen // @NN> vaieldamatu+0 //_A_ pos sg nom // @AN> omapära oma_pära+0 //_S_ com sg nom // @PRD $, $, //_Z_ Com //
Näide märgendatud lausest (järg) selle see+0 //_P_ dem sg gen // **CLB @P> vastu+0 //_K_ post #gen // @ADVL ei ei+0 //_V_ aux neg // @NEG tohi tohti+0 //_V_ mod indic pres ps neg #Fin. V #Intr // @+FCV kätt käsi+tt //_S_ com sg part // @OBJ tõsta tõst+a //_V_ main inf #NGP-P // @-FMV $.
Fraasistruktuuripuu (1. osalause) S NP N mitmekesisus VP aux. V N on omapära Adj vaieldamatu N elu
Fraasistruktuuripuu (2. osalause) S PP N selle VP P vastu neg mod. V ei c. V tohi N kätt V tõsta
Probleem: puu joonistamiseks ei piisa CG-tüüpi pindsüntaktilisest analüüsist Võimalik lahendus: üleminek FDG-le (Functional Dependency Grammar) – sõltuvussuhted paremini väljendatud, seejuures võimalik ka fraasistruktuuri taastamine sõltuvusstruktuurist FDG realisatsioon: Connexor OY (T. Järvinen jt. ) www. conexor. fi/demos n
Linke n http: //www. bultreebank. org/Proceedings. html – Proceedings of The First Workshop on Treebanks and Linguistic Theories (TLT 2002) Sozopol, Bulgaaria n http: //wodan. let. rug. nl/vannoord_bin/alpino – Alpino treebank (Groningeni Ülikool, hollandi k. , näitelaused olemas) n http: //www. speech. kth. se/~bea/treebank. html – Beata Megyesi lingid n http: //faculty. washington. edu/dillon/Gram. Resour ces/Gram. Resources. html – resources for studying English syntax online
Lõpetuseks Eesti keele puudepank ootab tegijaid (põhitöö 2004 -. . . , aga tausta võib uurima hakata varem).
- Slides: 24