Lausekontrollija prototp HeikiJaan Kaalep Krista Liin 05 11

  • Slides: 15
Download presentation
Lausekontrollija prototüüp Heiki-Jaan Kaalep, Krista Liin 05. 11. 2019 1

Lausekontrollija prototüüp Heiki-Jaan Kaalep, Krista Liin 05. 11. 2019 1

Projektis osalejad • • • Heiki-Jaan Kaalep Eduard Barbu Mare Koit Krista Liin Kadri

Projektis osalejad • • • Heiki-Jaan Kaalep Eduard Barbu Mare Koit Krista Liin Kadri Muischnek Kaili Müürisep Kairit Sirts Katrin Tsepelina Agnes Luhtaru 2

Lausekontrollija • „sdaadjon“ • „Ma kirjutab vigadega. “ %ühildumisviga alus-öeldis „Ma kirjutan vigadega. “

Lausekontrollija • „sdaadjon“ • „Ma kirjutab vigadega. “ %ühildumisviga alus-öeldis „Ma kirjutan vigadega. “ • • • Tekstiredaktorisse Brauserisse Keeleõppeprogrammidesse Tekstide eeltöötlus … 3

3 lähenemist • Reeglipõhine Vajab palju tööd Kõrge täpsus • Masinõppel – tehisnärvivõrk Vajab

3 lähenemist • Reeglipõhine Vajab palju tööd Kõrge täpsus • Masinõppel – tehisnärvivõrk Vajab treenimiseks ja hindamiseks märgendatud andmeid Robustne, tugev keelemudel • Hübriid Lõpuks saab need kaks kombineerida 4

Eeltööd - korpus • EMMA Lõpukirjandid – eestikeelsete inimeste kirjutatud tekstid • Keeleõppijate tekstid

Eeltööd - korpus • EMMA Lõpukirjandid – eestikeelsete inimeste kirjutatud tekstid • Keeleõppijate tekstid 2 korpust ja 2 eri skeemi, märgendatud vigade asukohad ja vealiigid. • Paralleeltekstid ~9000 lauset kujul vigane lause - parandatud lause(d). Parandati formaati ja viidi masintöötluseks sobivamale kujule. https: //gitlab. keeleressursid. ee/krista-liin/ut_veakorpus/tree/master Kasutatav lausekontrollija treenimiseks ja testimiseks. 5

Reeglipõhine – HFST ja CG • Robustsem morfoloogiline analüüs sh analüüside mõttekas järjestamine "<Saan>"

Reeglipõhine – HFST ja CG • Robustsem morfoloogiline analüüs sh analüüside mõttekas järjestamine "<Saan>" "saama" V Pers Prs Ind Sg 1 Aff <W: 2. 00000> "<tolle>" "too" Pron Sg Gen <W: 6. 00000> "saan" N Sg Nom <W: 9. 00000> "<teada>" "toll" N Pl Par <W: 11. 00000> "<sisu>" "teadma" V Inf <W: 3. 00000> "sisu" N Sg Nom <W: 6. 00000> "teada" A <W: 11. 00000> "sisu" N Sg Gen <W: 7. 00000> 6

Reeglipõhine – HFST ja CG • Robustsem morfoloogiline analüüs sh analüüside mõttekas järjestamine "<materjaalse>"

Reeglipõhine – HFST ja CG • Robustsem morfoloogiline analüüs sh analüüside mõttekas järjestamine "<materjaalse>" "materjaalse" ? "materiaalne" A Sg Gen <W: 21. 0791> <WA: 11. 0791> <spelled> "<materiaalse>" "materiaalne" A Sg Nom <W: 30. 0791> <WA: 10. 0791> <spelled> "<materiaalne>" "materiaalne" A Pl Nom <W: 31. 0791> <WA: 11. 0791> <spelled> "<materiaalsed>" "materjal" N Pl Par <W: 31. 0791> <WA: 11. 0791> <spelled> "<materjale>" "materiaalne" A Sg Par <W: 32. 0791> <WA: 12. 0791> <spelled> "<materiaalset>" "materiaalne" A Sg Ade <W: 33. 0791> <WA: 13. 0791> <spelled> "<materiaalsel>" 7

8

8

echo "see kena staadjon , mida ta näed taamal. " | "<mida>". /modes/estgram. mode

echo "see kena staadjon , mida ta näed taamal. " | "<mida>". /modes/estgram. mode "<see>" "see" Pron Sg Nom <W: 1. 00000> : "mis" Pron Sg Par <W: 4. 00000> : "<ta>" "tema" Pron Sg Nom <W: 1. 00000> "<kena>" "kena" A Sg Nom <W: 6. 00000> : "<staadjon>" : "<näed>" "nägema" V Pers Prs Ind Sg 2 Aff <W: 3. 00000> &err-agr "staadion" N Sg Nom <W: 20. 0791> <WA: 10. 0791> <spelled> "<staadion>" &SUGGESTWF &typo err-agr typo "<taamal>" : "taamal" Adv <W: 9. 00000> : "<, >" ", " <W: 0. 00000> <Space. Before. Punct. Mark> "<. >" ". " <W: 0. 00000> : n 9

Reeglipõhine - HFST Ühtlasi speller ja lemmatiseerija programmidesse integreerimiseks sobilikul binaarkujul https: //gtsvn. uit.

Reeglipõhine - HFST Ühtlasi speller ja lemmatiseerija programmidesse integreerimiseks sobilikul binaarkujul https: //gtsvn. uit. no/langtech/trunk/experiment-langs/est/ • Käsurealt • Linux – süsteemitasemel kasutamiseks voikkospell • Libre. Office – plugin Voikko 10

Tehisnärvivõrk ET ET LV LV EN EN Siirdeõppega lisaks vigaste lausetega paralleelkorpus. ET* ET

Tehisnärvivõrk ET ET LV LV EN EN Siirdeõppega lisaks vigaste lausetega paralleelkorpus. ET* ET Koostöös neurotõlke projektiga. 11

Tehisnärvivõrk https: //neurotolge. ee/ 12

Tehisnärvivõrk https: //neurotolge. ee/ 12

Tehisnärvivõrk • Tugev keelemudel Parandab hästi sõnajärje-, ühildumis-, rektsiooni-, kirjavahemärgivigu. Seda ka ilma igasuguste

Tehisnärvivõrk • Tugev keelemudel Parandab hästi sõnajärje-, ühildumis-, rektsiooni-, kirjavahemärgivigu. Seda ka ilma igasuguste veakorpusteta! • Genereeritud vigadega paralleelkorpus parandab tulemusi, aga märgatavalt vähem kui päris paralleelkorpus. • Tööd vajavad ortograafiavead – kasutada eeltöötluses HFST spellerit. haruldased sõnad – kas uur keelemudel pole alati piisav ebajärjekindlus – katsed väljundi piiramisel. 13

Järgmised sammud • • • Mõlema lausekontrollija lähenemise edasiarendus. Reeglipõhise ja närvivõrkudel lausekontrollija kombineerimine.

Järgmised sammud • • • Mõlema lausekontrollija lähenemise edasiarendus. Reeglipõhise ja närvivõrkudel lausekontrollija kombineerimine. Paralleelkorpuses vealiikide märgendamine. Veakorpuse süntaktiline märgendamine. Reeglipõhise grammatikakontrolli osa Libre. Office’is. 14

Tänan kuulamast! 15

Tänan kuulamast! 15