Lausekontrollija prototp HeikiJaan Kaalep Krista Liin 05 11
- Slides: 15
Lausekontrollija prototüüp Heiki-Jaan Kaalep, Krista Liin 05. 11. 2019 1
Projektis osalejad • • • Heiki-Jaan Kaalep Eduard Barbu Mare Koit Krista Liin Kadri Muischnek Kaili Müürisep Kairit Sirts Katrin Tsepelina Agnes Luhtaru 2
Lausekontrollija • „sdaadjon“ • „Ma kirjutab vigadega. “ %ühildumisviga alus-öeldis „Ma kirjutan vigadega. “ • • • Tekstiredaktorisse Brauserisse Keeleõppeprogrammidesse Tekstide eeltöötlus … 3
3 lähenemist • Reeglipõhine Vajab palju tööd Kõrge täpsus • Masinõppel – tehisnärvivõrk Vajab treenimiseks ja hindamiseks märgendatud andmeid Robustne, tugev keelemudel • Hübriid Lõpuks saab need kaks kombineerida 4
Eeltööd - korpus • EMMA Lõpukirjandid – eestikeelsete inimeste kirjutatud tekstid • Keeleõppijate tekstid 2 korpust ja 2 eri skeemi, märgendatud vigade asukohad ja vealiigid. • Paralleeltekstid ~9000 lauset kujul vigane lause - parandatud lause(d). Parandati formaati ja viidi masintöötluseks sobivamale kujule. https: //gitlab. keeleressursid. ee/krista-liin/ut_veakorpus/tree/master Kasutatav lausekontrollija treenimiseks ja testimiseks. 5
Reeglipõhine – HFST ja CG • Robustsem morfoloogiline analüüs sh analüüside mõttekas järjestamine "<Saan>" "saama" V Pers Prs Ind Sg 1 Aff <W: 2. 00000> "<tolle>" "too" Pron Sg Gen <W: 6. 00000> "saan" N Sg Nom <W: 9. 00000> "<teada>" "toll" N Pl Par <W: 11. 00000> "<sisu>" "teadma" V Inf <W: 3. 00000> "sisu" N Sg Nom <W: 6. 00000> "teada" A <W: 11. 00000> "sisu" N Sg Gen <W: 7. 00000> 6
Reeglipõhine – HFST ja CG • Robustsem morfoloogiline analüüs sh analüüside mõttekas järjestamine "<materjaalse>" "materjaalse" ? "materiaalne" A Sg Gen <W: 21. 0791> <WA: 11. 0791> <spelled> "<materiaalse>" "materiaalne" A Sg Nom <W: 30. 0791> <WA: 10. 0791> <spelled> "<materiaalne>" "materiaalne" A Pl Nom <W: 31. 0791> <WA: 11. 0791> <spelled> "<materiaalsed>" "materjal" N Pl Par <W: 31. 0791> <WA: 11. 0791> <spelled> "<materjale>" "materiaalne" A Sg Par <W: 32. 0791> <WA: 12. 0791> <spelled> "<materiaalset>" "materiaalne" A Sg Ade <W: 33. 0791> <WA: 13. 0791> <spelled> "<materiaalsel>" 7
8
echo "see kena staadjon , mida ta näed taamal. " | "<mida>". /modes/estgram. mode "<see>" "see" Pron Sg Nom <W: 1. 00000> : "mis" Pron Sg Par <W: 4. 00000> : "<ta>" "tema" Pron Sg Nom <W: 1. 00000> "<kena>" "kena" A Sg Nom <W: 6. 00000> : "<staadjon>" : "<näed>" "nägema" V Pers Prs Ind Sg 2 Aff <W: 3. 00000> &err-agr "staadion" N Sg Nom <W: 20. 0791> <WA: 10. 0791> <spelled> "<staadion>" &SUGGESTWF &typo err-agr typo "<taamal>" : "taamal" Adv <W: 9. 00000> : "<, >" ", " <W: 0. 00000> <Space. Before. Punct. Mark> "<. >" ". " <W: 0. 00000> : n 9
Reeglipõhine - HFST Ühtlasi speller ja lemmatiseerija programmidesse integreerimiseks sobilikul binaarkujul https: //gtsvn. uit. no/langtech/trunk/experiment-langs/est/ • Käsurealt • Linux – süsteemitasemel kasutamiseks voikkospell • Libre. Office – plugin Voikko 10
Tehisnärvivõrk ET ET LV LV EN EN Siirdeõppega lisaks vigaste lausetega paralleelkorpus. ET* ET Koostöös neurotõlke projektiga. 11
Tehisnärvivõrk https: //neurotolge. ee/ 12
Tehisnärvivõrk • Tugev keelemudel Parandab hästi sõnajärje-, ühildumis-, rektsiooni-, kirjavahemärgivigu. Seda ka ilma igasuguste veakorpusteta! • Genereeritud vigadega paralleelkorpus parandab tulemusi, aga märgatavalt vähem kui päris paralleelkorpus. • Tööd vajavad ortograafiavead – kasutada eeltöötluses HFST spellerit. haruldased sõnad – kas uur keelemudel pole alati piisav ebajärjekindlus – katsed väljundi piiramisel. 13
Järgmised sammud • • • Mõlema lausekontrollija lähenemise edasiarendus. Reeglipõhise ja närvivõrkudel lausekontrollija kombineerimine. Paralleelkorpuses vealiikide märgendamine. Veakorpuse süntaktiline märgendamine. Reeglipõhise grammatikakontrolli osa Libre. Office’is. 14
Tänan kuulamast! 15