VRON OAHPAFST n KEHITYS LHDEKOHDAT ja YHDEYDET KIELIYHTEISN

  • Slides: 2
Download presentation
VÕRON OAHPA-FST: n KEHITYS: LÄHDEKOHDAT ja YHDEYDET KIELIYHTEISÖÖN VÕRO OAHPA-FST ARÕNDUS: PÕHIMÕTTÕQ JA KÖÜDÜSEQ

VÕRON OAHPA-FST: n KEHITYS: LÄHDEKOHDAT ja YHDEYDET KIELIYHTEISÖÖN VÕRO OAHPA-FST ARÕNDUS: PÕHIMÕTTÕQ JA KÖÜDÜSEQ KEELEKOGOKUNNAGA Jack Rueter, Helsigin yliopisto / Helsingi Ülikuul Sulev Iva, Võron instituutti, Tarton yliopisto / Võro Instituut, Tarto Ülikuul Mikä Oahpa on? / Miä Oahpa om? Oahpa on pohjoissaamen sana, joka merkitse Opiq! Oahpa om põâasaami sõna, miä tähendäs Opiq! Pohjoissaamen oppimista varten kehitetty ohjelmisto, nyttemmin sovellettu useammalle kielelle. Ohjelma edustaa tietokoneavusteista kielenoppimista, jota sovelletaan morfologisesti rikkaita kieliä varten. Harjoitellaan numeroita, sanojen kääntämistä eri kielille (x→y ja y→x), morfologiaa, kontekstuaalista morfologiaa. Põâasaami keele opmisõs luud keskkund, parhilla tüütäs palïodõ kiiliga. Mõtõld puutri abil keeleopmisõs. Passis häste rikka mooduoppusõga (palïodõ käänüssidega) keelile. Saa haëotaq numbriid, sõnno ümbrepandmist mitmihe kiilihe (x→y ja y→x), sõnno käändmist nii eräle ku lausõkontekstin. Mikä FST on? / Miä FST om? FST on akronyymi (englanniksi: Finite-State Transducer ’äärellistilainen transduktori’). Äärellistilainen transduktori mahdollistaa lyhyiden sana- ja päätelistojen käyttöä säännöllisen morfologian kuvaamisessa. FST om sõnno algustähist saad lühendüs (inllüse keelen: Finite-State Transducer ’piiret ümbremuutja’). Taa keeleoppusautomaadiga saa lühkeisi sõnno- ja lõpunimekirjo pruukõn üles ehitäq säädüsperälidse automaatsõ sõnamuutmiskõrra. Miksi võron kielelle FST-kuvaus? / Milles võro keelele FST? Võron kielessä on paljon säännöllistä morfologiaa. Englannin substantiivin 4 muodon sijaan võrolle voi automaattisesti olettaa: 2 x 13 x 3 = 78 muotoa (numerus: yksikkö vai monikko, 13 sijamuotoa: nominatiivi, genetiivi, partitiivi jm. , 3 liitepartikkelia: 0, -kin. Aq) (A)-listassa olisi yhteensä 4 x 78 = 312 muotoa. (B)-listoissa olisi yhteensä 4 + 78 = 82 muotoa. Kun listassa on 1000 sanaa, sitten (A) on 1000 x 78 = 78 000, (B) on 1000 + 78 = 1078 muotoa. FST-n avulla voi luoda võron kielelle jäsentimiä, koneavusteinen kielen oppiminen, oikeinkirjoitussovellus, se on avuksi puhesynteesissä, konekäännöksessä jm. Võro keelen om palïo säädüsperälist sõnamuutmist. Inglüse nimisõnno 4 moodu asõmal või võro keelele automaatsõhe tetäq: 2 x 13 x 3 = 78 sõnamuudu (arv: ütsüs vai mitmus, 13 käänüst: nimekäänüs, umakäänüs, osakäänüs jm, jakuq: 0, -kin, kin. Aq) (A)-nimekirän olnuq kokko 4 x 78 = 312 muudu. (B)-nimekirän olnuq kokko 4 + 78 = 82 muudu. Ku nimekirän om 1000 sõnna, sis (A) om 1000 x 72 = 72000, (B) om 1000 + 72 = 1072. FST abil saa võro keelele tetäq keeleautomaatõ, õigõkirotuskontrolli rakõnduisi, puutri abil keele opmisõ programmõ, taa või ollaq abis kõnnõsünteesi, massinümbrepandmisõ jpm man. Missä ja miksi Oahpaa ja FST: tä kehitetään? / Kon ja mille FST-d arõndõdas? Norjan Tromssan arktiseen yliopistoon on perustettu Giella-infrastruktuuri (saamen kieliteknologian tutkimus- ja sovellusyksiköt Giellatekno ja Divvun), jotta voitaisiin tarjota useille saamenkielille yhteinen alusta kehitykselle. Infrastruktuuri on avoin, sitä käytetään runsaasti etätyössä eri Maailman puoliskoilla: Edmontonista Võroon. Työtä tehdään kentällä, kotona tai missä tahansa, ja se välittyy yhteiseen infrastruktuuriin. Pienillä kielillä ei ole yhtä paljon resursseja kuin suurilla oman kielen kehitykseen. Ajatuksena on, että yhteisellä alustalla voidaan tarjota moninkertaista käyttöä samalle työlle. Esimerkiksi kun kehität FST-kuvausta lingvistien morfologista analyysia varten, samaa analysaattoria voidaan käyttää oikolukusovelluksiin, koneavusteiseen kielenoppimiseen, konekäännökseen jne. Kehittäjälle jää enemmän aikaa ja resursseja oman kielensä erityispiirteiden kuvaukseen. Ei tarvitse kehittää kaikkea, muitakin ”polkupyörien keksijöitä” on. Heidän työtä voi soveltaa omaan projektiin. Norra Tromsø Arktiga Ülikuuli om luud Giella-alosvärk (saami keeleteknoloogia uurmis- ja rakõndusütsüseq Giellatekno ja Divvun), et pakkuq mitmõ saami keele arõndamisõs ütine põhi. Alosvärk om vallalõ ka tõisilõ keelile, taad pruugitas mitmõl puul maailman (Edmontonist Võroni). Tüüd või tetäq koton vai kon taht, tuu liidetäs ütitsehe alosvärki. Väikeisil keelekogokunnõl olõ-õi uma keele arõndamisõs nii palïo varra ku suuril. Nii om hää, ku mitmõq keeleq saavaq pruukiq ütte ja samma teknilist põhja ni ütte ja samma tüüd saa pruukiq mitmõ aśa jaos. Näütüses ku luvvas FST mooduoppusõ analüüsi jaos, sis samma analüsaatrit saa pruukiq õigõkirotuskontrolli rakõnduisi, keeleopmisprogrammõ, massinümbrepandmisõ jm jaos. Keeleuurjalõ jääs inämb aigo keele uurmisõs. Kehittäjälle jää enemmän aikaa ja resursseja oman kielensä erityispiirteiden kuvaukseen. Piä-äi kõkkõ esiq vällä mõtlõma, saa tõisi ”jalgratta vällämõtlõjidõ” tüüd pruukiq ärq uma tüü jaos. Miten Oahpa ja FST liittyvät võron kieliyhteisöön? / Kuis Oahpa ja FST võro keelekogokunnaga kokko putusõq? Kuva 1. Võronkielisestä sanomalehdestä Uma Leht löydetyn sanamuodon vidäjä tieto, joka saadaan käyttämällä tekstinlukija-sovellusta (ks. http: //sonad. oahpa. no/read/). Pilt 1. Võrokeelitsest aolehest Uma Leht lövvedü sõnamoodu vidäjä teedüs, miä saias pruukin tekstilugõja-rakõndust (kq http: //sonad. oahpa. no/read/). (http: //sonad. oahpa. no/vro/est). Kuva 2. Sanahaku oppaja Netidigisõnad-sovelluksessa (http: //sonad. oahpa. no/vro/est). Pilt 2. Sõna oppaja otsminõ rakõndusõn Netidigisõnad

VÕRON OAHPA-FST: n KEHITYS: LÄHDEKOHDAT ja YHDEYDET KIELIYHTEISÖÖN VÕRO OAHPA-FST ARÕNDUS: PÕHIMÕTTÕQ JA KÖÜDÜSEQ

VÕRON OAHPA-FST: n KEHITYS: LÄHDEKOHDAT ja YHDEYDET KIELIYHTEISÖÖN VÕRO OAHPA-FST ARÕNDUS: PÕHIMÕTTÕQ JA KÖÜDÜSEQ KEELEKOGOKUNNAGA Jack Rueter, Helsigin yliopisto / Helsingi Ülikuul Sulev Iva, Võron instituutti, Tarton yliopisto / Võro Instituut, Tarto Ülikuul Võron Oahpan ja FST: n lähdemateriaali / Võro Oahpa ja FST lättematõrjaal Võro-viro sanakirjan sanoja luokiteltuina tyypeittäin (Iva 2007). Testaamiseksi võron Wikipedian artikkeleita ja võron kielikorpuksen media- ja kaunokirjallisuustekstejä Tüüpehe jaeduq Võro-eesti sõnaraamadu sõnaq (Iva 2007). Testmises võro Vikipeediä artikliq ni võro keelekorpusõ meediä- ja ilokirändüstekstiq Tietokoneavusteinen kielenoppiminen FST-kuvauksessa / Puutri abil keeleopminõ ja FST Periaatteista / Põhimõttit Taulukko 1. olla-verbin osittainen paradigma (yaml-testi*). Tapõl 1. Tegosõna olla osalinõ paradigma (yaml-test*). (1) pyritään siihen, että kone on oppilaalle avuksi; kone tunnistaa useamman rinnakkaismuodon, mutta generoi vain yhden muodon olõma+V+Inf/m. A: olõma esimerkiksi tunnistaa: ommaq, ommavaq, ummavaq, ommava, ummava; olõma+V+Inf: ollaq mutta generoi vain: ommaq olõma+V+Act+Ind+Prs+Sg 1: olõ esimerkiksi tunnistaa: visksiq, visksivaq, visassivaq, visksiva, visassiva; olõma+V+Act+Ind+Prs+Sg 2: [olõt, olõdõq] mutta generoi vain: visksiq olõma+V+Act+Ind+Prs+Sg 3: [om, um] olõma+V+Act+Ind+Prs+Pl 1: olõmiq olõma+V+Act+Ind+Prs+Pl 2: olõtiq (2) pyritään yksittäisten muotojen tuottamiseen ilman toistoa, esim. olõma+V+Act+Ind+Prs+Pl 3: [ommaq, ommavaq, ummaq, tervüs+V+Sg+Nom = tervüs, tervüs ummavaq] tervüs+V+Sg+Gen = tervüse, tervü olõma+V+Act+Ind+Con. Neg. II: olõ tervüs+V+Sg+Par = tervüst, tervüt olõma+V+Act+Ind+Prs+Con. Neg: [olõ-õiq, olõ-iq] olõma+V+Pss+Ind+Prs+Sg 3: oldas Yksikön nominatiivin toiston välttämiseksi tehdään uusi paradigmatyyppi, johon kuuluu joskus olõma+V+Pss+Ind+Prs+Con. Neg: olda-aiq useitakin rinnakkaismuotoja, mutta ilman toistoa. olõma+V+Pss+Ind+Con. Neg. II: olda olõma+V+Act+Ind+Prt+Sg 1: olli Kehittäjällä/normittajalla on valinnanva(a)ra määrätä, mikä rinnakkaisista sananmuodoista olõma+V+Act+Ind+Prt+Sg 2: [olliq, ollit, ollidõq] olõma+V+Act+Ind+Prt+Sg 3: [ollʼ, olle] tulee päävariantiksi – olõma+V+Act+Ind+Prt+Pl 1: ollimiq hän panee sen paradigmassa ensimmäiseksi (ks. tulukko 1). olõma+V+Act+Ind+Prt+Pl 2: ollitiq olõma+V+Act+Ind+Prt+Pl 3: [olliq, ollivaq] (1) puutri piät olõma opjalõ abis; puutri tund ärq mitu sõnamuudu, olõma+V+Act+Ind+Prt+Con. Neg: [olõ-õs, olõ-s] a esiq (generiir ja) näütäs õnnõ ütte muudu nt tund ärq: ommaq, ommavaq, ummavaq, ommava, ummava; a näütäs õnnõ: ommaq nt tund ärq: visksiq, visksivaq, visassivaq, visksiva, visassiva; a näütäs õnnõ: visksiq (2) sammo sõnavormõ ilma aśanda mitte kõrradaq, nt tervüs+V+Sg+Nom = tervüs, tervüs+V+Sg+Gen = tervüse, tervüs+V+Sg+Par = tervüst, tervüt Ütsüse nimekäänüse kõrdusõ ärqhoitmisõs tetäs vahtsõnõ paradigmatüüp, kon olõ-õi aśanda kõrdust. Arõndaja/kiräkeele normi luuja, saa otsustaq, määne variant pandaq päävariandis – tuu pandas edimädses (kq tapõl 1). *Yaml-testi on Giella-infrastruktuurissa paradigman esittelytiedosto, jossa annetaan tarkka taivutustieto. Tiedostoa käytetään transduktorin analysaattoreiden ja generaattoreiden testaamiseen. Äidinkielinen tarvitaan testien kirjoittamiseen tai ainakin tarkistamiseen. *Yaml-test om Giella-alosvärgin fail, kon andas paradigmaga edesi sõna täpsä muutmisteedüs. Taad pruugitas keeleautomaadi analüsaatridõ ja generaatridõ testmises. Testparadigmadõ kirotamisõs vai vähämbält kontrolmisõs om kimmähe vaia imäkeelist keelemõistjat. Näiden paradigma-testien laatimista voisi käyttää esimerkiksi kotitehtävinä, joissa oppilaiden pitää kirjoittaa oikeat muodot. Koska opettaja joutuu joka tapauksessa korjaamaan tehtävät, tätä työtä voitaisiin käyttää kielikuvauksen kehityksessä. Ajatuksena se on samantapainen asia, kuin opiskelijoiden wikiartikkeleiden kirjoittaminen. Kehitämme kieltä opettaessa ja opiskellessa myös kieliteknologiaa yhteisön hyväksi. Naid paradigma-teste või tetäq näütüses keelekursustõ kodotüüs – opilasõq kirotasõq paradigmahtõ õigõq sõnamooduq. Oppaja kaes ja parandas tüü üle ja taad saa FST-keeleoppusõ arõndamisõs ärq pruukiq umbõs sammamuudu nigu vikiartiklidõ kirotamist. Nii arõndamiq keele opmisõ ja oppamisõ käügin ka keeleteknoloogiat kõgõ keelekogokunna hääs. Sisarusprojektien kieliä, joiden kuvausta kehitellään ja sovelletaan Giella-infrastruktuurissa: Saamen kielet: pohjoissaame, luulajansaame, eteläsaame, inarinsaame, kiltinänsaame, koltansaame, piitimensaame Muut uralilaiset kielet: ersä, hanti, inkeroinen, varsinaiskarjala, komi-permjakki, komi-syrjääni, kveeni, liivi, livvi, meänkieli, mokša, nenetsi, nganasaani, niittymari, suomi, udmurtti, vepsä, võro, vatja, vuorimari. Muut kielet: Burjaatti, evenki, fääri, grönlanti, iiri, iñupiaq, korni, lushootseed, norja, ojibwe, pohjoishaida, somali, venäjä. Sõsarprojekte kiili, mink keeleoppust arõndõdas ja rakõndõdas Giella-alosvärgin: Saami keeleq: põh’asaami, luulajasaami, lõunõsaami, inarinsaami, kildinisaami, koltasaami, piitimesaami. Muuq uurali keeleq: ersä, handi, ingeri, periskaëala, permikomi, süräkomi, kveeni, liivi, aunusõkaëala, meä, mokša, neenedsi, nganassaani, niidümari, soomõ, udmurdi, vepsä, võro, vaèa, mäemari. Muuq keeleq: Burjaadi, evengi, fääri, grööni, iiri, iñupiaqi, korni, lushootseedi, norra, ojibwe, põâahaida, somali, vinne. Lyhenteitä / Lühendüisi Act = aktiivi / aktiiv, Con. Neg = konnegatiivi / konnegatiiv, Ind = indikatiivi / indikatiiv, Inf = infinitiivi / infinitiiv, Pl = monikko / mitmus, Prs = preesenssi / olõvik, Prt = preteriti / lihtminevik, Pss = passiivi / passiiv, Sg = yksikkö / ütsüs Lähteitä / Lättit Iva, Sulev 2007: Võru kirjakeele sõnamuutmissüsteem. Dissertationes philologiae estonicae Universitatis Tartuensis 20. Tartu. Netidigisõnad – http: //sonad. oahpa. no/vro/est Tekstinlukija / Tekstilugõja – http: //sonad. oahpa. no/read Võro Oahpa = Oahpa! / Opiq võro kiilt! – http: //oahpa. no/voro.