2 Eesti keeletehnoloogia ltted kujunemine ja arengusuunad Keel

  • Slides: 55
Download presentation
2. Eesti keeletehnoloogia lätted, kujunemine ja arengusuunad Keel ja tehnoloogia Pille Eslon, Kais Allkivi-Metsoja

2. Eesti keeletehnoloogia lätted, kujunemine ja arengusuunad Keel ja tehnoloogia Pille Eslon, Kais Allkivi-Metsoja

Kava 1. Keeletehnoloogia kujunemine Eestis ja edasised arengusuunad 2. Eesti keeletehnoloogia lätteid – Teoreetiline

Kava 1. Keeletehnoloogia kujunemine Eestis ja edasised arengusuunad 2. Eesti keeletehnoloogia lätteid – Teoreetiline lingvistika • • Harris, Chomsky Meltšuk (Mel’chuk) GG-grupp & Rätsep Saluveer & Haldur Õim – Matemaatiline statistika • Sapire & Greenberg • Andrejev, Šajkevitš • Tauli, Tuldava 3. Reeglipõhisus vs. andmepõhisus. Ratsionaalsus vs. empiirilisus.

1. Lühiülevaade keeletehnoloogia kujunemisloost Eestis ja edasised arengusuunad

1. Lühiülevaade keeletehnoloogia kujunemisloost Eestis ja edasised arengusuunad

 • Keeletehnoloogia (language technology) – varasemalt arvutilingvistika (computational linguistics) – 1940 ndad –

• Keeletehnoloogia (language technology) – varasemalt arvutilingvistika (computational linguistics) – 1940 ndad – ilmusid esimesed arvutid – 1950 ndate lõpus – vene-eesti masintõlke projekt • Matemaatik Ülo Kaasik koos üliõpilastega • Töötati välja venekeelse matemaatilise teksti morfoloogilise analüüsi reeglid ja koostati programm arvutile Ural (Kaasik, Korjus 1959; Palm 1962) – 1959– 1972 end. Eesti Üliõpilaste Seltsi majas Tartu Riikliku Ülikooli arvutuskeskus (Ural-1, Ural-4) • 2009 – avati arvutimuuseum J. Liivi tn 2 TÜ Arvutiteaduste Instituudi majas

 • Keeletehnoloogia = rakenduslik arvutilingvistika – Levis Eestis alates 1990 ndatest • Seotud

• Keeletehnoloogia = rakenduslik arvutilingvistika – Levis Eestis alates 1990 ndatest • Seotud üldise keeletehnoloogilise arendusstrateegiaga Euroopas – Eesmärk: Euroopa keeletehnoloogiline infrastruktuur » Euroopa riikide tarkvarasüsteemide ja e-ressursside integreerumine ühtses võrgustikus » Integreeruvate riikide kultuuride ja keelte säilitamine Loe: Human Language Technologies – The Baltic Perspective (2012). Toim. Arvi Tavast, Kadri Muischnek, Mare Koit. Täpsemalt: Kadri Vider, Krista Liin, Neeme Kahusk. Strategic Importance of Language Technology in Estonia (pp. 273 -279). https: //pdfs. semanticscholar. org/f 2 fb/f 536 db 9 a 0144057500391 a 8 dd 33 b 6 d 8 cff 9 d. pdf Võrdle: Uszkoreit et al. (1997), vt http: //www. coli. uni-saarland. de/publikationen/softcopies/Uszkoreit: 1997: OFT. pdf

– 1992 – Danzini raport: väikeste keelte üleminek arvutipõhisele keelekasutusele ei toimu iseenesest •

– 1992 – Danzini raport: väikeste keelte üleminek arvutipõhisele keelekasutusele ei toimu iseenesest • Vaja keeletöötlusvahendeid (arvutiprogramme) – Keeletehnoloogilise arvutitoe loomine Tarkvara Keeleressursid Õigekirja kontroll Elektroonsed sõnastikud Terminite otsimine tekstist Formaliseeritud grammatikakirjeldused Automaatne morfo- ja süntaksianalüüs Terminoloogia andmebaasid Kõnetuvastus jne Tekstikorpused jm INIMKEELE PAREM MÕISTMINE INIMKEELE AUTOMAATNE TÖÖTLEMINE

 • 1997 – Eesti Informaatikakeskus > rahvusliku infosüsteemi loomine • 1998 – Tartu

• 1997 – Eesti Informaatikakeskus > rahvusliku infosüsteemi loomine • 1998 – Tartu Ülikoolis uus eriala – arvutilingvistika • 1999 – Eesti keeletehnoloogia arengukava – Olulised valdkonnad • • • Automaatne kõnetuvastus Grammatikakorrektor Tõlkeprogrammid Infootsingu programmid Interaktiivsed keeleõppe programmid jm Haldur Õim 2001: Kui viime ükskõik missuguse keelevaldkonna kirjelduse sellisele formaliseerituse tasandile, et see on arvutisse viidav, siis avastame probleeme, mida me seni ei ole näinud, ja see sunnib meid olema oma lahendustes ja kirjeldustes täpsed ja ühesed.

 • Keeletehnoloogia arendamine on riiklik strateegia • Eesti keele arengukava 2011– 2017 (keele

• Keeletehnoloogia arendamine on riiklik strateegia • Eesti keele arengukava 2011– 2017 (keele areng, õpetamine, uurimine, kaitse) jm arengukavadstrateegiad – Riiklikult rahastatud programmid • Eesti keeletehnoloogia programmid 1998 -2000 • Eesti keelenõukogu koostatud Eesti keele arendamise strateegia 2004 -2010 • Eesti Keeletehnoloogiline Tugi 2006 -2010 • Jätkuprogramm 2011 -2017 (vt http: //vana. keeletehnoloogia. ee) • Käimas 2018 -2027 (vt https: //www. keeletehnoloogia. ee/et)

 • Eesti keeletehnoloogia infrastruktuuri loomine – täites Euroopa Nõukogu strateegilisi otsuseid keeleressursside kaardistamise,

• Eesti keeletehnoloogia infrastruktuuri loomine – täites Euroopa Nõukogu strateegilisi otsuseid keeleressursside kaardistamise, litsenseerimise, tarkvara arendamise, litsenseerimise ja jagamise osas • Eesti Keeleressursside Keskus – – Kuulub Euroopa CLARIN-i infrastruktuuri ja võrgustikku META-SHARE (ressursside kirjeldus ja jagamine) TEI annoteerimismärgenduse standard Multext-East projekt – lingvistilise märgenduse standard • Võrgustikud META-NET, META-NORD (Põhjamaade ja Baltimaade keeled) – European Language Technology infrastructures, sustainability of linguistic data – Digital Humanities, Text Technology, Markup Languages, Linked Open Data, Semantic Web, Information Modelling, Big Data etc.

“Teadmistepõhine Eesti 2014– 2020” • Po hiseaduse ja rgi tuleb hoida ja arendada eesti

“Teadmistepõhine Eesti 2014– 2020” • Po hiseaduse ja rgi tuleb hoida ja arendada eesti keele ja kultuuri alast teadus- ja arendustegevust. Teadmiste edasiandmiseks ja rakendamiseks tuleb arendada humanitaarteadusi, sh soodustada nende valdkonnau lesust. • Teadus- ja arendustegevuse u hiskondliku ja majandusliku kasu suurendamine tagada eesti keele, ajaloo ja kultuuri ko rge teadusliku tasemega uuringute toetamine ning keeletehnoloogiliste lahenduste arendamine ning soodustada nende vo imalikult laialdast rakendamist. HTM 2014

Eesti keele arengukava 2011– 2017 • Meede 2: eesti keele uurimine ja keelekogude arendamine

Eesti keele arengukava 2011– 2017 • Meede 2: eesti keele uurimine ja keelekogude arendamine (lk 14– 16) – pidevalt ta iendada, tehnoloogiliselt moderniseerida ja kasutajaso bralikumaks teha olemasolevaid andmebaase – luua uusi ressursse, la htudes eesti keele uurimise, korraldamise ja o ppe vajadustest • Meede 3: eesti keeletehnoloogilise toe arendamine (lk 17– 19) – toetada Eesti keeletehnoloogide osalemist rahvusvahelises to o jaotuses, avatud koodiga rakenduste loomist ning oma ressursside ja lahenduste protokollimist ja standardimist – kõne- ja tekstitehnoloogia, integreeritud tarkvara (nt inimene -masin dialoogisüsteemid), ressursid (korpused ja sõnastikud) HTM 2011

Keelevaldkonna arengukava 2018– 2027 eelnõu • • • Keeletehnoloogiat peetakse arenenud keele tunnuseks ja

Keelevaldkonna arengukava 2018– 2027 eelnõu • • • Keeletehnoloogiat peetakse arenenud keele tunnuseks ja kirjakeele sa ilitamise po hieelduseks. Keeletehnoloogia teenib u hiskonda tavakasutajast tippspetsialistini. Keeletehnoloogia on u heks vajalikuks komponendiks IT-su steemides, mis vajavad ja rjest enam loomuliku keele to o tlust. Siht: lihtne arusaadav ja mugav andmevahetus, vaja on enam arendada ko netuvastust, masinto lget ning ko nesu nteesi. Nt vo imaldaks transkriptsiooniprogramm kaasajastada ministeeriumide ja kohtute to o d. Eesti keele uurimises on suurenenud andmepo hisus, keeletehnoloogia ning digitaalsete keeleressursside kasutamine ja loomine. Siiski ei kasutata tehnoloogiaid ja digiressursse piisavalt ja uurimistulemuste rakendamine (nt keeleõppes) on piiratud. Va ljato o tatud to o riistu ja rakendusi ei levitata piisavalt. Rakenduste loomist ja kasutuselevo ttu raskendavad va ike turg ja lo pprakenduste ko rge hind. HTM 2018

Eesti infoühiskonna arengukava 2020 • IKT abil saab kultuuri ja keele sa ilimiseks teha

Eesti infoühiskonna arengukava 2020 • IKT abil saab kultuuri ja keele sa ilimiseks teha ta iendavaid pingutusi. • Infoühiskonna visioon 2020 – Elujõuline eesti kultuuriruum • Eesti keel on digitaalses maailmas elus ja arenev. Eesti keele tehnoloogia abil saab kasutada igapa evaseadmeid ja e-teenuseid. • Tegevused – Analu u sitakse ja katsetatakse pidevalt innovaatiliste tehnoloogiate kasutuselevo ttu • Ja tkatakse eesti keeletehnoloogia tarkvara va ljato o tamist, ka ttesaadavaks tegemist ja avalikus sektoris kasutuselevo tmist – eesti keele tugi on Eestis mitmete uute tehnoloogiate kasutuselevo tu eeldus. – Muudetakse avalike teenuste kasutamine lihtsamaks ja mugavamaks • Arendatakse teenusekanalite ja avaliku sektori IKT-lahenduste kasutajaliideseid, muudetakse need ko igile vo rdselt juurdepa a setavaks ning vo etakse kasutusele eesti keele tehnoloogia rakendusi ko ne abil teenuste kasutamiseks. Tagatakse Eesti avalike teenuste ka ttesaadavus teistest riikidest pa rit kasutajate jaoks mitmekeelsust toetavate IKT-lahenduste arendamise ja kasutuselevo tu kaudu. MKM 2018

Programm “Eesti keeletehnoloogia 2018– 2027” • Eesmärgid: – luua uusi eesti keeletehnoloogilisi rakendusi, –

Programm “Eesti keeletehnoloogia 2018– 2027” • Eesmärgid: – luua uusi eesti keeletehnoloogilisi rakendusi, – tõsta olemasolevate rakenduste kvaliteeti, – võtta neid kasutusele võimalikult paljudes valdkondades lai sihtgrupp, – eesti keeletehnoloogia põhikomponentide hea tase rahvusvahelises võrdluses. • Vt https: //www. keeletehnoloogia. ee/et • Programmi käigus loodud ressursse ja tarkvara haldab ja teeb kättesaadavaks Eesti Keeleressursside Keskus.

CLARIN • Euroopa keeleressursside ja -tehnoloogia võrgustik • Digitaalsete keeleandmekogude ja keeletöötlusvahendite loomine, neile

CLARIN • Euroopa keeleressursside ja -tehnoloogia võrgustik • Digitaalsete keeleandmekogude ja keeletöötlusvahendite loomine, neile ligipääsu tagamine ja nende tutvustamine • Keeleressurside otsisüsteem + temaatiline jaotus (nt kõnekorpused, ajalehetekstide korpused, õppijakeele korpused) • 24 liikmesriiki (peamiselt Euroopast, aga ka LAV), koostöö USAga • Konsortsiumites ülikoolid, uurimisinstituudid, raamatukogud, muuseumid, arhiivid • Eesti CLARINi keskus – Eesti Keeleressursside Keskus

META-NET • Projektide võrgustik, mille eesmärgk on edendada mitmekeelse Euroopa jaoks olulist keeletehnoloogiat, mis

META-NET • Projektide võrgustik, mille eesmärgk on edendada mitmekeelse Euroopa jaoks olulist keeletehnoloogiat, mis – aitab suhelda ja teha koostööd erinevates keeltes, – tagada iga keele kasutajale võrdse ligipääsu informatsioonile ja teadmistele, – toetada ja edendada infotehnoloogia funktsionaalsust. • 60 uurimiskeskust 34 riigist • Arendab META-t (Multilingual Europe Technology Alliance) – mitmekeelse Euroopa tehnoloogia-allianssi, mis ühendab teadlasi, tehnoloogialoojaid, eraisikutest ja ettevõtetest tehnoloogiakasutajaid, keelega seotud elukutsete esindajaid jt huvigruppe. • META-SHARE – avatud süsteem ressursside jagamiseks ja vahetamiseks

Multext-East (4. versioon)

Multext-East (4. versioon)

TEI-standard • Text Encoding Initiative – tekstide kodeerimise algatus • Alates 1980 ndatest, laialdaselt

TEI-standard • Text Encoding Initiative – tekstide kodeerimise algatus • Alates 1980 ndatest, laialdaselt kasutuses 1990 ndatest (k. a muuseumid, raamatukogud, kirjastused) • Eesmärk: arendada välja tekstide masinloetaval kujul esitamise standard, märgendusjuhised • Nt <p> – tekstilõik (paragraph), <s> – lause (sentence), <cl> – osalause (clause), <head> – pealkiri • Praktiline ülesanne: https: //teibyexample. org/ (näitepõhised veebijuhised)

Elukestva õppe võtmepädevused Euroopa Komisjon 2017

Elukestva õppe võtmepädevused Euroopa Komisjon 2017

Arenguruumi on. . . (Liin jt 2012)

Arenguruumi on. . . (Liin jt 2012)

Kuhu edasi? Eesti keeletehnoloogia vajadused • Kõrge kvaliteediga masintõlge – Probleemid: vaba liitsõnamoodustus, vaba

Kuhu edasi? Eesti keeletehnoloogia vajadused • Kõrge kvaliteediga masintõlge – Probleemid: vaba liitsõnamoodustus, vaba sõnajärg, ühend- ja väljendverbid, piiratud paralleelsete tekstide hulk • Kõnetehnoloogia arendus – Kõnetuvastus igapäevaelus, loomuliku kõne lähedane kõnesüntees • Teksti genereerimine – Grammatikat saab jäljendada, aga kas sisu on loogiline? Vt Lepik 2015 • Semantiline analüüs, eriti tekstisemantika • Multimodaalsed märgendatud ressursid – Kõne + videopilt (pilk, ilme, žestid jm mitteverbaalne kommunikatsioon), vt BAS ja AMI • Eesti keele e-õppe tugi

Kokkuvõtteks: tööpõld on lai • Tehisintellekt ja andmeteadus kui peamised tehnoloogiatrendid (vt Panetta 2018).

Kokkuvõtteks: tööpõld on lai • Tehisintellekt ja andmeteadus kui peamised tehnoloogiatrendid (vt Panetta 2018). • Lugemiseks: Foto: Pixabay – https: //www. cio. com/article/3193777/artificialintelligence/why-ai-careers-can-start-with-a-degree-in -linguistics. html – https: //www. ehumanities. nl/why-linguists-areneeded-the-severe-limitations-of-big-data-analysis-oflinguistic-corpora/

2. Eesti keeletehnoloogia lätteid: teoreetiline lingvistika & matemaatiline statistika

2. Eesti keeletehnoloogia lätteid: teoreetiline lingvistika & matemaatiline statistika

Teoreetiline lingvistika • Teoreetilised arengud toimuvad tavaliselt empiiriliste teaduste piirimail • Lingvistika eesmärk: töötada

Teoreetiline lingvistika • Teoreetilised arengud toimuvad tavaliselt empiiriliste teaduste piirimail • Lingvistika eesmärk: töötada välja loomuliku keele teooria, mis seletab ja kirjeldab keele olemust, ehitust, funktsioneerimist – Lähenetakse • • erinevatest aspektidest kasutatakse erinevat materjali erinevaid uurimismeetodeid määratletakse erinevalt lingvistika uurimisobjekti olemus (H. Õim 2006)

Suunad Formalistid Keel on formaalsete tunnustega universaalne struktuur Keelevõime on bioloogiliselt kaasasündinud Keele kasutamine

Suunad Formalistid Keel on formaalsete tunnustega universaalne struktuur Keelevõime on bioloogiliselt kaasasündinud Keele kasutamine ja funktsioneerimine ei kuulu lingvistikasse (nt Fortunatov, strukturalistid, Newmeyer) Funktsionalistid Kognitivistid Keele kasutamise seaduspärasused ja keelesüsteemi funktsioneerimine avavad keele olemuse Keeleväljendid on seotud inimkogemuse mõistelise struktuuriga Tähenduste moodustamine on seotud mõistestamisega Keeletüpoloogia areng (nt Humboldt, Sapire, Greenberg) Generatiivsete grammatikate teooria (nt Harris, Chomsky) Kognitiivse lingvistika areng Keelel on võtmeroll evolutsioonis (nt Lakoff, Johnson, Evans)

 • Antropoloogiline lingvistika – Fookus: seosed keele kasutamise ja rahvaste kultuurierinevuste vahel •

• Antropoloogiline lingvistika – Fookus: seosed keele kasutamise ja rahvaste kultuurierinevuste vahel • Uuritakse eriti keeli, millel puudub kirjakeel • Ühelt poolt nt indiaani keeled ja kultuurid – Boas, Sapir, tagasivaatavalt Humboldt – Sapir huviobjekt – tähenduste, mõtlemise ja kultuuri seosed – Sapir-Whorfi hüpotees: keelestruktuurid konkretiseeritakse kogemuse kategoriseerimise kaudu • Teisalt Bloomfield – deskriptiivse lingvistika rajaja (ameerikalik strukturalism) – Kultuuri alus = indiviidide kognitiivsete struktuuride, uskumuste ja arusaamadena realiseeritud kogemus

20. sajandi lingvistika ühistunnuseid 1: Lingvistilise objekti operatsionaalne kirjeldamine metakeele vahendusel Näide 1. Joseph

20. sajandi lingvistika ühistunnuseid 1: Lingvistilise objekti operatsionaalne kirjeldamine metakeele vahendusel Näide 1. Joseph H. Greenbergi 10 indeksit, mille alusel saab välja arvutada (tuletada) keelte tüpoloogilise liigenduse 1. M/W – sünteesi indeks 2. A/J – aglutinatsiooni indeks 3. R/W – komposistsioonilisuse indeks 4. D/W – derivatiivsuse indeks 5. I/W – inflektsionaalsuse indeks (gross inflectionnal index) 6. P/W – prefiksaalsuse indeks 7. S/W – sufiksaalsuse indeks 8. O/N – isoleerivuse indeks 9. Pi/N – pelgalt/vaid inflektsionaalsuse indeks 10. Co/N – ühildumise indeks

1951. ja 1953. aastal tehtud arvutused 100 ingliskeelse sõnaga 1951 1953 Süntees 1, 61

1951. ja 1953. aastal tehtud arvutused 100 ingliskeelse sõnaga 1951 1953 Süntees 1, 61 1, 68 Aglutinatsioon 0, 31 0, 30 Sõna kompositsioonilisus (liitsõnatuletus) Prefiksatsioon 1, 03 1, 00 1, 04 Sufiksatsioon 0, 50 0, 64 Valdav vormimuutus 0, 64 0, 53

 • Greenbergi indeksid on rakendatavad kõikidele keeltele, annavad mõõdetavaid arvulisi tulemusi, neid saab

• Greenbergi indeksid on rakendatavad kõikidele keeltele, annavad mõõdetavaid arvulisi tulemusi, neid saab omavahel võrrelda erinevatel eesmärkidel • Tulemustel on seletav-põhjendav ja heuristiline tähendus, eriti nt teoreetilis-tunnetuslikult klassifikatsiooni lisatud keelte osas • Arvud näitavad erinevate valimite põhjal ja erinevatel aegadel tehtud analüüsides samalaadseid tulemusi (vt Greenberg 1951; 1953)

Näide 2. Noam Chomsky generatiivne keelemudel • Emakeele tundmist saab esitada reeglite süsteemina, mida

Näide 2. Noam Chomsky generatiivne keelemudel • Emakeele tundmist saab esitada reeglite süsteemina, mida nimetame grammatikaks • Sellele vastab struktuurne kirjeldus, mille põhjal saab – tuletada ehk genereerida grammatiliselt korrektseid lauseid (keel on tuletatud ehk genereeritud grammatikast) – teha kindlaks, mille poolest konkreetsed lausungid erinevad korrektselt üles ehitatud lausetest grammatikas Süntaks Fonoloogia Genereerib formatiivide järjendeid Muudab formatiivide järjendi (formatiiv = järjendi elementaarne foneetiliseks ehk teisitisõnu – komponent) muudab teksti kõneks Määrab formatiivide struktuursed seosed

Lausepuu: John is easy (eager) to please

Lausepuu: John is easy (eager) to please

20. sajandi lingvistika ühistunnuseid 2: kvantitatiivne lingvistika, kombinatoorne statistiline analüüs • Näiteks: – Morris

20. sajandi lingvistika ühistunnuseid 2: kvantitatiivne lingvistika, kombinatoorne statistiline analüüs • Näiteks: – Morris Swadesh (1951; 1952; 1955): Põhisõnavara = universaalsed üldmõisted, mille koosseis on diakrooniliselt muutumatu; sõnade kokkulangevus erinevates keeltes 81%– 86% – Valter Tauli (1952 -1953): esimene eesti keele sõnavarastatistiline töö vabatahtlike abiga, käsitsi (A. Mälk, Tee kaevule I–II. Lund: Eesti Kirjanike Kooperatiiv, 1952– 1953). – Juhan Tuldava alias Artur Johan Haman (1987; 1995) kvantitatiivne sõnavarauurimus – Aet Lees (2004): eesti- ja soomekeelsete originaal- ja tõlketekstide võrdlev-statistiline analüüs objektikäänete varieerumise uuringus

 • Keelestruktuuride kombinatoorne analüüs + tulemuste kasutamine masintõlkes ja aluskeele rekonstrueerimisel (Nikolai Andrejev

• Keelestruktuuride kombinatoorne analüüs + tulemuste kasutamine masintõlkes ja aluskeele rekonstrueerimisel (Nikolai Andrejev 1965; 1967) • Eesti morfoloogia statistilis-kombinatoorne mudel (Helje Holm 1965) • Distributiivse analüüsi sidumine statistilise analüüsiga (Anatoli Šajkevitš 1976) • algoritmiliste protseduuride jada, mis määrab elementide jaotumise tekstis (nt tähtede järgnevused sõnas, st kahe tühiku vahel, sõnade järgnevused kahe kirjavahemärgi vahel – kui sageli samalaadne järgnevus tekstis kordub)

– Eellugu: • 1930. – 1940. aastate deskriptivism Ameerikas (stukturalismi ameerikalik variant) • 1950.

– Eellugu: • 1930. – 1940. aastate deskriptivism Ameerikas (stukturalismi ameerikalik variant) • 1950. aastateks kujunes arusaam, et distributiivne analüüs tuleb siduda statistilisega, et saada universaalseks algoritmiks • Sellest ajast kasutatakse statistilist distributiivset analüüsi laialt vene teadlaste töödes (nt N. Andrejev, B. Suhotin) – 1970. aastateks kogunenud rikkalik pagas analüüsi tulemusi, mis vajavad sõnastamist statistiliste seaduspärasustena, mille alusel keele elemendid tekstis esinevad – Universaalsed seaduspärasused (Zipfi needus) – Elementide tekstilise jaotumise statistilised mudelid – Empiirilised andmed elementide tekstilise jaotumise kohta

3. Ratsionalism vs. empirism Reeglipõhisus vs. andmepõhisus

3. Ratsionalism vs. empirism Reeglipõhisus vs. andmepõhisus

Ratsionalism Empirism keelestruktuurid on kaasa sündinud keelemudel on inimese ajus, keelevõime on sisemine (internal

Ratsionalism Empirism keelestruktuurid on kaasa sündinud keelemudel on inimese ajus, keelevõime on sisemine (internal phenomenon) keelestruktuurid õpitakse kogemusest keelevõime avaldub tegelikus keelekasutuses (external phenomenon) arvuti tuletab keelemudeli ise alus reeglipõhisele keeletöötlusele alus andmepõhisele keeletöötlusele rakendatakse kirjeldava grammatika reegleid, vajadus otsida uusi reeglid, kehtestada reegli piirangud, panna reeglid masinloetavasse vormi, treenida masinat väikese mahuga tekstidel, parandada järk-järgult saagise protsenti mahuka e-korpuse keeleandmete statistiline töötlemine ja masinõpe, täpsust annab parandada nt keele elementide kooskasutusmustrite ja mitmesõnaliste fraseoloogiliste üksuste tuvastamisega 2. Võidukäik algas 1960 ndatest – kestis 1980 ndate lõpuni 1. Valitsev suund keeleteaduses ja loomuliku keele töötlemisel 1940 ndatest kuni 1950 ndateni 3. 1990 ndatest tänaseni

Empirism arvutilingvistikas • Alusepanija: vene matemaatik Andrei Markov (1856 -1922) – Markovi ahelad, st

Empirism arvutilingvistikas • Alusepanija: vene matemaatik Andrei Markov (1856 -1922) – Markovi ahelad, st statistiline mudel, mis koosneb sõlmedest ja neid ühendavatest suunatud kaartest, kus iga kaar on varustatud tema läbimise tõenäosusega • 1913 ennustas, kas Puškini „Jevgeni Onegini“ tekstis järgnev täht on vokaal või konsonant, arvestades seejuures ühte või kahte eelnevat tähte, st kasutades andmekaeve bigramm- ja trigramm-mudeleid • 1947 – ameerika matemaatik Warren Wavei küsis küberneetika rajajalt Norbert Wienerilt – kas arvuteid saaks kasutada tekstide tõlkimisel ühest keelest teise – masintõlge = salakirja „lahti muukimine“ • Aktiivne tegevus masintõlke rindel

 • 1954 – firma IBM arvuti tõlkis vene keelest 200 sõna teksti inglise

• 1954 – firma IBM arvuti tõlkis vene keelest 200 sõna teksti inglise keelde – Sõna-sõnalised tõlkevasted (paralleel: reaalune tõlge) • 1949 – Claude Shannon genereeris inglise keele n -gramm-sõnamudelid – Statistiline keelemudel, kus sõna esinemise tõenäosus sõltub n-1 talle eelnevast sõnast • 1957 – Frank Rosenblatti lihtne närvivõrgu matemaatiline mudel (ingl perceptron ‘tajur’) – Esitatakse komponentide võrgustikuna – Avanes keeleandmete paralleeltöötlus

 • 1960 ndad – esimesed arvutikorpused – Standardsed miljon sõnet sisaldavad Browni, London.

• 1960 ndad – esimesed arvutikorpused – Standardsed miljon sõnet sisaldavad Browni, London. Lundi, Lancaster-Oslo-Bergeni korpus • Statistilisi keelemudeleid hakati treenima elektroonses vormis ette antud tekstidel • Markovi ahela arendus – Markovi peitmudel – Vaadeldavate olekute (sõlmede) põhjal määratakse peitolekud (nt sõnade järjendi alusel sõnaliigid) • 1967 – Viterbi algoritm, et määrata sõnajärjend kõige tõenäolisemate sõnaliikide järjendina – Loodi tõenäosuslikud grammatikad, kus iga reegel on varustatud tema rakendamise tõenäosusega

Ratsionalism arvutilingvistikas • Chomsky 1956 – generatiivne grammatika – Andis keele automaattöötlusele formalismid ja

Ratsionalism arvutilingvistikas • Chomsky 1956 – generatiivne grammatika – Andis keele automaattöötlusele formalismid ja mudelid – G = (T, N, P, S) • T on terminaalide (nt sõnavormid), N mitteterminaalide (nt grammatilised kategooriad) ja P ümberkirjutusreeglite hulk kujul x —> y • S (Sentence 'lause') on üks erilises rollis mitteterminaal –. . . terminaalsete järjendite hulka, mida saab sümbolist S lähtudes ja ümberkirjutusreegleid rakendades tuletada, nimetatakse selle grammatikaga genereeritavaks keeleks (Mare Koit 2006)

Ümberkirjutusreeglite näide Mari kirjutab Jüri kirjutab Väike Mari loeb hästi Väike tubli Jüri kirjutab

Ümberkirjutusreeglite näide Mari kirjutab Jüri kirjutab Väike Mari loeb hästi Väike tubli Jüri kirjutab hästi meelsasti G = (T, N, P, S) ümberkirjutusreeglid T = {väike: Adj], tubli: Adj, Mari: N, Jüri: N, kirjutab: V. laulab. V. hästi: Adv, meelsasti: Adv} eesti keele sõna(vormi)d N = {S, VP, N, V, Adj, Adv} grammatiliste kategooriate nimetused P = {S -> NP VP, NP Adj NP, NP -> N, VP VP Adv, VP -> V}

Ümberkirjutusreeglite kuju Chomsky hierarhias

Ümberkirjutusreeglite kuju Chomsky hierarhias

Chomsky grammatikate ja keelte hierarhia

Chomsky grammatikate ja keelte hierarhia

 • 1960 ndate keskel – Huno Rätsepa seminar, hilisema nimetusega Generatiivse Grammatika Grupp

• 1960 ndate keskel – Huno Rätsepa seminar, hilisema nimetusega Generatiivse Grammatika Grupp (GGG) – Kogunesid keele arvutitöötlusest huvitatud lingvistika- ja matemaatikaüliõpilased ning –õppejõud – Plaan luua eesti keele generatiivne grammatika • Töötati välja ja võeti kasutusele mitmesuguseid reeglipõhiseid formalisme – transformatsioonigrammatika (Chomsky 1965) – käändegrammatika (Fillmore 1967) – laiendatud üleminekuvõrk (ATN – Augmented Transition Network, Woods 1970) – määravate osalausete grammatika (DCG – Definite Clause Grammar, Colmerauer 1978)

 • 1980 ndatest peale – Unifikatsioonigrammatikaid (FUG – Functional Unification Grammar, M. Kay

• 1980 ndatest peale – Unifikatsioonigrammatikaid (FUG – Functional Unification Grammar, M. Kay 1979), süntaktiliste kategooriate põhistele reeglitele lisandusid keeruliste tunnusestruktuuridega reeglid – Leksikaal-funktsionaalne grammatika (LFG – Lexical Functional Grammar, J. Bresnan & R. Kaplan 1982) – Üldine fraasistruktuurigrammatika (GPSG – Generalized Phrase Structure Grammar, G. Gazdar 1985) – Peajuhitav fraasistruktuurigrammatika (HPSG – Head driven Phrase Structure Grammar, C. Pollard & I. Sag 1987) • nt inglise, saksa, vene, tšehhi ja bulgaaria keele analüsaatorite ning generaatorite loomisel

 • Lõplik (oleku)automaat ~ morfoloogiamudel – Alus: Markovi matemaatiline mudel, mis koosneb sõlmedest

• Lõplik (oleku)automaat ~ morfoloogiamudel – Alus: Markovi matemaatiline mudel, mis koosneb sõlmedest (olekutest) ja neid ühendavatest suunatud kaartest (üleminekutest) – Lõplikku automaati võib esitada olekudiagrammina – Lause (sõna) analüüs tähendab diagrammi läbimist algolekust lõppolekuni – Liikumine toimub mööda olekuid ühendavaid kaari (märgendatud lauses esinevate sõnavormidega või vastavuses sõnas esinevate morfeemidega)

 • Kaheastmeline morfoloogiamudel: – Süvatasandi mudel • Sõnastik – sisaldab morfeemide süvakujusid –

• Kaheastmeline morfoloogiamudel: – Süvatasandi mudel • Sõnastik – sisaldab morfeemide süvakujusid – Pindtasandi ehk pindmine mudel • Reeglite ja sõnastike vaheliste viitade abil genereeritakse kõik reaalselt kasutatavad sõnavormid • Eesti keele morfoloogiline analüüs ja süntees (Uibo 2006)

Uus empirismi periood arvutilingvistikas • Eeldused: – Horning 1969: tõenäoliselt ligikaudu korrektne õppimine positiivsete

Uus empirismi periood arvutilingvistikas • Eeldused: – Horning 1969: tõenäoliselt ligikaudu korrektne õppimine positiivsete näidete varal (ingl probably approximately correct) – Tõenäosuslikus grammatikas on iga reegel varustatud tema rakendamise tõenäosusega, mis on arvutatud korpuse põhjal • Olekuautomaadile võib lisada ühest olekust teise üleminekute tõenäosused – saame Markovi mudeli – 1976: tõenäosuslike mudelite kasutamine kõnetuvastuses – 1985: kõne sünteesimisel määrati pärisnimede päritolu – kasutati statistilisi trigramm-mudeleid (K. Churchil) – Statistiliste keeletöötlusmeetodite kasvav populaarsus – 1990: statistiliste keeletöötlusmeetodite võidukäik tänaseni, reeglipõhised meetodid jäid kõrvale

 • Põhjused: – Statistilised mudelid töötavad hästi mittetäieliku teadmuse puhul • neid on

• Põhjused: – Statistilised mudelid töötavad hästi mittetäieliku teadmuse puhul • neid on edukalt kasutatud kõnetuvastuses ja kõnesünteesis – Konnektsionistlikud keelemudelid (nt tehisnärvivõrgud) töötavad samuti hästi • koosneb suurest hulgast omavahel seotud lihtsatest mittelineaarsetest komponentidest, mis töötavad paralleelselt (mitte järjestikku nagu lõplik automaat) • kasutatakse samuti nagu statistilise mudeli puhul treeningandmeid, mille põhjal mudel õpib, kuid keeletöötlussüsteemi arhitektuur on keerukam ja tänu sõlmede dubleerimisele on tehisnärvivõrk töökindlam (Koit 2006)

Kirjandust Greenberg, Joseph H. (1954). A quantitative approach to the morphological typology. – Methods

Kirjandust Greenberg, Joseph H. (1954). A quantitative approach to the morphological typology. – Methods and perspective in anthropology. Minneapolis. Reprinted: Greenberg, Joseph H. (1960). A quantitative approach to the morphological typology of language. – International Journal of American Linguistics, vol. XXVI, № 3, 178– 194. Chomsky (1965) = Хомский Ноам (1965). Логические основы лингвистической теории. – Новое в лингвистике. Вып. IV. Москва: Прогресс, 465– 576. Перевод И. А. Мельчука. Allikas: Noam Chomsky (1962). The Logical Basis of Linguistic Theory. – Preprints of Papers for the Ninth International Congress of Linguists. Cambridge, Mass. Kaalep, Heiki-Jaan (2018). Statistika koht keelemudelis. – Keel ja Kirjandus, 8 -9, 713– 727.

Kirjandust Kaasik, Ülo, Ain Korjus (1959). Automaatsest tõlkimisest. - Keel ja Kirjandus 11, 663

Kirjandust Kaasik, Ülo, Ain Korjus (1959). Automaatsest tõlkimisest. - Keel ja Kirjandus 11, 663 -673. Koit, Mare (2006). Ratsionalism ja empirism keeletöötluses: Vastasseis või koostöö? – Toim. Ilona Tragel ja Haldur Õim. Teoreetiline keeleteadus Eestis II (Tartu Ülikooli üldkeeleteaduse õppetooli toimetised 7). Tartu: Tartu Ülikooli Kirjastus, 41– 54. Lepik, Kaido (2015). Eestikeelse teksti genereerimine keelemudelitega. Projekt. https: //courses. cs. ut. ee/MTAT. 03. 277/2015_fall/uploads/Main/deepl earning. pdf Palm 1962 = Пальм Рээдик (1962). О морфологическом анализе русской фразы. – Сообщения по машинному переводу 1. Таллин, 59 -83. Panetta, Kasey (2018). Gartner Top 10 Strategic Technology Trends for 2019. https: //www. gartner. com/smarterwithgartner/gartner-top-10 strategic-technology-trends-for-2019/ Tauli, Valter (1964). Word Index to August Mälk’s Tee kaevule I. August Mälgu Tee kaevule I. Sõnaloend. Uppsala: Soome-Ugri Keelte Instituut.

Kirjandust Viks, Ülle (2000). Eesti keele avatud morfoloogiamudel. – Arvutuslingvistikalt inimesele. (TÜ üldkeeleteaduse õppetooli

Kirjandust Viks, Ülle (2000). Eesti keele avatud morfoloogiamudel. – Arvutuslingvistikalt inimesele. (TÜ üldkeeleteaduse õppetooli toimetised 1. ) Toim. Tiit Hennoste. Tartu, 9 -36. Weitzmann, John Hendrik, Georg Rehm, Hans Uszkoreit (2010). Licensing and Sharing Language Resources: An Approach Inspired by Creative Commons and Open Science Data Movements. – Eds. Khalid Choukri, Denise Di. Persio, Marc Kupietz, Valérie Mapelli. Proceedings of the LREC 2010 Workshop Legal Issues for Sharing Language Resources: Constraints and Best Practices, Malta. Õim, Haldur (2006). Hargnemisi teoreetilises keeleteaduses. – Toim. Ilona Tragel ja Haldur Õim. Teoreetiline keeleteadus Eestis II (Tartu Ülikooli üldkeeleteaduse õppetooli toimetised 7). Tartu: Tartu Ülikooli Kirjastus, 2– 20. Õim, Haldur (2001). Keeletehnoloogiast ja eesti keelest. – Keel ja Kirjandus, 7, 499– 501.