EKI elektrooniline keelevara Margit Langemets EKI 18 okt

  • Slides: 20
Download presentation
EKI elektrooniline keelevara Margit Langemets (EKI) 18. okt 2007 ES-i kõnekoosolek Tartus 1

EKI elektrooniline keelevara Margit Langemets (EKI) 18. okt 2007 ES-i kõnekoosolek Tartus 1

Tüübid o Andmekogud o Sõnastikud o Tekstikogud ? o Tekstikorpused o Tarkvara LINGVISTIKA KEELETEHNOLOOGIA

Tüübid o Andmekogud o Sõnastikud o Tekstikogud ? o Tekstikorpused o Tarkvara LINGVISTIKA KEELETEHNOLOOGIA 18. okt 2007 ES-i kõnekoosolek Tartus 2

Võimalikud esituskujud o o e-tekst (puhas lihttekst või küljendusvm struktuuritähistega) digitaalsed helilindid andmebaas, sõnastikusüsteem

Võimalikud esituskujud o o e-tekst (puhas lihttekst või küljendusvm struktuuritähistega) digitaalsed helilindid andmebaas, sõnastikusüsteem (EKI sisevõrgus) avalik = Internetis (hrl otsimootoriga) n sh Keelevara 18. okt 2007 ES-i kõnekoosolek Tartus 3

Keelekihid (EKI osakonnad) o Murded ja sugukeeled (MRD) n o o Jüri Viikberg (ilmumas).

Keelekihid (EKI osakonnad) o Murded ja sugukeeled (MRD) n o o Jüri Viikberg (ilmumas). Eesti keele kogud Grammatika ja õigekeel (GRM) Kirjakeel (LKS) n vana kirjakeel (MRD, LKS) Terminoloogia (ETK) + Tekstikorpused Tarkvara o 18. okt 2007 ES-i kõnekoosolek Tartus 4

Murded ja sugukeeled (MRD) o Andmekogud: murdearhiiv (2 mln) n 1947: 1 mln (<

Murded ja sugukeeled (MRD) o Andmekogud: murdearhiiv (2 mln) n 1947: 1 mln (< ES murdekogud) o n n n sh Wiedemanni ee-sks sõnaraamatu alusel kogutud murrakusõnastikud (37 khk, à 7000– 60000 sedelit, kokku üle 0, 5 mln) + 1 mln sedelit (< sh korrespondendid) EKI ja ES ühisvara 1956: süstemaatiline helilindistamine o o 18. okt 2007 sh väliseestlased, kõnekeel magnet > digi (1992) > laser (1999) >. . . ES-i kõnekoosolek Tartus 5

Murded ja sugukeeled (jätk) o Sõnastikud n n n o Väike murdesõnastik I-II Hargla

Murded ja sugukeeled (jätk) o Sõnastikud n n n o Väike murdesõnastik I-II Hargla murraku konsonantism (Salme Nigol) Murdesõnaraamat (e-tekst) Vadja sõnaraamat (e-tekst) Etümoloogiasõnaraamat (e-tekst) Tekstikogud (e-tekst) 18. okt 2007 ES-i kõnekoosolek Tartus 6

Grammatika ja õigekeel (GRM) o Andmekogud: n n n Oskussõnavara koondkartoteek (0, 5 mln,

Grammatika ja õigekeel (GRM) o Andmekogud: n n n Oskussõnavara koondkartoteek (0, 5 mln, kogumine lõpetatud 2003) Keelenõuandmebaas, sh arvutikartoteek Kohanimede andmebaas 18. okt 2007 ES-i kõnekoosolek Tartus 7

Grammatika ja õigekeel (jätk) o Keelenõuandmebaas n n o keelenõu alates 1947, alates 1966

Grammatika ja õigekeel (jätk) o Keelenõuandmebaas n n o keelenõu alates 1947, alates 1966 keelenõuandepäevik 1993: arvutikartoteek, 60 000 kirjet www. eki. ee/keeleabi/ n sh avalik keelenõuvakk: 4200 kirjet o 18. okt 2007 päringud: valdkonniti (nt õigekirjutus, kokku- ja lahkukirjutamine, tuletised, tähendus, lauseõpetus, tõlkimine, nimed ja nimetused jpm) ES-i kõnekoosolek Tartus 8

Grammatika ja õigekeel (jätk) (keelenõuvakk: ) o nt otsitav sõna "moderaator" o vastus: Inimese

Grammatika ja õigekeel (jätk) (keelenõuvakk: ) o nt otsitav sõna "moderaator" o vastus: Inimese kohta ei kõlba kasutada sõna "moderaator". Selle asemel sobivad nt diskussiooni juht, väitlusjuht, koosoleku juhataja, juhataja. 18. okt 2007 ES-i kõnekoosolek Tartus 9

Grammatika ja õigekeel (jätk) o Kohanimede andmebaas KNAB n n n www. eki. ee/knab/

Grammatika ja õigekeel (jätk) o Kohanimede andmebaas KNAB n n n www. eki. ee/knab/ Peeter Päll (1988–) 100 000 kirjet (300 000 nime) o o 18. okt 2007 35 000 Eesti nimeobjekti (64 000 nime) 75 000 välisobjekti (240 000 nime) ES-i kõnekoosolek Tartus 10

Grammatika ja õigekeel (jätk) o Sõnastikud n n o Õigekeelsussõnaraamat (1976) Eesti õigekeelsussõnaraamat ÕS

Grammatika ja õigekeel (jätk) o Sõnastikud n n o Õigekeelsussõnaraamat (1976) Eesti õigekeelsussõnaraamat ÕS 2006 Tekstikogud n n Eesti keele käsiraamat Keelenõuanne soovitab (1– 3) (e-tekst) 18. okt 2007 ES-i kõnekoosolek Tartus 11

Kirjakeel (LKS) o Andmekogud: Eesti kirjakeele arhiiv (4, 3 mln) n 1955– 2000 o

Kirjakeel (LKS) o Andmekogud: Eesti kirjakeele arhiiv (4, 3 mln) n 1955– 2000 o o o 1961: 1 mln sedelit 2000: 4, 3 mln Sõnastikud: n "Eesti kirjakeele seletussõnaraamat" o o n 1988– 2007, 26 vihikut, ligi 150 000 ms e-tekst, töös: sõnastikusüsteem EELex Soome-eesti. ES-i. I-II (2003) kõnekoosolek Tartus 18. okt 2007 12

EKI sõnastikusüsteem EELex (alates 2005, KT projekt 2006– 2010) n n n Õigekeelsussõnaraamat ÕS

EKI sõnastikusüsteem EELex (alates 2005, KT projekt 2006– 2010) n n n Õigekeelsussõnaraamat ÕS 2006 LEKS-baas (uued sõnad) + töös: seletav Õpilase ÕS Sõnapered (Silvi Vare) Eesti-vene I–V (1997–(2008)) Eesti-X sõnastikupõhi o o 18. okt 2007 läti, leedu, udmurdi, (ukraina), . . . üheköiteline seletav ES-i kõnekoosolek Tartus 13

Vrd sõnastikusüsteemid Euralexil 2006 o EELex (EKI) n o Papillon n o Andres Loopmann,

Vrd sõnastikusüsteemid Euralexil 2006 o EELex (EKI) n o Papillon n o Andres Loopmann, Ülle Viks, Margit Langemets ee-pr, Antoine Chalvin, Madis Jürviste, Mathieu Mangeot (TÜ) Tshwane. Lex 2. 0 n KASUTAJA: ee-ingl, Enn Veldi (TÜ) 18. okt 2007 ES-i kõnekoosolek Tartus 14

Sõnastikusüsteem: milleks? o veebipõhine: n n o o online-ajakohastamine uued sõnastikud paindlikud päringud andmebaasi

Sõnastikusüsteem: milleks? o veebipõhine: n n o o online-ajakohastamine uued sõnastikud paindlikud päringud andmebaasi struktuur + trükivaade (nt Wordi kaudu) kogu info ühes kohas: rohkem infot kui trükitud sõnaraamatus edaspidi: viidad mujale treenida 1) süsteemi ja 2) kasutajat 18. okt 2007 ES-i kõnekoosolek Tartus 15

Vana kirjakeel (MRD, LKS) o Eesti piiblitõlke ajalooline konkordants (Kristiina Ross) n n o

Vana kirjakeel (MRD, LKS) o Eesti piiblitõlke ajalooline konkordants (Kristiina Ross) n n o kõik säilinud eestikeelsed piiblitõlked ja piiblitõlkekatkendid kuni esimese trükipiiblini (1739) otsingud: a) autorite või tekstide kaupa, b) kindla piiblikoha järgi, c) tänapäevastatud märksõna järgi, d) morfoloogilise vormi järgi Wiedemanni sõnaraamat ES-i kõnekoosolek Tartus kõik märksõnad (andmebaas sisevõrgus)16 18. okt 2007 n

Terminoloogia (ETK) o HTM projekt 2007: terminisõnastike virtuaalkeskkonna loomine n n katseprojekt: (haridus), füüsika

Terminoloogia (ETK) o HTM projekt 2007: terminisõnastike virtuaalkeskkonna loomine n n katseprojekt: (haridus), füüsika EKI sõnastikusüsteemi EELex eeskujul 18. okt 2007 ES-i kõnekoosolek Tartus 17

Tekstikorpused o EKI tekstikorpus n n n 10 mln sõnavormi, 80% ajalehed www. eki.

Tekstikorpused o EKI tekstikorpus n n n 10 mln sõnavormi, 80% ajalehed www. eki. ee/corpus/ sõnaloend 2004– 2007 (nt uute sõnade jaoks) 18. okt 2007 ES-i kõnekoosolek Tartus 18

Tarkvara www. eki. ee/tarkvara/ n n n silbitus tüübituvastus morf analüüs morf süntees sõnaloendid

Tarkvara www. eki. ee/tarkvara/ n n n silbitus tüübituvastus morf analüüs morf süntees sõnaloendid sõnastike alusel o o n n lemmad (ca 100 000) sõnavormid (ca 200 000) inglise-eesti sõnastik (toorandmebaas) jm 18. okt 2007 ES-i kõnekoosolek Tartus 19

Aitäh kuulamast! 18. okt 2007 ES-i kõnekoosolek Tartus 20

Aitäh kuulamast! 18. okt 2007 ES-i kõnekoosolek Tartus 20