Tnapeva kirjaliku eesti keele korpused Tartu likoolis Kadri


















- Slides: 18
Tänapäeva kirjaliku eesti keele korpused Tartu Ülikoolis Kadri Muischnek 18. 10. 2007
Käsitletavad teemad Teooria: suletud representatiivne korpus vs avatud monitorkorpus. Praktika: kuidas meie korpused representatiivsuse suhtes jaotuvad.
Ideaali definitsioon Korpus on polüfunktsionaalne elektroonilisel kujul olev tekstikogu, millesse kuuluvad tekstid on valitud eesmärgipäraselt, nii et nendest koosnev tervik annaks tõepärase pildi kogu keelest (selle hetkeseisust või muutumisest).
AGA-d Annaks tõepärase pildi kogu keelest? - suuline vs kirjalik keelekasutus - räägitud/kirjutatud vs loetud/kuuldud keel - erialakeeled
Representatiivsus Representatiivne ‘esinduslik’ Statistikas: representatiivne kogum = üldkogumile tunnuste poolest vastav väljavõtukogum
Kuidas saavutada korpuse representatiivsust? Korpuse planeerimise etapil määrata kindlaks: ü Korpusesse kuuluvad allkeeled ü Ilmumisaja piirid ü (Valitud allkeele) tekstiklasside osakaal (hulk ja mõju) sellel perioodil
Suletud vs avatud korpus Suletud korpus on representatiivne korpus ja sinna ei saa tekste lisada, ilma et tema representatiivsus kaoks. Avatud korpus e monitorkorpus on selline, millesse pidevalt tekste juurde lisatakse. Representatiivsust ei taotleta. Kasutaja saab/peab ise koostama represenatiivse valiku allkorpustest vastavalt oma vajadustele.
Meie korpuste representatiivsus Eesti Kirjakeele Korpus: 1980 ndad - kokku 1 miljon sõna - koosneb järgmistest tekstivaldkondadest. Valdkond %korpusest Ilukirjandus 25, 0 % Ajakirjandus 17, 5 % Teadus 16, 0 % Populaarteadus 15, 0 % esseed ja biograafiad 9, 0 % hobid ja harrastused 7, 5 % Propaganda 6, 0 % entsüklopeedilised teosed 2, 0 % Dokumendid 1, 2 % Vaimulikud tekstid 0, 8 %
80 ndate korpuse koostamispõhimõtted Kirjalikud tekstid Proosa Avaliku sfääri (st trükitud) tekstid Eesti keeles kirjutatud tekstid Täiskasvanute kirjutatud ja täiskasvanutele kirjutatud tekstid Lugemiseks kirjutatud tekstid Eestis ilmunud ja ringelnud tekstid Esmatrükitud 1983 -1987
80 ndate korpus: mis tunnused nende koostamispõhimõtetest järelduvad? Haritu(ma)d keelekasutajad Korrigeerijate olemasolu Linnakultuur ja –keel
Läbilõikekorpus 1890 -1990 Representatiivne sinna valitud tekstiklasside, st ajalehetekstide ja ilukirjandustekstide suhtes
Läbilõikekorpus 1890 -1990 aastad sõnu ajalehti ilukirjandust 1990 995 800 39% 61% 1970 425 600 40% 60% 1960 333 000 60% 40% 1950 308 000 79% 21% 1930 369 000 32% 68% 1910 418 500 44% 66% 1900 236 000 73% 27% 1890 348 000 55% 45%
Eesti keele koondkorpus Tüüp: avatud monitor Maht: (hetkel) ca 110 miljonit Tekstiklassid ei ole ette kindlaks määratud (aga: Tasakaalus korpus) Palju ajalehti (ja ajakirju) Terviktekstid
Koondkorpus: mis seal on 1 Eesti Ekspress 7 500 000 sõna Postimees 33 000 Maaleht 4 300 000 Päevaleht töötluses Eesti Arst 700 000 Horisont 260 000 Arvutustehnika ja andmetöötlus 625 000 Kroonika 600 000 (jätkub)
Koondkorpus: mis seal on 2 Töös: Agraarteadus; Eesti Loodus Ilukirjandus 1995 -… 5 200 000 Teadustekstid (sh dr-tööd) 3 500 000 Riigikogu stenogrammid 13 000 Jututoad 7 000
Tasakaalus korpus (saab kohe-kohe valmis) 5 milj sõna ajalehekeelt 5 milj sõna ilukirjanduskeelt 5 milj sõna teaduskeelt Võimaldab võrrelda kirjaliku keelekasutuse 3 tähtsamat tekstiklassi Iga tekstiklass omaette on representatiivne Kuid tervik ei ole representatiivne (sest pole proportsioonis)
Moraal suletud vs avatud korpus = koostaja vastutus vs kasutaja vastutus
Tänan kuulamast!