Tnapeva kirjaliku eesti keele korpused Tartu likoolis Kadri

  • Slides: 18
Download presentation
Tänapäeva kirjaliku eesti keele korpused Tartu Ülikoolis Kadri Muischnek 18. 10. 2007

Tänapäeva kirjaliku eesti keele korpused Tartu Ülikoolis Kadri Muischnek 18. 10. 2007

Käsitletavad teemad Teooria: suletud representatiivne korpus vs avatud monitorkorpus. Praktika: kuidas meie korpused representatiivsuse

Käsitletavad teemad Teooria: suletud representatiivne korpus vs avatud monitorkorpus. Praktika: kuidas meie korpused representatiivsuse suhtes jaotuvad.

Ideaali definitsioon Korpus on polüfunktsionaalne elektroonilisel kujul olev tekstikogu, millesse kuuluvad tekstid on valitud

Ideaali definitsioon Korpus on polüfunktsionaalne elektroonilisel kujul olev tekstikogu, millesse kuuluvad tekstid on valitud eesmärgipäraselt, nii et nendest koosnev tervik annaks tõepärase pildi kogu keelest (selle hetkeseisust või muutumisest).

AGA-d Annaks tõepärase pildi kogu keelest? - suuline vs kirjalik keelekasutus - räägitud/kirjutatud vs

AGA-d Annaks tõepärase pildi kogu keelest? - suuline vs kirjalik keelekasutus - räägitud/kirjutatud vs loetud/kuuldud keel - erialakeeled

Representatiivsus Representatiivne ‘esinduslik’ Statistikas: representatiivne kogum = üldkogumile tunnuste poolest vastav väljavõtukogum

Representatiivsus Representatiivne ‘esinduslik’ Statistikas: representatiivne kogum = üldkogumile tunnuste poolest vastav väljavõtukogum

Kuidas saavutada korpuse representatiivsust? Korpuse planeerimise etapil määrata kindlaks: ü Korpusesse kuuluvad allkeeled ü

Kuidas saavutada korpuse representatiivsust? Korpuse planeerimise etapil määrata kindlaks: ü Korpusesse kuuluvad allkeeled ü Ilmumisaja piirid ü (Valitud allkeele) tekstiklasside osakaal (hulk ja mõju) sellel perioodil

Suletud vs avatud korpus Suletud korpus on representatiivne korpus ja sinna ei saa tekste

Suletud vs avatud korpus Suletud korpus on representatiivne korpus ja sinna ei saa tekste lisada, ilma et tema representatiivsus kaoks. Avatud korpus e monitorkorpus on selline, millesse pidevalt tekste juurde lisatakse. Representatiivsust ei taotleta. Kasutaja saab/peab ise koostama represenatiivse valiku allkorpustest vastavalt oma vajadustele.

Meie korpuste representatiivsus Eesti Kirjakeele Korpus: 1980 ndad - kokku 1 miljon sõna -

Meie korpuste representatiivsus Eesti Kirjakeele Korpus: 1980 ndad - kokku 1 miljon sõna - koosneb järgmistest tekstivaldkondadest. Valdkond %korpusest Ilukirjandus 25, 0 % Ajakirjandus 17, 5 % Teadus 16, 0 % Populaarteadus 15, 0 % esseed ja biograafiad 9, 0 % hobid ja harrastused 7, 5 % Propaganda 6, 0 % entsüklopeedilised teosed 2, 0 % Dokumendid 1, 2 % Vaimulikud tekstid 0, 8 %

80 ndate korpuse koostamispõhimõtted Kirjalikud tekstid Proosa Avaliku sfääri (st trükitud) tekstid Eesti keeles

80 ndate korpuse koostamispõhimõtted Kirjalikud tekstid Proosa Avaliku sfääri (st trükitud) tekstid Eesti keeles kirjutatud tekstid Täiskasvanute kirjutatud ja täiskasvanutele kirjutatud tekstid Lugemiseks kirjutatud tekstid Eestis ilmunud ja ringelnud tekstid Esmatrükitud 1983 -1987

80 ndate korpus: mis tunnused nende koostamispõhimõtetest järelduvad? Haritu(ma)d keelekasutajad Korrigeerijate olemasolu Linnakultuur ja

80 ndate korpus: mis tunnused nende koostamispõhimõtetest järelduvad? Haritu(ma)d keelekasutajad Korrigeerijate olemasolu Linnakultuur ja –keel

Läbilõikekorpus 1890 -1990 Representatiivne sinna valitud tekstiklasside, st ajalehetekstide ja ilukirjandustekstide suhtes

Läbilõikekorpus 1890 -1990 Representatiivne sinna valitud tekstiklasside, st ajalehetekstide ja ilukirjandustekstide suhtes

Läbilõikekorpus 1890 -1990 aastad sõnu ajalehti ilukirjandust 1990 995 800 39% 61% 1970 425

Läbilõikekorpus 1890 -1990 aastad sõnu ajalehti ilukirjandust 1990 995 800 39% 61% 1970 425 600 40% 60% 1960 333 000 60% 40% 1950 308 000 79% 21% 1930 369 000 32% 68% 1910 418 500 44% 66% 1900 236 000 73% 27% 1890 348 000 55% 45%

Eesti keele koondkorpus Tüüp: avatud monitor Maht: (hetkel) ca 110 miljonit Tekstiklassid ei ole

Eesti keele koondkorpus Tüüp: avatud monitor Maht: (hetkel) ca 110 miljonit Tekstiklassid ei ole ette kindlaks määratud (aga: Tasakaalus korpus) Palju ajalehti (ja ajakirju) Terviktekstid

Koondkorpus: mis seal on 1 Eesti Ekspress 7 500 000 sõna Postimees 33 000

Koondkorpus: mis seal on 1 Eesti Ekspress 7 500 000 sõna Postimees 33 000 Maaleht 4 300 000 Päevaleht töötluses Eesti Arst 700 000 Horisont 260 000 Arvutustehnika ja andmetöötlus 625 000 Kroonika 600 000 (jätkub)

Koondkorpus: mis seal on 2 Töös: Agraarteadus; Eesti Loodus Ilukirjandus 1995 -… 5 200

Koondkorpus: mis seal on 2 Töös: Agraarteadus; Eesti Loodus Ilukirjandus 1995 -… 5 200 000 Teadustekstid (sh dr-tööd) 3 500 000 Riigikogu stenogrammid 13 000 Jututoad 7 000

Tasakaalus korpus (saab kohe-kohe valmis) 5 milj sõna ajalehekeelt 5 milj sõna ilukirjanduskeelt 5

Tasakaalus korpus (saab kohe-kohe valmis) 5 milj sõna ajalehekeelt 5 milj sõna ilukirjanduskeelt 5 milj sõna teaduskeelt Võimaldab võrrelda kirjaliku keelekasutuse 3 tähtsamat tekstiklassi Iga tekstiklass omaette on representatiivne Kuid tervik ei ole representatiivne (sest pole proportsioonis)

Moraal suletud vs avatud korpus = koostaja vastutus vs kasutaja vastutus

Moraal suletud vs avatud korpus = koostaja vastutus vs kasutaja vastutus

Tänan kuulamast!

Tänan kuulamast!