Eesti keele spontaanse kne foneetiline korpus Pire Teras

  • Slides: 19
Download presentation
Eesti keele spontaanse kõne foneetiline korpus Pire Teras, Pärtel Lippus pire. teras@ut. ee, partel.

Eesti keele spontaanse kõne foneetiline korpus Pire Teras, Pärtel Lippus pire. teras@ut. ee, partel. lippus@ut. ee Konverents „Eesti keeletehnoloogia 2015“ 29. ‒ 30. oktoober 2015

Projektid • Riikliku programmi „Eesti keeletehnoloogiline tugi (2006– 2010)” projekt „Eesti keele spontaanse kõne

Projektid • Riikliku programmi „Eesti keeletehnoloogiline tugi (2006– 2010)” projekt „Eesti keele spontaanse kõne foneetiline korpus” (2006– 2010) • Riikliku programmi „Keeletehnoloogia (2011– 2017)“ projektid: • „Eesti keele spontaanse kõne foneetilise korpuse arendused“ (EKT 4, 2011– 2014) • „Eesti keele spontaanse kõne foneetilise korpuse arendused II“ (EKT 71, 2015– 2017)

Projektis osalejad ja rahastus • Asutus: Tartu Ülikooli eesti ja üldkeeleteaduse instituut • Projektijuht:

Projektis osalejad ja rahastus • Asutus: Tartu Ülikooli eesti ja üldkeeleteaduse instituut • Projektijuht: Pire Teras, pire. teras@ut. ee • Kontaktisik: Pärtel Lippus, partel. lippus@ut. ee • Projekti meeskond: Pärtel Lippus, Karl Pajusalu, Nele Salveste, Tuuli Tuisk, Kätlin Aare, Helen Türk, Anton Malmi, Maarja-Liisa Pilvik, Ann Metslang, Margot Möller, Katrin Leppik • Rahastus: 2011 – 41 000, 2012 – 25 000, 2013 – 32 000, 2014 – 32 000; 2015 – 50 000

Vajadus • Keeletehnoloogia riikliku programmi üks eesmärk on keeleressursside loomine ja arendamine. • Kõnekeele

Vajadus • Keeletehnoloogia riikliku programmi üks eesmärk on keeleressursside loomine ja arendamine. • Kõnekeele ressursid, mh eri liiki loomuliku kõne korpused • Foneetikakorpuse projektid on panustanud ja panustavad keeleressursside arendamisesse. • Kõnekeele ressursid vajavad jätkuvalt täiendamist ja arendamist.

Peamised eesmärgid • Arendada eesti keele spontaanse kõne foneetilist korpust, suurendades korpuse salvestiste mahtu

Peamised eesmärgid • Arendada eesti keele spontaanse kõne foneetilist korpust, suurendades korpuse salvestiste mahtu 15 tunni võrra ehk 85 tunnini; • kasvatada nii sõna- kui ka häälikutasandil märgendatud helifailide mahtu vähemalt 24 tunni võrra.

Lisaeesmärgid • Märgendada automaatset morfoloogilist märgendust kasutades kõik sõna- ja häälikutasandil märgendatud failid; •

Lisaeesmärgid • Märgendada automaatset morfoloogilist märgendust kasutades kõik sõna- ja häälikutasandil märgendatud failid; • luua kõnekorpuste tööriistade pakett; • korrastada korpuse metaandmed; • töötada välja intonatsiooniüksuse kontseptsioon, millele toetudes hakata märgendama lausungitasandit; • arendada korpuse otsingumootorit koostöös Küberneetika Instituudi kõnekorpuste projektidega.

Tulemused: salvestised • EKT 4 käigus tehti salvestusi 44 tundi; • Korpusesse lisandus kõnet

Tulemused: salvestised • EKT 4 käigus tehti salvestusi 44 tundi; • Korpusesse lisandus kõnet 70 uuelt keelejuhilt • Sellel aastal salvestatud ligikaudu 5 tundi • Lisandunud on 6 uut keelejuhti • Korpuse salvestiste kogumaht 77 tundi • 111 keelejuhti

Dialoogid ja monoloogid

Dialoogid ja monoloogid

 ‒ meeskeelejuhid, ‒ naiskeelejuhid

‒ meeskeelejuhid, ‒ naiskeelejuhid

Keelejuhtide vanus

Keelejuhtide vanus

Monoloogides keelejuhid soo ja vanuse järgi

Monoloogides keelejuhid soo ja vanuse järgi

Dialoogides keelejuhipaarid ‒ meeskeelejuhid, ‒ naiskeelejuhid

Dialoogides keelejuhipaarid ‒ meeskeelejuhid, ‒ naiskeelejuhid

Tulemused: segmentimine ja märgendamine • Sõnatasandi segmentimisel ja märgendamisel koostöös Tanel Alumäega kasutatud kõnetuvastuse

Tulemused: segmentimine ja märgendamine • Sõnatasandi segmentimisel ja märgendamisel koostöös Tanel Alumäega kasutatud kõnetuvastuse abi • Sõnatasandi märgendus kontrollitakse ning segmenditakse ja märgendatakse käsitsi häälikutasand • Lõppenud projekti käigus 25 tundi • Sel aastal 7 tundi 40 minutit

Eri tasanditel märgendatud tundide arv

Eri tasanditel märgendatud tundide arv

Korpusest tehtud päringute hulk

Korpusest tehtud päringute hulk

Korpuse kasutamine • Tervikkorpuse kasutamine • Väljastpoolt Tartu Ülikooli kokku 15 uurijat või uurimisrühma

Korpuse kasutamine • Tervikkorpuse kasutamine • Väljastpoolt Tartu Ülikooli kokku 15 uurijat või uurimisrühma • Korpust on kasutatud erinevates eestikeelse kõnetuvastuse ja automaatsegmenteerija rakendustes (EKT 8 “Kõnetuvastus” ja Münheni ülikooli Web. MAUS) • Spontaanse eesti keele häälduse uurimine

Uurimusi • • Aare, Kätlin 2013. Kärin eesti keele spontaanses kõnes. Tartu Ülikooli bakalaureusetöö.

Uurimusi • • Aare, Kätlin 2013. Kärin eesti keele spontaanses kõnes. Tartu Ülikooli bakalaureusetöö. Tartu. Käsikiri TÜ eesti ja üldkeeleteaduse instituudis. Aare, Kätlin, Pärtel Lippus, Juraj Šimko 2014. Creaky voice in spontaneous spoken Estonian. – XXVIII Fonetiikan päivät. Turku 25. – 26. lokakuuta 2013. Konferenssijulkaisu. Toim. Katri Jähi, Laura Taimi. Turku: Turun yliopisto, 27– 35. Lippus, Pärtel 2011. The acoustic features and perception of the Estonian quantity system. Dissertationes philologiae estonicae Universitatis Tartuensis 29. Tartu: Tartu Ülikooli Kirjastus. Lippus, Pärtel, Eva Liina Asu, Pire Teras, Tuuli Tuisk 2013. Quantity-related variation of duration, pitch and vowel quality in spontaneous Estonian. – Journal of Phonetics 41 (1), 17– 28. Siiboja, Tjorven 2015. Häälikujärjendi -ähe hääldamine. Tartu Ülikooli bakalaureusetöö. Tartu. Käsikiri TÜ eesti ja üldkeeleteaduse instituudis. Teras, Pire 2012. Eesti diftongid spontaankõnes. – Emakeele Seltsi aastaraamat 57 (2011), 235– 248. Teras, Pire, Karl Pajusalu 2014. Palatalisatsioonist ja prepalatalisatsioonist spontaanses eesti keeles. – Keel ja Kirjandus 4, 257– 269.

Muud tööd • Praati skriptides koosnev tööriist: https: //gitlab. keeleressursid. ee/partel/plugi n_Phon. Corp. Tools.

Muud tööd • Praati skriptides koosnev tööriist: https: //gitlab. keeleressursid. ee/partel/plugi n_Phon. Corp. Tools. git • Intonatsiooniüksuste märgendamise kontseptsiooni väljatöötamine

Korpus • Korpus internetis http: //www. keel. ut. ee/et/foneetikakorpus • Otsingumootor http: //www. murre.

Korpus • Korpus internetis http: //www. keel. ut. ee/et/foneetikakorpus • Otsingumootor http: //www. murre. ut. ee/otsing/ekskfk. php • Eesti Keeleressursside Keskuse kõneandmebaasid ja Entu repositoorium http: //keeleressursid. ee/et/keeleressursid/ koneandmebaasid