Eestikeelne korpusphine knesntees Meelis Mihkla Liisi Piits Tnis

  • Slides: 23
Download presentation
Eestikeelne korpuspõhine kõnesüntees Meelis Mihkla, Liisi Piits Tõnis Nurk, Indrek Kiissel Eesti Keele Instituut

Eestikeelne korpuspõhine kõnesüntees Meelis Mihkla, Liisi Piits Tõnis Nurk, Indrek Kiissel Eesti Keele Instituut 21. 11. 2007 "Eesti keeletehnoloogiline tugi (2006 -2010)" konverents

 • • Kõnesüntees Eestis Kõneprosoodia statistiline modelleerimine Tekstikorpuse koostamine Kõnekorpuse salvestus ja märgendus

• • Kõnesüntees Eestis Kõneprosoodia statistiline modelleerimine Tekstikorpuse koostamine Kõnekorpuse salvestus ja märgendus Üksuste eelvalik fonoloogilistes puudes Kõneüksuste valikumeetodid Kokkuvõte 21. 11. 2007 "Eesti keeletehnoloogiline tugi (2006 -2010)" konverents

Kõnesüntees Eestis • Parameetriline kõnesüntees – 1978 -91 palju erinevaid kõnesüntesaatorite prototüüpe Küberneetika Instituudis

Kõnesüntees Eestis • Parameetriline kõnesüntees – 1978 -91 palju erinevaid kõnesüntesaatorite prototüüpe Küberneetika Instituudis – 1980 -85 formantsüntesaator Ex. Nicolais Keele ja Kirjanduse Instituudis • Tekst-kõne difoonsüntees – 1997 -2002 Eesti Keele Instituudi, TTÜ Küberneetika Instituudi ja OÜ Filosoft ühisprojekt • Korpuspõhine kõneüksuste valikul põhinev sünteesiprojekt – 2006 -2010 Eesti Keele Instituut 21. 11. 2007 "Eesti keeletehnoloogiline tugi (2006 -2010)" konverents

Eestikeelse tekst-kõne sünteesi arendustööd • Rakendused pimedatele ja vaegnägijatele • Süntesaatori integreerimine uude Windows

Eestikeelse tekst-kõne sünteesi arendustööd • Rakendused pimedatele ja vaegnägijatele • Süntesaatori integreerimine uude Windows keskkonda SAPI 5 liidesega • Kõneprosoodia täiustamine – reegelpõhiste prosoodiamudelite asendamine statistiliste mudelitega 21. 11. 2007 "Eesti keeletehnoloogiline tugi (2006 -2010)" konverents

Kõneprosoodia mudelid • Reegelpõhised mudelid • Statistilised mudelid – Ekspertide koostatud reeglid põhinevad suuresti

Kõneprosoodia mudelid • Reegelpõhised mudelid • Statistilised mudelid – Ekspertide koostatud reeglid põhinevad suuresti “laboratoorse kõne” mõõtmiste üldistustel – Sõltumatult tuletatud reeglite samaaegne rakendamine põhjustab vigu 21. 11. 2007 – Põhinevad sidusa kõne korpustel ja teksti analüüsil genereeritud argumenttunnustel – Statistiliste meetoditega on võimalik avastada ja uurida väikesi, varjatuid, kuid olulisi faktoreid kõneprosoodias "Eesti keeletehnoloogiline tugi (2006 -2010)" konverents

Kõne prosoodilise struktuuri modelleerimine • Kõne ajaline struktuur – Häälikute kestused – Pauside kestused

Kõne prosoodilise struktuuri modelleerimine • Kõne ajaline struktuur – Häälikute kestused – Pauside kestused ja pauside asukohad kõnevoos • Põhitooni modelleerimine – Sõnaprosoodia – Lause intonatsioon • Kõnelaine intensiivsuse modelleerimine 21. 11. 2007 "Eesti keeletehnoloogiline tugi (2006 -2010)" konverents

Kõne kestusliku struktuuri genereerimine 21. 11. 2007 "Eesti keeletehnoloogiline tugi (2006 -2010)" konverents

Kõne kestusliku struktuuri genereerimine 21. 11. 2007 "Eesti keeletehnoloogiline tugi (2006 -2010)" konverents

Statistiline modelleerimine SAS Enterprice Miner keskkonnas 21. 11. 2007 "Eesti keeletehnoloogiline tugi (2006 -2010)"

Statistiline modelleerimine SAS Enterprice Miner keskkonnas 21. 11. 2007 "Eesti keeletehnoloogiline tugi (2006 -2010)" konverents

Regressioonipuu pauside kestustele 21. 11. 2007 "Eesti keeletehnoloogiline tugi (2006 -2010)" konverents

Regressioonipuu pauside kestustele 21. 11. 2007 "Eesti keeletehnoloogiline tugi (2006 -2010)" konverents

Kõneüksuste valikul põhinev süntees • Kogu kõnekorpus (30 -200 minutit kõnet) on sünteesi akustiliseks

Kõneüksuste valikul põhinev süntees • Kogu kõnekorpus (30 -200 minutit kõnet) on sünteesi akustiliseks baasiks • Sünteesi minimaalseks ühikuks on difoon, aga korpusest otsitakse võimalikult pikki kõnelõike • Kõneüksuste valikul püütakse minimeerida sihtmärgi (lingvistilisi) ja ühilduvuse (füüsikalisi) saavutamise hinda 21. 11. 2007 "Eesti keeletehnoloogiline tugi (2006 -2010)" konverents

Kõneüksuste valikul põhinev korpussüntees • Tekstikorpuse koostamine • Kõnekorpuse salvestamine ja märgendamine • Üksuste

Kõneüksuste valikul põhinev korpussüntees • Tekstikorpuse koostamine • Kõnekorpuse salvestamine ja märgendamine • Üksuste eelvalik fonoloogilistel struktuuridel • Lingvistilise ja füüsikalise ühilduvuse saavutamise hinna minimeerimine • Festival arenduskeskkond ja Multisyn üksuste valikumootor 21. 11. 2007 "Eesti keeletehnoloogiline tugi (2006 -2010)" konverents

Tekstikorpuse koostamine Tekstikorpus sisaldab • kõiki eesti keeles esinevaid difoone; • suurema esinemissagedusega tüvevariante;

Tekstikorpuse koostamine Tekstikorpus sisaldab • kõiki eesti keeles esinevaid difoone; • suurema esinemissagedusega tüvevariante; nt haka-ta ja hakka-b; mees ja mehe; krooni ja kroo: ni • grammatilisi morfeeme; • tuletusliiteid; nt moodustamine, mustlanna, võistkond, rahandus, kohalikku, kiiresti • põhi- ja järgarvsõnade tüvevariante; nt kaksteist, kaheteistkümne, seitsmeteistkümnendal • asesõnu; • suurema esinemissagedusega kohanimesid. 21. 11. 2007 "Eesti keeletehnoloogiline tugi (2006 -2010)" konverents

Sõna näiteks kollokatsioonid 21. 11. 2007 "Eesti keeletehnoloogiline tugi (2006 -2010)" konverents

Sõna näiteks kollokatsioonid 21. 11. 2007 "Eesti keeletehnoloogiline tugi (2006 -2010)" konverents

Lõpptulemusena sisaldab korpus 400 lauset, milles esineb 2811 sõna. 21. 11. 2007 "Eesti keeletehnoloogiline

Lõpptulemusena sisaldab korpus 400 lauset, milles esineb 2811 sõna. 21. 11. 2007 "Eesti keeletehnoloogiline tugi (2006 -2010)" konverents

12. Šahhi nõgine rõdu ei ole samasugune nagu šiiidi tahmjas tuba. 13. Tõstke nunnu

12. Šahhi nõgine rõdu ei ole samasugune nagu šiiidi tahmjas tuba. 13. Tõstke nunnu põrsa söödakünasse üksteist kilo rediseid. 14. Teose fabuleerimisel on labane möla põlu all. 15. Löppis* ufo kadus vurinal öhe. 16. Täpne ori kõplas ihnsa aadlimehe maad. 17. Ema ei kõditanud titte kaua, vaid andis talle tissi ja laulis ühe jidišikeelse jeremiaadi, kuni ta jäi kussu. 18. Kašeloti küfoosi raviks soovitati jäledat kofeiiniga pudi. 21. 11. 2007 "Eesti keeletehnoloogiline tugi (2006 -2010)" konverents

Kõnekorpuse salvestus ja märgendus • Professionaalsed raadiodiktorid (naishääled) • Salvestus Eesti Raadio stuudios (kvantimissagedus

Kõnekorpuse salvestus ja märgendus • Professionaalsed raadiodiktorid (naishääled) • Salvestus Eesti Raadio stuudios (kvantimissagedus 44. 1 KHz, 16 bitti väärtuse kohta) • Salvestus kestis ca tund aega, korpus sisaldab 51 -54 minutit kõnematerjali • Märgendus käsitsi, kasutatakse sama transkriptsioonisüsteemi kui eesti keele foneetilises andmebaasis BABEL 21. 11. 2007 "Eesti keeletehnoloogiline tugi (2006 -2010)" konverents

Fragment kõnekorpuse fonoloogilise puu struktuurist 21. 11. 2007 "Eesti keeletehnoloogiline tugi (2006 -2010)" konverents

Fragment kõnekorpuse fonoloogilise puu struktuurist 21. 11. 2007 "Eesti keeletehnoloogiline tugi (2006 -2010)" konverents

Kõneüksuste valiku põhimõtted • Sihtmärgi (lingvistilised) hinnad (target costs) – Sõna asend fraasis (alguses,

Kõneüksuste valiku põhimõtted • Sihtmärgi (lingvistilised) hinnad (target costs) – Sõna asend fraasis (alguses, keskel, lõpus) – Rõhk (silbi rõhulisus and lauserõhk) – Silbi asend taktis ja foneemi asend silbis – Foneemiline sobivus vasakult ja paremalt • Ühilduvus- (füüsikalised) hinnad (join costs) – F 0, kestus, log energia • Multisyn kõneüksuste valiku mootor 21. 11. 2007 "Eesti keeletehnoloogiline tugi (2006 -2010)" konverents

21. 11. 2007 "Eesti keeletehnoloogiline tugi (2006 -2010)" konverents

21. 11. 2007 "Eesti keeletehnoloogiline tugi (2006 -2010)" konverents

Multisyn süntees vs Mbrola • Multisyn • Mbrola • Multisyn (vene) 21. 11. 2007

Multisyn süntees vs Mbrola • Multisyn • Mbrola • Multisyn (vene) 21. 11. 2007 "Eesti keeletehnoloogiline tugi (2006 -2010)" konverents

Publikatsioonid • Piits, Liisi; Mihkla, Meelis; Nurk, Tõnis; Kiissel, Indrek (2007). Designing a speech

Publikatsioonid • Piits, Liisi; Mihkla, Meelis; Nurk, Tõnis; Kiissel, Indrek (2007). Designing a speech corpus for Estonian unit selection synthesis. In: Nodalida 2007 Proceedings: The 16 th Nordic Conference of Computational Linguistics. , 2007, 367 - 371. • Mihkla, Meelis (2007). Modelling speech temporal structure for Estonian text-to-speech synthesis: feature selection. Trames. Journal of the Humanities and Social Sciences, 11(3), 284 - 298. • Mihkla, Meelis (2007). Morphological and syntactic factors in predicting segmental durations for Estonian text-to-speech synthesis. In: Proceedings of the 16 th International Congress of Phonetic Sciences: 16 th International Congress of Phonetic Sciences, Saarbrücken, 6 -10 August 2007. (Toim. ) Jürgen Trouvain, William J. Barry. Saarbrücken: , 2007, 2209 - 2212. • Mihkla, Meelis; Piits, Liisi; Nurk, Tõnis; Kiissel, Indrek (2007). Development of a unit selection TTS system for Estonian. Proceedings of the Third Baltic Conference in Human Language Technologies. Kaunas, Lithuania. October 4– 5 2007 , Ilmumas. 21. 11. 2007 "Eesti keeletehnoloogiline tugi (2006 -2010)" konverents

Kokkuvõte • On väljatöötatud metodoloogia kõneprosoodia moodulite genereerimiseks korpuspõhisele sünteesile • On salvestatud ja

Kokkuvõte • On väljatöötatud metodoloogia kõneprosoodia moodulite genereerimiseks korpuspõhisele sünteesile • On salvestatud ja 80% mahus märgendatud kvaliteetne kõnekorpus, mis on akustiliseks baasiks kõnesünteesile • Korpuspõhist sünteesi arendatakse kahel suunal: – Festival arenduskeskkonnas Multisyn valikumootoriga – Süntees, mis põhineb vaid kõnekorpusel ja heal valikualgoritmil sünteesimootorit kasutamata 21. 11. 2007 "Eesti keeletehnoloogiline tugi (2006 -2010)" konverents

Tänan tähelepanu eest! 21. 11. 2007 "Eesti keeletehnoloogiline tugi (2006 -2010)" konverents

Tänan tähelepanu eest! 21. 11. 2007 "Eesti keeletehnoloogiline tugi (2006 -2010)" konverents