Odjel za informatiku Sveuilite u Rijeci Radmile Mateji

Odjel za informatiku, Sveučilište u Rijeci Radmile Matejčić 2, 51000 Rijeka, Hrvatska Tel. :

Uvod l govor je prirodan i najlakši način sporazumijevanja među ljudima l govorne tehnologije

Uvod II l ograničena primjena proizlazi iz promjenjive naravi govora: § dijelovi riječi i

Govorne tehnologije l tehnologije koje čovjeku omogućavaju govornu interakciju s računalom § u obliku

Govorne tehnologije II l multidisciplinarno područje § znanja, pristupi i postupci iz različitih područja

Sadržaj l Govorne tehnologije § Raspoznavanje hrvatskoga govora § Sinteza hrvatskoga govora l Izgradnja

Raspoznavanje govora l ulazni govorni signal predstavljen nizom vektora značajki, na osnovu akustičnog i

Speech recognition technology (Furui, 2005) natural conversation Spontaneous speech Speaking style 0010 -11 word

Sinteza govora l proces u kojem se iz danog teksta tvori čovjeku razumljiv govor

Statistička parametarska sinteza govora l za ulazni tekst se iz kontekstno ovisnih SMM -a

Izgradnja sustava akustički modeli govorni korpus rezultati 11

Učenje akustičkog modela l 30 standardnojezičnih fonema hrvatskoga jezika § kod sinteze +6 naglašenih

Govorni korpus l zbirka govornih signala i njihovih tekstualnih prijepisa pohranjenih na digitalnom mediju

Hrvatski govorni korpus I l nastajao u periodu 2002 -2010. § § § Radijske

Hrvatski govorni korpus II Broj Govornici Riječi Trajanje snimaka iskaza M Ž svih različitih

Testiranje sustava za raspoznavanje l 4 različita sustava za raspoznavanje: vremenskih prognoza, vijesti, priča

Rezultati raspoznavanja: prognoza, vijesti i priča Pogreška raspoznavanja riječi prognoze 10. 54% vijesti 10.

Raspoznavanje dijaloga l učeno na 15. 5 sati govora: § cijeli korpus: vremenske prognoze,

Izgradnja sustava za SMM sintezu l odabrani govornik sm 04 § 6222 različitih riječi

Rezultati sinteze l tekst iz vremenske domene § muški glas § većina riječi iz

Mogućnosti primjene l za e-učenje § npr. aplikacije za pomoć pri učenju izgovora hrvatskoga

Mogućnosti primjene II l Interakcija čovjeka s računalom (HCI) § nadzor i korištenje različitih

Sustav za govorni dijalog l ograničenja § veličina vokabulara § uska domena primjene §

Zaključak l Govorne tehnologije za hrvatski § raspoznavanje velikog vokabulara hrvatskog jezika (10000+ različitih

Istraživački tim prof. dr. sc. Ivo Ipšić ivoi@inf. uniri. hr Miran Pobar mpobar@inf. uniri.

Objavljeni radovi l Pobar, Miran; Martinčić-Ipšić, Sanda; Ipšić, Ivo. Optimization of Cost Function Weights

SMM (HMM) sinteza lučenje akustičkog modela izvodi se jednako kao pri sustavu za raspoznavanje

Raspoznavanje govora l statistički pristup raspoznavanju govora: formalizam skrivenih Markovljevih modela (SMM-a) § X=(X

Izgradnja sustava raspoznavanje hrvatskoga govora sinteza hrvatskoga govora 32

Izgradnja sustava za raspoznavanje l određivanje značajki govornoga signala l izgradnja akustičkog modela §

Izgradnja sustava za SMM sintezu l određivanje značajk govornoga signala l učenje akustičnoga modela

Učenje akustičnog modela l 30 standardnojezičnih fonema hrvatskoga jezika § kod sinteze +6 naglašenih

Postupak parametrizacije govornoga signala u sustavima za raspoznavanje i sintezu govora l na govornom

Jezično modeliranje hrvatskoga govora l statistički n-gramski modeli § vjerojatnost nastupa pojedine riječi wn

Učenje kontekstno ovisnih modela l svaki trifon modeliran l l § jednim linearnim SMM-om

Postupak raspoznavanja l iz trifonskih SMM-a se gradi modele za sve riječi w 1,

Evaluacija sustava za raspoznavanje l Točnost raspoznatih riječi (Correctness) l Preciznost raspoznatih riječi (Accuracy)

Rezultati ASR dijalozi WER trifonskih modela Spiker dm 013 dm 014 dm 015 dm

Najvažniji alati l sustav za raspoznavanje govora § HTK Toolkit ver. 3. 4 (The

Izgradnja sustava za SMM sintezu II l vektor značajki govornoga signala 75 vrijednosti l

Generiranje govornoga signala (SMM sinteza) l ulazni tekst se pretvori u odgovarajući trifonski zapis

Slides: 45

Download presentation

Odjel za informatiku, Sveučilište u Rijeci Radmile Matejčić 2, 51000 Rijeka, Hrvatska Tel. : + 385 51 584 700 Govorne tehnologije za hrvatski Speech Technologies for Croatian doc. dr. sc. Sanda Martinčić-Ipšić smarti@inf. uniri. hr 1

Uvod l govor je prirodan i najlakši način sporazumijevanja među ljudima l govorne tehnologije su sustavi koji koriste govor za komunikaciju čovjeka s računalom § sustavi za raspoznavanje govora § sustavi za sintezu govora l Zašto nema šire primjene govora za interakciju čovjeka s računalom? 2

Uvod II l ograničena primjena proizlazi iz promjenjive naravi govora: § dijelovi riječi i rečenica su često ispušteni u spontanom govoru, – nerazumljivo izgovoreni, – različito naglašeni, – izgovoreni različitom brzinom, – glasniji ili tiši, – utjecaj dijalekata. . . § teško je razlučiti početak i kraj riječi koje se zajedno izgovaraju, § velike anatomske razlike među govornicima (očituju se u govoru), § govor je često popraćen pozadinskim šumom, zvukovima, glazbom, . . 3

Govorne tehnologije l tehnologije koje čovjeku omogućavaju govornu interakciju s računalom § u obliku govornoga signala § koristeći znanje o jeziku i govoru raspoznavanje i sinteza govora 4

Govorne tehnologije II l multidisciplinarno područje § znanja, pristupi i postupci iz različitih područja § lingvistike, fonetike, akustike, psihologije, fiziologije, . . . § obrade signala, statistike, raspoznavanja uzoraka, umjetne inteligencije i strojnog učenja, . . . l istraživačka područja § § § Automatsko raspoznavanje govora (ASR Automatic Speech Recognition) Sinteza govora (TTS –Text-to-Speech) Prepoznavanje govornika (Speaker Recognition), verifikacija govornika Prepoznavanje jezika (Spoken Language Identification) Prepoznavanje emocija iz govora, generiranje emotivnoga govora (Emotion recognition, Emotional TTS) 5

Sadržaj l Govorne tehnologije § Raspoznavanje hrvatskoga govora § Sinteza hrvatskoga govora l Izgradnja sustava § Govorni korpusi § Rezultati l Primjena § sustav za govorni dijalog 6

Raspoznavanje govora l ulazni govorni signal predstavljen nizom vektora značajki, na osnovu akustičnog i jezičnog znanja, zapisanog u akustičnom i jezičnom modelu, pretvara se u niz riječi 7

Speech recognition technology (Furui, 2005) natural conversation Spontaneous speech Speaking style 0010 -11 word spotting Fluent speech digit strings Read speech 2 -way dialogue network transcription agent & system driven intelligent dialogue messaging name dialing 2000　 form fill by voice 1980　 Connected speech voice commands Isolated words 2 office naši dictation rezultati directory assistance 1990　 20 20000 Unrestricted Vocabulary size (number of words) 8

Sinteza govora l proces u kojem se iz danog teksta tvori čovjeku razumljiv govor l statističke metode u sintezi § uporaba skrivenih Markovljevih modela – SMM (Hidden Markov Models) – za odabir odgovarajućih jedinica (unit selection) - korpusna sinteza – kao generativni model govora (HMM TTS) – statistička parametarska sinteza 9

Statistička parametarska sinteza govora l za ulazni tekst se iz kontekstno ovisnih SMM -a generira govorni signal l iz naučenog modela se generira niz značajki l iz niza značajki se rekonstruira govorni signal 10

Izgradnja sustava akustički modeli govorni korpus rezultati 11

Učenje akustičkog modela l 30 standardnojezičnih fonema hrvatskoga jezika § kod sinteze +6 naglašenih vokala § + stanka, udah i izdah kao i svi posebni akustični događaji u govoru l monofonski akustični modeli l trifonski modeli akustički model za glas /h/ 12

Govorni korpus l zbirka govornih signala i njihovih tekstualnih prijepisa pohranjenih na digitalnom mediju i primjerenih za računalnu obradu l najvažniji dio sustava za raspoznavanje i sintezu govora § § statistički pristupi učenja iz podataka veličina, kakvoća i cjelovitost korpusa vitalni su dio sustava utječu na razvojne mogućnosti i rezultate istraživanja proces izgradnje korpusa dugotrajan, težak i skup l za hrvatski jezik je potrebno izgraditi govorni korpus 13

Hrvatski govorni korpus I l nastajao u periodu 2002 -2010. § § § Radijske vremenske prognoze Radijske vijesti Priče Dijalozi vezani uz vremensku prognozu Telefonska vremenska izvješća Hrvatski BCN (Broadcast News) + video snimke 6 dnevnika l oko 25. 5 sati transkribiranoga govora § preko 280. 000 izgovorenih riječi § približno 20. 000 različitih riječi § 280 različitih govornika 14

Hrvatski govorni korpus II Broj Govornici Riječi Trajanje snimaka iskaza M Ž svih različitih h Radijske vremenske prognoze 1057 5456 11 14 77322 1462 8 Radijske vijesti 237 3975 1 2 105678 9923 5 Priče 10 2532 1 18984 5268 2 34 1530 17 17 6664 78 1 170 3276 5 7 52430 1788 157 61 18632 9326 3. 5 192 85 279710 ~20000 25. 5 Dijalozi vezani uz vremensku prognozu Telefonska vremenska izvješća HR-BCN UKUPNO 6 1514 16769 6 15

Testiranje sustava za raspoznavanje l 4 različita sustava za raspoznavanje: vremenskih prognoza, vijesti, priča i dijaloga l modeli učeni na kumulativnom govoru: § vremenske prognoze 8 sati, § vijesti 13 sati, § priče 15 sati govora § istih 8 muških i 8 ženskih govornika l testiranje svih sustava: § uvijek istih 1710 rečenica u vezi s vremenom od preostalih 3 muških i 6 ženskih govornika 16

Rezultati raspoznavanja: prognoza, vijesti i priča Pogreška raspoznavanja riječi prognoze 10. 54% vijesti 10. 5% priče 8. 55% 17

Raspoznavanje dijaloga l učeno na 15. 5 sati govora: § cijeli korpus: vremenske prognoze, vijesti i priče § (istih 8 muških i 8 ženskih govornika) + § dijalozi novih 12 muških i 12 ženskih govornika (70% od ukupnog broja dijaloga u korpusu) l testirano: § dijalozi preostalih 5 muških i 5 ženskih govornika (30% dijaloga) § rezulati su neovisni o govorniku (speaker independent) l rezultat: oko 5% pogrešno raspoznatih riječi 18

Izgradnja sustava za SMM sintezu l odabrani govornik sm 04 § 6222 različitih riječi u 2332 izgovorenih blokova § 2. 5 sata govora l vrednovanje sustava: § objektivni test: sustavom za raspoznavanje hrvatskoga govora § subjektivni test: anketa, 21 ocjenjivač § usporedni test: ocjenjivači i sustav za raspoznavanje 19

Rezultati sinteze l tekst iz vremenske domene § muški glas § većina riječi iz rječnika za učenje modela § sintetizirana vremenska prognoza 07. 05. 2012. l tekst izvan vremenske domene § ženski glas § riječi izvan rječnika § sintetizirane tekuće vijesti 26. 11. 2012. 20

Primjena sustav za govorni dijalog 21

Mogućnosti primjene l za e-učenje § npr. aplikacije za pomoć pri učenju izgovora hrvatskoga jezika kao stranog jezika § moguće progovoriti strani jezik vlastitim glasom l asistivne tehnologije § aplikacije za pomoć slabovidnim osobama i osobama smanjene pokretljivosti (Servus http: //www. eglas. hr/) l sustavi za diktiranje i automatsko zapisivanje § npr. diktiranje dijagnoza za rendgenske slike l sustavi za vođenje govornog dijaloga čovjeka s računalom § npr. vezanog uz trenutnu vremensku situaciju i prognozu 22

Mogućnosti primjene II l Interakcija čovjeka s računalom (HCI) § nadzor i korištenje različitih inteligentnih naprava – dlanovnici, tableti i pametni telefoni – upotreba u situacijama gdje se ruke i oči zauzete – kompaktni i tematski određeni sustavi za raspoznavanje i sintezu govora l govorno sučelje WEB aplikacija l Biometrija § prepoznavanje i identifikacija govornika – sigurnost l Zabava § interaktivne igre, avatari, računalni likovi 23

Sustav za govorni dijalog l ograničenja § veličina vokabulara § uska domena primjene § jednostavne rečenice l govorni dijalog za vremenske informacije § pridobivanje informacija o vremenskoj situaciji i vremenskoj prognozi § za različite dijelove Hrvatske § semantička analiza domene (ekstrakcija informacija) 24

Sustav za govorni dijalog II 25

Zaključak l Govorne tehnologije za hrvatski § raspoznavanje velikog vokabulara hrvatskog jezika (10000+ različitih riječi), telefonskog govora § parametarska sinteza – generiranje hrvatskoga govora dobre razumljivosti § primjena u sustavu za vođenje govornoga dijaloga za vremenske prognoze l otvoreno: proširenje korpusa, poboljšanje rezultata, sustav za govorni dijalog, nove domene. . . 26

Istraživački tim prof. dr. sc. Ivo Ipšić ivoi@inf. uniri. hr Miran Pobar mpobar@inf. uniri. hr doc. dr. sc. Sanda Martinčić-Ipšić smarti@inf. uniri. hr Lucia Načinović lnacinovic@inf. uniri. hr doc. dr. sc. Ana Meštrović amestrovic@inf. uniri. hr 27

Objavljeni radovi l Pobar, Miran; Martinčić-Ipšić, Sanda; Ipšić, Ivo. Optimization of Cost Function Weights for Unit Selection Speech Synthesis Using Speech Recognition. Neural Network World. Forthcoming 2012. l Martinčić-Ipšić, Sanda; Pobar, Miran; Ipšić, Ivo. Croatian Large Vocabulary Automatic Speech Recognition. // Automatika. 52 (2011) , 2; 147 -157 l Meštrović, Ana; Bernić, Luka; Pobar, Miran; Martinčić-Ipšić, Sanda; Ipšić, Ivo. Overview of a Croatian Weather Domain Spoken Dialogue System Prototype // Proceedings of the ITI 2010 pp. 103 -108. l Martinčić-Ipšić, Sanda; Ribarić, Slobodan; Ipšić, Ivo. Acoustic Modelling for Croatian Speech Recognition and Synthesis. // Informatica. 19 (2008) , 2; 227 -254 l Sanda, Martinčić - Ipšić; Ivo, Ipšić. Croatian HMM-based Speech Synthesis. // Journal of Computing and Information Technology, CIT. 14 (2006) , 4; pp. 307 -313. l Meštrović, Ana; Martiničić-Ipšić, Sanda; Ipšić, Ivo. Semantic Analysis in F-logic // Semantic Representation of Spoken Language 2007 / Plá, Manuel A ; Declerck, Thierry (ur. ). Salamanca : DFKI, 2007. pp. 59 -66. l Martinčić-Ipšić, Sanda; Ipšić, Ivo. Recognition of Croatian Broadcast Speech. MIPRO 2004. 111 -114. l Martinčić-Ipšić, Sanda; Ipšić, Ivo. Croatian Telephone Speech Recognition IPRO 2006, . 182186 29

SMM (HMM) sinteza lučenje akustičkog modela izvodi se jednako kao pri sustavu za raspoznavanje § kontekstno neovisni (monofonski) i § kontekstno ovisni (trifonski) akustički SMM-i – uče se na govoru predstavljenom vektorima značajki akustički model za glas /h/ 30

Raspoznavanje govora l statistički pristup raspoznavanju govora: formalizam skrivenih Markovljevih modela (SMM-a) § X=(X 1, X 2, . . , Xn) niz akustičnih opažanja ili niz vektora značajki govornoga signala, W=(W 1, W 2, . . , Wm) niz raspoznatih riječi, § P(X|W) vjerojatnost akustičnog događaja pri raspoznatom nizu riječi W, § P(X) vjerojatnost akustičnog opažanja i § P(W) vjerojatnost izlaznog niza raspoznatih riječi l raspoznavanje govora pomoću SMM-a: maksimum produkta vjerojatnosti akustičnog modela P(X|W) i vjerojatnosti jezičnoga modela P(W) 31

Izgradnja sustava raspoznavanje hrvatskoga govora sinteza hrvatskoga govora 32

Izgradnja sustava za raspoznavanje l određivanje značajki govornoga signala l izgradnja akustičkog modela § § l učenje kontekstno neovisnih modela učenje kontekstno ovisnih modela izgradnja jezičnog modela § bigrami 33

Izgradnja sustava za SMM sintezu l određivanje značajk govornoga signala l učenje akustičnoga modela § kontekstno neovisnog § kontekstno ovisnog l generiranje govornoga signala 34

Učenje akustičnog modela l 30 standardnojezičnih fonema hrvatskoga jezika § kod sinteze +6 naglašenih vokala § + stanka, udah i izdah kao i svi posebni akustični događaji u govoru l monofonski akustični modeli § linearni SMM-i s Gaussovim kontinuiranim funkcijama gustoća vjerojatnosti, 5/3 stanja § automatska segmentacija l trifonski modeli § inicijalne vrijednosti svih parametara jednake vrijednostima monofonskih modela § problem oskudnosti govornoga materijala za učenje § postupak vezivanja stanja - 83 hrvatskih fonetskih pravila 35

Postupak parametrizacije govornoga signala u sustavima za raspoznavanje i sintezu govora l na govornom signalu izvodi se brza Fourierova transformacija (FFT) čime se dobiva spektar govornoga signala. l Trokutastim mel-frekvencijskim filtrom se iz spektra određuju mel-kepstralni koeficijenti. l logaritmiranjem i diskretnom kosinusnom transformacijom dobivamo vektor MFCC značajki s 39 vrijednosti: § prvih 13 MFCC koeficijenata, § 13 dinamičnih značajki prvog ( ) reda i § 13 dinamičnih značajki drugog ( 2) reda. 36

Jezično modeliranje hrvatskoga govora l statistički n-gramski modeli § vjerojatnost nastupa pojedine riječi wn ako joj prethodi niz riječi Wn-1 § n-gramska vjerojatnost nastupa niza riječi W=w 1, w 2, . . , wn l BIGRAM: vjerojatnost nastupa riječi wi, ako joj je prethodila riječ wi-1 § N(wi-1, wi) frekvencija nastupa para riječi § N(wi-1) frekvencija nastupa riječi wi-1 glađenje bigramske vjerojatnosti unigramskom 37

Učenje kontekstno ovisnih modela l svaki trifon modeliran l l § jednim linearnim SMM-om 5/3 stanja § Gaussovim kontinuiranim funkcijama gustoća vjerojatnosti inicijalne vrijednosti svih parametara jednake vrijednostima monofonskih modela § 1 iteracijom Baum-Welcheva učenja postupak vezivanja stanja § 83 hrvatska fonetskih pravila procjena parametara vezanih stanja modela § iteracije Baum-Welcheva učenja povećava broj Gaussovih mješavina § iteracije učenja 38

Postupak raspoznavanja l iz trifonskih SMM-a se gradi modele za sve riječi w 1, w 2, . . , w. M iz fonetskog rječnika l trifonski SMM-i riječi povezuju se u mrežu § zajedničko početno sp i završno stanje sk l P(X|wi) akustična vjerojatnost pojedine riječi l P(wi) vjerojatnost jezičnoga modela l raspoznavanje: 39

Evaluacija sustava za raspoznavanje l Točnost raspoznatih riječi (Correctness) l Preciznost raspoznatih riječi (Accuracy) § N ukupan broj riječi u izvornom nizu riječi, § D broj pogrešaka nastalih izostavljanjem riječi u raspoznatom nizu riječi, § S broj pogrešaka nastalih zamjenama pravilne riječi iz izvornog niza nepravilnom riječi u raspoznatome nizu riječi te § I broj pogrešaka nastalih ubacivanjem nepravilnih riječi u raspoznatome nizu na mjesta gdje u izvornome nizu nema riječi l Mjera pogrešno raspoznatih riječi = 1 -preciznost (Word Error Rate – WER) 40

Rezultati ASR dijalozi WER trifonskih modela Spiker dm 013 dm 014 dm 015 dm 016 dm 017 dz 013 dz 014 dz 015 dz 016 dz 017 UKUPNO 1 mix 13, 64 10, 49 12, 59 3, 85 13, 64 13, 99 21, 33 6, 29 18, 18 10, 84 12, 48 WER 10 mix 1, 75 8, 39 4, 55 3, 85 1, 05 1, 75 11, 54 1, 75 3, 15 4, 9 4, 27 20 mix 3, 15 6, 29 5, 59 3, 5 0, 7 1, 4 11, 89 3, 5 4, 55 5, 24 4, 58 Word Error Rate 41

Najvažniji alati l sustav za raspoznavanje govora § HTK Toolkit ver. 3. 4 (The Hidden Markov Model Toolkit) l sustav za sintezu govora § HTS ver. 2. 2. (The HMM-Based Speech Synthesis System) l alat za analizu i obradu govornog signala § SPTK ver. 3. 5. (Speech Signal Processing Toolkit) 42

Izgradnja sustava za SMM sintezu II l vektor značajki govornoga signala 75 vrijednosti l monofonski SMM-i § 36 fonema (naglašeni i nenaglašeni samoglasnici + samoglasničko /r/) § + 4 posebna akustična događaja l trifonski SMM-i § 10394 trifona § vezivanje stanja pomoću hrvatskih fonetskih pravila (83) § iz trajanja svakog stanja SMM-a određen model trajanja fonema § omogućeno generiranje parametara za "neviđene" trifone l generiranje govora § za vrijeme trajanja svakog stanja se generiraju izlazna opažanja § iz generiranih vektora mel-kepstralnih značajki i osnovne frekvencije upotrebom MLSA filtra se generira govorni signal (model izvor-filtar) 43

Generiranje govornoga signala (SMM sinteza) l ulazni tekst se pretvori u odgovarajući trifonski zapis l za svaki od trifona iz ulaznoga teksta povezuju se trifonski SMM-i u modele riječi i rečenica l pomoću modela trajanja izračunava trajanje svakog stanja u povezanim SMM-ima § duljina trajanja utječe na broj izlaznih vektora koji će se generirati iz toga stanja l za vrijeme trajanja svakog stanja se generiraju izlazna opažanja § iz distribucija vjerojatnosti stanja generiraju izlazni vektori melkepstralnih značajki govornoga signala i logaritma osnovne frekvencije § izlazni vektori značajki po strukturi odgovaraju ulaznima l iz generiranih vektora mel-kepstralnih značajki i osnovne frekvencije upotrebom MLSA filtra se generira govorni signal (izvor-filtar model) 44

Semantička analiza 45