GEAUTOMATISEERD SPRAAKVERSTAANBAARHEIDSONDERZOEK fantasie of werkelijkheid JeanPierre Martens Catherine

GEAUTOMATISEERD SPRAAKVERSTAANBAARHEIDSONDERZOEK fantasie of werkelijkheid? Jean-Pierre Martens Catherine Middag Frederik Stouten ELIS-DSSP Sint-Pietersnieuwstraat 41 B-9000 Gent

Situering: het SPACE project • SPACE = SPeech Algorithms for Clinical and Educational applications – doel: ontwikkelen van spraaktechnologie voor • detecteren van leesfouten, genereren van auditieve feedback, synchroon meelezen, … in een leesleeromgeving • objectief karakteriseren van pathologische spraak – technologieontwikkelaars (ESAT, ELIS, ETRO) – technologiegebruikers (ORTHO, COM) – looptijd: 1/3/2005 – 28/2/2009 ELIS-DSSP Sint-Pietersnieuwstraat 41 B-9000 Gent

Objectieve karakterisering • Doelstellingen • • • objectieve maten voor kwaliteit van articulatie ontwikkelen betrouwbaarheid meten door deze maten te correleren met subjectieve beoordelingen (gouden standaard) Aanpak • • • hypothese: verstaanbaarheid is goede globale indicator van kwaliteit van articulatie (tenminste: als rol van taalkundige context + geheugen beperkt blijft) eerst proberen verstaanbaarheid te voorspellen daarna pas individuele eigenschappen van articulatie ELIS-DSSP Sint-Pietersnieuwstraat 41 B-9000 Gent

Nood aan subjectieve data • M 1: impressionistisch oordeel over verstaanbaarheid – steeds zelfde tekstpassage laten scoren door luisteraar indruk van verstaanbaarheid (op 5 -puntenschaal) indruk steeds gekleurd door taalkundig context + geheugen – vergt weinig inspanningen van luisteraar – matige overeenstemming tussen luisteraars veel luisteraars om spreiding te doen dalen • M 2: meten van % correct herkende woorden, fonemen, … – – taalkundige context beperken door CVC, nonsenswoorden, … geheugeneffect beperken door random lijsten te gebruiken vergt meer inspanningen van luisteraar goede overeenstemming tussen luisteraars vergt slechts 1 luisteraar – wel voldoende items om spreiding te doen dalen ELIS-DSSP Sint-Pietersnieuwstraat 41 B-9000 Gent

Studie van Erlangen • Spraakmateriaal – lopende spraak (fonetisch rijke passage) – steeds zelfde passage van 108 woorden • Proefpersonen – 41 pathologische sprekers – allemaal dezelfde pathologie (TE) • Subjectieve scores (gouden standaard) – impressionistische oordelen (5 -puntenschaal: slecht. . goed) – gemiddelden van 5 luisteraars – betrouwbaarheid: Pearson = 0. 8 tussen 1 beoordelaar en gemiddelde van 4 andere ELIS-DSSP Sint-Pietersnieuwstraat 41 B-9000 Gent

Studie van Erlangen • Objectieve karakterisering – passage door lopende spraakherkenner sturen – percent correct herkende woorden meten • Spraakherkenner – akoestische modellen zijn Hidden Markov Modellen (HMMs) – getraind op lopende spraak van veel normale sprekers (Verbmobil corpus) – polyfoonmodellen (fonemen in context) – cognitieve component in objectieve scores gereduceerd door gebruik van unigram taalmodel ELIS-DSSP Sint-Pietersnieuwstraat 41 B-9000 Gent

Studie van Erlangen • Goede correlatie tussen objectieve en subjectieve scores (Pearson = 0. 78) • Lijkt zeer goed resultaat, maar … • Slechts 1 pathologie • Regressie bepaald op testdata • 5 -voudige kruisvalidatie Pearson = 0. 71 ELIS-DSSP Sint-Pietersnieuwstraat 41 B-9000 Gent

Studie van Erlangen • Goede correlatie tussen objectieve en subjectieve scores (Pearson = 0. 79) • Lijkt zeer goed resultaat, maar … • Slechts 1 pathologie • Lineair model bepaald op testdata • 5 -voudige kruisvalidatie Pearson = 0. 71 ELIS-DSSP Sint-Pietersnieuwstraat 41 B-9000 Gent

Studie binnen SPACE • Spraakmateriaal – – materiaal uit NSVO-test (De Bodt et al, 2006) 50 CVC woorden (in isolatie) per proefpersoon normale woorden + uitspreekbare nonsenswoorden (b. v. nuis) 3 lijsten die testen op eerste, tweede of derde foneem • Proefpersonen – nu reeds 211 sprekers (we mikken op 250) – 51 normale (controlegroep) – 7 pathologieën: dysartrie (60), gehoorgestoord (42), laryngectomie (37), cleft (11), dysfonie (7), articulatiestoornis (2), glossectomie (1) ELIS-DSSP Sint-Pietersnieuwstraat 41 B-9000 Gent

NSVO (De Bodt et al, 2006) top 1. dop 2. nuis 3. ELIS-DSSP Sint-Pietersnieuwstraat 41 B-9000 Gent

Studie binnen SPACE • Subjectieve scores (gouden standaard) – percent correct herkende fonemen – zeer betrouwbaar (Pearson = 0. 9 tussen 2 luisteraars) • Objectieve karakterisering – verschillende types spraakmodellen – verschillende methodes voor gebruik van modellen ELIS-DSSP Sint-Pietersnieuwstraat 41 B-9000 Gent

Spraakmodellen • Gemeenschappelijk – statistische modellen voor fonetische eenheden – automatisch getraind op veel lopende spraak van ‘normale’ sprekers (CGN, Co. Ge. N corpora) – berekenen hoe goed akoestische vectoren bij die eenheden passen – akoestische vectoren zijn MFCCs • Trifoonmodellen (TM) (ESAT) – fonetische eenheden zijn trifonen (fonemen in linker + rechter context, kleine 1000 modellen) – Hidden Markov Modellen (HMMs) – getraind op CGN (gelezen spraak, 300 K woorden) ELIS-DSSP Sint-Pietersnieuwstraat 41 B-9000 Gent

Spraakmodellen • Gemeenschappelijk – statistische modellen voor fonetische eenheden – automatisch getraind op veel lopende spraak van ‘normale’ sprekers (CGN, Co. Ge. N corpora) – berekenen hoe goed akoestische vectoren bij die eenheden passen – akoestische vectoren zijn MFCCs • Articulatiemodellen (AM) (ELIS) – fonetische eenheden zijn foneemcomponenten (40 -tal) – component = deel met ‘vaste’ articulatorische kenmerken – Artificiële Neurale Netwerken (ANNs) mappen MFCCs eerst naar articulatorische kenmerken (25 kenmerken) articulatiemodellen – getraind op Co. Ge. N (gelezen spraak, 50 K woorden) ELIS-DSSP Sint-Pietersnieuwstraat 41 B-9000 Gent

Modes voor gebruik van modellen • Herkenningsmode (H) top 1. dop 2. nuis spraakherkenner 3. ELIS-DSSP Sint-Pietersnieuwstraat 41 B-9000 Gent

Modes voor gebruik van modellen • Herkenningsmode (H) – geef spraakherkenner zelfde opties als luisteraar • Objectieve score – tel aantal keer (in %) dat spraakherkenner correct was WAC (word accuracy) • IJking – lineaire model voor mapping van WAC op subjectieve score ELIS-DSSP Sint-Pietersnieuwstraat 41 B-9000 Gent

Modes voor gebruik van modellen • Verificatiemode (V) – correct woord gekend verondersteld – leid daaruit sequentie van fonetische eenheden af (fonemen of foneemcomponenten) – gebruik spraakmodellen om spraak in fonetische eenheden te segmenteren • Objectieve score – gemiddelde log likelihood (LL) scores voor fonemen of voor articulatorische kenmerken – resultaat = 25. . 30 LL-scores – selectie van optimale subset daarvan – beste lineaire model (in die subruimte) voor subjectieve score ELIS-DSSP Sint-Pietersnieuwstraat 41 B-9000 Gent

Evaluatie van resultaten • Vergelijken van objectieve en subjectieve scores – Pearson correlatie • Training en validatie – – proefpersonen in 5 sets verdelen (behoud populaties!) lineair model trainen op 4 sets en evalueren op vijfde dit 5 maal herhalen tot alle proefpersonen getest zijn alle resultaten voorstellen op 1 grafiek ELIS-DSSP Sint-Pietersnieuwstraat 41 B-9000 Gent

Resultaten: TM+H • Pearson = 0. 71 • Vooral slechte resultaten voor slechte stemmen • Nog ver van correlatie gemeten tussen menselijke beoordelaars • Idee om log p(x|correct) – log p(x|beste ander) te gebruiken helpt niet! ELIS-DSSP Sint-Pietersnieuwstraat 41 B-9000 Gent

Resultaten: TM+V • Selecteer 10 LL-scores • Pearson = 0. 77 • Reeds minder problemen voor slechte stemmen • V duidelijk beter dan H ELIS-DSSP Sint-Pietersnieuwstraat 41 B-9000 Gent

Resultaten: AM+V • Selecteer 12 LL-scores • Pearson = 0. 74 • AM nog niet zo goed als FM (vooral slechter bij slechte stemmen) • Verbeteren door context te gebruiken bij berekening LL-scores • AM wel rechtstreeks te interpreteren ELIS-DSSP Sint-Pietersnieuwstraat 41 B-9000 Gent

Conclusies • Reeds redelijk goede correlatie tussen subjectieve en objectieve verstaanbaarheid mogelijk • Meer onderzoek nodig om te komen tot correlaties die deze tussen menselijke beoordelaars benaderen • Van zodra dit kan met articulatiemodellen is er ook uitzicht op krijgen van gedetailleerde feedback over articulatie ELIS-DSSP Sint-Pietersnieuwstraat 41 B-9000 Gent