Modellering van spontane spraak ATra No S 4

  • Slides: 9
Download presentation
Modellering van spontane spraak ATra. No. S - 4 mei 2004 Jacques Duchateau jacques.

Modellering van spontane spraak ATra. No. S - 4 mei 2004 Jacques Duchateau jacques. duchateau@esat. kuleuven. ac. be Katholieke Universiteit Leuven - ESAT, BELGIUM

Overzicht van WP 3, deel ESAT • laatste 2 jaar van het ATra. No.

Overzicht van WP 3, deel ESAT • laatste 2 jaar van het ATra. No. S-project • 4 delen van een half jaar – 1 e half jaar: ontwikkeling baseline herkenners • Engels, gebaseerd op Switchboard • Nederlands, gebaseerd op CGN – 2 e half jaar: software-ontwikkeling LM – 3 e half jaar: experimenten LM – 4 e half jaar: integratie met WP 3, deel ELIS Modellering van spontane spraak - Jacques Duchateau 2

Update planning WP 3, deel ESAT • 1 e half jaar: – ontwikkeling baseline

Update planning WP 3, deel ESAT • 1 e half jaar: – ontwikkeling baseline Engels • 2 e half jaar: – software (1 -pass) + experimenten LM • 3 e half jaar: – ontwikkeling baseline Nederlands – software (2 -pass, grafen) + experimenten LM • 4 e half jaar: – integratie met WP 3, deel ELIS – extra LM modellering Modellering van spontane spraak - Jacques Duchateau 3

Baseline herkenner Nederlands (1) CGN train: oud train: nieuw test: nieuws test: broadc comp-f

Baseline herkenner Nederlands (1) CGN train: oud train: nieuw test: nieuws test: broadc comp-f V comp-g V comp-i V V comp-j V V comp-k V comp-l V comp-m V comp-n V comp-o V V minuten %tussenw %OOV perpl. test: nieuws 27. 7 0. 0% 3. 1% 192 test: broadc 23. 8 6. 2% 3. 5% 255 Modellering van spontane spraak - Jacques Duchateau 4

Baseline herkenner Nederlands (2) • kenmerken herkenner – akoestische modellen: 40 uur data –

Baseline herkenner Nederlands (2) • kenmerken herkenner – akoestische modellen: 40 uur data – taalmodel: krantenartikels (30 M woorden) – tussenwerpsels (vb uh) met unigram prob. • conversie modellen probleemloos • resultaten herkenner train: oud train: nieuw test: nieuws 16. 1% 15. 9% test: broadcast 46. 5% 37. 7% Modellering van spontane spraak - Jacques Duchateau 5

Spontaan LM: probleemstelling • beschikbaarheid van traindata – geschreven tekst, vb kranten: 300 M

Spontaan LM: probleemstelling • beschikbaarheid van traindata – geschreven tekst, vb kranten: 300 M woorden – spontane spraak, vb Switchboard: 3 M woorden • probleem gebruik geschreven tekst voor spontaan LM – stilistisch verschillend – haperingen Modellering van spontane spraak - Jacques Duchateau 6

Haperingen: oplossing • 3 opties: hapering blijft in context / hapering verwijderd / keuze

Haperingen: oplossing • 3 opties: hapering blijft in context / hapering verwijderd / keuze aan herkenner • vb. herhaling: ‘Dat is wat ik denk’ Modellering van spontane spraak - Jacques Duchateau 7

Haperingen: experimenten • experimenten met Switchboard • resultaten – herhaling: significante verbetering bij keuze

Haperingen: experimenten • experimenten met Switchboard • resultaten – herhaling: significante verbetering bij keuze aan herkenner: 36. 7% vs 35. 1% WER – aarzeling: niet significant slechter – herstarten zin (geconditioneerd op aarzeling): niet significant slechter • mogelijk oorzaak verschillend gedrag: zwakke akoestische detectie aarzeling Modellering van spontane spraak - Jacques Duchateau 8

Conclusies, verder werk • baseline Nederlands beschikbaar • oplossing haperingen werkt voor herhaling •

Conclusies, verder werk • baseline Nederlands beschikbaar • oplossing haperingen werkt voor herhaling • verbetering voor andere haperingen: integratie aarzeling-detector ELIS nodig • extra: gebruik geschreven tekst omdat dit het effect van de hapering-modellering kan versterken Modellering van spontane spraak - Jacques Duchateau 9