Modellering van spontane spraak ATra No S 4
- Slides: 9
Modellering van spontane spraak ATra. No. S - 4 mei 2004 Jacques Duchateau jacques. duchateau@esat. kuleuven. ac. be Katholieke Universiteit Leuven - ESAT, BELGIUM
Overzicht van WP 3, deel ESAT • laatste 2 jaar van het ATra. No. S-project • 4 delen van een half jaar – 1 e half jaar: ontwikkeling baseline herkenners • Engels, gebaseerd op Switchboard • Nederlands, gebaseerd op CGN – 2 e half jaar: software-ontwikkeling LM – 3 e half jaar: experimenten LM – 4 e half jaar: integratie met WP 3, deel ELIS Modellering van spontane spraak - Jacques Duchateau 2
Update planning WP 3, deel ESAT • 1 e half jaar: – ontwikkeling baseline Engels • 2 e half jaar: – software (1 -pass) + experimenten LM • 3 e half jaar: – ontwikkeling baseline Nederlands – software (2 -pass, grafen) + experimenten LM • 4 e half jaar: – integratie met WP 3, deel ELIS – extra LM modellering Modellering van spontane spraak - Jacques Duchateau 3
Baseline herkenner Nederlands (1) CGN train: oud train: nieuw test: nieuws test: broadc comp-f V comp-g V comp-i V V comp-j V V comp-k V comp-l V comp-m V comp-n V comp-o V V minuten %tussenw %OOV perpl. test: nieuws 27. 7 0. 0% 3. 1% 192 test: broadc 23. 8 6. 2% 3. 5% 255 Modellering van spontane spraak - Jacques Duchateau 4
Baseline herkenner Nederlands (2) • kenmerken herkenner – akoestische modellen: 40 uur data – taalmodel: krantenartikels (30 M woorden) – tussenwerpsels (vb uh) met unigram prob. • conversie modellen probleemloos • resultaten herkenner train: oud train: nieuw test: nieuws 16. 1% 15. 9% test: broadcast 46. 5% 37. 7% Modellering van spontane spraak - Jacques Duchateau 5
Spontaan LM: probleemstelling • beschikbaarheid van traindata – geschreven tekst, vb kranten: 300 M woorden – spontane spraak, vb Switchboard: 3 M woorden • probleem gebruik geschreven tekst voor spontaan LM – stilistisch verschillend – haperingen Modellering van spontane spraak - Jacques Duchateau 6
Haperingen: oplossing • 3 opties: hapering blijft in context / hapering verwijderd / keuze aan herkenner • vb. herhaling: ‘Dat is wat ik denk’ Modellering van spontane spraak - Jacques Duchateau 7
Haperingen: experimenten • experimenten met Switchboard • resultaten – herhaling: significante verbetering bij keuze aan herkenner: 36. 7% vs 35. 1% WER – aarzeling: niet significant slechter – herstarten zin (geconditioneerd op aarzeling): niet significant slechter • mogelijk oorzaak verschillend gedrag: zwakke akoestische detectie aarzeling Modellering van spontane spraak - Jacques Duchateau 8
Conclusies, verder werk • baseline Nederlands beschikbaar • oplossing haperingen werkt voor herhaling • verbetering voor andere haperingen: integratie aarzeling-detector ELIS nodig • extra: gebruik geschreven tekst omdat dit het effect van de hapering-modellering kan versterken Modellering van spontane spraak - Jacques Duchateau 9