Reconnaissance automatique de la parole par units sousphontiques

  • Slides: 42
Download presentation
Reconnaissance automatique de la parole par unités sous-phonétiques Présenté par : M. M. SAIDI

Reconnaissance automatique de la parole par unités sous-phonétiques Présenté par : M. M. SAIDI Directeur : R. AUDRE-OBRECHT Co-directeur : O. PIETQUIN

Plan l Présentation d’un SRAP – – – l Paramétrisation Reconnaissance Lacunes Nouvelle vision

Plan l Présentation d’un SRAP – – – l Paramétrisation Reconnaissance Lacunes Nouvelle vision du problème – – Etat de l’art sur les PAs Notre approche l l 2 Ondelettes EMD

Plan ü Présentation d’un SRAP ü ü ü l Paramétrisation Reconnaissance Lacunes Nouvelle vision

Plan ü Présentation d’un SRAP ü ü ü l Paramétrisation Reconnaissance Lacunes Nouvelle vision du problème – – Etat de l’art sur les PAs Notre approche l l 3 Ondelettes EMD

Ø Présentation d’un SRAP Ø Paramétrisation Ø Reconnaissance Ø Lacunes Mot reconnu Système de

Ø Présentation d’un SRAP Ø Paramétrisation Ø Reconnaissance Ø Lacunes Mot reconnu Système de reconnaissance 4 Production Signal de Segmentation Paramétrisation parole de parole Décodage

Ø Présentation d’un SRAP Ø Paramétrisation Ø Reconnaissance Ø Lacunes Domaines de reconnaissance l

Ø Présentation d’un SRAP Ø Paramétrisation Ø Reconnaissance Ø Lacunes Domaines de reconnaissance l Reconnaissance de mots isolés: – l Reconnaissance de mots connectés: – l Les mots sont prédéfinis et prononcés de façon continue Reconnaissance de parole continue: – 5 Les mots prononcés sont séparés par une phase de silence Dialogue naturel

Ø Présentation d’un SRAP Ø Paramétrisation Ø Reconnaissance Ø Lacunes Paramétrisation l Non-stationnaire l

Ø Présentation d’un SRAP Ø Paramétrisation Ø Reconnaissance Ø Lacunes Paramétrisation l Non-stationnaire l Quasi-stationnaire – l 6 30 ms avec recouvrement de 10 ms Suppose un phonème* par segment * Un phonème est la plus petite unité significative désignant une empreinte quasi-unique pour chaque son d’un alphabet limité

Ø Présentation d’un SRAP Ø Paramétrisation Ø Reconnaissance Ø Lacunes Paramétrisation l D’un point

Ø Présentation d’un SRAP Ø Paramétrisation Ø Reconnaissance Ø Lacunes Paramétrisation l D’un point de vue pratique – l Quasi-stationnaire permet l’application de la transformée de Fourier Il y a deux types de paramétrisation – Paramétrisation basée modèle de production l – Paramétrisation basée modèle de perception l 7 Exemple: LPC Exemple: PLP, PLP-RASTA

Ø Présentation d’un SRAP Ø Paramétrisation Ø Reconnaissance Ø Lacunes Signal Paramétrisation (MFCC) Préaccentuation

Ø Présentation d’un SRAP Ø Paramétrisation Ø Reconnaissance Ø Lacunes Signal Paramétrisation (MFCC) Préaccentuation Fenêtrage Hamming TFD 20 à 30 ms 8 Cepstre TFD inverse Log de la puissance de TFD Banc de filtres Mel

Ø Présentation d’un SRAP Ø Paramétrisation Ø Reconnaissance Ø Lacunes Reconnaissance En se donnant

Ø Présentation d’un SRAP Ø Paramétrisation Ø Reconnaissance Ø Lacunes Reconnaissance En se donnant un vecteur acoustique «A» , quel est la probabilité de générer le mot «W» ? • Vecteur acoustique : variable connue • Séquence de phonèmes (ou mots) : variable cachée • Hypothèses : • Continuité dans le temps • Processus stationnaire • Densité de probabilité gaussienne 9

Ø Présentation d’un SRAP Ø Paramétrisation Ø Reconnaissance Ø Lacunes Reconnaissance 10 l Non

Ø Présentation d’un SRAP Ø Paramétrisation Ø Reconnaissance Ø Lacunes Reconnaissance 10 l Non calculable « on the fly » : l Loi de Bayes : l P(A) indépendante de W l Modèle acoustique

Ø Présentation d’un SRAP Ø Paramétrisation Ø Reconnaissance Ø Lacunes Reconnaissance (HMM) l Exemple

Ø Présentation d’un SRAP Ø Paramétrisation Ø Reconnaissance Ø Lacunes Reconnaissance (HMM) l Exemple de HMM: TP Soit le mot : agents a Z a~ Vecteurs acoustiques – b 1 a 13 a 02 I 11 a 01 b 2 a a 11 a 12 b 3 a 24 Z a 22 a 23 a~ a 33 a 34 F

Ø Présentation d’un SRAP Ø Paramétrisation Ø Reconnaissance Ø Lacunes Un système de reconnaissance

Ø Présentation d’un SRAP Ø Paramétrisation Ø Reconnaissance Ø Lacunes Un système de reconnaissance 12

Ø Présentation d’un SRAP Ø Paramétrisation Ø Reconnaissance Ø Lacunes Systèmes actuels Problème mal

Ø Présentation d’un SRAP Ø Paramétrisation Ø Reconnaissance Ø Lacunes Systèmes actuels Problème mal posé l Formalise ambigüe l Hypothèses non vérifiés en réalité l Manque de robustesse aux conditions réelles l 13

Ø Présentation d’un SRAP Ø Paramétrisation Ø Reconnaissance Ø Lacunes Systèmes actuels l 14

Ø Présentation d’un SRAP Ø Paramétrisation Ø Reconnaissance Ø Lacunes Systèmes actuels l 14 Exemple montrant la délicate tâche de faire la différence entre un bruit gaussien et une consonne Bruit Phonème /f/

Ø Présentation d’un SRAP Ø Paramétrisation Ø Reconnaissance Ø Lacunes Systèmes actuels l Accroître

Ø Présentation d’un SRAP Ø Paramétrisation Ø Reconnaissance Ø Lacunes Systèmes actuels l Accroître la robustesse des systèmes en présence du bruit • Essai de standardisation avec WI 008 15 Taux de reconnaissance dans différents cas de bruit de fond

Ø Présentation d’un SRAP Ø Paramétrisation Ø Reconnaissance Ø Lacunes Les problèmes qui se

Ø Présentation d’un SRAP Ø Paramétrisation Ø Reconnaissance Ø Lacunes Les problèmes qui se posent l Variabilité du signal de parole – – l l l 16 D’un point de vue longueur du signal D’un point de vue prononciation Concept de phonème qui paraît mal défini Changement de locuteur Accent qui concerne plus les non-natifs

Plan l Présentation d’un SRAP – – – ü Paramétrisation Reconnaissance Lacunes Nouvelle vision

Plan l Présentation d’un SRAP – – – ü Paramétrisation Reconnaissance Lacunes Nouvelle vision du problème ü ü Etat de l’art sur les PAs Notre approche Ondelettes ü EMD ü 17

Ø Nouvelle vision du problème Ø Etat de l’art sur les Pas Ø Notre

Ø Nouvelle vision du problème Ø Etat de l’art sur les Pas Ø Notre approche Ø Ondelettes Ø EMD Une nouvelle vision du problème l l l 18 Une unité plus robuste à la variabilité du signal Au niveau de la production de la voix parlée, il y a des articulations fixes pour chaque son Ces caractéristiques sont partagées quelque soit la langue Propriétés (points) articulatoires

Ø Nouvelle vision du problème Ø Etat de l’art sur les Pas Ø Notre

Ø Nouvelle vision du problème Ø Etat de l’art sur les Pas Ø Notre approche Ø Ondelettes Ø EMD Points d’articulations l Exemple d’une représentation unique en terme de PA: Phonèmes /m/ abaissement du voile de palais, lèvres (bilabiale) – Phonème /n/ abaissement du voile de palais, alvéoles (ou dentale) – 19

Ø Nouvelle vision du problème Ø Etat de l’art sur les Pas Ø Notre

Ø Nouvelle vision du problème Ø Etat de l’art sur les Pas Ø Notre approche Ø Ondelettes Ø EMD Table de l’IPA l l l 20 IPA: Alphabet phonétique international Un standard pour représenter tous les phonèmes possibles en fonction des articulations Partie grisée: mouvement impossible

Ø Nouvelle vision du problème Ø Etat de l’art sur les Pas Ø Notre

Ø Nouvelle vision du problème Ø Etat de l’art sur les Pas Ø Notre approche Ø Ondelettes Ø EMD Etat de l’art l Quatre approches sont abordées: – – 21 Système de reconnaissance basé sur une définition de caractéristiques articulatoires par méthode statistique Système de reconnaissance basé sur des mesures physiques Détection des mouvements articulatoires par plage fréquentielle Approche utilisant l’inversion acoustico-articulatoire

Ø Nouvelle vision du problème Ø Etat de l’art sur les Pas Ø Notre

Ø Nouvelle vision du problème Ø Etat de l’art sur les Pas Ø Notre approche Ø Ondelettes Ø EMD Etat de l’art l Utilisation d’un articulographe permettant d’intégrer une mesure pour chaque articulation • Détection de mouvement articulatoire dans le cas des voyelles par plage fréquentielle (formant) 22

Ø Nouvelle vision du problème Ø Etat de l’art sur les Pas Ø Notre

Ø Nouvelle vision du problème Ø Etat de l’art sur les Pas Ø Notre approche Ø Ondelettes Ø EMD Etat de l’art (modèle de Kirchhoff) l Présentation de l’ensemble de PAs utilisées dans le modèle : l Les vecteurs acoustiques sont des coefficients PLP-RASTA La détection des PAs est réalisée par des MLPs avec différentes architectures par groupe d’articulations l 23

Ø Nouvelle vision du problème Ø Etat de l’art sur les Pas Ø Notre

Ø Nouvelle vision du problème Ø Etat de l’art sur les Pas Ø Notre approche Ø Ondelettes Ø EMD Donnée acoustique Etat de l’art (modèle de Kirchhoff) A 1 A 2 P MLP 2 A 5 MLP 1 24 Représentation des phonèmes en propriétés articulatoires selon le modèle proposé par Kirchhoff Vue d’ensemble sur le modèle proposé par Kirchhoff

Ø Nouvelle vision du problème Ø Etat de l’art sur les Pas Ø Notre

Ø Nouvelle vision du problème Ø Etat de l’art sur les Pas Ø Notre approche Ø Ondelettes Ø EMD Résumé du problème l Définir les PAs qui vont être prises en compte – – l Extraire à partir du signal les variations indiquant la présence d’une PA précise – – 25 Perspective d’un système multilingues Système robuste au bruit Approche localiste Approche indépendante de la longueur du signal

Ø Nouvelle vision du problème Ø Etat de l’art sur les Pas Ø Notre

Ø Nouvelle vision du problème Ø Etat de l’art sur les Pas Ø Notre approche Ø Ondelettes Ø EMD Ondelettes l l l aj Approche localiste Faire face à la non-stationnarité Localisation en temps-fréquences h g 26 2 aj+1 h 2 dj+1 g 2 2 aj+2 dj+2

Ø Nouvelle vision du problème Ø Etat de l’art sur les Pas Ø Notre

Ø Nouvelle vision du problème Ø Etat de l’art sur les Pas Ø Notre approche Ø Ondelettes Ø EMD Ondelettes l Tests réalisés en utilisant une D. O. continue – – l 27 Ensemble des voyelles de la langue française Différentes ondelettes mère (db 32, db 44, Meyer, …) Caractérisation par échelle – Energie simple et Log de l’énergie – Energie Teager

Ø Nouvelle vision du problème Ø Etat de l’art sur les Pas Ø Notre

Ø Nouvelle vision du problème Ø Etat de l’art sur les Pas Ø Notre approche Ø Ondelettes Ø EMD Ondelettes l Recherche des caractéristiques par analyse combinatoire Vecteurs AE Vecteurs EO Vecteurs EI Vecteurs AO Vecteurs AI Vecteurs IO (i. A, i. E) (i. E, i. O) (i. E, i. I) (i. A, i. O) (i. A, i. I) (i. I, i. O) Existence de l’index EO par validation croisée 28 Existence de l’index IO Existence de l’index EI par validation croisée Fonctionnement de l’algorithme de classification combinatoire par validation croisée

Ø Nouvelle vision du problème Ø Etat de l’art sur les Pas Ø Notre

Ø Nouvelle vision du problème Ø Etat de l’art sur les Pas Ø Notre approche Ø Ondelettes Ø EMD Ondelettes l Les inconvénients d’une telle approche : – – Segmentation du signal Choix de la base d’ondelette Choix de l’échelle Temps de calcul Phonème /i/ 29 Meyer Morlet Daubechies

Ø Nouvelle vision du problème Ø Etat de l’art sur les Pas Ø Notre

Ø Nouvelle vision du problème Ø Etat de l’art sur les Pas Ø Notre approche Ø Ondelettes Ø EMD Empirical Mode Decomposition [Huang 98] l l 30 Nouvelle méthode de décomposition de signaux non-stationnaires Utilise l’ « intersec mode function » pour décomposer le signal La méthode s’appuie sur une interpolation entre deux minima consécutifs Méthode localiste, indépendante d’une paramétrisation au préalable

Ø Nouvelle vision du problème Ø Etat de l’art sur les Pas Ø Notre

Ø Nouvelle vision du problème Ø Etat de l’art sur les Pas Ø Notre approche Ø Ondelettes Ø EMD: principe par l’exemple (présentation Flandrin GRETSI 2003) 31

Ø Nouvelle vision du problème Ø Etat de l’art sur les Pas Ø Notre

Ø Nouvelle vision du problème Ø Etat de l’art sur les Pas Ø Notre approche Ø Ondelettes Ø EMD: principe par l’exemple (présentation Flandrin GRETSI 2003) 32

Ø Nouvelle vision du problème Ø Etat de l’art sur les Pas Ø Notre

Ø Nouvelle vision du problème Ø Etat de l’art sur les Pas Ø Notre approche Ø Ondelettes Ø EMD: principe par l’exemple (présentation Flandrin GRETSI 2003) 33

Ø Nouvelle vision du problème Ø Etat de l’art sur les Pas Ø Notre

Ø Nouvelle vision du problème Ø Etat de l’art sur les Pas Ø Notre approche Ø Ondelettes Ø EMD: principe par l’exemple (présentation Flandrin GRETSI 2003) 34

Ø Nouvelle vision du problème Ø Etat de l’art sur les Pas Ø Notre

Ø Nouvelle vision du problème Ø Etat de l’art sur les Pas Ø Notre approche Ø Ondelettes Ø EMD: principe par l’exemple (présentation Flandrin GRETSI 2003) 35

Ø Nouvelle vision du problème Ø Etat de l’art sur les Pas Ø Notre

Ø Nouvelle vision du problème Ø Etat de l’art sur les Pas Ø Notre approche Ø Ondelettes Ø EMD: principe par l’exemple (présentation Flandrin GRETSI 2003) 36

Ø Nouvelle vision du problème Ø Etat de l’art sur les Pas Ø Notre

Ø Nouvelle vision du problème Ø Etat de l’art sur les Pas Ø Notre approche Ø Ondelettes Ø EMD: principe par l’exemple (présentation Flandrin GRETSI 2003) 37

Ø Nouvelle vision du problème Ø Etat de l’art sur les Pas Ø Notre

Ø Nouvelle vision du problème Ø Etat de l’art sur les Pas Ø Notre approche Ø Ondelettes Ø EMD Algorithme de l’EMD l l Principe : « signal = oscillations rapides superposées à des oscillations lentes » Huang 98: – – l Algorithme: – 38 identifier localement l’oscillation la plus rapide soustraire au signal et itérer sur le résidu calculer deux enveloppes (une supérieure et l’autre inférieure) par interpolations entre les extrema du signal

Ø Nouvelle vision du problème Ø Etat de l’art sur les Pas Ø Notre

Ø Nouvelle vision du problème Ø Etat de l’art sur les Pas Ø Notre approche Ø Ondelettes Ø EMD Algorithme de l’EMD l l l 39 soustraire au signal de départ la moyenne de ces enveloppes itérer jusqu’à ce que cette moyenne = 0 et #{extrema} = #{passages à zéro} ± 1 soustraire du signal le mode (IMF) ainsi obtenu et itérer sur le résidu Empirical mode decomposition for input signal with three frequency 50 Hz, 500 Hz and 1 KHz

Ø Nouvelle vision du problème Ø Etat de l’art sur les Pas Ø Notre

Ø Nouvelle vision du problème Ø Etat de l’art sur les Pas Ø Notre approche Ø Ondelettes Ø EMD Pourquoi l’EMD l l l 40 Approche localiste pour mieux cerner les variations minimes du signal Faire face à la non-stationnarité du signal Une segmentation du signal de parole n’est plus nécessaire Analyse dépendante du contexte Indépendance d’une paramétrisation au préalable

Ø Nouvelle vision du problème Ø Etat de l’art sur les Pas Ø Notre

Ø Nouvelle vision du problème Ø Etat de l’art sur les Pas Ø Notre approche Ø Ondelettes Ø EMD Que peut on faire avec l’EMD? l l Analyse du spectre de puissance Détection des formants Meilleur localisation fréquentielle Dans le cas d’un signal voisé, elle permet une meilleure représentation Formants detection IMF vs. LPC analysis 41

Conclusion l l l Amélioration des performances des systèmes actuels par l’ajout d’informations auxiliaires

Conclusion l l l Amélioration des performances des systèmes actuels par l’ajout d’informations auxiliaires Nouvelle méthode de décomposition des signaux non-stationnaire Originalité: – – – 42 Idée et méthode jamais exploitées Robustesse Multilingues