Une approche multidisciplinaire pour le traitement automatique des

Plan n Contexte & Enjeux – La diversité linguistique n Objet – Une étude

Plan n Contexte & Enjeux – La diversité linguistique « We should treat language

Diversité des langues sur Internet -Top-10: +200% -Chinois: +414% -Arabe: +940% -Autres : +440%

Diversité des langues parlées Langues les plus parlées dans le monde (source : www.

Diversité mais… -Quelques dizaines de langues n’ont plus qu’un locuteur -500 langues avec <500

Diversité mais… Source : « Human Language Technologies for Europe » , E. U.

Quelques technologies centrales pour aborder cette diversité… n Traduction automatique – Traduction, par une

Langues peu dotées : définition n Langues présentant certaines, sinon toutes les caractéristiques suivantes

Langues peu dotées : défis n Pour le traitement automatique – Proposer des techniques

Langues peu dotées : défis n Pour les langues elle-mêmes – – Outiller les

Multidisciplinarité n n Fossé entre experts de la langue (les locuteurs euxmêmes) et experts

Pour arriver où ? n Outiller les langues – Correcteurs orthographiques, transcription, dictionnaires, etc.

Rôle de la technologie dans l’évolution des langues n Nicholas Ostler : président de

Ressources nécessaires pour la RAP Dictionnaire de prononciation signal Signal Modélisation acoustique Modèles acoustiques

Modélisation acoustique translingue Phonème FR Phonème VN • FR/VN ~63% couverture • Si plusieurs

Modélisation acoustique multilingue n Représentation des unités acoustiques (pour la reconnaissance de parole) dans

Amorçage de modèles pour la reconnaissance automatique du vietnamien PI VN FR CH EN

Exemple de résultats (2006) n Portabilité rapide d’un système de reconnaissance de parole vers

Exemple de résultats (2008) Adaptation de modèles à la parole non native vietnamien (L

Exemple de résultats (2009) n n RI multilingue http: //www. thestarchallenge. sg/ – Lancé

Exemple de résultats (2010) n Aide à l’analyse d’une langue en danger (Punu) Résultat

Exemple de résultats (2012) n n Structure syllabique de la langue amharique et de

Collecter des données langagières sur le Web n Collecte de données textuelles monolingues –

Revitalisation d’une langue en danger du sud-ouest colombien n Projet Ecos-Nord avec DDL et

Contexte n n Nasa : deuxième plus grand groupe ethnique en Colombie Maintien de

Description des voyelles (Rojas, 2011) – publication en espagnol

Premiers objectifs n Construire et optimiser un système de classification de voyelles n Construire

(Rapide) Revue de l’Apprentissage de la Prononciation Assisté par Ordinateur – Modèles fondés sur

Corpus Mots isolés contenant les voyelles cibles n Les apprenant participent à des exercices

Paramètres et Modèles Utilisés n Vecteurs de paramètres – 30 coefficients LPC et énergie

Expériences n Validation croisée (20 -replis) – 80% apprentissage / 20% test n Première

Expériences Troisième expérience n Utilisation du “bagging” – Connu pour être utile sur de

Performance pour les groupes de voyelles A et E (3è expérience)

Performance pour les groupes de voyelles I et U (3è expérience) Performance > 80%

Distribution des scores non natifs vs natifs 5 locuteurs natifs ; 845 signaux 3

Analyse des confusions des apprenants non. A natifs E a a’ aʰ a 14

Analysis des confusions du système n n Pour les locuteurs non natifs, est-ce que

Discussion Modèles pour les 32 voyelles du Nasa yuwe n Les taux de précision

References n n n n CASACUBERTA, F. , VIDAL, E. , AIBAR, P. (1991).

n Merci de votre attention… n Pour en savoir plus… http: //pi. imag. fr

Slides: 48

Download presentation

Une approche multi-disciplinaire pour le traitement automatique des langues peu dotées Laurent Besacier Université Joseph Fourier (Grenoble 1) Laboratoire d’Informatique de Grenoble Equipe GETALP

Plan n Contexte & Enjeux – La diversité linguistique n Objet – Une étude des langues abordée selon l’angle du traitement automatique n Multidisciplinarité – Informatique, Signal, Phonétique, Linguistique de terrain, etc. n Exemples – Sur des langues issues de quatre continents – Revitalisation d’un langue peu dotée du sud-ouest colombien

Plan n Contexte & Enjeux – La diversité linguistique « We should treat language diversity as we treat bio-diversity » David Crystal, Language Death - Cambridge: CUP, 2000

Diversité des langues sur Internet -Top-10: +200% -Chinois: +414% -Arabe: +940% -Autres : +440% (sauf top-10) [ITU] 30/6/07

Diversité des systèmes d’écriture

Diversité des langues parlées Langues les plus parlées dans le monde (source : www. ethnologue. com ; pris en 2007)

Diversité mais… -Quelques dizaines de langues n’ont plus qu’un locuteur -500 langues avec <500 locuteurs -1500 langues avec < 1000 locuteurs -3000 langues avec < 10. 000 -5000 langues avec < 100. 000 -96% des langues parlées par seulement 4% de la population mondiale

Diversité mais… Source : « Human Language Technologies for Europe » , E. U. , April 2006 n n Langues véhiculaires (lingua-franca) qui prédominent Nombreux contenus (texte, audio) produits par des « non natifs»

Quelques technologies centrales pour aborder cette diversité… n Traduction automatique – Traduction, par une machine, d’un texte en langue source vers un texte en langue cible n Reconnaissance automatique de la parole multilingue – Transcription, par une machine, d’un enregistrement (ou d’un flux) contenant de la parole • Speech-to-text • Doit être disponible pour un grand nombre de langues • Doit prendre en compte les variétés dialectales, les locuteurs non natifs, etc n Enjeux – Systèmes interactifs multilingues – Accès multilingue à l’information (et publication multilingue d’informations)

Plan n Contexte & Enjeux – La diversité linguistique n Objet – Une étude des langues abordée selon l’angle du traitement automatique

Langues peu dotées : définition n Langues présentant certaines, sinon toutes les caractéristiques suivantes : – manque d’un système d’écriture unique ou d’une orthographe stable • www. omniglot. com seules 800 langues environ sur 6000 possèdent un système d’écriture – présence limitée sur le Web, – manque d’expertises linguistiques, phonétiques – manque de ressources pour le TALN • données linguistiques, corpus monolingues et bilingues, dictionnaires électroniques, thésaurus, analyseurs morphologiques/syntaxiques, étiqueteurs, etc. ! Différent d’une langue en danger mais caractéristiques communes !

Langues peu dotées : défis n Pour le traitement automatique – Proposer des techniques qui vont bien au-delà du simple re-apprentissage des modèles – Systèmes phonologiques particuliers – Langue non écrite – Problèmes de segmentation en mots – Remise en cause des unités de modélisation standard (mots/phonèmes) – Variantes dialectales – Présence massive de locuteurs non natifs – Alternance codique

Langues peu dotées : défis n Pour les langues elle-mêmes – – Outiller les langues Aider les linguistes de terrain, les phonéticiens Participer à la revitalisation de certaines langues … … ou à leur sauvegarde

Multidisciplinarité n n Fossé entre experts de la langue (les locuteurs euxmêmes) et experts en technologies (les développeurs de systèmes) Nécessité d’emprunter des ressources et des connaissances issues de langues proches – Appel aux dialectologues, aux phonéticiens n Accéder aux locuteurs / collecter des données selon les règles élémentaires éthiques et techniques – Linguistes de terrain, ethnologues, traducteurs n Revitalisation via l’utilisation d’outils d’aide à l’apprentissage – Enseignants des langues, didacticiens

Pour arriver où ? n Outiller les langues – Correcteurs orthographiques, transcription, dictionnaires, etc. n Participer à leur revitalisation… – Apprentissage des langues n … ou à leur sauvegarde – Numérisation, accès, recherche d’information • Humanités numériques… n Proposer / aborder de nouveaux paradigmes / questionnements – Modélisation multilingue pour la reconnaissance automatique de la parole – Traduction de parole à partir d’une langue non écrite – Rôle de la technologie dans l’évolution des langues

Rôle de la technologie dans l’évolution des langues n Nicholas Ostler : président de la fondation pour les langues en danger (Foundation for Endangered Languages) – The Last Lingua Franca: English Until the Return of Babel, by Nicholas Ostler Walker & Co n A propos des technologies actuelles de traduction automatique, l’auteur indique – « A technological revolution could save declining tongues from extinction. Those who now neglect their traditional regional language in favor of English would no longer need a lingua franca to access the same commercial and cultural opportunities » n Concept de « langue virtuelle »

Plan n Contexte & Enjeux – La diversité linguistique n Objet – Une étude des langues abordée selon l’angle du traitement automatique n Multidisciplinarité – Informatique, Signal, Phonétique, Linguistique de terrain, etc. n Exemples – Langues issues de quatre continents – Revitalisation d’un langue peu dotée du sud-ouest colombien

Ressources nécessaires pour la RAP Dictionnaire de prononciation signal Signal Modélisation acoustique Modèles acoustiques Signaux annotés Système de RAP Phrase Modélisation du langage Corpus textuels Vocabulaire n n Corpus textuels et de parole Dictionnaire de prononciation Modèles acoustiques Modèles de langage Phrase reconnue

Modélisation acoustique translingue Phonème FR Phonème VN • FR/VN ~63% couverture • Si plusieurs langues source (ex: modèle multilingue de 7 langues) => 87% couverture Bénéfice d’une couverture multilingue

Modélisation acoustique multilingue n Représentation des unités acoustiques (pour la reconnaissance de parole) dans un espace multilingue – – – n Collection de HMMs Appris sur des bases de parole multilingues Modèles « à large couverture » représentant les unités phonétiques des langues du monde Mesures de similarité entre phonèmes (ou unités plus complexes) – Amorçage (bootstrap) des modèles acoustiques pour les langues peu dotées » Thèse Viet-Bac Le (juin 2006) – Adaptation de modèles à la parole non native » Thèse Tien-Ping Tan (juillet 2008) – Identification de l’accent

Amorçage de modèles pour la reconnaissance automatique du vietnamien PI VN FR CH EN « Automatic Speech Recognition for Under-Resourced Languages: Application to Vietnamese Language » IEEE Transactions on ASL, 2009 (with Viet-Bac LE)

Exemple de résultats (2006) n Portabilité rapide d’un système de reconnaissance de parole vers le vietnamien et le khmer Performance de RAP pour le vietnamien (% syllabes correctes) Corpus de dialogue chi, cro, fr, ge, jap, esp, turc Même méthodologie appliquée au khmer : système de RAP développé en quelques semaines : WA=73. 6% sur des phrases lues

Exemple de résultats (2008) Adaptation de modèles à la parole non native vietnamien (L 1) parlant français (L 2) MA FR (L 2) MA VN (L 1)

Exemple de résultats (2009) n n RI multilingue http: //www. thestarchallenge. sg/ – Lancé par une compagnie singapourienne – ~50 participants dont le LIG (collaboration avec MRIM) • LIG finaliste (top 5) n n Contenus multilingues, fortement accentués (singlish) Recherche par API (requêtes constituées de phonèmes de l’Alphabet Phonétique International) – Utilisation d’un modèle multilingue à large couverture qui transcrit les documents selon l’alphabet phonétique international “Content-based search in multilingual audiovisual documents using the International Phonetic Alphabet. ”, Multimedia Tools and Applications Journal, 48(1)

Exemple de résultats (2010) n Aide à l’analyse d’une langue en danger (Punu) Résultat de l’alignement forcé du mot [dile: m bi] confronté à l’alignement de référence (ligne du haut). Using automatic speech recognition for phonological purposes: Study of Vowel Lenght in Punu (Bantu B 40). Laphon 12 (with Hadrien GELAS & al) n Travail similaire en cours sur le Mo-Piu (Vietnam)

Exemple de résultats (2012) n n Structure syllabique de la langue amharique et de son système d’écriture Unités CV pour la modélisation acoustique Modèle Phonèmes Syllabes Hybride WER 17, 8% 14, 8% 13, 7% Syllable-Based and Hybrid Acoustic Models for Amharic Speech Recognition. SLTU 2012 (avec M. Y. Tachbelie, S. T. Abate & S. Rossato)

Collecter des données langagières sur le Web n Collecte de données textuelles monolingues – – – parfois unique moyen de collecter des données pour certaines langues utile pour collecter des données sur un domaine particulier problèmes de remise en forme des données : ex. restauration des diacritiques pour le roumain Enhancing Automatic Speech Recognition for Romanian by Using Machine Translated and Web-based Text Corpora SPECOM'2011 (avec H. Cocu & C. Burileanu) n Collecte de données textuelles bilingues – Thèse de Thi-Ngoc-Diep Do • • A partir de corpus comparables ou de corpus partiellement parallèles Itération de la boucle collecte-apprentissage (non supervisé ou peu supervisé) “Mining a comparable text corpus for a Vietnamese – French statistical machine translation system”, EACL/WMT 2009

Revitalisation d’une langue en danger du sud-ouest colombien n Projet Ecos-Nord avec DDL et Université du Cauca Langues du sud-ouest colombien : Nasa Yuwe (Paes) et Nam Trik Développement de technologies informatiques pour compléter les outils informatiques didactiques – apprentissage autonome des langues (outils d’aide à la prononciation). Pronunciation Learning System for the 32 vowel system of Nasa Yuwe Language. SLTU 2012 (avec R. Naranjo, E. Marsico, F. Pellegrino & T. Rojas)

Colombie & Cauca

Contexte n n Nasa : deuxième plus grand groupe ethnique en Colombie Maintien de la tradition orale au fil du temps La communauté Nasa est maintenant en train de perdre l'usage de la langue Efforts visant à revitaliser la langue – Unification de l'alphabet Nasa – Enseignement de la langue! n n 4 voyelles (A, E, I, U) – chaque groupe subdivisé en oral et nasal 4 modes d’articulation des voyelles : normal (basic), coup de glotte (glottal stop), aspirée (aspirated) et allongée (elongated), soit au total 32 voyelles !

Description des voyelles (Rojas, 2011) – publication en espagnol

Premiers objectifs n Construire et optimiser un système de classification de voyelles n Construire un prototype de CAPT (Système d’Apprentissage de la Prononciation Assisté par Ordinateur) n Mettre avec en place et appliquer des tests réels des locuteurs natifs et des

(Rapide) Revue de l’Apprentissage de la Prononciation Assisté par Ordinateur – Modèles fondés sur le calcul d’un rapport de vraisemblance (likelihood ratio test - LRT) (Fraco et al 99). – Modèles fondés sur le calcul d’une probabilité a posteriori (Fraco et al 99). – Modèles de qualité de la prononciation (goodness of pronunciation – GOP) (Witt & Young 00). – Modèles acoustico-phonetiques avec classifieurs binaires (Troun et al. 09).

Corpus Mots isolés contenant les voyelles cibles n Les apprenant participent à des exercices de prononciation avec ces mots n Vocabulaire limité (250 mots) n Structure phonétique : CV, VC, CCVCV n 4224 enregistrements de locuteurs natifs – 132 répetitions pour chacune des 32 voyelles n 1088 enregistrements d’apprenants (non natifs) n Les voyelles sont segmentées en utilisant la technique DTW n

Paramètres et Modèles Utilisés n Vecteurs de paramètres – 30 coefficients LPC et énergie residuelle – Sous-échantillonage à 16 k. Hz (44 k. Hz au départ) n K-plus proches neighbor – KNN) voisins (K-nearest – 3 -NN + distance euclidienne n Perceptron multi-couches perceptron – MLP) (Multilayer – 16 -25 -25 -8 or 16 -25 -25 -2 – Algo. de Levenberg-Marquardt n Modèles de Markov Cachés (HMM)

Expériences n Validation croisée (20 -replis) – 80% apprentissage / 20% test n Première expérience – Un classifieur pour chacun des 4 groupes de voyelles (A, E, I, U) – Performances décevantes n Seconde expérience – Un classifieur (binaire) appris pour chaque voyelle – 106 occurences “positives”, 106 occurences “negatives” pour chaque voyelle (%Correct=~75%)

Expériences Troisième expérience n Utilisation du “bagging” – Connu pour être utile sur de petits corpus – Sélectionne aléatoirement n sous-ensembles de données, et entraine 1 classifieur avec chaque sous ensemble (n au total). Les n classifieurs sont combinés par vote majoritaire (Kuncheva, 2004) n Accroissement du nombre d’occurences “negatives” de 106 à 742 par voyelle n

Performance pour les groupes de voyelles A et E (3è expérience)

Performance pour les groupes de voyelles I et U (3è expérience) Performance > 80% avec “bagging” et ajout d’exemples négatifs

Prototype & première évaluation

Distribution des scores non natifs vs natifs 5 locuteurs natifs ; 845 signaux 3 locuteurs non natifs ; 1088 signaux scores normalisés entre 0 et 1

Analyse des confusions des apprenants non. A natifs E a a’ aʰ a 14 1 a’ 2 10 1 aʰ 12 a: 8 1 ã 1 1 2 ã' 1 1 2 a ʰ 2 a ː 7 2 1 a: 1 2 4 4 2 4 ã 1 2 1 7 1 4 ã' 1 1 a ʰ a ː 2 1 11 8 2 e e' eʰ e: ẽ ẽ’ e ʰ ẽ: I I i' iʰ i: ĩ ĩ' i ʰ ĩ: i 10 1 2 3 3 3 e' 4 9 1 2 1 6 eʰ 1 e: 1 ẽ 3 2 ẽ’ e ʰ ẽ: 2 15 2 1 4 3 3 u' uʰ 5 1 6 10 1 2 3 2 11 5 U i' 10 3 1 2 1 1 e 7 3 iʰ 6 1 i: 2 ĩ ĩ' 5 3 2 2 4 7 4 12 1 2 13 6 7 2 i ʰ 1 ĩ: 1 1 1 8 1 2 5 u u' uʰ u: ũ ũ' u ʰ ũ: u 14 1 4 2 7 2 3 8 u: 2 ũ 14 8 1 2 4 2 8 1 3 5 1 2 ũ' u ʰ 1 2 1 ũ: 2 1 10 1 4 1 8 1 2

Analysis des confusions du système n n Pour les locuteurs non natifs, est-ce que les confusions sont dues aux erreurs du système ou aux erreurs de prononciation des apprenants ? Pas encore analysé mais, si on insiste sur la voyelle a’ (glottale) – 38 signaux contenant un a’ • • • 9 classés comme a’ 9 classés comme a (7 detections correctes d’erreur d’apprenant) 9 classés comme ã (2 detections correctes d’erreur d’apprenant) 6 classés comme ã' (non analysé) 3 classés comme a: (non analysé) 2 classés comme ã: (non analysé)

Discussion Modèles pour les 32 voyelles du Nasa yuwe n Les taux de précision sont en moyenne supérieurs à 80% pour les locuteurs natifs n MLP + bagging sont les meilleurs classifieurs binaires n Certaines confusions des apprenants ont pu être mises en évidence grâce au processus automatique – Voyelles allongées vs normales n

References n n n n CASACUBERTA, F. , VIDAL, E. , AIBAR, P. (1991). Decodificación Acústico Fonética mediante plantillas subléxicas. Procesamiento del lenguaje natural, Nº. 11. 265 -274. CRIC. (2000). Acerca de la unificación del alfabeto Nasa yuwe. Revista C'ayu'ce número 4. 52 -53. CRIC. (2001). Cartilla Nasa yuwe Cartilla. Consejo Regional Indígena del Cauca. DUDA, O. HARD, R. STORK, P. (2000). Patter Clasification. 2 Ed. Jhon Wiley & Son. MARSICO, E. , ROJAS, T. (1998). Etude acoustique préliminarire des 16 voyelles orales du Paez de Talaga, langue amérindienne. XXII journees d’etude sur la parole. KUNCHEVA, L. (2004). Combining pattern classifiers: models and algorithms. Ed. Jhon Wiley. FRANCO, H. , NEUMEYER, L. , KIM, Y. , RONEN, O. , BRATT, H. (1999). Automatic detection of phone-level mispronunciation for language learning. In: Proc. European Conference on Speech Communication and Technology. 851– 854. FREUND, Y. SCHAPIRE, R. (1997). A decision theoretic generalization of On line learning and an application to Boosting. Journal of computer and system sciences 55, pp. 119 -139. HAYKIN, S. (1998). Neural Networks: A Comprehensive Foundation (2 nd Edition), Prentice Hall. HUANG, X. , ACERO, A. , HON, H. (2001). Spoken Language Processing. Prentice Hall. 290 -303. RABINER, L. JUANG, B. H. (1993). Fundamental Speech Recognition, Prentice - Hall International Inc. SAKOE, H. , CHIBA, S. (1978). Dynamic programming optimization for spoken word recognition, IEEE Trans. Acoust. Speech Signal Process. Vol. ASSP-26, No. 1. 43 -49. TROUN, K. , NERI, A. , CUCCHIARINI, C. , STRIK, H. (2009). Automatic pronunciation error detection: an acoustic-phonetic approach. University of Nijmegen. http: //citeseerx. ist. psu. edu/. WITT, S. M. , YOUNG, S. J. (2000). Phone-level pronunciation scoring and assessment for

n Merci de votre attention… n Pour en savoir plus… http: //pi. imag. fr