Bouquet de dmos et doutils technologiques pour les

Bouquet de démos et d'outils technologiques pour les langues peu dotées ou en danger Laurent Besacier & Hadrien Gelas Laboratoire d’Informatique de Grenoble (LIG) & Laboratoire Dynamique du Langage (DDL)

Plan n 1. Outils pour la reconnaissance automatique de la parole – Laurent n - 30 mn 2. Exemple d’utilisation pour l’annotation d’un langue en danger (Punu) – Hadrien - 30 mn n 3. Démonstration d’un outil de segmentation et regroupement en locuteurs – Laurent – 30 mn

Boites à outils open-source (1) n HTK (Cambridge) – htk. eng. cam. ac. uk n SPHINX (CMU) – http: //cmusphinx. sourceforge. net n JULIUS (Japon) – http: //julius. sourceforge. jp/ n RWTH (Aachen, Allemagne) – http: //www-i 6. informatik. rwth-aachen. de/rwth-asr/

Boites à outils open-source (2) n HTK et SPHINX très utilisés et documentés – Livre htk • http: //htk. eng. cam. ac. uk/docs. shtml – Workshop sphinx • http: //www. cs. cmu. edu/~sphinx/Sphinx 2010/index. html n n Julius permet l’utilisation de grammaires, en plus des modèles de langage n-grammes RASR est le plus à jour du point de vue des technologies avancées pour la RAP

Boites à outils open-source (3) n n Outils de paramétrisation, d’apprentissage et de décodage Modèles acoustiques disponibles pour certaines langues – Exemples jouets – http: //www. speech. cs. cmu. edu/sphinx/models/ – Voir aussi http: //www. voxforge. org/

Exemple de sphinx n Voir fichiers séparés

Plan n 1. Outils pour la reconnaissance automatique de la parole – Laurent n - 30 mn 2. Exemple d’utilisation pour l’annotation d’un langue en danger (Punu) – Hadrien - 30 mn n 3. Démonstration d’un outil de segmentation et regroupement en locuteurs – Laurent – 30 mn

Autres outils autour de la reconnaissance automatique de la parole n MISTRAL – http: //mistral. univ-avignon. fr/ – Plateforme open source d’authentification biométrique – Exemple : outil de segmentation et regroupement en locuteurs • http: //mistral. univavignon. fr/svn/LIA_RAL/branches/MISTRAL_SEG/

Segmentation et Regroupement en Locuteurs Système de segmentation L 0 L 1 L 2 L 1 n Qui parle et quand ? découper un document en segments homogènes appartenant à un seul locuteur et étiqueter ces segments selon chaque locuteur. n Hypothèses – aucune connaissance a priori sur le document – le nombre de locuteurs est inconnu, pas de données de référence disponibles pour les locuteurs, etc.

Architecture du système Fichier non-segmenté Découper un document en segments homogènes appartenant à un seul locuteur ou une classe acoustique. Identification les zones paroles/musique en utilisant les GMMs parole/musique/mélange Détection de changements acoustiques Détection parole/musique Recombiner les petits segments adjacents en segments plus grands Recombinaison de segments adjacents Regrouper hiérarchiquement les segments selon chaque locuteur (1 er passe) Regroupement hiérarchique en locuteurs à base de BIC Raffiner la frontière des segments en utilisant un décodage Viterbi Regrouper les segments selon chaque locuteur (2ème passe) : Ré-segmentation Viterbi Regroupement en locuteurs à base d’une identification du locuteur (SID) + Modèle GMM du monde UBM + Distance : NCLR S 0 S 2 S 0 S 1 S 2

Un document audio segmenté sur Transcriber Aller vers la démo…