Vers une analyse syntaxique granularit variable Thse prsente
Vers une analyse syntaxique à granularité variable Thèse présentée pour l’obtention du diplôme de Doctorat de l’Université de Provence - Aix-Marseille I spécialité Informatique par Tristan Vanrullen sous la direction de Philippe Blache en présence des membres du jury Patrick Paroubek Monique Rolbert Laurent Romary Eric Villemonte de la Clergerie Eric Wehrli Laboratoire Parole et Langage d’Aix-en-Provence – CNRS UMR 6057 École Doctorale de Mathématiques et Informatique de Marseille
Introduction Construire un modèle et des outils d’analyse qui permettent d’intégrer des données de la linguistique formelle en répondant aux besoins et problèmes actuels
Situation Problèmes actuels • Robustesse (corpus tout venant) • Réutilisabilité (composants, ressources) [Villemonte de la Clergerie] [Romary] • Efficacité (complexité de l’information vs complexité du traitement) Linguistique Formelle et TALN • Fidélité théorique vs Visée applicative Tenter de combiner les deux • Approche symbolique vs numérique Approche symbolique basée sur les contraintes Formalisme des Grammaires de Propriétés [Blache] • Évaluation des systèmes [Carroll] [Paroubek] Besoins actuels • Analyse superficielle, profonde ou combinée [Hinrichs & Simov 04] • Ambiguïté / déterminisme • Analyse multi grammaticale et multimodale 3
Granularité variable Granularité • Niveau de traitement des données d’entrée • Niveau de représentation de la sortie • Diversité des paradigmes interprétatifs Syntaxe, sémantique, prosodie, pragmatique etc. • Multiplicité des interprétations dans un même paradigme interprétatif Chunks, constructions, dépendances, etc. Granularité variable • Sélection de granularité dans une même interprétation / entre interprétations • Paramétrable • Guidée par le contexte 4
Granularité variable Expressivité Granularité variable • Profondeur de l’analyse Robustesse plate / emboîtée • Tolérance Modularité à l’agrammaticalité • Informativité préservée Diversité de l’analyse • Processus redéfinissables ambiguïté / déterminisme Réflexivité • Spécifications hors logiciel • • • Système Généricité des adaptable formats Diversité auto interprétative Décisions révisables Multi grammaticalité Multi modalité 5
Expressivité • Profondeur de l’analyse plate / emboîtée • Diversité de l’analyse ambiguïté / déterminisme • Diversité interprétative Multi grammaticalité Multi modalité Modularité • Processus redéfinissables • Spécifications hors logiciel • Généricité des formats Robustesse • Tolérance à l’agrammaticalité • Informativité préservée Modèle théorique • Grammaires de Propriétés • Spécification sémantique • Représentation (graphes) Implantation • Paradigme Orienté Objet • Mécanismes de contrôle • Représ. des connaissances Réflexivité • Système auto adaptable Décisions révisables 6
Sommaire Modèle théorique Implantation Evaluation Conclusion 7
Modèle Théorique Grammaires de Propriétés Spécification sémantique Modèle de représentation Graphes Mesure de contrôle Densité de satisfaction
Les Grammaires de Propriétés (GPs) • Formalisme basé sur les contraintes [Blache 01] - Une grammaire représente l’information syntaxique par un ensemble de contraintes (propriétés) - Une caractérisation est un état des propriétés par rapport à l’input • Propriétés - Contraintes typées - Types Portantdesur des catégories Description - propriété Caractéristiques de catégories - Indépendantes, non hiérarchisées, peuvent être relâchées Ensemble de catégories obligatoires , uniques et Obligation Unicité mutuellement exclusives Grammaire Ensemble de catégories devant être uniques Exigence Catégorie Ensembles de catégories Catégorie dont la cooccurrence Catégorie est requise etc. Exclusion Propriétés Ensembles de catégories Propriétésdont la cooccurrence Propriétés est exclue Linéarité Précédence linéaire entre catégories C 1 Dépendance C 2 C 1/C 2 C 3/C 2 C 1 Relation C 3/C 2 C 1/C 3 C 1 accord C 2/C 3 de C 1/C 5 C 4 de dépendance entre catégories, traits 9
Les Grammaires de Propriétés (GPs) • Caractérisation - Grammaticalité Reconnaissance - État des contraintes évaluées ou non (P-, P+, P 0) - Possibilité de relâcher tout ou partie des contraintes Grammaire P+ Catégorie Propriétés P 0 P+ P 0 P- P- P 0 etc. P+ Input 10
Les Grammaires de Propriétés (GPs) des Correspondance éléments de l’input traits Présence ou Nombre non. Nombre d’un de propriétés élément dans simultanément l’input satisfiables de fois. Ordre qu’une propriété estdans satisfiable Caractéristiques des propriétés (non) Disponibilité Cardinalité de la propriété Capacité d’une propriété Rang des termes Obligation + + Unicité + + + Exigence + + Exclusion + + Linéarité + Dépendance + + Traits + ++ 11
Spécification sémantique des GPs - Termes : catégories analysées - Propriétés : relations sur les termes - Satisfaisabilité d’une contrainte: - Fonction de la disponibilité des termes - Fonction des traits et du rang des termes - Cardinalité d’un type de contrainte: Nombre de propriétés de même type pouvant être simultanément satisfaites Terme t : Disponibilité w rang. Deb, rang. Fin Ensemble de traits Propriété P : Arité : Satisfaction : Disponibilité Satisfaisabilité Cardinalité : Capacité : [1; ∞] d(w 1, warité) s(t 1, tarité) [0; ∞] - Capacité d’une contrainte: Nombre de fois qu’une même propriété peut être satisfaite 12
Spécification sémantique des GPs Symbole Arité Satisfaction Cardinalité Capacité Obligation + 1 d(w 1)=w 1 et s(t 1)=vrai [1; ∞] [0; 1] Linéarité Symbole << Arité 2 Satisfaction d(w 1, w 2)= w 1 w 2 s(t 1, t 2)= t 1. fin < t 2. debut Cardinalité [0; ∞] Capacité [0; ∞] Exigence Symbole => Arité 2 Satisfaction d(w 1, w 2)= w 1 s(t 1, t 2)= 1 2 Cardinalité [0; ∞] Capacité [0; ∞] Symbole Arité Satisfaction Cardinalité Capacité Unicité 1 1 d(w 1)=w 1 et s(t 1)=vrai [0; ∞] [0; 1] Dépendance Symbole ~~ Arité 2 Satisfaction d(w 1, w 2)= w 1 w 2 s(t 1, t 2)= t 1. trait < t 2. trait Cardinalité [0; ∞] Capacité [0; ∞] Exclusion Symbole # Arité 2 Satisfaction d(w 1, w 2)= w 1 s(t 1, t 2)= 1 ¬ 2 Cardinalité [0; ∞] Capacité [0; ∞] 13
Modèle de graphes Spécification Sémantique + Grammaire Caractérisation 14
Modèle de graphes Hypergraphe permettant l’analyse 15
Modèle de graphes 16
Mesure de contrôle Densité de satisfaction • Intérêt: - Contrôler le nombre de contraintes satisfaites et non satisfaites Mesurer la qualité d’une caractérisation et d’une construction Établir un seuil de filtrage Elle est évaluée et propagée dans le graphe de caractérisation • Densité de satisfaction locale (DSL) - Qualité immédiate d’une caractérisation • Densité de satisfaction propagée ( DSP ): - Qualité historique d’une caractérisation 17
Mesure de contrôle • propriétés • catégories 18
Catégories Exemple Niveau 2 Phrase DSP == 0. 71 DSL 0. 8 DSL=0. 8 / DSP=0. 718 Unicité Types de propriété Linéarité DSL=1. 0 DSP=. 83 DSL=1. 0 DSP=. 92 1 Propriétés Dépendance DSL=0. 5 DSP= DSL = 0. 46 0. 5 DSP=0. 46 << ~~ Genre Exigence DSL=1. 0 DSP=. 92 ~~ => Nombre Niveau 1 SN [Fém. , Sing. ] DSP = 0. 83 DSL Catégories Types de propriété Propriétés Unicité DSL=1. 0 DSP=1. 0 1 Linéarité DSL=1. 0 DSP=1. 0 << Dépendance DSP DSL = 0. 5 DSL=0. 5 DSP=0. 5 ~~ Genre Étiquetage Input SV [-, Plur. ] DSP =1 DSL=0. 83 /DSP=0. 83 ~~ DSL=1. 0 /DSP=1. 0 Exigence Obligation DSL=1. 0 DSP=1. 0 => + Unicité DSL=1. 0 DSP=1. 0 Obligation DSL=1. 0 DSP=1. 0 1 + Nombre Déterminant [Masc. , Sing. ] Nom [Commun, Fém. , Sing. ] Verbe [ind. , prés. , 3 p. , Plur. ] le peinture sèchent
Implantation
Architecture Expériences Linguistiques Manutention Applications TALN LPL-Suite Plateforme Accolade Module Segmenteur Module Dictionnaire Lexique Module Etiqueteur Module Analyseur Boite à outils : Fréquenceur, Phonétiseur, Apprentissage, Formatage. N-Grammes -Seed. Parser -Deep parser -Shallow Parser -Chunker Grammaire Formats DTD + XML Textes 21
Algorithmes d’analyse dans Seed. Parser • Préanalyse 1. Pour chaque item de l’input 1. a. Créer une instance de nœud catégoriel associée à une arborescence de traits 1. b. Attribuer un numéro de rang à ce nœud • Caractérisation 1. Choisir une souche de caractérisation SC 2. Tant qu’une création de nœuds est possible 2. a. Pour chaque élément E de la souche 2. a. i Évaluer les propriétés P liées à E 2. a. ii Si P (P+ P-), instancier P 22
Algorithmes d’analyse dans Seed. Parser • Projection 1. Choisir une souche de projection SP 2. Tant qu’une création de nœuds catégoriels a lieu 2. a Pour chaque catégorie C de la grammaire 2. a. i Construire un graphe prototype C’ 2. a. ii Pour tout sous-ensemble cohérent S de SP - Si S satisfait les propriétés de C Déterminisation temps réel Et si S supporte les seuils de densité Alors - créer une instance C’’ de C’ - connecter C’’ à la caractérisation • Déterminisation en fin d’analyse 1. Lister toutes les catégories en conflit 2. Dans chaque clique C 2. a Chercher un ensemble de catégories maximise la somme des densités de 2. b Supprimer les autres catégories de {cliques} E qui satisfaction la clique 23
Accolade {GUI de LPLSuite} Modules et ressources - dictionnaire - lexique - étiqueteur et analyseurs - spécification des GPs - GPs Analyse syntaxique - pas à pas / par lot - paramétrage temps réel - expérimentation 24
Évaluation
Complexité des analyseurs C(Nmots)= k x Nmots • Conclusions - Polynomialité des traitements: C(Nmots)= k x C x N 2 mots [Vashtisht 03] Les phrases structurées guident l’analyse. Shallow parser Chunker - Grande constante multiplicative: 2, 3 C(Nmots)= k x C x N 2, 4 mots C(N )= k x C x N mots Réductible par précompilation de la spécification sémantique Deep parser Seed parser 26
Qualité des analyseurs • Sans ressources de référence - multiplexage de plusieurs analyseurs amélioration empirique des grammaires correction des analyseurs texte parser parseur paramètres Multiplexeur Texte analysé Autres données -erreurs -statistiques Texte analysé 27
Qualité des analyseurs • Avec références - Parseurs dans la campagne d’évaluation EASY: - 14 participants - 1 Million de mots à analyser - 1 référence annotée manuellement - Plusieurs scores participant - Précision / Rappel / Fmesure - Correspondance à la référence stricte ou Floue ( 1) Moyenne des scores par catégorie de Fmesure floue Fmesure(Shallow Parser) = 79. 7 % Fmesure(Deep Parser) = 85. 9 % Fmesure(Seed Parser) = 82. 5 % 28
Qualité des analyseurs Deep Parser Shallow Parser Seed Parser 29
Qualité des analyseurs Deep parser Seed parser Shallow parser 30
Interprétation • Remarques - Influence de la chaîne de traitement lexique étiquetage analyse - Différences de grammaires entre les parseurs - Différents processus de déterminisation - Comment évaluer la référence ? ex: Vp vs Adj • Améliorations possibles - Réapprentissage pour l’étiqueteur - Correction des grammaires - Meilleur choix des seuils de densité - Évaluer les analyses ambiguës 31
Conclusion
Expressivité • Profondeur de l’analyse plate / emboîtée • Diversité de l’analyse ambiguïté / déterminisme déterminisation • Diversité interprétative Multi grammaticalité Multi modalité Modularité • Processus redéfinissables • Spécifications hors logiciel • Généricité des formats Robustesse • Tolérance à l’agrammaticalité • Informativité préservée Modèle théorique • Grammaires de Propriétés • Spécification sémantique • Représentation (graphes) Implantation • Programmation Objet • Mécanismes de contrôle • DTD + XML Réflexivité • Système auto adaptable autodétermination Décisions révisables 33
perspectives • Granularité variable: - Formaliser et implanter le processus d’autodétermination - Approfondissement d’analyse en contexte - Automatique - Paramétrable • Améliorations possibles - Lexique / Dictionnaire - Étiquetage, grammaires et analyseurs EASY - Complexité Compilation des spécifications sémantiques Optimisation des algorithmes • Corrélations linguistique / cognition - Importance relative des propriétés / justification cognitive? - Poids sur les contraintes 34
Fin 35
Annexes - Application à la synthèse vocale - Application à la communication assistée - Précisions sur la spécification des GPs - Contraintes et propriétés vs CSP - Détails d’analyse - Autodétermination - Multi grammaticalité / Multi modalité - Remarques Générales
Syntaix (1996) [Di Cristo] MBRola Texte Signal Voix (diphones) Pho. Syntaix (1996) Module Phonétiseur Module Prosodique Module Segmenteur Règles Lexique Module Etiqueteur Module Chunker N-Grammes Grammaire Module Métrique 37
Syntaix (2005) MBRola Texte Signal Voix (diphones) Pho. Syntaix GUI LPL-Suite Module Segmenteur Module Dictionnaire Lexique Module Etiqueteur Syntaix (2005) Module Analyseur Boite à outils: … Phonétiseur … N-Grammes Grammaire Module Prosodique Module Métrique Règles 38
PCA Plateforme de Communication Alternative -Prédiction d’un mot à partir de ses premières lettres et du contexte courant -Reformulation textuelle à partir d’icônes 39
Précisions sur la spécification des GPs Cardinalité de la propriété (non) disponibilité des élément décrits Propriété Obligation Unicité Capacité d’une propriété Exemples dans un SN Oblig(N) Oblig(Pro) Uniq(Det) Le chat / *Le chat *Le le chat Exigence Exig(N[com], Det) *Chat / Paul Exclusion Excl(GA, Sup) *le plus bien Linéarité Lin(Det, N) Dépendance Dep(Det. genre, N. genre) Dep(Det. nombre, N. nombre) Dep(Det. X, N. X) *Chat le *Le chaise / La chaises Le chaise / *La chaises *Le chaise / *La chaises Rang des éléments Accords de traits 40
Résolution de contraintes avec les GPs • Algorithme de Seed. Parser vs Moteur CSP - Un CSP généraliste résout des clauses Littéraux, logique binaire, non arithmétiques - Reprogrammer un CSP spécifique aux GPs ? Introduire une mesure variable de la satisfaisabilité Arithmétiser les contraintes Traiter la reconnaissance de traits hors satisfaction de contraintes - Traçabilité des caractérisations ? Introduire une représentation sous forme de graphe par ex. • Autres algorithmes - Deep Parser (arcs couvrants) Grammaires précompilées et shallow parsers (coins-gauches/droits) Versions Prolog / CHR SGBDR 41
Détails d’analyse 42
Autodétermination • Définir des critères de déclenchement - Dans des contextes trop interprétables résorber l’ambiguïté - Dans des contextes trop agrammaticaux faire apparaître une information minimale - La mesure de contrôle sera la densité de satisfaction • Définir un processus de révision de décisions - Itérations convergentes - Mesure / Filtre Passe Haut / Filtre Passe Bas 43
Multigrammaticalité et multimodalité Grammaire Syntaxique 1 Grammaire Sémantique Annotation GPs + spécification sémantique + modèle de graphes Sémantique Grammaire Syntaxique 2 Annotation Morphosyntaxique Grammaire Syntaxique 3 pragmatique - Possibilité de faire coexister plusieurs spécifications sémantiques Syntacticosémantique - Possibilité de faire cohabiter plusieurs Sémantique grammaires en une seule Syntaxe - Interaction inter-grammaticale possible avec un marquage des grammaires (grammaires colorées) - Conflits au sein. Prosodie d’une même couleur Pragmatique - Collaboration entre couleurs Annotation Phonétique Mimogestuel Annotation prosodique Annotation gestuelle 44
Remarques générales • Quels nouveaux types de propriétés sont spécifiables ? - Facultativité Interdiction Contiguïté Relations ternaires (coordination, apposition, etc. ) • Quels types de propriétés ne peuvent être définis ? - Contraintes lexicales - Contraintes de constituance indirecte • Certaines propriétés sont explosives - Contraintes lacunaires (¬X) - Contraintes trop satisfiables • Caractérisation puis projection ? 45
- Slides: 45