Etiquettes lexicales grammaires Eric Laporte Institut GaspardMonge Universit

  • Slides: 38
Download presentation
Etiquettes lexicales, grammaires Eric Laporte Institut Gaspard-Monge Université de Marne-la-Vallée France http: //www-igm. univ-mlv.

Etiquettes lexicales, grammaires Eric Laporte Institut Gaspard-Monge Université de Marne-la-Vallée France http: //www-igm. univ-mlv. fr/~laporte/

Etiquettes lexicales, grammaires Rappel et précision en recherche d'informations Elaboration d'une requête Relâchement/resserrement de

Etiquettes lexicales, grammaires Rappel et précision en recherche d'informations Elaboration d'une requête Relâchement/resserrement de contraintes Augmentation du rappel Extension de la requête dans le sens de l'union Augmentation de la précision Extension de la requête dans le sens de la concaténation

Etiquettes lexicales, grammaires Notion de grammaire locale RTN Techniques d'écriture d'un RTN Informations lexicales

Etiquettes lexicales, grammaires Notion de grammaire locale RTN Techniques d'écriture d'un RTN Informations lexicales Catégorie grammaticale Utilisation pour diminuer le nb de dimensions dans le modèle vectoriel Lemme : utilisation pour diminuer le nb de dimensions Etiquettes lexicales non structurées Etiquettes lexicales structurées : Représentation par structure de traits Représentation dans le format DELA

Rappel et précision en recherche d'informations Rappel Nombre de de documents retenus parmi les

Rappel et précision en recherche d'informations Rappel Nombre de de documents retenus parmi les documents désirés D&R/D Exemple : requête justice documents désirés ministre de la Justice retenu garanties accordées aux justiciables en améliorant la formation des magistrats non retenu Précision Nombre de documents désirés parmi les documents retenus D&R/R Exemple : requête rentrée documents retenus bien préparer la rentrée des classes Titine est rentrée à la maison désiré non désiré

Rappel et précision Deux valeurs indépendantes dont l'évolution est habituellement antagonique Bruit + précision

Rappel et précision Deux valeurs indépendantes dont l'évolution est habituellement antagonique Bruit + précision = 1 Silence + rappel = 1 Evaluation précise du rappel et de la précision - Marquer manuellement les documents désirés - Appliquer le système et marquer les documents retenus - Compter les documents à la fois désirés et retenus (D&R) - Calculer le rappel (D&R / D) et la précision (D&R / R) A cause du marquage manuel, ne peut être fait que sur un petit corpus

Rappel et précision Graphique rappel/précision 1 0 1 rappel

Rappel et précision Graphique rappel/précision 1 0 1 rappel

Rappel et précision Effet d'un relâchement de contrainte Exemple : admettre des équivalents sémantiques

Rappel et précision Effet d'un relâchement de contrainte Exemple : admettre des équivalents sémantiques Le rappel a tendance à augmenter, la précision à diminuer (pluls de documents) précision 1 0 1 rappel

Rappel et précision Effet d'un resserrement de contrainte Exemple : relever le seuil de

Rappel et précision Effet d'un resserrement de contrainte Exemple : relever le seuil de proximité exigé entre requête et document Le rappel a tendance à diminuer, la précision à augmenter (moins de documents) précision 1 0 1 rappel

Rappel et précision Objectif de la recherche d'informations Augmenter à la fois le rappel

Rappel et précision Objectif de la recherche d'informations Augmenter à la fois le rappel et la précision Dans le modèle du sac de mots, c'est difficile - jouer sur le seuil de proximité - pré-traitement du texte : lemmatisation Exemple : requête documents rentrée bien préparer la rentrée des classes bien préparer le rentrée du classe Titine est rentrée à la maison Titine être rentrer à le maison retenu non retenu C'est un pré-traitement qui nécessite des données linguistiques

Rappel et variantes Causes du silence Variations dans la façon d'exprimer une idée -

Rappel et variantes Causes du silence Variations dans la façon d'exprimer une idée - pluriel, féminin, conjugaison (morpho-syntaxe) - synonymes - dérivés - langues etc. ministères loi règlement justice justiciable ministère ministry Relâchement de contrainte Admettre des variantes

Précision et ambiguïté Causes du bruit Ambiguïtés (une forme, plusieurs interprétations) bien préparer la

Précision et ambiguïté Causes du bruit Ambiguïtés (une forme, plusieurs interprétations) bien préparer la rentrée des classes Titine est rentrée à la maison Resserrement de contrainte Sélectionner les formes dont l'interprétation correspond à la requête

Amélioration de la requête Objectif Augmenter à la fois le rappel et la précision

Amélioration de la requête Objectif Augmenter à la fois le rappel et la précision en améliorant la requête Rappel Relâcher des contraintes sur les variations Méthode : étendre la requête dans le sens de l'union (plus d'occurrences) Précision Resserrer des contraintes sur l'ambiguïté Méthode : étendre la requête dans le sens de la concaténation (moins d'occurrences)

Relâcher des contraintes sur les variations - pluriel, féminin, conjugaison (morpho-syntaxe) <ministère> = ministère

Relâcher des contraintes sur les variations - pluriel, féminin, conjugaison (morpho-syntaxe) <ministère> = ministère + ministères <règlement> = règlement + règlements <juger> = juger + juges + jugés + jugées + jugeons + jugez + jugent. . . - synonymes loi + règlement - dérivés justice + justiciable - autres ("association") justice + <magistrat> + <avocat> + <tribunal> + <juge>. . . <ministère> : masque lexical Etendre la requête en une union de plusieurs requêtes

Resserrer des contraintes sur l'ambiguïté En décrivant le contexte d'un mot ambigu, on sélectionne

Resserrer des contraintes sur l'ambiguïté En décrivant le contexte d'un mot ambigu, on sélectionne certaines interprétations requête documents retenus rentrée bien préparer la rentrée des classes Titine est rentrée à la maison est rentrée Titine est rentrée à la maison la rentrée bien préparer la rentrée des classes Etendre la requête en une séquence de plusieurs mots

Grammaires locales Une grammaire locale est une requête qui peut comporter - plusieurs variantes

Grammaires locales Une grammaire locale est une requête qui peut comporter - plusieurs variantes - des séquences de plusieurs mots On la représente par un graphe avec un éditeur graphique Unitex : FSGraph

Méthode d'amélioration d'un graphe avec un corpus Relâcher une contrainte Faire une concordance sur

Méthode d'amélioration d'un graphe avec un corpus Relâcher une contrainte Faire une concordance sur le corpus Resserrer la contrainte en fonction de la concordance Itérer précision 1 0 1 rappel

Relâcher/resserrer une contrainte Allonger des chemins Ajouter du contexte gauche ou droit dans le

Relâcher/resserrer une contrainte Allonger des chemins Ajouter du contexte gauche ou droit dans le graphe : resserrement de contrainte (moins d'occurrences) Ajouter des chemins Ajouter des variantes parallèles dans le graphe : relâchement de contrainte (plus d'occurrences) Remplacer un masque lexical par un autre plus général : relâchement de contrainte Supprimer des chemins Remplacer un masque lexical général (ex. <V>) par une liste de mots : resserrement de contrainte

Informations lexicales

Informations lexicales

Informations lexicales Informations codifiées qui constituent les étiquettes des mots Traits traditionnels Catégorie grammaticale

Informations lexicales Informations codifiées qui constituent les étiquettes des mots Traits traditionnels Catégorie grammaticale : substantif, verbe, adjectif. . . Sous-catégories : indéfini, possessif. . . Traits flexionnels : masculin, féminin, neutre, singulier, pluriel, comparatif, nominatif, génitif. . . Traits syntaxiques : transitif, accepte une complétive sujet. . . Traits sémantiques : humain, concret, abstrait, comptable. . . Formes canoniques Formes sous-jacentes Relations entre entrées

Lemme Une des formes fléchies choisie pour les représenter toutes olivier, olivier. N: ms

Lemme Une des formes fléchies choisie pour les représenter toutes olivier, olivier. N: ms oliviers, olivier. N: mp La notion de lemme facilite l’organisation des données : de nombreuses informations ne dépendent pas de la flexion et peuvent être rattachées aux lemmes

Relations entre entrées lexicales Les relations exploitables sont de nature sémantique et parfois syntaxique

Relations entre entrées lexicales Les relations exploitables sont de nature sémantique et parfois syntaxique connecter/relier confondre/confusion Elles sont liées aux autres informations lexicales : la dérivation tendre/tension n’est valable que pour tendre verbe Relations purement sémantiques (thésaurus, réseau sémantique) : manger/repas connecter/relier Relations sémantico-syntaxiques (lexique-grammaire) : N 0 confondre N 1 (avec + et) N 2 N 0 faire Det confusion entre N 1 et N 2

Quantité d’information lexicale Nombre de valeurs possibles d’un trait donné : - 2 (mot

Quantité d’information lexicale Nombre de valeurs possibles d’un trait donné : - 2 (mot grammatical/mot plein) : Google - 15 (catégorie grammaticale) : corpus classiques - des dizaines de milliers (lemme) : lexiques inclus dans Unitex, thésaurus Le nombre de valeurs différentes d’un trait mesure la quantité d’information qu’il apporte

Jeux d’étiquettes lexicales Les corpus classiques n’incluent pas le lemme parmi les informations lexicales

Jeux d’étiquettes lexicales Les corpus classiques n’incluent pas le lemme parmi les informations lexicales Brown (1981) : 4 lemmes, 119 étiquettes, presque sans mots composés Penn (1993) : 1 lemme, 36 étiquettes, presque sans mots composés Les lexiques inclus dans Unitex sont beaucoup plus informatifs : DELAF (1990) : 170 000 lemmes, 950 000 étiquettes, réductibles à 1 000 sans perte d’information

Jeux d’étiquettes lexicales 950 000 étiquettes réductibles à 1 000 sans perte d’information Forme

Jeux d’étiquettes lexicales 950 000 étiquettes réductibles à 1 000 sans perte d’information Forme fléchie médiatrice Etiquette médiateur. N: fs On suppose la forme fléchie connue et on simplifie l'étiquette Forme fléchie médiatrice Etiquette 3 eur. N: fs Le nombre d'étiquettes différentes diminue sans perte d'information

Lexiques électroniques

Lexiques électroniques

Lexiques électroniques Les informations lexicales ne sont pas prévisibles à partir de la forme

Lexiques électroniques Les informations lexicales ne sont pas prévisibles à partir de la forme des mots : mouvement, nom brièvement, adverbe tendre, adjectif Les lexiques électroniques recensent les mots et les étiquettes correspondantes Une entrée lexicale est l’association d’une forme et des informations lexicales correspondantes

Nombre d’entrées dans les dictionnaires DELA 90 000 entrées de lemmes simples (680 000

Nombre d’entrées dans les dictionnaires DELA 90 000 entrées de lemmes simples (680 000 entrées fléchies simples) Mémoire occupée : 21 Mo Forme comprimée avec accès rapide adaptée au traitement direct : 1, 8 Mo (automate minimal, 100 000 états, 230 000 transitions) 270 000 entrées fléchies composées Mémoire occupée : 13 Mo Forme comprimée avec consultation rapide : 7, 2 Mo (automate minimal, 840 000 états, 1 080 000 transitions)

Simplifications Dans un domaine très restreint, - le vocabulaire est limité ; - il

Simplifications Dans un domaine très restreint, - le vocabulaire est limité ; - il y a moins d’ambiguïtés : dans le domaine des ponts suspendus, on conserve tendre, verbe, mais pas tendre, adjectif ; - certaines expressions peuvent être considérées comme figées : dans les bulletins météo, alternance de passages nuageux et d’éclaircies

Ambiguïtés Les informations lexicales permettent de représenter formellement les ambiguïtés Ambiguïtés typographiques et objets

Ambiguïtés Les informations lexicales permettent de représenter formellement les ambiguïtés Ambiguïtés typographiques et objets sous-jacents Je ne sais pas. Je l’ai en C. Paul aussi <. F> ou <. A> Ambiguïtés lexicales et lemmes la porte droite du bâtiment lemme : droit La droite a voté contre cette loi lemme : droite Ambiguïtés lexicales et traits Le moteur sert à tendre le câble cat. gramm. : verbe Luc se croit tendre avec Marie cat. gramm. : adjectif

Consultation d’un lexique sur un texte Les informations lexicales trouvées dans le lexique sont

Consultation d’un lexique sur un texte Les informations lexicales trouvées dans le lexique sont incluses dans la représentation du texte En cas d’ambiguïtés, toutes les hypothèses peuvent être représentées Unitex : - pré-traitement - application des ressources lexicales (par la fenêtre du prétraitement, ou par le menu Text) - pour visualiser les entrées trouvées dans le lexique : Word Lists - pour engendrer les automates des phrases : menu Text, Construct FST-Text

Structures de traits Les informations lexicales sont codées sous forme d’une structure de traits

Structures de traits Les informations lexicales sont codées sous forme d’une structure de traits conformément à une norme en construction Elément <fs> (feature structure) : un ensemble de traits Elément <f> (feature) : un trait avec un nom et une valeur La valeur peut être un <str> (chaîne de caractères), un <fs>, un <sym>, <plus>, <minus>. . . La norme en construction prévoit un format long et un format compact

Structures de traits : format long <fs> <f name='lemma'> <str>passager</str> </f> <f name='gram. Grp'>

Structures de traits : format long <fs> <f name='lemma'> <str>passager</str> </f> <f name='gram. Grp'> <fs> <f name='part of speech'><sym>adjective</sym></f> <f name='gender'><sym>feminine</sym></f> <f name='number'><sym>singular</sym></f> </fs>

Structures de traits : format compact <fs> <f name='lemma'> <str>passager</str> </f> <f name='gram. Grp'>

Structures de traits : format compact <fs> <f name='lemma'> <str>passager</str> </f> <f name='gram. Grp'> <fs feats='pos@A gen@f num@s'/> </fs> Déclaration : <f. Lib> <f id='pos@A' name='part of speech'> <sym>adjective</sym></f> <f id='gen@f ' name='gender'><sym>feminine</sym></f> <f id='num@s' name='number'><sym>singular</sym></f> </f. Lib>

Format XML et format DELA Avantages du format XML On peut deviner le sens

Format XML et format DELA Avantages du format XML On peut deviner le sens des informations sans connaître les conventions La structure est utilisable par les logiciels qui manipulent les étiquettes lexicales Avantages du format DELA Compact Permet de visualiser sur un même écran plusieurs dizaines de mots ou entrées Convient pour éditer et mettre à jour les données

Recherche de formes

Recherche de formes

Recherche de formes La recherche de formes dans un texte est l'opération de base

Recherche de formes La recherche de formes dans un texte est l'opération de base de l'analyse syntaxique Applications indexation de documents recherche d'informations traduction automatique correction orthographique synthèse vocale Dans certaines langues découpage en mots Critères de succès Rappel : détecter le plus possible de formes désirées Précision : retenir le moins possible de formes non désirées

Informations lexicales et recherche de formes Une fois lexiques appliqués à un texte, les

Informations lexicales et recherche de formes Une fois lexiques appliqués à un texte, les informations incluses dans le texte peuvent être exploitées pour recher des formes linguistiques dans le texte (Unitex) Masques lexicaux Expressions qui reconnaissent des mots en fonction de propriétés lexicales - lemme : <droit> reconnaît droit, droits, droites - catégorie grammaticale : <V> reconnaît n’importe quel verbe (utiliser les conventions des lexiques consultés) - autres traits présents dans le lexique : <N: s> reconnaît n’importe quel substantif singulier - combinaisons de ces informations : <pouvoir. N> reconnaît seulement pouvoir et pouvoirs - autres masques lexicaux : <MOT>, <PRE>, <MAJ>. . . (v. manuel) - forme fléchie : droit

Concordances lemmatisées Une concordance réalisée avec un lemme (ex. <droit>) est une concordance lemmatisée

Concordances lemmatisées Une concordance réalisée avec un lemme (ex. <droit>) est une concordance lemmatisée Avec consultation de lexique (Unitex) Avantages : - peut produire une concordance de n’importe quel texte disponible dans un format électronique - il existe des dictionnaires disponibles avec des informations lexicales fines Avec corpus lemmatisé Avantage : les ambiguïtés lexicales sont levées