Utilisation de ressources linguistiques Eric Laporte Institut GaspardMonge

1. Ressources linguistiques de l’IGM : contenu, statut Comment les exploiter sans introduire de

1. Ressources linguistiques de l’IGM L’IGM est spécialiste de construction, maintenance et exploitation de

Mots composés, termes techniques Exemples metteur en scène petit déjeuner point de vue base

Nombre d’entrées dans les dictionnaires DELA 90 000 entrées de lemmes simples (680 000

Quantité d’information lexicale Nombre de valeurs possibles d’un trait donné : - 2 (mot

Jeux d’étiquettes lexicales Les corpus classiques n’incluent pas le lemme parmi les informations lexicales

Normes de codage des lexiques Norme en construction (ISO), XML Projets associés : plate-forme

Statut des ressources lexicales La majeure partie des ressources lexicales est licenciée LGPL-LR :

Consultation d’un lexique sur un texte Les informations lexicales trouvées dans le lexique sont

Norme de codage de textes En construction Mot au sens typographique : <token> Mot

1. 2. Graphes de mots Représentation d’ensembles de séquences de mots par des automates

Représentation des automates dans Unitex FST-XML : format XML d’échange de FST 2 (J.

1. 3. Lexique-grammaire Arguments : remplacés par des appels à des sousgraphes Prédicat :

Lexique-grammaire : liens interlexicaux Les relations sont de nature sémantique et syntaxique Dérivation :

Lexicalisation - On construit à la main des graphes valables pour plusieurs prédicats (graphes

2. Lemmatisation améliorée Traitements sans lexique Lemmatisation sans lexique (stemming) Algorithme de Martin Porter

Complexité des résultats d’Unitex - étiquettes structurées - ambiguïtés lexicales, représentation du texte par

Méthodes de simplification Priorités entre analyses d’une séquence - une analyse comportant un mot

3. Cascades de transducteurs But : reconnaissance et marquage de motifs Exemple : entités

Transducteurs Un automate fini contient des séquences qui peuvent être reconnues dans un texte

Informations lexicales et recherche de formes Une fois lexiques appliqués à un texte, les

Ambiguïtés des transducteurs Un transducteur est ambigu lorsque plusieurs chemins distincts s’appliquent à une

4. Enrichissement de lexiques Unitex offre des fonctions de traitement de lexiques (forme en

Ajouts d’entrées : - liens avec formes dérivées (face/facial), par graphes de dérivation approximatifs

Conclusion Des ressources linguistiques complexes, élaborées à la main par des linguistes (1967 -2005)

Slides: 26

Download presentation

Utilisation de ressources linguistiques Eric Laporte Institut Gaspard-Monge Université de Marne-la-Vallée, CNRS France http: //www-igm. univ-mlv. fr/~laporte/

1. Ressources linguistiques de l’IGM : contenu, statut Comment les exploiter sans introduire de la complexité dans les structures de données et les algorithmes ? 2. Lemmatisation améliorée 3. Cascades de transducteurs 4. Enrichissement de lexiques

1. Ressources linguistiques de l’IGM L’IGM est spécialiste de construction, maintenance et exploitation de ressources linguistiques de qualité Les données linguistiques et le personnel du LADL ont été intégrés à l’IGM en 2001 et 2002 1. 1. Lexiques morpho-syntaxiques Les informations morpho-syntaxiques ne sont pas prévisibles à partir de la forme des mots : mouvement, nom brièvement, adverbe tendre, adjectif Les lexiques électroniques recensent les mots et les étiquettes correspondantes Une entrée lexicale est l’association d’une forme et des informations lexicales correspondantes

Mots composés, termes techniques Exemples metteur en scène petit déjeuner point de vue base de données à peine tout à fait acteur déjeuner opinion annuaire juste complètement

Nombre d’entrées dans les dictionnaires DELA 90 000 entrées de lemmes simples (680 000 entrées fléchies simples) Mémoire occupée : 21 Mo Forme comprimée avec accès rapide adaptée au traitement direct : 1, 8 Mo (automate minimal, 100 000 états, 230 000 transitions) 270 000 entrées fléchies composées Mémoire occupée : 13 Mo Forme comprimée avec consultation rapide : 7, 2 Mo (automate minimal, 840 000 états, 1 080 000 transitions)

Quantité d’information lexicale Nombre de valeurs possibles d’un trait donné : - 2 (mot grammatical/mot plein) : Google - 15 (catégorie grammaticale) : corpus classiques - des dizaines de milliers (lemme) : lexiques inclus dans Unitex, thésaurus Le nombre de valeurs différentes d’un trait mesure la quantité d’information qu’il apporte

Jeux d’étiquettes lexicales Les corpus classiques n’incluent pas le lemme parmi les informations lexicales Brown (1981) : 4 lemmes, 119 étiquettes, presque sans mots composés Penn (1993) : 1 lemme, 36 étiquettes, presque sans mots composés Les lexiques inclus dans Unitex sont beaucoup plus informatifs : DELAF (1990) : 170 000 lemmes, 950 000 étiquettes, réductibles à 1 000 sans perte d’information

Normes de codage des lexiques Norme en construction (ISO), XML Projets associés : plate-forme Outilex, RNIL Normalangue Le projet de norme concerne seulement la forme lisible des lexiques, non adaptée au traitement direct

Statut des ressources lexicales La majeure partie des ressources lexicales est licenciée LGPL-LR : licence agréée par la FSF, équivalent de la LGPL pour les ressources linguistiques - Possibilité d’inclure une ressource dans un produit commercial payant comportant aussi du logiciel ou des ressources non libres - En cas de modification de la ressource en clair (nouvelle version), obligation de rendre la nouvelle version publiquement disponible en clair - Obligation de mentionner l’origine de la ressource Reliquat hors licence LGPL-LR Contrat avec l’UMLV, suivant les cas : recherche ou développement, gratuit ou onéreux Permet d’établir une collaboration avec les utilisateurs les plus avancés pour orienter la construction et la maintenance des ressources

Consultation d’un lexique sur un texte Les informations lexicales trouvées dans le lexique sont incluses dans la représentation du texte En cas d’ambiguïtés, toutes les hypothèses peuvent être représentées Unitex : - pré-traitement - application des ressources lexicales (par la fenêtre du prétraitement, ou par le menu Text) - pour visualiser les entrées trouvées dans le lexique : Word Lists - pour engendrer les automates des phrases : menu Text, Construct FST-Text

Norme de codage de textes En construction Mot au sens typographique : <token> Mot au sens linguistique : <word. Form> Elément <word. Form>, attributs "entry" et "tokens" Les mots composés produisent des ambiguïtés lexicales Pendant certaines phases des traitements, les ambiguïtés peuvent ne pas avoir été levées Les ambiguïtés lexicales sont représentées par des automates finis acycliques Eléments <token> Elément <fsm> Eléments <state>, attributs "id" et "type" Eléments <transition>, attributs "source" et "target"

1. 2. Graphes de mots Représentation d’ensembles de séquences de mots par des automates finis, par exemple comme profil de recherche (Glossanet) ou pour produire des concordances Organisation en petits graphes lisibles : chaque graphe a un nom ; une boîte peut invoquer un graphe L’ensemble constitue un réseau de transitions récursif (RTN) Exemple : noms propres de personnes En préparation : bibliothèque de graphes (M. Constant, J. Sastre)

Représentation des automates dans Unitex FST-XML : format XML d’échange de FST 2 (J. Sastre, 2004) GRF Graphe orienté, une boîte initiale, une boîte finale, séquences dans les boîtes Equivalence mathématique avec les automates finis GRF-XML : format XML d’échange de GRF (J. Sastre, 2004) Editeur FSGraph Construction manuelle de graphes. Exemple : ". <PRE>" Plusieurs lignes dans une boîte représentent des chemins parallèles Génération de FST 2 à partir de GRF

1. 3. Lexique-grammaire Arguments : remplacés par des appels à des sousgraphes Prédicat : si on le remplace par un autre prédicat, le reste du graphe peut ne plus être valable N 0 recouvrir N 1 de N 2 N 0 demander N 1 à N 2 N 0 placer N 1 Loc N 2 N 0 regarder N 1 N 0 étudier N 1 N 0 faire une étude sur N 1 N 0 maquiller N 1 N 0 faire le maquillage de N 1

Lexique-grammaire : liens interlexicaux Les relations sont de nature sémantique et syntaxique Dérivation : confondre/confusion Elles sont liées aux autres informations lexicales : la dérivation tendre/tension n’est valable que pour tendre verbe Relations purement sémantiques (thésaurus) : manger/repas Relations sémantico-syntaxiques (lexique-grammaire) : N 0 confondre N 1 (avec + et) N 2 N 0 faire Det confusion entre N 1 et N 2

Lexicalisation - On construit à la main des graphes valables pour plusieurs prédicats (graphes paramétrés) - On les adapte automatiquement à chaque prédicat (lexicalisation) Lexicalisation au niveau de classes de prédicats Le graphe contient des paramètres qui prennent une valeur pour chaque classe : - interrompre ou non un chemin - valeur d'un mot grammatical Une table donne les valeurs des paramètres pour chaque classe - lignes : les classes - colonnes : les paramètres Lexicalisation au niveau des prédicats Le graphe contient des paramètres qui prennent une valeur pour chaque prédicat

2. Lemmatisation améliorée Traitements sans lexique Lemmatisation sans lexique (stemming) Algorithme de Martin Porter (1980) Etiquetage par apprentissage automatique Compatible avec des jeux d’étiquettes réduits (10 à 100) Résultats : une séquence d’étiquettes

Complexité des résultats d’Unitex - étiquettes structurées - ambiguïtés lexicales, représentation du texte par un automate acyclique ( « treillis » de mots) La levée des ambiguïtés reste un problème ouvert Approximations pour linéariser l’automate acyclique du texte Les traitements appelés par Unitex peuvent être appelés depuis un script, et combinés avec d’autres traitements (cf. Info Console ou le manuel) Les résultats des traitements sont des fichiers intermédiaires dont le format est décrit dans le manuel d’utilisation

Méthodes de simplification Priorités entre analyses d’une séquence - une analyse comportant un mot composé est presque toujours meilleure qu’une analyse concurrente sans mots composés - les lexiques morpho-syntaxiques comportent un marquage de plausibilité d’emploi des mots simples (+z 1, +z 2, +z 3) ex. : continuer, . V+z 1: W impériale, . N+z 2: fs parsi, . A+z 3: ms Poids : même principe, mais on conserve des analyses concurrentes avec une pondération des analyses ou des étiquettes

3. Cascades de transducteurs But : reconnaissance et marquage de motifs Exemple : entités nommées Applications : indexation, classification, classement par pertinence, extraction d’informations, extraction de terminologie, élimination des mots grammaticaux. . . Ne nécessite pas de lever les ambiguïtés lexicales du texte : Unitex applique le transducteur à l’automate et produit une nouvelle version (linéaire) du texte. Composition de plusieurs transducteurs possible ( « cascade » ) Unitex fait une application glissante des transducteurs (en commençant à tous les mots du texte ; l’application peut se terminer à n’importe quel mot)

Transducteurs Un automate fini contient des séquences qui peuvent être reconnues dans un texte existant Un transducteur fini est utilisé pour engendrer une nouvelle version du texte : il contient des séquences qui seront reconnues (séquences d’entrée) et d’autres qui seront insérées (séquences de sortie) Exemple : insérer des balises <campus> et </campus> avant et après les séquences désignant le campus de l’université (nombreuses variantes) Avec Unitex, les séquences de sortie sont affichées au-dessous des boîtes Pour créer un transducteur, insérer une barre (/) entre la séquence d’entrée et la séquence de sortie correspondante Pour appliquer le transducteur, indiquer si les séquences de sortie doivent être insérées à gauche des séquences d’entrée correspondantes, ou si elles doivent les remplacer

Informations lexicales et recherche de formes Une fois lexiques appliqués à un texte, les informations incluses dans le texte peuvent être exploitées pour recher des formes linguistiques dans le texte (Unitex) Masques lexicaux Expressions qui reconnaissent des mots en fonction de propriétés lexicales - lemme : <droit> reconnaît droit, droits, droites - catégorie grammaticale : <V> reconnaît n’importe quel verbe (utiliser les conventions des lexiques consultés) - autres traits présents dans le lexique : <N: s> reconnaît n’importe quel substantif singulier - combinaisons de ces informations : <pouvoir. N> reconnaît seulement pouvoir et pouvoirs - autres masques lexicaux : <MOT>, <PRE>, <MAJ>. . . (v. manuel) - les informations issues du lexique-grammaire sont utilisables

Ambiguïtés des transducteurs Un transducteur est ambigu lorsque plusieurs chemins distincts s’appliquent à une même séquence d’entrée Comme Unitex ne produit qu’une sortie linéaire, seul un des chemins sera pris en compte (choix arbitraire) Pour contrôler le résultat du traitement, éviter de construire des transducteurs trop ambigus Ambiguïtés de recouvrement : deux séquences reconnues ont une partie commune

4. Enrichissement de lexiques Unitex offre des fonctions de traitement de lexiques (forme en clair/forme comprimée) - compression d’un lexique avec accès rapide - flexion automatique Ajouts d’information possibles : - fréquences d’emploi tirées d’un corpus - mesure de la spécificité des mots à un domaine spécialisé - interfaçage entre lexique morpho-syntaxique (avec formes fléchies) et thésaurus ou ontologies

Ajouts d’entrées : - liens avec formes dérivées (face/facial), par graphes de dérivation approximatifs - inclusion de collocations spécifiques à un domaine, ex. : dans les bulletins météo, alternance de passages nuageux et d’éclaircies

Conclusion Des ressources linguistiques complexes, élaborées à la main par des linguistes (1967 -2005) Des outils logiciels adaptés Les méthodes de TALN avec et sans ressources lexicales sont restées très cloisonnées, mais sont combinables (systèmes hybrides)