Lanalyseur syntaxique Fips Eric Wehrli Luka Nerima LATLDpartement

  • Slides: 24
Download presentation
L’analyseur syntaxique Fips Eric Wehrli, Luka Nerima LATL-Département de linguistique Université de Genève Eric.

L’analyseur syntaxique Fips Eric Wehrli, Luka Nerima LATL-Département de linguistique Université de Genève Eric. Wehrli@unige. ch, Luka. Nerima@unige. ch http: //www. latl. unige. ch 9 octobre 2009 ATALA 1

La recherche en TAL au LATL v Développement d’une plateforme multilingue pour le traitement

La recherche en TAL au LATL v Développement d’une plateforme multilingue pour le traitement automatique des langues v Analyseurs, étiqueteurs, phonétiseurs, extracteurs terminologiques, générateurs de phrases, etc. v Cœur du système : l’analyseur Fips v v L A T L Analyseur syntaxique « profond » , basé sur une interprétation assez libre de la théorie de la grammaire générative chomskyenne Quelques propriétés de Fips v analyseur ascendant, avec une stratégie d’attachement à droite v traitement parallèle des alternatives v recours à des heuristiques pour limiter le nombre d’alternatives 9 octobre 2009 ATALA 2

Le modèle de grammaire v Basée sur le modèle chomskyen des principes et paramètres,

Le modèle de grammaire v Basée sur le modèle chomskyen des principes et paramètres, ainsi qu’en partie sur le modèle minimaliste. v Toutes les structures syntaxiques obéissent au même schéma: [XP L X R ] où X (∈ {N, V, A, D, P, Adv, Conj}) est la tête de la projection XP, L et R sont des listes de projections maximales (les sous-constituants gauches et droits du syntagme XP). v Les attachements à gauche et à droite sont décrits dans un (pseudo) formalisme, à la fois relativement intuitif et facile à encoder. L A T L 9 octobre 2009 ATALA 3

Le mécanisme de projection v Crée une projection syntaxique v v soit à partir

Le mécanisme de projection v Crée une projection syntaxique v v soit à partir d’un item lexical: X --> XP X ∈ {N, V, A, D, P, Adv, Conj} projection étendue (métaprojection): verbe conjugué --> TP L A T L pronoms et noms propres --> DP 9 octobre 2009 T VP ATALA 4

Combinaison (merge) v Combine deux projections adjacentes A et B v v attache A

Combinaison (merge) v Combine deux projections adjacentes A et B v v attache A comme sous-constituant de B (=attachement à gauche) ; attache B comme sous-constituant d’un nœud actif sur l’arête droite de A (attachement à droite) : A A B B L A T L 9 octobre 2009 ATALA 5

Procédure d’attachement « coin droit » Pile de nœuds actifs : TP DP VP

Procédure d’attachement « coin droit » Pile de nœuds actifs : TP DP VP DP Jean L A T L 9 octobre 2009 a lu un NP poème ATALA … 6

Exemples de règles d’attachement à gauche v AP + NP a. Agree. With(b, {number,

Exemples de règles d’attachement à gauche v AP + NP a. Agree. With(b, {number, gender}) a. Has. Feature( prenominal. Adj) v DP + TP a. Agree. With(b, {number, person}) a. Is. Argument. Of(b, subject) v DP + PP b. Has. Feature(postposition) L A T L 9 octobre 2009 ATALA 7

Exemples de règles d’attachement à droite v NP + AP a. Agree. With(b, {number,

Exemples de règles d’attachement à droite v NP + AP a. Agree. With(b, {number, gender}) ~b. Has. Feature( prenominal. Adj) v VP + DP b. Is. Argument. Of(a, {direct. Object}) v PP + DP a. Has. Feature(preposition) a. Empty. Right() L A T L 9 octobre 2009 ATALA 8

Grammaire procédurale v La partie procédurale de la grammaire de Fips comprend : v

Grammaire procédurale v La partie procédurale de la grammaire de Fips comprend : v v L A T L Un mécanisme de construction de chaînes (mouvement-wh, constructions clitiques dans les langues romanes, etc. ) Un mécanisme de traitement des structures prédicat-arguments (verbes, noms, adjectifs prédicatifs) v La structure argumentale est spécifiée dans l’entrée lexicale (nombre et type des arguments – fonction grammaticale et attributs, par ex. type de la préposition pour un argument de catégorie PP, type de phrase pour un argument S, etc. ). 9 octobre 2009 ATALA 9

Opérations sur la structure argumentale v Certains processus grammaticaux modifient la structure argumentale d’un

Opérations sur la structure argumentale v Certains processus grammaticaux modifient la structure argumentale d’un prédicat : v v L A T L Le passif peut être vu comme un processus d’absorption du sujet, soit en syntaxe (anglais, langues romanes, etc. ), soit dans la morphologie (hongrois, japonais, latin, etc. ). Constructions causatives En français, la construction faire + Vinf est analysée comme un processus de modification de la structure argumentale du verbe infinitif par l’adjonction d’un argument supplémentaire (le sujet du verbe « faire » ), ce qui provoque le reclassement du sujet du verbe infinitif sous la forme d’un objet direct ou d’un objet indirect. Paul corrige cette épreuve Jean a fait corriger cette épreuve à Paul Jean lui a fait corriger cette épreuve 9 octobre 2009 ATALA 10

Identification des collocations v Les collocations associent deux unités lexicales qui entretiennent un rapport

Identification des collocations v Les collocations associent deux unités lexicales qui entretiennent un rapport syntaxique étroit, soit de modification, soit de complémentation. v La procédure de reconnaissance intervient au moment de l’attachement d’un constituant. v v Paul est un gros fumeur Paul a battu son record du saut en longueur v Le mécanisme de chaînage permet d’exprimer la relation entre position de « surface » et position « profonde » . v L A T L v Le record qu’elle a battu datait d’une dizaine d’années Ce record, Jean le considère comme difficile à battre 9 octobre 2009 ATALA 11

Catalogue des lexiques v lexique monolingue v v mots composés (mots contigus) v lexique

Catalogue des lexiques v lexique monolingue v v mots composés (mots contigus) v lexique des collocations v v v L A T L combinaison arbitraire et récurrente de mots, non nécessairement adjacents, nombreuses configurations syntaxiques p. e. exercer - profession, république bananière, code de la route contient aussi les idiomes - avaler la pilule, promettre la lune 9 octobre 2009 ATALA 12

Schéma conceptuel du lexique monolingue Paradigme flexionnel forme de base Variante graphie alternative type

Schéma conceptuel du lexique monolingue Paradigme flexionnel forme de base Variante graphie alternative type variante Nom genre nombre L A T L Verbe pers. temps mode * varie 1 Adj < est réalisé par « xor » autre forme 1 * chaîne orthographique chaîne phonétique Prep Det Adv Nom * Conj Lexème Verbe type Nom type V traits Nom traits syn traits sem Mot Adj traits Adj Prep type Det type Interj genre nombre association généralisation (est un) composition 9 octobre 2009 1 0. . 1 (0)1. . 4 0. . 1 Arg N Arg V Arg Adj fct gram fct thema traits sel ATALA 13

Le lexique des collocations v ensemble d'associations binaires d’items lexicaux Item lexical 2 associe

Le lexique des collocations v ensemble d'associations binaires d’items lexicaux Item lexical 2 associe ^ Lexème Collocation chaîne orthographique type (configuration syntaxique) traits de figement * v définition récursive de la collocation v L A T L v permet de prendre en compte des collocations > 2 termes p. e. tomber en panne sèche, arme de destruction massive 9 octobre 2009 ATALA 14

Interface monolingue L A T L 9 octobre 2009 ATALA 15

Interface monolingue L A T L 9 octobre 2009 ATALA 15

Interface monolingue L A T L 9 octobre 2009 ATALA 16

Interface monolingue L A T L 9 octobre 2009 ATALA 16

Interface monolingue - insertion L A T L 9 octobre 2009 ATALA 17

Interface monolingue - insertion L A T L 9 octobre 2009 ATALA 17

Interface monolingue - insertion L A T L 9 octobre 2009 ATALA 18

Interface monolingue - insertion L A T L 9 octobre 2009 ATALA 18

Interface monolingue - insertion L A T L 9 octobre 2009 ATALA 19

Interface monolingue - insertion L A T L 9 octobre 2009 ATALA 19

Interface monolingue - insertion L A T L 9 octobre 2009 ATALA 20

Interface monolingue - insertion L A T L 9 octobre 2009 ATALA 20

Interface collocation v pour l'entrée manuelle des collocations v outil d'assistance sophistiqué v v

Interface collocation v pour l'entrée manuelle des collocations v outil d'assistance sophistiqué v v L A T L 1) analyse de la collocation entrée (Fips) 2) propose les unités lexicales (base et collocatif) 3) détermine le type de la collocation 4) détermine les traits de la collocation 9 octobre 2009 ATALA 21

Interface collocation - insertion L A T L 9 octobre 2009 ATALA 22

Interface collocation - insertion L A T L 9 octobre 2009 ATALA 22

Lexiques - quelques chiffres v lexèmes v fr: 40’ 163 entrées v mots v

Lexiques - quelques chiffres v lexèmes v fr: 40’ 163 entrées v mots v fr: 237’ 729 entrées v collocations v L A T L fr: 14’ 091 entrées 9 octobre 2009 ATALA 23

Conclusion v L’expérience accumulée avec les différentes versions de l’analyseur Fips a permis d’affiner

Conclusion v L’expérience accumulée avec les différentes versions de l’analyseur Fips a permis d’affiner (et souvent de simplifier) par étapes la structure et l’implémentation de ce modèle d’analyseur, jusqu’à la version actuelle. v Le double choix d’un modèle linguistique abstrait (théorie chomskyenne) et d’une modélisation basée sur la notion d’objets se révèle judicieux pour la réalisation d’un analyseur multilingue. v L’évaluation d’un analyseur syntaxique est une opération difficile, qui n’a pas encore été entreprise pour l’analyseur Fips. En attendant les résultats de la campagne d’évaluation PASSAGE, nous pouvons faire état des quelques chifffres suivants : v L A T L v v > 80% d’analyses complètes (anglais et français) sur des corpus journalistiques ; ~0, 2% de mots inconnus (hors noms propres) ; Temps de traitement : 100 -250 mots/seconde. 9 octobre 2009 ATALA 24