Reconnaissance automatique des expressions elliptiques arabes Elyes HASNI
Reconnaissance automatique des expressions elliptiques arabes Elyes HASNI & Kais HADDAR Laboratoire MIRACL, Faculté des sciences de Sfax, Tunisie CITALA 2009 – May 4 th-5 th 2009 Rabat, Morocco 1
Plan Introduction État de l’art sur le traitement des ellipses et sur NOOJ Typologie des expressions elliptiques arabes Démarche proposée Expérimentation de la démarche Conclusion et perspectives CITALA 2009 – May 4 th-5 th 2009 Rabat, Morocco 2
Introduction Applications TALN utilisant des processus d’analyse doivent tenir compte de plusieurs phénomènes linguistiques tels que l’ellipse Ellipse est l’omission d’une partie de discours qui n’a pas une incidence sur la compréhension globale Elle permet d’alléger la formulation, éviter la lourdeur et la redondance Traitement de l’ellipse facilite la phase de l’analyse syntaxique notamment la compréhension automatique des textes CITALA 2009 – May 4 th-5 th 2009 Rabat, Morocco 3
… Introduction Ellipse existe dans toute langue (la langue arabe) Textes contiennent des expressions elliptiques arabes Interaction de l’ellipse avec d’autres phénomènes Travaux peu nombreux sur les expressions elliptiques arabes Importance des plateformes linguistiques dans le TALN prototypage rapide, validation des idées algorithmes testés CITALA 2009 – May 4 th-5 th 2009 Rabat, Morocco 4
… Introduction Objectifs Proposition d’une démarche de reconnaissance des expressions elliptiques en Arabe Identification des types des expressions elliptiques arabes Construction d’un système de règles de réécriture permettant la reconnaissance des expressions elliptiques Construction des lexiques spécialisés Expérimentation à l’aide de la plateforme linguistique (Noo. J) CITALA 2009 – May 4 th-5 th 2009 Rabat, Morocco 5
Etat de l’art Trois grandes approches suivies pour la résolution d’ellipse : ü Approche syntaxique : les éléments omis ont une structure syntaxique [Lappin 1992], [Haddar et al. , 2000], [Wilder 1997], [Beavers & Sag 2004] Résolution de l’ellipse consistera à reconstruire une relation syntaxique entre la proposition bien formée (proposition antécédente) et la proposition elliptique (proposition cible). CITALA 2009 – May 4 th-5 th 2009 Rabat, Morocco 6
… Etat de l’art ü Approche sémantique : se base sur le contexte [Sag et al. 1985], [Dalrymple et al. 1991], [Culicover & Jackendoff 2005], [Kolko 2007] Résolution de l’ellipse est effectuée par le parallélisme sémantique entre la proposition bien formée et la proposition elliptique ü Approche hybride : fusion des deux premières approches [Ginzburg & Sag 2000], [Culicover & Jackendoff 2006 ] CITALA 2009 – May 4 th-5 th 2009 Rabat, Morocco 7
… Etat de l’art Quelques travaux avec NOOJ (conçu par Max silberztein 2004) : ü Reconnaissance des entités nommées en arabe [Mesfar Slim , 2006] ü Résolution des anaphores [Denis Le Pesant, 2007 ] Travaux avec ATNs : ü Système de recouvrement des ellipses arabes (ERASE) avec les ATNs [Haddar Kais, . 2000] CITALA 2009 – May 4 th-5 th 2009 Rabat, Morocco 8
Typologie des ellipses arabes Ellipse est un phénomène linguistique qui se manifeste par l’omission d’un ou de plusieurs constituants d’une phrase sans que cela affecte sa sémantique Exemple ﺍﻟﺘﻼﻣﻴﺬ [ ﺍﻻﺳﺘﺎﺫ ﺇﻟﻰ ﺍﻟﻘﺴﻢ ﻛﺬﻟﻚ ]ﺩﺧﻞ [ ]ﺇﻟﻰ ﺍﻟﻘﺴﻢ Le professeur est entré à la classe et les élèves aussi CITALA 2009 – May 4 th-5 th 2009 Rabat, Morocco 9
… Typologie des ellipses arabes Pourquoi l’ellipse? ü utilisation dense de certaines expressions / ﺍﻻﺳﺘﻌﻤﺎﻝ ü obligation poétique et longueur des phrases/ ﺍﻟﻜﻼﻡ ﺍﻟﻀﺮﻭﺭﺓ ﺍﻟﺸﻌﺮﻳﺔ ü vocalisation ﻟﻺﻋﺮﺍﺏ ) ﺍﻟﺠﺰﻡ ( ﺍﻟﺤﺬﻑ ü structures des syntagmes ﺍﻻﺿﺎﻓﻲ ( ﺍﻟﺤﺬﻑ ﻟﻠﺘﺮﻛﻴﺐ ﻛﺜﺮﺓ ﻭ ﻃﻮﻝ ) ﺍﻟﺘﺮﻛﻴﺐ Conditions d’existence d’ellipse ü nécessité d’omission ü contexte permet l’élision des éléments CITALA 2009 – May 4 th-5 th 2009 Rabat, Morocco 10
… Typologie des ellipses arabes Formes d’ellipses arabes Ellipse Expression elliptique Forme abrégée Phrase elliptique - VP-ellipsis, ellipse du sujet, du verbe, … CITALA 2009 – May 4 th-5 th 2009 Rabat, Morocco 11
… Typologie des ellipses arabes Formes abrégées sont des expressions usuelles fréquemment utilisées, leurs sens sont des sous-entendus qu’on apprend à deviner et à comprendre par la fréquence de leurs usages EXEMPLE ]ﺣﻠﻠﺖ[ ﺃﻬﻼ ﻭ ]ﻧﺰﻟﺖ[ ﺳﻬﻼ ; ]ﺷﻜﺮ[ ﺷﻜﺮﺍ ﺟﺰﻳﻼ CITALA 2009 – May 4 th-5 th 2009 Rabat, Morocco 12
… Typologie des ellipses arabes ellipse du verbe ﺣﺬﻑ ﺍﻟﻔﻌﻞ ellipse du sujet ﺣﺬﻑ ﺍﻟﻔﺎﻋﻞ ellipse d’attribut ﺣﺬﻑ ﺍﻟﺨﺒﺮ Forme abrégée ellipse du complément ﺣﺬﻑ ﻣﺘﻤﻢ ellipse du topique ﺣﺬﻑ ﺍﻟﻤﺒﺘﺪﺃ Omission des particules ﺍﻷﺪﻭﺍﺕ ﺣﺬﻑ CITALA 2009 – May 4 th-5 th 2009 Rabat, Morocco 13
… Typologie des ellipses arabes Omission du verbe v. Expressions usuelles et proverbes [ ﺗﺨﻴﺮ[ ﺍﻟﺠﺎﺭ ﻗﺒﻞ ﺍﻟﺪﺍﺭ [Tu choisis] le voisin avant la maison [ ﺑﺪﺃﺖ[ ﺑﺴﻢ ﺍﻟﻠﻪ Au nom du dieu. v Avis et conseil ﺍﻟﺍﺭ [ ]ﺍﺣﺬﺭ Au feu, au feu v. Syntagme de spécification. ﻧﺤﻦ ]ﺃﻌﻨﻲ[ ﺍﻟﺮﺟﺎﻝ ﺷﺠﻌﺎﻥ Nous, [je veux dire] les hommes sommes courageux. CITALA 2009 – May 4 th-5 th 2009 Rabat, Morocco 14
… Typologie des ellipses arabes Ellipse des particules Particules Conjonctions d’appel ﺣﺮﻭﻑ ﺍﻟﻨﺪﺍﺀ • ﺃﻫﺎ ﺍﻟﺮﺟﻞ O, homme! Conjonctions de prépositions ﺣﺮﻭﻑ ﺍﻟﺠﺮ ● [ ]ﻳﺎ ﺃﺴﺪ ]ﻓﻲ[ ﺍﻟﻐﺎﺑﺔ Un lion dans le forêt CITALA 2009 – May 4 th-5 th 2009 Rabat, Morocco 15
Démarche suivie Collection et étude d’un corpus (70 contes pour les enfants) Lexique, dictionnaire flexionnel et morphologique Proposition des grammaires locales : ü Construction des règles de grammaire ü Construction des différents transducteurs Nooj ü Définition de l’ordre de passage des transducteurs Construction des règles de grammaire facilite le passage vers les transducteurs NOOJ CITALA 2009 – May 4 th-5 th 2009 Rabat, Morocco 16
Expérimentation avec NOOJ Grammaires morphologiques (. nom) transducteurs Nooj associer des informations lexicales à des mots Grammaires syntaxiques (. nog) Permettent d’extraire des expressions elliptiques de corpus CITALA 2009 – May 4 th-5 th 2009 Rabat, Morocco 17
… Expérimentation avec NOOJ Exemple de grammaires morphologiques Ajout du trait ‘’défini’’ CITALA 2009 – May 4 th-5 th 2009 Rabat, Morocco 18
… Expérimentation avec NOOJ Exemple de grammaires morphologiques Ajout du trait ‘’attach’’ [ ]ﻛﺘﺎﺑﻚ CITALA 2009 – May 4 th-5 th 2009 Rabat, Morocco 19
… Expérimentation avec NOOJ Ellipse des particules CITALA 2009 – May 4 th-5 th 2009 Rabat, Morocco 20
Omission de conjonctions de préposition CITALA 2009 – May 4 th-5 th 2009 Rabat, Morocco 21
Omission de conjonctions d’appel CITALA 2009 – May 4 th-5 th 2009 Rabat, Morocco 22
Omission du verbe CITALA 2009 – May 4 th-5 th 2009 Rabat, Morocco 23
Omission du verbe Syntagme de spécification( ) ﺗﺮﺍﻛﻴﺐ ﺍﻻﺧﺘﺼﺎﺹ CITALA 2009 – May 4 th-5 th 2009 Rabat, Morocco 24
… Expérimentation avec NOOJ Corpus choisi document HTML qui détaille les cas des figures des expressions elliptiques en arabe (≈660480 mots) CITALA 2009 – May 4 th-5 th 2009 Rabat, Morocco 25
… Expérimentation avec NOOJ CITALA 2009 – May 4 th-5 th 2009 Rabat, Morocco 26
… Expérimentation avec NOOJ Les résultats obtenus sont satisfaisants (80%) Extraction de quelques expressions ne présentant pas des formes abrégées (i. e. , ) ﺍﻟﻤﻘﺼﻮﺩ ﻣﻨﻪ Cela est dû : Ambiguïté provenant de la non voyellation des textes Taille des lexiques CITALA 2009 – May 4 th-5 th 2009 Rabat, Morocco 27
Conclusion et perspectives Différentes approches de résolution d’ellipses Typologies des expressions elliptiques Lexiques et dictionnaires Système de transducteurs Expérimentation la démarche et les idées sur un corpus Comme perspectives : compléter la liste des transducteurs Élargir le lexique et le corpus CITALA 2009 – May 4 th-5 th 2009 Rabat, Morocco 28
CITALA 2009 – May 4 th-5 th 2009 Rabat, Morocco 29
- Slides: 29