Traitement automatique de la langue arabe et ses

Traitement automatique de la langue arabe et ses applications au sein de l’équipe SILAT: De la recherche scientifique à la valorisation industrielle. Mohamed HASSOUN Professeur à l’ENSSIB – Lyon École Nationale Supérieure des Sciences de l’Information et des Bibliothèques Équipe de recherche de Lyon en Sciences de l’Information et de la Communication (ELICO) 26 -28 avril 2012 - Boumerdès 1

Groupe de recherche SILAT « ﺻﻼﺕ » Systèmes d’Information, Ingénierie, Linguistique de l’Arabe et Terminologie Groupe de recherche inter-établissements: Université Lyon 2 - ENSSIB Responsables: Mohamed Hassoun (ENSSIB), sciences de l’information Joseph Dichy (Lyon 2), linguistique arabe Xavier Lelubre (Grenoble 3), terminologie arabe 26 -28 avril 2012 - Boumerdès 2

Historique (1) • 1981 -82: le Rapport Desclés • 1983 -1988: le groupe de recherche SAMIA (Synthèse et Analyse Morpho-syntaxiques Informatisées de l’Arabe) de l’EAO aux représentations cognitives dans une perspective de TAL 26 -28 avril 2012 - Boumerdès 3

Historique (2) • Deux thèses : – M. Hassoun, 1987: Conception d'un dictionnaire pour le traitement automatique de l'arabe dans différents contextes d'application ( en SIC). – J. Dichy, 1990. L’Écriture dans la représentation de la langue : la lettre et le mot en arabe (en linguistique). • Tournant des années 1990: – La conception des interfaces de DIINAR. 1 et des logiciels associés – La collaboration avec Tunis (IRSIT, aujourd’hui SOTETEL-IT) 26 -28 avril 2012 - Boumerdès 4

LA BASE DE CONNAISSANCES, DIINAR. 1 (DIctionnaire INformatisé de l’ARabe – version 1) DIINAR. 1 résulte d’un travail commun à Lyon et à Tunis: • Abdelfattah Braham, Université de la Manouba et IRSIT (SOTETEL-IT) • Joseph Dichy, Université Lumière-Lyon 2 et groupe de recherche SILAT • Salem Ghazali, Institut Supérieur des Langues de Tunis et IRSIT (SOTETEL-IT) • Mohamed Hassoun, ENSSIB (Villeurbanne) et groupe de recherche SILAT 26 -28 avril 2012 - Boumerdès 5

26 -28 avril 2012 - Boumerdès 6

Segmentation du mot-graphique en arabe 26 -28 avril 2012 - Boumerdès 7

La base de connaissances DIINAR. 1 129. 000 entrées environ • Entrées verbales : 20. 000 env. • Entrées déverbales : 79. 000 env. • Entrées nominales : 29. 000 env. (plus environ 10. 000 formes de pluriel “brisé”) • Noms propres : 1. 000 env. • Mots-outils : 450 env. • + l’ensemble complet des enclitiques, proclitiques, préfixes et suffixes de l’arabe 26 -28 avril 2012 - Boumerdès 8

Aspects méthodologiques • Le TALN doit préciser ses entrées et ses sorties (1) • Le TALN impose de gérer la relation lexiquegrammaire (2) • Le TALN impose de spécifier des domaines d’extension (3) 26 -28 avril 2012 - Boumerdès 9

(1) Le TALN doit préciser ses entrées et ses sorties • nécessité de distinguer les démarches en synthèse (chez le sujet humain, en production) ou en analyse (chez le sujet, en compréhension), de l’oral ou de l’écrit. • Contrainte de compatibilité connaissances-processus • Le problème, dans le cadre de la lexicomatique, est celui de la compatibilité des bases de données lexicales, et notamment des spécificateurs associés à leurs unités, avec les différents traitements envisagés. 26 -28 avril 2012 - Boumerdès 10

(2) Le TALN impose de gérer la relation lexiquegrammaire • La relation entre lexique et grammaire, c’est-à-dire entre les unités lexicales et les unités syntagmatiques plus étendues dans lesquelles sont insérées (groupe nominal, verbal, propositionnel, phrase, paragraphe, texte). • Nécessité d’associer, à chaque unité lexicale de la base de données, des traits relevant de différents niveaux d’analyse linguistique, i. e. des spécificateurs 26 -28 avril 2012 - Boumerdès 11

(3) Le TALN impose de spécifier des domaines d’extension • Les M-spécificateurs, ou spécificateurs du niveau du mot (ici, du mot graphique) • Les P-spécificateurs, ou spécificateurs du niveau de la phrase 26 -28 avril 2012 - Boumerdès 12

Le Principe de compatibilité connaissances-processus La base de données DIINAR. 1 est soumise à une contrainte méthodologique fondamentale, celle de la compatibilité : – avec les deux processus asymétriques de la génération et de l’analyse de textes écrits, et – avec les deux réalisations en graphie vocalisée ou non de l’arabe (Hassoun 1987, Dichy 1990 et 1993). 26 -28 avril 2012 - Boumerdès 13

La modélisation du mot graphique en arabe Représentation faisant apparaître la saillance du noyau lexical : • • Fn • / • Fe — Fe • Fn = « Formant-noyau » (lexical) • Fe = « Formant-extension » (grammaticale) 26 -28 avril 2012 - Boumerdès 14

Analyse du mot arabe Mot maximal ﻭ Post-base Pré-base Base ﻡ enclitique Suffixe ﻭ Base Mot minimal ﻡﻭ 26 -28 avril 2012 - Boumerdès préfixe Proclitique ﺃ 15

Les spécificateurs morpho-syntaxiques • À chacun des vocables saisis en entrée de DIINAR. 1 est associé un ensemble d’informations ou spécificateurs, qui ont pour objet de “gérer” l’insertion de ces vocables dans l’unité syntagmatique prise en compte. 26 -28 avril 2012 - Boumerdès 16

Les traitements opèrent : • soit en génération : il s’agit alors d’engendrer à partir d’informations élémentaires des mots graphiques bien formés en écriture vocalisée. On aura, selon les applications, des sorties de système en écriture entièrement ou partiellement vocalisée ; • soit en analyse : il s’agit alors de procéder à la décomposition du mot en ses éléments premiers, opération rendue particulièrement difficile en arabe du fait que les textes courants correspondants à l’entrée du système sont réalisés en écriture non-vocalisée. 26 -28 avril 2012 - Boumerdès 17

Schéma des relations lexiquegrammaire, exemple • 1) Relations Fn <—> Fe exemple : qara’a-hâ où : Fn = qara’a et Fe = -hâ (transitif, de compl. <-humain>) ﺍﻟﻌﻘﻼﺀ ﻏﻴﺮ ﺍﻟﻰ ﻣﺘﻌ 26 -28 avril 2012 - Boumerdès 18

Schéma des relations lexiquegrammaire, exemple 2) Relations Fn <—> Fe_Lex (La relation Fn <—> Fe est prise dans un processus de figement lexical) exemple : jâmica&, « université » (≠ « collectionneuse» , ou « qui réunit » ), où: UL = Fn (jâmic) + Fe_Lex (-a&) 26 -28 avril 2012 - Boumerdès 19

Schéma des relations lexiquegrammaire (suite) 3) Fléchages dérivationnels Fn(a) <—> Fn(b) Fn(a) et Fn(b) sont reliés par la dérivation, exemples: Fléchages dérivationnels nominaux: singulier <—> pluriel interne (ou “brisé”) Fléchages dérivationnels verbaux: « accompli » <—> « inaccompli » (mâdin) (mudâric) Fléchages dérivationnels entre verbes et déverbaux: verbe <—> participe actif (approximativement: ’ism al-fâcil) verbe <—> adjectif analogue (sifa musabbaha) 26 -28 avril 2012 - Boumerdès 20

DIINAR-MBC, une suite importante de DIINAR. 1 • DIINAR-MBC (“DIctionnaire INformatisé de l’ARabe, Multilingue et Basé sur Corpus”) : projet n° 961791 du programme de Coopération avec les Pays Tiers et les Organisations Internationales – INCO-DC de la Commission européenne. • Durée : 30 mois. Achèvement : déc. 2000. • Coordination scientifique : – J. Dichy, Université Lumière-Lyon 2 – M. Hassoun, Enssib 26 -28 avril 2012 - Boumerdès 21

DIINAR-MBC (2) : partenaires • l’Université Lyon 2 (J. Dichy), • l’ENSSIB, France (M. Hassoun), • l'Electronics Research Institute (ERI, Égypte - N. Hegazi), • l'Institut d'Etudes et de Recherche pour l'Arabisation (IERA, Maroc - A. Fassi-Fehri), • l'Institution Régionale des Sciences Informatiques et des Télécommunications (IRSIT, Tunisie - A. Braham, S. Ghazali) et • l’Université Catholique de Nimègue (Pays-Bas - E. Ditters). 26 -28 avril 2012 - Boumerdès 22

26 -28 avril 2012 - Boumerdès 23

Thèses soutenues: • [1996] EZZAHED Soumia, Titre : Méthodologie d’élaboration des entrées d’une base de données lexicale de l’arabe (vocabulaire général) d’après la théorie sens-texte de Igor MEL’CUK » • [1998] ABBAS MEKKI Wigdan : « Définition et description des unités linguistiques intervenant dans l’indexation automatique des textes en arabe » • [1998] GHENIMA MALEK : « Système de voyellation de textes arabes» • [2001] TOUT Mohamad : « Modèle probabiliste de levé d’ambiguïté associé à un analyseur morphosyntaxique pour le traitement automatique de la langue naturelle : Cas de l’arabe » • [2002] MINKO-MI-NSEME Sylver Aboubakar : « Modélisation des expressions figées en arabe en vue de la constitution d’une base de données lexicale » • [2002] OUERSIGHNI Riad : « Analyse syntaxique robuste de la langue arabe » 26 -28 avril 2012 - Boumerdès 24

Thèses soutenues: • [2002] SIDHOM Sahbi : « Plate-forme d’Analyse Morpho-syntaxique pour l’Indexation Automatique et la Recherche d’Information : de l’écrit vers la gestion des connaissances» • [2002] ZAAFRANI Riad : « Développement d’un environnement interactif d’apprentissage avec ordinateur de l’arabe langue étrangère » • [2004] ABBES Ramzi : « Conception et réalisation d’un concordancier de la langue arabe » • [2005] EL HACHANI Mabrouka : « L’indexation des documents hypermédias sur Internet dans une perspective multilingue incluant l’arabe» • [2008] MOUELHI Zoubeïr : « Essai de lexicométrie d'une œuvre arabe classique : al-'Imtâ`wa-l-Mu'ânasa de Tawhîdî » • [2010] RAHEEL Saeed : «L’Apprentissage Artificiel pour la Fouille de Données Multilingues: Application à la Classification Automatique des Documents Arabe» 26 -28 avril 2012 - Boumerdès 25

Travaux en cours Ø ABDOULAHI Alfadoulou : « La numérisation des manuscrits arabes anciens de l’Afrique de l’Ouest : proposition d’un standard spécifique de métadonnées » Ø SOUALAH Mohammed Ou Rabah : « Catalogage adaptatif des manuscrits arabes basé sur l’extraction automatique des métadonnées par analyse d'images » Ø ADRAR Lila : « Les dimensions culturelles dans les traductions des œuvres d’Ahlam Mostaghenemi » Ø ANIZI Mouna : « Élaboration d’un système d’expansion des requêtes utilisateur en arabe basé sur une approche multi-agent et les outils de TAL » Ø ASBAYOU Omar : « Identification linguistique et modélisation des entités nommées en arabe en vue de leurs extraction automatique » Ø BELAMRI Safa : « Recherche d'information multilingue et conception de modèle automatique de reconnaissance de domaine -incluant l'arabe- basées sur une terminologie et une ontologie » Ø GZAWI Mahmoud: « Désambigüisation de l’arabe écrit et interprétation sémantique» Ø TAWFIQ Khedimn : « Les corpus bilingues (français – arabe) : Utilisation dans des applications liées à la traduction et à la formation des traducteurs » Ø YAZIDI Semya : « Conception et réalisation d’une base de données des entités nommées dans la langue arabe » 26 -28 avril 2012 - Boumerdès 26

Valorisation