Normalisation pour les corpus et les lexiques multilingues

  • Slides: 16
Download presentation
Normalisation pour les corpus et les lexiques multilingues Laurent Romary Laboratoire Loria-INRIA (Nancy, France)

Normalisation pour les corpus et les lexiques multilingues Laurent Romary Laboratoire Loria-INRIA (Nancy, France) JADT 2004, Table ronde: « Lexicométrie et corpus multilingues »

Objectifs généraux w Partager des ressources (corpus annotés) w Partager des outils (annotation, visualisation,

Objectifs généraux w Partager des ressources (corpus annotés) w Partager des outils (annotation, visualisation, accès) w Partager des pratiques n E. g. recueil de données, manuels d’annotation, méthodes d’évaluation w Hypothèse: la définition et la diffusion de normes internationales devraient nous permettre de progresser dans ce sens

Lexicométrie et corpus multilingues w Notion de corpus parallèle ou comparable n n Point

Lexicométrie et corpus multilingues w Notion de corpus parallèle ou comparable n n Point de vue linguistique: role de l’expert Point de vue technique: Adoption de formats « similaires » : codage primaire, niveaux d’annotation l Comparaisons de la sémantique des annotations l w E. g. définition transversale de concepts génériques paramétrant un étiquetage morpho-syntaxique w Est-il réaliste/justifié de vouloir disposer d’un répertoire de catégories de données dans le domaine des langues?

Lexicométrie et corpus multilingues (suite) w Représentation consistante des structures lexicales n n Savoir

Lexicométrie et corpus multilingues (suite) w Représentation consistante des structures lexicales n n Savoir choisir (spécifier) la structure lexicale qui convient au recueil de données envisagé Croiser les observations avec des dictionnaires existants l interopérabilité w Deux aspects n n Organisation générale des entrées lexicales (métamodèle) Choix des catégories de données permettant de décorer un modèle particulier

Bases de travail w Quelles initiatives devons nous considérer? n De multiples projets ont

Bases de travail w Quelles initiatives devons nous considérer? n De multiples projets ont visité le domaine l n EAGLES, ISLE, Mate, NITE, OLAC, ATLAS Quelques points de référence W 3 C l TEI l ISO l n Autres?

Le W 3 C w World Wide Web Consortium n n Principalement des industriels,

Le W 3 C w World Wide Web Consortium n n Principalement des industriels, 3 partenaires académiques (MIT, ERCIM, Keio) Apporte des normes (recommandations) horizontales XML, XSLT, chemins, pointeurs, liens l RDF, RDFS, OWL l SVG, SMIL l

La TEI w Text Encoding Initiative n n Consortium académique à forte orientation sciences

La TEI w Text Encoding Initiative n n Consortium académique à forte orientation sciences humaines Création : 1987 ; TEI P 3 : 1992 ; TEI P 4 (XML) : 2002 ; TEI P 5 (plus modulaire): 2004! w Les éléments principaux n n n En-tête : base documentaire riche Composants de base : prose, poésie, théâtre, oral… Modules spécifiques: liens (cf. alignement multilingue), noms et dates, apparat critique etc.

ISO w Organisation internationale de standardisation n Association travaillant pour le compte de ses

ISO w Organisation internationale de standardisation n Association travaillant pour le compte de ses membres: les organisations nationales de normalisation (AFNOR, ANSI, DIN, BSI etc. ) Organisé en comités techniques et sous-comités Couvre tous les domaines

ISO - exemples w ISO-IEC/JTC 1 n E. g. ISO 10646 / Unicode pour

ISO - exemples w ISO-IEC/JTC 1 n E. g. ISO 10646 / Unicode pour l’identification et la représentatioin universelle de caractères w ISO/TC 37 (Terminologie et autres ressources linguistiques) n n SC 1: Méthodes en terminologie SC 2: e. g. Codes langues; ISO 639 -1 (en, fr) SC 3: Terminologies informatisés; ISO 16642 (TMF) SC 4: Ressources linguistiques

L’ISO/TC 37/SC 4 w Objectif: définir des plates-formes de représentation et d’annotation de ressources

L’ISO/TC 37/SC 4 w Objectif: définir des plates-formes de représentation et d’annotation de ressources linguistiques n n n Mécanismes de base: e. g. structures de traits Répertoires de catégories de données Processus souple de spécification d’un format d’annotation w Domaines abordés/à aborder n Morpho-syntaxe, contenus sémantiques, discours, lexiques, données multilingues, langages de requêtes, évaluation http: //www. tc 37 sc 4. org

LMF: le modèle 1. . 1 Lexical DB 1. . 1 Global Info 1.

LMF: le modèle 1. . 1 Lexical DB 1. . 1 Global Info 1. . 1 0. . n Lexical Entry 1. . 1 0. . n 1. . 1 Sense Form 0. . n Lexical extensions Lexical extension 1. . 1 Lexical extension for morphology Lexical Entry 1. . 1 Morphology 1. . 1 0. . 1 Paradigm 1. . 1 0. . n Flexion Lexical extensions

Méta-modèle d’un lexique morphologique Lexical DB 1. . 1 0. . n Entry Global

Méta-modèle d’un lexique morphologique Lexical DB 1. . 1 0. . n Entry Global Info 1. . 1 Morphology 1. . 1 0. . 1 Paradigm 1. . 1 0. . n Inflexion

Décoration du modèle Lexical DB 1. . 1 /lemma/ /POS/ 0. . n Entry

Décoration du modèle Lexical DB 1. . 1 /lemma/ /POS/ 0. . n Entry Global Info 1. . 1 Morphology 1. . 1 0. . 1 Paradigm 1. . 1 0. . n Inflexion /word form/ /gender/ /number/ /tense/ …

Une entrée du DCR Entry Identifier: gender Profile: morpho-syntax Definition (fr): Catégorie grammaticale reposant,

Une entrée du DCR Entry Identifier: gender Profile: morpho-syntax Definition (fr): Catégorie grammaticale reposant, selon les langues et les systèmes, sur la distinction naturelle entre les sexes ou sur des critères formels (Source: TLFi) Definition (en): Grammatical category… (Source: TLFi (Trad. )) Conceptual Domain: {/feminine/, /masculine/, /neuter/} Object Language: fr Name: genre Conceptual Domain: {/feminine/, /masculine/} Object Language: en Name: gender Object Language: de Name: Geschlecht Conceptual Domain: {/feminine/, /masculine/, /neuter/}

Un format compatible avec le modèle <struct type='lexical entry'> <feat type='lemma'>chat</feat> <feat type=’grammatical category’>noun</feat>

Un format compatible avec le modèle <struct type='lexical entry'> <feat type='lemma'>chat</feat> <feat type=’grammatical category’>noun</feat> <struct type=’morphology’> <struct type=‘paradigm’> <feat type=’paradigm identifier'>fr-s-plural</feat> </struct> <struct type='inflexion'> <feat type='word form'>chat</feat> <feat type=’number’>singular</feat> </struct> <struct type='inflexion'> <feat type='word form'>chats</feat> <feat type=’number’>plural</feat> </struct> … </struct>

Et maintenant… w Engagez-vous… ; -) n Participation comme expert au sein des groupes

Et maintenant… w Engagez-vous… ; -) n Participation comme expert au sein des groupes nationaux miroir de l’ISO/TC 37/SC 4 w Application directes (projets ATILF-Loria) n Morphalou: un lexique morphologique ouvert l n Téléchargement+ patch+fair use FRee. Bank: une base de ressources libres annotées l l l Dépôt en ligne (En-têtes TEI) Téléchargement d’un simple clic Fair use