Ressources lexicales et grammaticales pour le russe Dictionnaires

  • Slides: 42
Download presentation
Ressources lexicales et grammaticales pour le russe Dictionnaires et grammaires pour le russe pour

Ressources lexicales et grammaticales pour le russe Dictionnaires et grammaires pour le russe pour le logiciel Nooj de Max Silberztein Semaine NOOJ Inalco 22 janvier 2013 Vincent BÉNET CREE Centre de Recherches Europes-Eurasie Recherche assistée par ordinateur 1

Conception et réalisation de dictionnaire et grammaire pour le russe pour le logiciel Nooj

Conception et réalisation de dictionnaire et grammaire pour le russe pour le logiciel Nooj de Max Silberztein Etat des lieux sur les ressources pour le russe Principes de conception du dictionnaire Descriptif de la réalisation Principes de conception des grammaires 2

Historique des ressources existantes en russe CORPUS RUSSES ACTUELS AVEC RECHERCHE D’OCCURRENCES 2000 -2013

Historique des ressources existantes en russe CORPUS RUSSES ACTUELS AVEC RECHERCHE D’OCCURRENCES 2000 -2013 La bibliothèque de Moshkov http: //lib. ru Le fonds informatisé de la langue russe http: //cfrl. ru Le corpus national de la langue russe http: //www. ruscorpora. ru Le corpus national de la langue littéraire* russe http: //www. narusco. ru 3

Corpus de textes russes Le fonds informatisé de la langue russe http: //cfrl. ru

Corpus de textes russes Le fonds informatisé de la langue russe http: //cfrl. ru • 1600 oeuvres littéraires (romans, poésies, théâtre du XIX et XX, environ 100 auteurs) • Corpus de textes de journaux (années 1991 -2000) • Dictionnaires • avec logiciel intégré de recherche d’occurrences 4

Computer Fund of Russian language http: //cfrl. ru 5

Computer Fund of Russian language http: //cfrl. ru 5

Corpus national russe http: //www. ruscorpora. ru Échantillon « représentatif » de la langue

Corpus national russe http: //www. ruscorpora. ru Échantillon « représentatif » de la langue russe 50 000 textes 150 000 mots Corpus de 5 000 formes étiquetées et désambiguïsées avec recherche d’occurences 6

National corpus of russian language http: //www. ruscorpora. ru u Recherche par morphosyntaxe ou

National corpus of russian language http: //www. ruscorpora. ru u Recherche par morphosyntaxe ou sémantique u Recherche dans le corpus : par sous-corpus 7

Corpus national russe http: //www. ruscorpora. ru 8

Corpus national russe http: //www. ruscorpora. ru 8

Corpus national de la langue ‘littéraire’ russe http: //www. narusco. ru Textes de la

Corpus national de la langue ‘littéraire’ russe http: //www. narusco. ru Textes de la langue russe écrite et orale u depuis 1950 9

Corpus de textes russes La Bibliothèque de Moshkov http: //lib. ru 10

Corpus de textes russes La Bibliothèque de Moshkov http: //lib. ru 10

Historique des ressources existantes en russe LOGICIELS DE TRAITEMENT DE CORPUS pour la langue

Historique des ressources existantes en russe LOGICIELS DE TRAITEMENT DE CORPUS pour la langue russe 1980 -2000 UNITEX avec un corpus d’environ 100 pages ( Le joueur de Dostoevski) et un dictionnaire de 9000 mots correspondant au vocabulaire russe du texte 11

Historique des ressources existantes en russe DICTIONNAIRE ELECTRONIQUE pour la langue russe dictionnaire grammatical

Historique des ressources existantes en russe DICTIONNAIRE ELECTRONIQUE pour la langue russe dictionnaire grammatical de ZALIZNIAK 96 000 entrées avec codage morphosyntaxique ------ Version en ligne : conjugueur-déclineur de STARLING http: //starling. rinet. ru/cgibin/morphque. cgi? flags=endnnnn 12

Historique des ressources existantes en russe conjugueur-déclineur de STARLING http: //starling. rinet. ru/cgibin/morphque. cgi?

Historique des ressources existantes en russe conjugueur-déclineur de STARLING http: //starling. rinet. ru/cgibin/morphque. cgi? flags=endnnnn 13

Ressources russes : dictionnaire de Zaliznjak Version papier du dictionnaire: Ordre alphabétique inverse Notation

Ressources russes : dictionnaire de Zaliznjak Version papier du dictionnaire: Ordre alphabétique inverse Notation grammaticale: Étiquette + modèle flexionnel+ particularité(s) 14

Ressources russes : dictionnaire de Zaliznjak ( version électronique) 15

Ressources russes : dictionnaire de Zaliznjak ( version électronique) 15

Constituer des ressources en russe pour Nooj IMPOSSIBILITE DE RECUPERER LES LEMMATISEURS EXISTANTS Utiliser

Constituer des ressources en russe pour Nooj IMPOSSIBILITE DE RECUPERER LES LEMMATISEURS EXISTANTS Utiliser le dictionnaire ZALIZNIAK : 96 000 entrées Problème du codage utilisé полный п 1*а/б // 1*a/c basé sur l’accent de mot complété d’annotations inutilisables Nettoyage et « rationalisation » 16

Dictionnaire russe pour Nooj 1. constituer un dictionnaire ( pb accent et pb ë)

Dictionnaire russe pour Nooj 1. constituer un dictionnaire ( pb accent et pb ë) 2. créer un jeu d’étiquettes « lisibles » 3. recoder le dictionnaire avec ces étiquettes 4. établir la liste des modèles types , écrire les paradigmes et affecter les modèles aux mots du dictionnaire 5. vérifier le paradigme, tester avec des textes et corriger les erreurs 17

Dictionnaire russe pour Nooj 1. constituer un dictionnaire 4 dictionnaires compilés en un seul

Dictionnaire russe pour Nooj 1. constituer un dictionnaire 4 dictionnaires compilés en un seul « ru_morph » ru_a # adjectifs ru_n # substantifs ru_v # verbes ru_o # o comprend les prépositions, les particules, les pronoms, les mots-outils, les numéraux Deux dictionnaires additionnels: ru_p (noms propres) ru_as (adjectifs substantivés). dic = liste de mots et . nof = pararadigmes 18

Dictionnaire russe pour Nooj problème du ë / e (non résolu à ce jour

Dictionnaire russe pour Nooj problème du ë / e (non résolu à ce jour par l’Académie de Russie) сестра сёстры / sestra sëstry (sestry) сестры : notation imprimerie livres et journaux се: стры : notation du dictionnaire problème de l’accent (jamais noté): Гóрод городá goroda Г<ород город<а : notation du dictionnaire 19

Dictionnaire russe pour Nooj 2. créer un jeu d’étiquettes « lisibles » A_Forme =

Dictionnaire russe pour Nooj 2. créer un jeu d’étiquettes « lisibles » A_Forme = fc | fl | adv; A_Genre = m | f | n ; A_SGenr = an | inan ; A_Nombre = s | p; A_Cas = Im | Vi | Ro | Da | Tv | Pr | Zv; A_Deg = Comp | Sup ; ADV_Deg = Comp; ADV_Sem = Tps | Loc | Modal; N_Genre = m | f | n ; N_SGenr = an | inan ; N_Nombre = s | p; N_Cas = Im | Vi | Ro | R 2 | Da | Tv | Pr | P 2 | Zv ; properties. def V_Pers = 1 | 2 | 3 ; V_Asp = Ipf | Pf ; V_Type = Mvt ; V_Morph = Pvb | Simp | Sufx | Pvb. Sufx ; V_Ss. Asp = Det | Indet ; V_Temps = Pre | Pa | Fu ; V_Mode = Inf | Ind | Imp | Cond | Ger | Prtp ; V_Voix = Act | Pss ; V_Genre = m | f | n ; V_Nombre = s | p ; V_Constr = intr | sja ; V_Cas = Im | Vi | Ro | Da | Tv | Pr ; 20

Dictionnaire russe pour Nooj 3. recoder le dictionnaire avec ces étiquettes 21

Dictionnaire russe pour Nooj 3. recoder le dictionnaire avec ces étiquettes 21

Dictionnaire russe pour Nooj 3. recoder le dictionnaire avec ces étiquettes абиссинец, N+m+an+FLX=украинец абитуриент,

Dictionnaire russe pour Nooj 3. recoder le dictionnaire avec ces étiquettes абиссинец, N+m+an+FLX=украинец абитуриент, N+m+an+FLX=артист аблятив, N+m+inan+FLX=завод абляут, N+m+inan+FLX=завод аболиционизм, N+m+inan+FLX=завод аболиционист, N+m+an+FLX=артист абонемент, N+m+inan+FLX=завод абонент, N+m+an+FLX=артист abažur, N+m+inan+FLX=zavod abazinec, N+m+an+FLX=ukrainec abazin, N+m+an+FLX=artist abaz, N+m+inan+FLX=zavod abak, N+m+inan+FLX=čajnik abbat, N+m+an+FLX=artist 22

Dictionnaire russe pour Nooj 4. établir la liste des modèles types #j 1 a=karta

Dictionnaire russe pour Nooj 4. établir la liste des modèles types #j 1 a=karta #jo 1 a=korova #j 2 a=nedelja #jo 2 a=boginja #j 3 a=kniga #jo 3 a=sobaka #j 4 a=tuča #jo 4 a=kassirša #j 5 a=ulica #jo 5 a=volčica #j 6 a=statuja #jo 6 a=feja #j 7 a=linija #jo 7 a=furija écrire les paradigmes карта = <E>/Im+s + <B>у/Vi+s + <B>ы/Ro+s + <B>е/Da+s + <B>ой/Tv+s + <B>е/Pr+s + <B>ы/Im+p + <B>ы/Vi+p + <B>/Ro+p + <B>ам/Da+p + <B>ами/Tv+p + <B>ах/Pr+p ; 23

Dictionnaire russe pour Nooj Exemple de paradigme verbal ( tronqué) читать = <E>/Inf |

Dictionnaire russe pour Nooj Exemple de paradigme verbal ( tronqué) читать = <E>/Inf | <B 2>ю/1+s+Pre | <B 2>ешь/2+s+Pre | <B 2>ет/3+s+Pre | <B 2>ем/1+p+Pre | <B 2>ете/2+p+Pre | <B 2>ют/3+p+Pre | <B 2>л/m+s+Pa | <B 2>ла/f+s+Pa | <B 2>ло/n+s+Pa | <B 2>ли/p+Pa | <B 2>й/2+s+Imp | <B 2>йте/2+p+Imp | <B 2>я/Ger | <B 2>ющий/Prtp+Pre+Act+m+s+Im | <B 2>ющий/Prtp+Pre+Act+m+s+Vi | <B 2>ющего/Prtp+Pre+Act+m+an+s+Vi | … <B 2>вший/Prtp+Pa+Act+m+s+Im | <B 2>вший/Prtp+Pa+Act+m+s+Vi | <B 2>вшего/Prtp+Pa+Act+m+an+s+Vi | <B 2>вшего/Prtp+Pa+Act+m+s+Ro | … <B 2>емый/Prtp+Pre+Pss+m+s+Im | <B 2>емый/Prtp+Pre+Pss+m+s+Vi | … | <B 2>ем/Prtp+Pre+Pss+m+fc | <B 2>ема/Prtp+Pre+Pss+f+fc | … прочитать = <E>/Inf | <B 2>ю/1+s+Pre+Fu | <B 2>ешь/2+s+Pre+Fu | <B 2>ет/3+s+Pre+Fu | <B 2>ем/1+p+Pre+Fu | <B 2>ете/2+p+Pre+Fu | <B 2>ют/3+p+Pre+Fu | <B 2>л/m+s+Pa | <B 2>ла/f+s+Pa | <B 2>ло/n+s+Pa | <B 2>ли/p+Pa | <B 2>й/2+s+Imp | <B 2>йте/2+p+Imp | <B 2>в/Ger | <B 2>вший/Prtp+Pa+Act+m+s+Im | <B 2>вший/Prtp+Pa+Act+m+s+Vi | <B 2>вшего/Prtp+Pa+Act+m+an+s+Vi | … <B 2>нный/Prtp+Pa+Pss+m+s+Im | <B 2>нный/Prtp+Pa+Pss+m+s+Vi | … | <B 2>но/Prtp+Pa+Pss+n+s+fc | <B 2>ны/Prtp+Pa+Pss+p+fc; 24

Dictionnaire russe pour Nooj 5. vérifier le paradigme, corriger les erreurs Lab Morphology Look

Dictionnaire russe pour Nooj 5. vérifier le paradigme, corriger les erreurs Lab Morphology Look up a word Inflect 25

Morphologie du russe pour Nooj 5. corriger les erreurs : -coquilles (mélange latin/cyrillique) ABEKи

Morphologie du russe pour Nooj 5. corriger les erreurs : -coquilles (mélange latin/cyrillique) ABEKи MHOPCTт УX ATOM MOCKBA Mots inconnus - erreurs dans l’écriture paradigmes <B><L> - formes erronées - mauvaise affectation des mots à leur type flexionnel formes erronées ou génération de formes incongrues - mots inutiles dans le dictionnaire source d’ambiguïtés supplémentaires -les noms des lettres a, б, в, и, к, о, с, у, я -les mots vieillis etc. . 26

Dictionnaire Morphologique du russe pour Nooj Bilan statistique : Un dictionnaire compilé : russe_morph.

Dictionnaire Morphologique du russe pour Nooj Bilan statistique : Un dictionnaire compilé : russe_morph. nod = 12 Mo 524 paradigmes verbaux 27274 verbes 421 paradigmes nominaux 44564 substantifs 55 paradigmes adjectivaux 20120 adjectifs 48 paradigmes numéraux, pronoms etc. 2126 « mots-outils » Deux dictionnaires annexes 56 paradigmes 3264 noms propres ( toponymes, noms de famille prénoms…) 755 adjectifs substantivés 27

Dictionnaire Morphologique du russe pour Nooj Bilan statistique comparé avec le dictionnaire de EFREMOVA

Dictionnaire Morphologique du russe pour Nooj Bilan statistique comparé avec le dictionnaire de EFREMOVA : Nooj : 95000 mots + noms propres 135000 mots Statistiques du dictionnaire d’ EFREMOVA 44564 substantifs 20120 adjectifs 755 adjectifs substantivés 27274 verbes 2126 « mots-outils » 3264 noms propres http: //www. efremova. info/ substantifs 61000 (85000 unités sémantiques) adjectifs 25000 (51000 unités sémantiques) verbes 25000 (63000 unités sémantiques) pronoms 150 (300 unités sémantiques) numéraux 100 (150 unités sémantiques) adverbes 8500 (10000 unités sémantiques) adverbes prédicatifs 1200 (1500 unités sémantiques) prépositions 350 (400 unités sémantiques) conjonctions 400 (500 unités sémantiques) particules 450 (650 unités sémantiques) interjections 430 (500 unités sémantiques) 28

Grammaires russes pour Nooj concevoir des grammaires de recherche d’occurrences et des grammaires de

Grammaires russes pour Nooj concevoir des grammaires de recherche d’occurrences et des grammaires de désambiguisation - régime des prépositions - régime des verbes courants - accords adjectifs / substantifs - rection des numéraux - expression des dates / heures etc. - reconnaissance des toponymes, des prénoms, des diminutifs etc. 29

Grammaires russes pour Nooj concevoir des grammaires de recherche d’occurrences et des grammaires de

Grammaires russes pour Nooj concevoir des grammaires de recherche d’occurrences et des grammaires de désambiguisation 30

Grammaires russes pour Nooj concevoir des grammaires de recherche d’occurence NAME 31

Grammaires russes pour Nooj concevoir des grammaires de recherche d’occurence NAME 31

Grammaires russes pour Nooj concevoir des grammaires de recherche d’occurences POSS 32

Grammaires russes pour Nooj concevoir des grammaires de recherche d’occurences POSS 32

Grammaires russes pour Nooj concevoir des grammaires de recherche d’occurences POSS (2) 33

Grammaires russes pour Nooj concevoir des grammaires de recherche d’occurences POSS (2) 33

Grammaires russes pour Nooj concevoir des grammaires de recherche d’occurences : VB MVT 34

Grammaires russes pour Nooj concevoir des grammaires de recherche d’occurences : VB MVT 34

Grammaires russes pour Nooj concevoir des grammaires de désambiguisation NADO - NADO 35

Grammaires russes pour Nooj concevoir des grammaires de désambiguisation NADO - NADO 35

Grammaires russes pour Nooj utiliser la grammaire de désambiguisation NADO - NADO Avant l’analyse

Grammaires russes pour Nooj utiliser la grammaire de désambiguisation NADO - NADO Avant l’analyse syntaxique Après l’analyse Syntaxique avec La grammaire 36

Grammaires russes pour Nooj utiliser la grammaire de désambiguisation NADO - NADO 37

Grammaires russes pour Nooj utiliser la grammaire de désambiguisation NADO - NADO 37

Se constituer des textes-tests Pour vérifier et écrire les grammaires: Écrire un texte comportant

Se constituer des textes-tests Pour vérifier et écrire les grammaires: Écrire un texte comportant « toutes » les structures que l’on souhaite trouver et désambiguiser. Trouver une structure : Text / Locate / Nooj Grammar 38

Se constituer des textes-tests Grammaire « Name » : Repère toutes les occurrences de

Se constituer des textes-tests Grammaire « Name » : Repère toutes les occurrences de la tournure « je m’appelle » . Text / Locate / Nooj Grammar / Name. nog 39

Se constituer des textes-tests Désambiguiser une structure : Info / Preference / Grammar Choisir

Se constituer des textes-tests Désambiguiser une structure : Info / Preference / Grammar Choisir la grammaire Relancer Syntactic analysis 40

Constituer un corpus de textes vérifiés u u u Dostoievki : le joueur Gogol

Constituer un corpus de textes vérifiés u u u Dostoievki : le joueur Gogol : le nez Tchekhov : la dame au petit chien Tolstoï : le prisonnier du caucase Kharms : récits 41

Améliorer les ressources pour le russe pour Nooj BANQUE DE TEXTES/ AUGMENTER LE NOMBRE

Améliorer les ressources pour le russe pour Nooj BANQUE DE TEXTES/ AUGMENTER LE NOMBRE DE TEXTES avec des DICTIONNAIRES SPECIFIQUES / TEXTES CODAGE SÉMANTIQUE dans le dictionnaire: ANIMAL, PLANTE, METIER, LIEU, TEMPS , SENTIMENT etc. constitution de ressources parallèles et alignées harmonisation des étiquettes entre langues (slaves) 42