Un dictionnaire multilingue de collocations Amalia Todirascu Li

  • Slides: 57
Download presentation
Un dictionnaire multilingue de collocations Amalia Todirascu Li. LPA (Linguistique, Langues, Paroles) Université de

Un dictionnaire multilingue de collocations Amalia Todirascu Li. LPA (Linguistique, Langues, Paroles) Université de Strasbourg todiras@unistra. fr

Plan n n n 20/12/2021 Le projet "Collocations en contexte" Les collocations verbo-nominales Le

Plan n n n 20/12/2021 Le projet "Collocations en contexte" Les collocations verbo-nominales Le dictionnaire L'extraction à partir des corpus monolingues L'extraction de candidats à partir des corpus multilingues alignés Evaluation Conclusion et perspectives 2

Le projet n objectifs: n le développement d'un système d'extraction semi-automatique de collocations à

Le projet n objectifs: n le développement d'un système d'extraction semi-automatique de collocations à partir des corpus n n n Création d'un dictionnaire multilingue des collocations n n paramétrable pour plusieurs langues(français, roumain, allemand) information contextuelle Une classe spécifique de collocations projet du réseau "Lexicologie, Terminologie, Traduction", Agence Universitaire pour la Francophonie n n Université Marc Bloch de Strasbourg (Ud. S) Université de Stuttgart Académie Roumaine de Bucarest INSA Strasbourg 20/12/2021 3

Motivation n Collocations n n 20/12/2021 TAL Traduction Lexicographie Apprentissage d'une langue étrangère 4

Motivation n Collocations n n 20/12/2021 TAL Traduction Lexicographie Apprentissage d'une langue étrangère 4

Motivation (II) n difficultés n choix lexical n n n préferences morpho-syntaxiques n n

Motivation (II) n difficultés n choix lexical n n n préferences morpho-syntaxiques n n faire l'objet de, porter atteinte sémantique n n n 20/12/2021 a lua decizii mais make decisions donner une conférence mais pas tenir une conférence sens non-compositionnel: faire la tête, make good any damage aspect: entamer une disscusion pragmatique: donner/flanquer + gifle 5

Contexte n Nombreux travaux sur les collocations n n propriétés des collocations (Grossmann et

Contexte n Nombreux travaux sur les collocations n n propriétés des collocations (Grossmann et Tutin, 2003) dictionnaires monolingues ou bilingues n n n n systèmes d'extraction automatique n n n 20/12/2021 Dico (Polguère 2000, Mel'čuk & al, 1994), LAF (Polguère, 2006) BLF (Verlinde et al. , 2003) Dictionnaire combinatoire (Zinglé 2003) Dictionnaire français-allemand (Blumenthal 2007) Dictionnaire danois (Braasch et Olsen 2000) Di. CE (Alonso Ramos, 2003) Statistiques (Quasthoff, 1998) Linguistiques (Seretan et al 2004, Seretan 2009, Tutin 2004) Hybrides (Smadja, 1991, Krenn 2000, Heid 1998) 6

Collocations et contextes n Approche contextualiste (Halliday, 1985, Williams, 2003) n n Trois points

Collocations et contextes n Approche contextualiste (Halliday, 1985, Williams, 2003) n n Trois points de vue (Gledhill, 2007): n n n 20/12/2021 Expressions poly-lexicales, semi-figées, parfois discontinues, ayant un comportement morpho-syntaxique et sémantique propre, imprévisible n Lua o decizie/prendre une décision mais pas *a face o decizie/*faire une décision n Faire une conférence mais pas *tenir une conférence n pour s'en convaincre est une cooccurrence fréquente de il suffit de cooccurence construction expression 7

Méthodologie n une méthode d'extraction appliquée pour l'allemand (Heid&Ritz 2005, Ritz&Heid 2006) n Les

Méthodologie n une méthode d'extraction appliquée pour l'allemand (Heid&Ritz 2005, Ritz&Heid 2006) n Les collocations sont caracterisées par le contexte n n L'identification des propriétés à partir des corpus de grande taille (français, allemand, roumain) n n 20/12/2021 Propriétés morpho-syntaxiques corpus monolingues corpus multilingues 8

Méthodologie (II) n Méthodes d'extraction n Monolingue n n n Multilingue n n n

Méthodologie (II) n Méthodes d'extraction n Monolingue n n n Multilingue n n n 20/12/2021 Module statistique + filtres linguistiques Approche symbolique (allemand) corpus alignés Validation manuelle des candidats Sélection des informations linguistiques pour le dictionnaire 9

20/12/2021 10

20/12/2021 10

Les corpus n Corpus multilingue, aligné: Acquis. Communautaire (ACQ) n Documents communs pour les

Les corpus n Corpus multilingue, aligné: Acquis. Communautaire (ACQ) n Documents communs pour les langues étudiées (16 millions mots/langue) : français, allemand, roumain, anglais n Étiquetage + lemmatization n Tree. Tagger (Schmid, 1994) pour le français, l'allemand et l'anglais n n n Flemm (Namer, 1994) pour un étiquetage plus fin TTL (Ion, 2007) pour le roumain n Alignement propositionnnel et lexical (partiel) n Corpus spécialisé Corpus monolingues (journaux, textes littéraires, manuels d'utilisation) 20/12/2021 11

Plan n n n 20/12/2021 Le projet "Collocations en contexte" Les collocations verbo-nominales Le

Plan n n n 20/12/2021 Le projet "Collocations en contexte" Les collocations verbo-nominales Le dictionnaire L'extraction à partir des corpus monolingues L'extraction de candidats à partir des corpus multilingues alignés Evaluation Conclusion et perspectives 12

Les constructions Verbe. Nom n Une analyse linguistique sur trois niveaux (Gledhill, 2007) inspirée

Les constructions Verbe. Nom n Une analyse linguistique sur trois niveaux (Gledhill, 2007) inspirée par le modèle (Halliday 1985): n Structure lexico-grammaticale n n n 20/12/2021 propriétés spécifiques au verbe et au nom (Giry. Schneider 1987, Kearns 1989, Allerton 2002) Fonction syntaxique Rôle sémantique 13

Propriétés du verbe n (Gledhill, 2007) n n n V 1 (Equivalence). n faire

Propriétés du verbe n (Gledhill, 2007) n n n V 1 (Equivalence). n faire du travail = travailler, mais faire froid n'est synonyme à refroidir n A face obiectul/'faire l'objet' = ? obiecta/'faire des objections' V 2 (Valence). Les constructions VN comportent des complements directs ou indirects n Guvernul nu face faţă situaţiei /’Le gouvernement n'est gère pas la situation’ n Pierre fait peur à Jean V 3 (Passivation) n Un résumé de ton livre a été fait par Jean mais pas ? ? La fuite a été prise 20/12/2021 14

Propriétés spécifiques au nom n n 20/12/2021 N 1(détermination). Le déterminant est absent ou

Propriétés spécifiques au nom n n 20/12/2021 N 1(détermination). Le déterminant est absent ou fixe n prendre la fuite mais pas ? prendre une fuite n a face apel/'faire appel' ( le déterminant est absent) N 2 (clivage). Le nom d'une VN ne peut pas servir du focus dans une structure clivée (fr) n C’est la caisse qu’il a prise mais pas ? C’est la fuite qu’il a prise N 3 (expansion). Le nom ne peut pas étre modifié par une clause relative n A luat decizia care era necesară /’ Il a pris la décision qui était nécessaire’, mais *A făcut obiectul care era necesar / ‘a fait l’objet qui s’imposait’ N 4 (conversion). La nominalisation du V n'est pas toujours possible n A luat măsuri/'il a pris des mesures' = luarea măsurilor/'la prise de mesures' n Il a fait l'hypothèse mais non *son fait de l'hypothèse 15

Quelques propriétés morphosyntaxiques n Figement morpho-syntaxique partiel n n Propriétés du nom: nombre, genre,

Quelques propriétés morphosyntaxiques n Figement morpho-syntaxique partiel n n Propriétés du nom: nombre, genre, cas Propriétés du verbe: diathèse, temps n La commission a fait appel aux experts… (fr) n n Absence du déterminant Complément indirect: préference pour 'à' Préférence pour le singulier Statele membre fac faţă situaţiei…/ 'Les états membres font face à la situation…' (ro) n l'absence du déterminant n préférence pour le singulier n Complément indirect : préference pour le datif 20/12/2021 16

Constructions Verbe-Nom (II) n Les classes (Todirascu et Gledhill, 2008) n Prédicateur complexe (1)

Constructions Verbe-Nom (II) n Les classes (Todirascu et Gledhill, 2008) n Prédicateur complexe (1) n n construction Verbe+Nom qui joue le rôle de prédicat n Ex. faire l'objet, a ţine cont/'tenir compte', Gebrauch machen/'faire usage de…' Figement morpho-syntaxique élévé Complément de portée Prédicat+complément (2) n n n 20/12/2021 Ex. prendre des mesures/a lua măsuri/Maβnahmen ergreifen Variabilité morpho-syntaxique (modifieurs, passif/actif) compositionalité 17

Structure lexicale n Prédicat complex vs. prédicateur complexe (Gledhill 2007) n le nom d'un

Structure lexicale n Prédicat complex vs. prédicateur complexe (Gledhill 2007) n le nom d'un prédicat complexe peut être passivisé Paul fait un gateau/ Le gâteau a été fait par Paul. S P C Agent Process Range n - le nom d'un predicateur complexe ne peut pas être passivisé El şi-a luat zborul/*Zborul a fost luat 'il lui a pris vol-DET/Vol-DET a été pris' S P C Ben Process Range le complément du prédicateur complexe peut être relativisé n we had a look at the screenshots. . . n the screenshots which we had a look at were interesting.

Propriétés sémantiques n Le procès est exprimé par la phrase: n n n Les

Propriétés sémantiques n Le procès est exprimé par la phrase: n n n Les participants: agent, affecté, bénéficiaire etc; Les non-participants: portée, temps, instrument, place… La portée: les éléments qui précisent le procès (Halliday & Matthiessen 2004) n n n 20/12/2021 Jean fait un gateau. Agent(Acteur) Procès Matériel Médium(Affecté) Jean fait une remarque. Médium(Annonceur)Procès Mental(Communicatif) Portée L’examen fait peur aux étudiants. Phénomène Procès Mental Portée Médium 19

Collocatifs du verbe 'a face'/faire Collocatif Fréq. ACQ Art Nb Cas Class e Collocatif

Collocatifs du verbe 'a face'/faire Collocatif Fréq. ACQ Art Nb Cas Class e Collocatif Fréq Ro. Gen Art Nb Cas Classe Obiectul/ ’objet-le’ 3092 Déf Sg Datif Pred Parte/ ’partie’ 1571 - sg Acc (Din/’de’ ) Oui Referire/ ’référence’ 1416 - sg, pl Acc (La) Pred înscrieri/ ’inscriptions’ 422 -, déf pl Acc (La/’en’) Non Parte/ ’partie’ 1268 - Sg Acc (din) Pred Baza/ ’base-la’ 362 -, déf sg Datif Non Trimitere/ ’référence’ 691 - Sg, pl Acc(la) pred Loc/’lieu’ 160 -, déf Sg, pl Datif P+C Dovada/ ’preuve’ 178 Déf Sg Datif P+C Cursuri / ’cours’ 142 -, déf pl - Non Posibilă/ ’possible’ 170 - Sg, pl Acc/no m P+C Faţă/’face’ 137 - sg Datif Pred Necesară/ ’necessaire’ 155 - Sg, pl Acc/no m P+C Obiectul/ ’objet’ 127 -, déf, indéf Sg, pl Datif Pred Faţă/’face’ 150 - Sg Datif, Acc (la) pred Precizări/ ’précisions’ 124 -, déf, indéf Sg, pl Datif P+C 20/12/2021 20

Collocatifs du verbe 'faire' Verbe Collocatif Fréq. ACQ Art. Nr Prép Collocatif Fréq. Fr.

Collocatifs du verbe 'faire' Verbe Collocatif Fréq. ACQ Art. Nr Prép Collocatif Fréq. Fr. Gen Art. Nr. Prép. Faire, font, fais, faisons Objet 2378 l’ sg de Face 2578 null Sg à Partie 871 null sg de Partie 1419 null Sg de référence 753 null Sg à Objet 881 L’ Sg De Usage 271 Null, un sg de Preuve 801 null, une Sg De Face 204 null sg à Part 787 null Sg À, de Appel 192 null sg à Appel 741 null Sg à Rapport 170 Un sg à, sur Etat 665 null Sg de Obstacle 132 null sg à Sorte 583 null Sg En…que Etat 93 null sg de usage 458 null Sg de 20/12/2021 21

D'autres classes n n Simples co-occurences V-N (prédicat+complément) Nom+verbe au participe n n Sujet+prédicat

D'autres classes n n Simples co-occurences V-N (prédicat+complément) Nom+verbe au participe n n Sujet+prédicat n n Le présent article ne vise que le commerce et la distribution des produits toxiques conditionnés qui sont destinés Prédicat+complément circonstanciel n 20/12/2021 articolul adoptat/ l’article adopté La référence à cette norme figure en annexe. 22

Plan n n n 20/12/2021 Le projet "Collocations en contexte" Les collocations verbo-nominales Le

Plan n n n 20/12/2021 Le projet "Collocations en contexte" Les collocations verbo-nominales Le dictionnaire L'extraction à partir des corpus monolingues L'extraction de candidats à partir des corpus multilingues alignés Evaluation Conclusion et perspectives 23

Quels objectifs? n n n Production de textes Compréhension de textes Utilisations possibles n

Quels objectifs? n n n Production de textes Compréhension de textes Utilisations possibles n n n 20/12/2021 Systèmes TAL (analyse et génération) Aide à la traduction Apprentissage d'une langue etrangère 24

Quels fonctions? n recher les collocations dans une langue n n n recherches des

Quels fonctions? n recher les collocations dans une langue n n n recherches des exemples d'utilisation recherches multilingues n n 20/12/2021 par la base par le collocatif recherche par l'ensemble des élements retrouver les equivalents de traduction les propriétés morpho-syntaxiques spécifiques 25

Quelques propriétés n n Les lemmes du nom et du verbe les propriétés contextuelles

Quelques propriétés n n Les lemmes du nom et du verbe les propriétés contextuelles : n n n Les propriétés du nom (détermination, nombre, cas…) Les propriétés du verbe (actif/passif, temps, mode, …) Les informations collocationnels n n prépositions la valence n 20/12/2021 n les propriétés des arguments (le cas, le nombre de ces arguments) exemples 26

Quels candidats? n Tri manuel des listes fournies par une extraction automatique n n

Quels candidats? n Tri manuel des listes fournies par une extraction automatique n n candidats identifiés à partir des corpus monolingues équivalents de traduction obtenus dans les 3 langues n n Entrées trilingues n 20/12/2021 obtenus à partir des corpus alignés classes: prédicats et prédicateurs complexes 27

Plan n n n 20/12/2021 Le projet "Collocations en contexte" Les collocations verbo-nominales Le

Plan n n n 20/12/2021 Le projet "Collocations en contexte" Les collocations verbo-nominales Le dictionnaire L'extraction à partir des corpus monolingues L'extraction de candidats à partir des corpus multilingues alignés Evaluation Conclusion et perspectives 28

L'extraction à partir des corpus monolingues n Module statistique - détection des paires de

L'extraction à partir des corpus monolingues n Module statistique - détection des paires de mots non adjacents (Stefanescu et al, 2006): n n indépendant de langue liste de candidats Verbe+Nom triée par LL et leurs contextes Filtrage à base de patrons morphosyntaxiques Exclusion manuelle des certains classes (Todirascu et Gledhill 2008) n n 20/12/2021 Prédicat+Sujet Prédicat+Complément Circonstaciel 29

avea vedere dist=2 LL=108759. 176 -------------------------având/vg/avea în/s/în vedere/nsrn/vedere avut/vp/avea în/s/în vedere/nsrn/vedere 130 aibă/v 3/avea

avea vedere dist=2 LL=108759. 176 -------------------------având/vg/avea în/s/în vedere/nsrn/vedere avut/vp/avea în/s/în vedere/nsrn/vedere 130 aibă/v 3/avea în/s/în vedere/nsrn/vedere 128 avea/vn/avea în/s/în vedere/nsrn/vedere 51 au/va 3 p/avea în/s/în vedere/nsrn/vedere 41 au/v 3/avea în/s/în vedere/nsrn/vedere 31 având/vg/avea in/nsn/in vedere/nsrn/vedere avea/v 3/avea în/s/în vedere/nsrn/vedere 6 aibă/v 3/avea o/tsr/un vedere/nsrn/vedere avea/vn/avea o/tsr/un vedere/nsrn/vedere 17786 11 4 1 • propriétés morpho-syntaxiques invariables • fréquences des propriétés: sg (100%), prep (în 97%), déterminant (null 99%, indéfini 1%) 20/12/2021 30

contenir référence dist=2 LL=4658. 77015127078 ---------------------- 666 contiennent/Vmip 3 p/contenir une/da 3 sf/un référence/Ncfs/référence

contenir référence dist=2 LL=4658. 77015127078 ---------------------- 666 contiennent/Vmip 3 p/contenir une/da 3 sf/un référence/Ncfs/référence contenir/Vmn/contenir une/da 3 sf/un référence/Ncfs/référence contiennent/Vmip 3 p/contenir une/da 3 sf/un référence/Ncfs/référence contient/Vmip 3 s/contenir des/Sp+p/du/ références/Ncfp/référence contienne/Vmsp 3 s/contenir une/da 3 sf/un référence/Ncfs/référence contient/Vmip 3 s/contenir/ les/da 3 p-/le références/Ncfp/référence 642 4 4 4 3 2 2 • Variabilité morpho-syntaxique • fréquences des propriétés: sg (98%), pl (2%), prep (null), déterminant (défini 1%, indéfini 99 %) 20/12/2021 31

Filtrage (I) n Prédicateur complexe n Utiliser les contextes et les propriétés morphosyntaxiques n

Filtrage (I) n Prédicateur complexe n Utiliser les contextes et les propriétés morphosyntaxiques n Exemple de filtres (ro): n «V NSRY *{1, 3} Nx. OY» n n n 20/12/2021 NSRY = substantif défini (sg), accusatif/nominatif; Nx. OY = substantif défini, génitif/datif; {1, 3} = entre 1 et 3 mots entre le complément direct et indirect 98, 8% des contextes Exemples: a menţine părerea/'maintenir son opinion', a face dovada/'faire preuve de‘; 32

Filtrage (II) n Prédicat+complément n n Préférences pour une propriété (cas, nombre): plus de

Filtrage (II) n Prédicat+complément n n Préférences pour une propriété (cas, nombre): plus de 85% Testes: filtres pour le passif (fr): n « Det: art Nom {2, 3}* Ver: pper par» n n 20/12/2021 Nom = substantif, accusatif/nominatif; Det: art = article défini, sg ou pl; {2, 3} = entre 1 et 3 mots entre le nom et le verbe Exemples: prendre des mesures, donner un avis, faire des commentaires ; 33

Plan n n n 20/12/2021 Le projet "Collocations en contexte" Les collocations verbo-nominales Le

Plan n n n 20/12/2021 Le projet "Collocations en contexte" Les collocations verbo-nominales Le dictionnaire L'extraction à partir des corpus monolingues L'extraction de candidats à partir des corpus multilingues alignés Evaluation Conclusion et perspectives 34

L'extraction multilingue (I) n Corpus alignés (ACQ): fr, de, en, ro (Ceausu et al,

L'extraction multilingue (I) n Corpus alignés (ACQ): fr, de, en, ro (Ceausu et al, 2006) n n Alignement lexical partiel n n 20/12/2021 au niveau propositionnel Alignements bilingues: de-en, fr-en, ro-en 64352 phrases alignés 1 -1 Anglais: langue pivot Corpus étiquétés et lemmatisés, en format XCES 35

Exemple n n n 20/12/2021 <s num="980" lang="fr">3. Un état membre concerné peut demander

Exemple n n n 20/12/2021 <s num="980" lang="fr">3. Un état membre concerné peut demander à la Commission d' examiner, dans un délai de deux mois après qu' un transporteur aérien a informé le coordonnateur de son intention de faire usage de la souplesse prévue à l' article 8 paragraphe 4 , si les dispositions du présent article sont respectées. </s> <s num="980" lang="en">3. A Member State concerned may request the Commission to investigate the application of this Article within two months of an air carrier informing the coordinator of its intention to use the flexibility provided for in Article? 8 ( 4 ). </s> <s num="980" lang="ro">( 3 ) Un stat membru interesat poate solicita Comisiei să analizeze , în decurs de două luni de la data la care transportatorul aerian a informat coordonatorul cu privire la intenţia sa de a face uz de flexibilitatea prevăzută în art. 8 alin. ( 4 ) , dacă se respectă dispoziţiile prezentului articol. </s> 36

L'extraction multilingue (II) n les outils d'alignement lexical: n COWAL (Tufis et al, 2006)

L'extraction multilingue (II) n les outils d'alignement lexical: n COWAL (Tufis et al, 2006) pour l'alignement ro-en n Règles héuristiques n n n n 20/12/2021 mots contenus étiquettes entités nommées position GIZA++ (Och et Ney, 2003) pour l'alignement des corpus de-en et fr-en Transfer des alignements lexicaux (Tufis et Koeva, 2007) : fr-ro, ro-fr, fr-de, de-fr, ro-de, de-ro Extraction des listes d'équivalents de traduction pour chaque paire de langues (l'outil Col. Trans): ro-fr, fr-ro 37

L'alignement lexical (I) n Validation manuelle de l'alignement à l'aide de l'éditeur Mt. Kit

L'alignement lexical (I) n Validation manuelle de l'alignement à l'aide de l'éditeur Mt. Kit (Tufis et al, 2006) n n n un corpus de 1000 phrases pour les corpus fr-en, de-en, ro-en; Phrases de longueur et structure variables (20 a 100 mots); Methodologie d'alignement inspiré par le projet Blinker (Melamed, 2000) n n n 20/12/2021 annotation des classes ouvertes (N, Adj, V, . . . ); bonne couverture des mots grammaticaux unités polylexicales 38

Erreurs d'alignement n Problèmes linguistiques n n Termes du domaine Structures syntaxiques différentes n

Erreurs d'alignement n Problèmes linguistiques n n Termes du domaine Structures syntaxiques différentes n n n Ordre de constituents n n 20/12/2021 <s num="750" lang="fr">tous droits d' importation pour les réactifs pour la détermination des groupes tissulaires <s num="750" lang="ro">orice drepturi de import a reactivilor utilizaţi pentru determinarea grupelor tisulare <s num=996>l' Observatoire doit réparer , conformément aux principes généraux communs aux droits des états membres , les dommages…</s> <s num=996>în concordanţă cu principiile generale comune legislaţiilor statelor membre , Centrul trebuie să compenseze orice pierdere provocată 39

Erreurs d'alignement (II) n Liens multiples n Groupe verbal: infinitif (fr) traduit par un

Erreurs d'alignement (II) n Liens multiples n Groupe verbal: infinitif (fr) traduit par un subjonctif (ro) n n Groupe nominal : le determinant défini est un suffixe rajouté au nom (en roumain) n n la Comission | Comisiei Aggregats (préposition+déterminant) n n exercer | să recurgă aux prescriptions | dispoziţiile collocations n préposition non aligné n n 20/12/2021 la Commission n'a pas pris de mesures raisonnables Comisia nu a luat măsurile necesare 40

Extraction de candidats n l'outil Col. Trans n n résultats croisés n n 20/12/2021

Extraction de candidats n l'outil Col. Trans n n résultats croisés n n 20/12/2021 les lemmes (verbe et nom) la direction de recherche fr->ro, ro->fr le corpus aligné au niveau lexical erreurs d'alignement erreurs d'étiquetage 41

Plan n n n 20/12/2021 Le projet "Collocations en contexte" Les collocations verbo-nominales Le

Plan n n n 20/12/2021 Le projet "Collocations en contexte" Les collocations verbo-nominales Le dictionnaire L'extraction à partir des corpus monolingues L'extraction de candidats à partir des corpus multilingues alignés Evaluation Conclusion et perspectives 42

Résultats de l'extraction n évaluation sur 1000 phrases n malgré les filtres, beaucoup de

Résultats de l'extraction n évaluation sur 1000 phrases n malgré les filtres, beaucoup de candidats qui sont des simples co-occurences (prédicat+complément direct, prédicat+circonstanciel) n fr n n ro n 20/12/2021 environ 38% de candidats éliminés par filtrage 36, 7% candidats éliminés par filtrage 43

Résultats de l'extraction (II) n évaluer sur l'ensemble du corpus n les premiers 1000

Résultats de l'extraction (II) n évaluer sur l'ensemble du corpus n les premiers 1000 noms les plus fréquents dans l'Acquis (fr, ro) n n 20/12/2021 extraire les verbes qui co-occurent beaucoup de noms spécifiques au domaine (fr, ro) n comission/comisie, article/articol, paragraphe/paragraf, directive/directivă pas beaucoup de candidats de la classe 1 ou 2 quelques noms n fr n lieu (avoir, donner), vigueur (entrer, mettre), compte (prendre, tenir) n ro n parte (face) vigoare (intra) et măsură (lua, anula) 44

Prédicateurs complexes (ro) Candidats (ro) Prep LL aduce atingere - 51571, 1211771531 lua considerare

Prédicateurs complexes (ro) Candidats (ro) Prep LL aduce atingere - 51571, 1211771531 lua considerare în 26697, 2875383302 ţine cont - 26637, 3033729519 pune aplicare în 12989, 9639878404 veni contact în 3009, 72649488981 20/12/2021 45

Prédicateurs complexes (fr) Candidats (fr) Prep, Art LL avoir lieu - 45860. 0441745073 faire

Prédicateurs complexes (fr) Candidats (fr) Prep, Art LL avoir lieu - 45860. 0441745073 faire objet l' 39398. 1847211485 - 39310. 6736511725 mettre oeuvre en 22733. 427464941 prendre considération en 13100. 3090319577 tenir compte 20/12/2021 46

Résultats Les 10 classes de constructions et coocurrences V-N et leurs répartition sur les

Résultats Les 10 classes de constructions et coocurrences V-N et leurs répartition sur les 1000 premiers candidats 20/12/2021 47

Extraction d'équivalents (I) n Extraire les listes d'équivalents de traduction (études alignements fr-ro, ro-fr):

Extraction d'équivalents (I) n Extraire les listes d'équivalents de traduction (études alignements fr-ro, ro-fr): n Prédicateurs complexes traduits par des prédicateurs complexes dans la langue source fait/Vmip 3 s/faire l'/Da 3 ms/le objet/Nc-s--/objet= face/Vmip 3 s/face n obiectul/Ncmsry/obiect n dă/Vmip 3 s/da naştere/Ncfsrn/naştere= donnerait/Vmic 3 s/donner lieu/Ncms--/lieu n Prédicats+compléments équivalents dans les deux langues n 20/12/2021 émis/Vmps-sm/émettre un/Da-ms/un avis/Nc-s-/avis=emis/Vmp--sm/emite avizul/Ncmsry/aviz 48

Extraction d'équivalents (II) n Prédicateur complexe traduit par un verbe ou un nom n

Extraction d'équivalents (II) n Prédicateur complexe traduit par un verbe ou un nom n a/Vaip 3 s/avea reparat/Vmps-sm/repara pagubele/Ncmp--/pagubă=a/Vaip 3 s/avoir dédommagé/Vmps-sm/dedommager n donnent/Vmip 3 p/donner lieu/Nc-s--/lieu =generează/Vmip 3 s/genera n 20/12/2021 aducă/Vmsp 3/aduce atingere/Ncfsrn/atingere= préjudice/Nc-s--/préjudice 49

Extraction d’équivalents (III) n Entrées multiples n Plusieurs équivalents n n A face referire

Extraction d’équivalents (III) n Entrées multiples n Plusieurs équivalents n n A face referire = faire référence à, faire mention, définir, mentionner plusieurs sens n dă/Vmip 3 s/da naştere/Ncfsrn/naştere = donner lieu n n 20/12/2021 Conflits, débats, interventions dă/Vmip 3 s/da naştere/Ncfsrn/naştere=accoucher 50

Le dictionnaire n n n 20/12/2021 150 entrées/langue (en cours) entrées trilingues possibilité d'extensions

Le dictionnaire n n n 20/12/2021 150 entrées/langue (en cours) entrées trilingues possibilité d'extensions vers d'autres langues (l'anglais) informations sur la fréquence de chaque propriété (si > 85%) possibilité de représenter les cas d'équivalence entre collocations et unités lexicales simples interopérabilité de données n format XML, DTD définie 51

<? xml version="1. 0" encoding="utf-8"? > <collocations> <entry id="1"> <te lang="fr"> <construction>tenir compte</construction> <v_lemma>tenir</v_lemma>

<? xml version="1. 0" encoding="utf-8"? > <collocations> <entry id="1"> <te lang="fr"> <construction>tenir compte</construction> <v_lemma>tenir</v_lemma> <v_spec> <form></form><active>oui</active> </v_spec> <prep>null</prep> <n_lemma>compte</n_lemma> <n_spec> <det freq="90%">null</det> <number freq="80%">sg</number> <modifier freq="76%">null</modifier> <case>nospec<case> </n_spec> <colloc_spec> <required_args case="Acc" prep="de">OD</required_args> <lexical_head></lexical_head> <c_spec> <colloc_type>prédicateur complexe</colloc_type> <examples>la commission a tenu compte du rapport de l'expert… </examples> </colloc_spec> </te> <te lang="ro"></te> <te lang="de"></te> </entry> </collocations> 20/12/2021 52

<? xml version="1. 0" encoding="utf-8"? > <collocations> <entry id="1"> <te lang="ro"> <construction>lua considerare</construction> <v_lemma>lua</v_lemma>

<? xml version="1. 0" encoding="utf-8"? > <collocations> <entry id="1"> <te lang="ro"> <construction>lua considerare</construction> <v_lemma>lua</v_lemma> <v_spec> <form></form><active>oui</active> </v_spec> <prep>în</prep> <n_lemma>considerare</n_lemma> <n_spec> <det freq="98%">null</det> <number freq="100%">sg</number> <modifier freq="97%">null</modifier> <case>nospec<case> </n_spec> <colloc_spec> <required_args case="Acc" det="déf">OD</required_args> <lexical_head></lexical_head> <c_spec> <colloc_type>prédicateur complexe</colloc_type> <examples>comisia a luat în considerare… </examples> </colloc_spec> </te> <te lang="fr"></te> <te lang="de"></te> </entry> </collocations> 20/12/2021 53

Conclusion et perspectives n n Identification des propriétés morphosyntaxiques spécifique pour chaque langue Définition

Conclusion et perspectives n n Identification des propriétés morphosyntaxiques spécifique pour chaque langue Définition des filtres linguistiques n n n validation manuelle des données extraites Utilisation de corpus alignés pour alimenter le dictionnaire n 20/12/2021 quelques classes de collocations équivalents de traduction 54

Conclusion et perspectives (II) n n n 20/12/2021 enrichir le dictionnaire avec d'autres entrées

Conclusion et perspectives (II) n n n 20/12/2021 enrichir le dictionnaire avec d'autres entrées transformation vers le format LMF développement d'interfaces Web pour interroger le dictionnaire utilisation du dictionnaire comme ressource pour un système de traduction automatique factorisé fr-ro utilisation du corpus annoté syntaxiquement pour automatiser le remplissage du dictionnaire 55

Réferences n n n 20/12/2021 BRAASCH, (Anna), OLSEN (Sussi) : 2000, "Formalised Representation of

Réferences n n n 20/12/2021 BRAASCH, (Anna), OLSEN (Sussi) : 2000, "Formalised Representation of Collocations in a Danish Computational Lexicon", in Heid (U. ) et al. , eds. The Ninth EURALEX Congress, Proceedings, Vol. II, (Stuttgart), pp. 475 -488. CEAUSU (Alin), ŞTEFANESCU (Dan) and TUFIS (Dan) : 2006, « Acquis Communautaire Sentence Alignment using Support Vector Machines» , in Proceedings of LREC 2006, (Genoa). GROSSMANN (Francis), TUTIN (Agnès), dir. : 2003, « Les collocations: analyse et traitement» , Numéro special : « Travaux et Recherches en Linguistique Appliquée » . HAUSMANN (Franz Josef) : 2004, « Was sind eigentlich Kollokationen? » , in STEYER (K), eds. , Wortverbindungen – mehr oder weniger fest, pp. 309 -334 HALLIDAY (Michael) : 1985, An Introduction to Functional Grammar, (London, Arnold). HEID (Ulrich) and RITZ (Julia) : 2005, « Extracting collocations and their contexts from corpora» , in Actes de Conference on Computational Lexicography and Text Research, (Budapest). 56

Références (II) n n n 20/12/2021 POLGUERE (Alain) : 2006, « Structural properties of

Références (II) n n n 20/12/2021 POLGUERE (Alain) : 2006, « Structural properties of Lexical Systems: Monolingual and Multilingual Perspectives» , in Proceedings of the Workshop on Multilingual Language Resources and Interoperability (COLING/ACL 2006, Sydney), pp. 50 -59. RITZ (Julia) and HEID (Ulrich) : 2006, « Extraction tools for collocations and their morphosyntactic specificities» , in Proceedings of the Linguistic Resources and Evaluation Conference, (Genova). SERETAN (VIOLETA), NERIMA (LUKA) AND WEHRLI (ERIC) : 2004, « A tool for multi-word collocation extraction and visualization in multilingual corpora» , in Proceedings of EURALEX’ 2004, (Lorient, France), vol. 2, pp. 755 -766 TUTIN (AGNÈS) : 2004, « Pour une modélisation dynamique des collocations dans les textes» , in Actes du congrès EURALEX’ 2004, (Lorient, France), vol. 1, pp. 207 -221. TODIRASCU(AMALIA), HEID (ULRICH), ŞTEFĂNESCU (DAN), TUFIŞ(DAN), GLEDHILL(CHRISTOPHER), WELLER(MARION), ROUSSELOT (FRANÇOIS): 2008, « Vers un dictionnaire de collocations multilingue » , Cahiers de linguistique, Université de Louvain 57