Un dictionnaire multilingue de collocations Amalia Todirascu Li
- Slides: 57
Un dictionnaire multilingue de collocations Amalia Todirascu Li. LPA (Linguistique, Langues, Paroles) Université de Strasbourg todiras@unistra. fr
Plan n n n 20/12/2021 Le projet "Collocations en contexte" Les collocations verbo-nominales Le dictionnaire L'extraction à partir des corpus monolingues L'extraction de candidats à partir des corpus multilingues alignés Evaluation Conclusion et perspectives 2
Le projet n objectifs: n le développement d'un système d'extraction semi-automatique de collocations à partir des corpus n n n Création d'un dictionnaire multilingue des collocations n n paramétrable pour plusieurs langues(français, roumain, allemand) information contextuelle Une classe spécifique de collocations projet du réseau "Lexicologie, Terminologie, Traduction", Agence Universitaire pour la Francophonie n n Université Marc Bloch de Strasbourg (Ud. S) Université de Stuttgart Académie Roumaine de Bucarest INSA Strasbourg 20/12/2021 3
Motivation n Collocations n n 20/12/2021 TAL Traduction Lexicographie Apprentissage d'une langue étrangère 4
Motivation (II) n difficultés n choix lexical n n n préferences morpho-syntaxiques n n faire l'objet de, porter atteinte sémantique n n n 20/12/2021 a lua decizii mais make decisions donner une conférence mais pas tenir une conférence sens non-compositionnel: faire la tête, make good any damage aspect: entamer une disscusion pragmatique: donner/flanquer + gifle 5
Contexte n Nombreux travaux sur les collocations n n propriétés des collocations (Grossmann et Tutin, 2003) dictionnaires monolingues ou bilingues n n n n systèmes d'extraction automatique n n n 20/12/2021 Dico (Polguère 2000, Mel'čuk & al, 1994), LAF (Polguère, 2006) BLF (Verlinde et al. , 2003) Dictionnaire combinatoire (Zinglé 2003) Dictionnaire français-allemand (Blumenthal 2007) Dictionnaire danois (Braasch et Olsen 2000) Di. CE (Alonso Ramos, 2003) Statistiques (Quasthoff, 1998) Linguistiques (Seretan et al 2004, Seretan 2009, Tutin 2004) Hybrides (Smadja, 1991, Krenn 2000, Heid 1998) 6
Collocations et contextes n Approche contextualiste (Halliday, 1985, Williams, 2003) n n Trois points de vue (Gledhill, 2007): n n n 20/12/2021 Expressions poly-lexicales, semi-figées, parfois discontinues, ayant un comportement morpho-syntaxique et sémantique propre, imprévisible n Lua o decizie/prendre une décision mais pas *a face o decizie/*faire une décision n Faire une conférence mais pas *tenir une conférence n pour s'en convaincre est une cooccurrence fréquente de il suffit de cooccurence construction expression 7
Méthodologie n une méthode d'extraction appliquée pour l'allemand (Heid&Ritz 2005, Ritz&Heid 2006) n Les collocations sont caracterisées par le contexte n n L'identification des propriétés à partir des corpus de grande taille (français, allemand, roumain) n n 20/12/2021 Propriétés morpho-syntaxiques corpus monolingues corpus multilingues 8
Méthodologie (II) n Méthodes d'extraction n Monolingue n n n Multilingue n n n 20/12/2021 Module statistique + filtres linguistiques Approche symbolique (allemand) corpus alignés Validation manuelle des candidats Sélection des informations linguistiques pour le dictionnaire 9
20/12/2021 10
Les corpus n Corpus multilingue, aligné: Acquis. Communautaire (ACQ) n Documents communs pour les langues étudiées (16 millions mots/langue) : français, allemand, roumain, anglais n Étiquetage + lemmatization n Tree. Tagger (Schmid, 1994) pour le français, l'allemand et l'anglais n n n Flemm (Namer, 1994) pour un étiquetage plus fin TTL (Ion, 2007) pour le roumain n Alignement propositionnnel et lexical (partiel) n Corpus spécialisé Corpus monolingues (journaux, textes littéraires, manuels d'utilisation) 20/12/2021 11
Plan n n n 20/12/2021 Le projet "Collocations en contexte" Les collocations verbo-nominales Le dictionnaire L'extraction à partir des corpus monolingues L'extraction de candidats à partir des corpus multilingues alignés Evaluation Conclusion et perspectives 12
Les constructions Verbe. Nom n Une analyse linguistique sur trois niveaux (Gledhill, 2007) inspirée par le modèle (Halliday 1985): n Structure lexico-grammaticale n n n 20/12/2021 propriétés spécifiques au verbe et au nom (Giry. Schneider 1987, Kearns 1989, Allerton 2002) Fonction syntaxique Rôle sémantique 13
Propriétés du verbe n (Gledhill, 2007) n n n V 1 (Equivalence). n faire du travail = travailler, mais faire froid n'est synonyme à refroidir n A face obiectul/'faire l'objet' = ? obiecta/'faire des objections' V 2 (Valence). Les constructions VN comportent des complements directs ou indirects n Guvernul nu face faţă situaţiei /’Le gouvernement n'est gère pas la situation’ n Pierre fait peur à Jean V 3 (Passivation) n Un résumé de ton livre a été fait par Jean mais pas ? ? La fuite a été prise 20/12/2021 14
Propriétés spécifiques au nom n n 20/12/2021 N 1(détermination). Le déterminant est absent ou fixe n prendre la fuite mais pas ? prendre une fuite n a face apel/'faire appel' ( le déterminant est absent) N 2 (clivage). Le nom d'une VN ne peut pas servir du focus dans une structure clivée (fr) n C’est la caisse qu’il a prise mais pas ? C’est la fuite qu’il a prise N 3 (expansion). Le nom ne peut pas étre modifié par une clause relative n A luat decizia care era necesară /’ Il a pris la décision qui était nécessaire’, mais *A făcut obiectul care era necesar / ‘a fait l’objet qui s’imposait’ N 4 (conversion). La nominalisation du V n'est pas toujours possible n A luat măsuri/'il a pris des mesures' = luarea măsurilor/'la prise de mesures' n Il a fait l'hypothèse mais non *son fait de l'hypothèse 15
Quelques propriétés morphosyntaxiques n Figement morpho-syntaxique partiel n n Propriétés du nom: nombre, genre, cas Propriétés du verbe: diathèse, temps n La commission a fait appel aux experts… (fr) n n Absence du déterminant Complément indirect: préference pour 'à' Préférence pour le singulier Statele membre fac faţă situaţiei…/ 'Les états membres font face à la situation…' (ro) n l'absence du déterminant n préférence pour le singulier n Complément indirect : préference pour le datif 20/12/2021 16
Constructions Verbe-Nom (II) n Les classes (Todirascu et Gledhill, 2008) n Prédicateur complexe (1) n n construction Verbe+Nom qui joue le rôle de prédicat n Ex. faire l'objet, a ţine cont/'tenir compte', Gebrauch machen/'faire usage de…' Figement morpho-syntaxique élévé Complément de portée Prédicat+complément (2) n n n 20/12/2021 Ex. prendre des mesures/a lua măsuri/Maβnahmen ergreifen Variabilité morpho-syntaxique (modifieurs, passif/actif) compositionalité 17
Structure lexicale n Prédicat complex vs. prédicateur complexe (Gledhill 2007) n le nom d'un prédicat complexe peut être passivisé Paul fait un gateau/ Le gâteau a été fait par Paul. S P C Agent Process Range n - le nom d'un predicateur complexe ne peut pas être passivisé El şi-a luat zborul/*Zborul a fost luat 'il lui a pris vol-DET/Vol-DET a été pris' S P C Ben Process Range le complément du prédicateur complexe peut être relativisé n we had a look at the screenshots. . . n the screenshots which we had a look at were interesting.
Propriétés sémantiques n Le procès est exprimé par la phrase: n n n Les participants: agent, affecté, bénéficiaire etc; Les non-participants: portée, temps, instrument, place… La portée: les éléments qui précisent le procès (Halliday & Matthiessen 2004) n n n 20/12/2021 Jean fait un gateau. Agent(Acteur) Procès Matériel Médium(Affecté) Jean fait une remarque. Médium(Annonceur)Procès Mental(Communicatif) Portée L’examen fait peur aux étudiants. Phénomène Procès Mental Portée Médium 19
Collocatifs du verbe 'a face'/faire Collocatif Fréq. ACQ Art Nb Cas Class e Collocatif Fréq Ro. Gen Art Nb Cas Classe Obiectul/ ’objet-le’ 3092 Déf Sg Datif Pred Parte/ ’partie’ 1571 - sg Acc (Din/’de’ ) Oui Referire/ ’référence’ 1416 - sg, pl Acc (La) Pred înscrieri/ ’inscriptions’ 422 -, déf pl Acc (La/’en’) Non Parte/ ’partie’ 1268 - Sg Acc (din) Pred Baza/ ’base-la’ 362 -, déf sg Datif Non Trimitere/ ’référence’ 691 - Sg, pl Acc(la) pred Loc/’lieu’ 160 -, déf Sg, pl Datif P+C Dovada/ ’preuve’ 178 Déf Sg Datif P+C Cursuri / ’cours’ 142 -, déf pl - Non Posibilă/ ’possible’ 170 - Sg, pl Acc/no m P+C Faţă/’face’ 137 - sg Datif Pred Necesară/ ’necessaire’ 155 - Sg, pl Acc/no m P+C Obiectul/ ’objet’ 127 -, déf, indéf Sg, pl Datif Pred Faţă/’face’ 150 - Sg Datif, Acc (la) pred Precizări/ ’précisions’ 124 -, déf, indéf Sg, pl Datif P+C 20/12/2021 20
Collocatifs du verbe 'faire' Verbe Collocatif Fréq. ACQ Art. Nr Prép Collocatif Fréq. Fr. Gen Art. Nr. Prép. Faire, font, fais, faisons Objet 2378 l’ sg de Face 2578 null Sg à Partie 871 null sg de Partie 1419 null Sg de référence 753 null Sg à Objet 881 L’ Sg De Usage 271 Null, un sg de Preuve 801 null, une Sg De Face 204 null sg à Part 787 null Sg À, de Appel 192 null sg à Appel 741 null Sg à Rapport 170 Un sg à, sur Etat 665 null Sg de Obstacle 132 null sg à Sorte 583 null Sg En…que Etat 93 null sg de usage 458 null Sg de 20/12/2021 21
D'autres classes n n Simples co-occurences V-N (prédicat+complément) Nom+verbe au participe n n Sujet+prédicat n n Le présent article ne vise que le commerce et la distribution des produits toxiques conditionnés qui sont destinés Prédicat+complément circonstanciel n 20/12/2021 articolul adoptat/ l’article adopté La référence à cette norme figure en annexe. 22
Plan n n n 20/12/2021 Le projet "Collocations en contexte" Les collocations verbo-nominales Le dictionnaire L'extraction à partir des corpus monolingues L'extraction de candidats à partir des corpus multilingues alignés Evaluation Conclusion et perspectives 23
Quels objectifs? n n n Production de textes Compréhension de textes Utilisations possibles n n n 20/12/2021 Systèmes TAL (analyse et génération) Aide à la traduction Apprentissage d'une langue etrangère 24
Quels fonctions? n recher les collocations dans une langue n n n recherches des exemples d'utilisation recherches multilingues n n 20/12/2021 par la base par le collocatif recherche par l'ensemble des élements retrouver les equivalents de traduction les propriétés morpho-syntaxiques spécifiques 25
Quelques propriétés n n Les lemmes du nom et du verbe les propriétés contextuelles : n n n Les propriétés du nom (détermination, nombre, cas…) Les propriétés du verbe (actif/passif, temps, mode, …) Les informations collocationnels n n prépositions la valence n 20/12/2021 n les propriétés des arguments (le cas, le nombre de ces arguments) exemples 26
Quels candidats? n Tri manuel des listes fournies par une extraction automatique n n candidats identifiés à partir des corpus monolingues équivalents de traduction obtenus dans les 3 langues n n Entrées trilingues n 20/12/2021 obtenus à partir des corpus alignés classes: prédicats et prédicateurs complexes 27
Plan n n n 20/12/2021 Le projet "Collocations en contexte" Les collocations verbo-nominales Le dictionnaire L'extraction à partir des corpus monolingues L'extraction de candidats à partir des corpus multilingues alignés Evaluation Conclusion et perspectives 28
L'extraction à partir des corpus monolingues n Module statistique - détection des paires de mots non adjacents (Stefanescu et al, 2006): n n indépendant de langue liste de candidats Verbe+Nom triée par LL et leurs contextes Filtrage à base de patrons morphosyntaxiques Exclusion manuelle des certains classes (Todirascu et Gledhill 2008) n n 20/12/2021 Prédicat+Sujet Prédicat+Complément Circonstaciel 29
avea vedere dist=2 LL=108759. 176 -------------------------având/vg/avea în/s/în vedere/nsrn/vedere avut/vp/avea în/s/în vedere/nsrn/vedere 130 aibă/v 3/avea în/s/în vedere/nsrn/vedere 128 avea/vn/avea în/s/în vedere/nsrn/vedere 51 au/va 3 p/avea în/s/în vedere/nsrn/vedere 41 au/v 3/avea în/s/în vedere/nsrn/vedere 31 având/vg/avea in/nsn/in vedere/nsrn/vedere avea/v 3/avea în/s/în vedere/nsrn/vedere 6 aibă/v 3/avea o/tsr/un vedere/nsrn/vedere avea/vn/avea o/tsr/un vedere/nsrn/vedere 17786 11 4 1 • propriétés morpho-syntaxiques invariables • fréquences des propriétés: sg (100%), prep (în 97%), déterminant (null 99%, indéfini 1%) 20/12/2021 30
contenir référence dist=2 LL=4658. 77015127078 ---------------------- 666 contiennent/Vmip 3 p/contenir une/da 3 sf/un référence/Ncfs/référence contenir/Vmn/contenir une/da 3 sf/un référence/Ncfs/référence contiennent/Vmip 3 p/contenir une/da 3 sf/un référence/Ncfs/référence contient/Vmip 3 s/contenir des/Sp+p/du/ références/Ncfp/référence contienne/Vmsp 3 s/contenir une/da 3 sf/un référence/Ncfs/référence contient/Vmip 3 s/contenir/ les/da 3 p-/le références/Ncfp/référence 642 4 4 4 3 2 2 • Variabilité morpho-syntaxique • fréquences des propriétés: sg (98%), pl (2%), prep (null), déterminant (défini 1%, indéfini 99 %) 20/12/2021 31
Filtrage (I) n Prédicateur complexe n Utiliser les contextes et les propriétés morphosyntaxiques n Exemple de filtres (ro): n «V NSRY *{1, 3} Nx. OY» n n n 20/12/2021 NSRY = substantif défini (sg), accusatif/nominatif; Nx. OY = substantif défini, génitif/datif; {1, 3} = entre 1 et 3 mots entre le complément direct et indirect 98, 8% des contextes Exemples: a menţine părerea/'maintenir son opinion', a face dovada/'faire preuve de‘; 32
Filtrage (II) n Prédicat+complément n n Préférences pour une propriété (cas, nombre): plus de 85% Testes: filtres pour le passif (fr): n « Det: art Nom {2, 3}* Ver: pper par» n n 20/12/2021 Nom = substantif, accusatif/nominatif; Det: art = article défini, sg ou pl; {2, 3} = entre 1 et 3 mots entre le nom et le verbe Exemples: prendre des mesures, donner un avis, faire des commentaires ; 33
Plan n n n 20/12/2021 Le projet "Collocations en contexte" Les collocations verbo-nominales Le dictionnaire L'extraction à partir des corpus monolingues L'extraction de candidats à partir des corpus multilingues alignés Evaluation Conclusion et perspectives 34
L'extraction multilingue (I) n Corpus alignés (ACQ): fr, de, en, ro (Ceausu et al, 2006) n n Alignement lexical partiel n n 20/12/2021 au niveau propositionnel Alignements bilingues: de-en, fr-en, ro-en 64352 phrases alignés 1 -1 Anglais: langue pivot Corpus étiquétés et lemmatisés, en format XCES 35
Exemple n n n 20/12/2021 <s num="980" lang="fr">3. Un état membre concerné peut demander à la Commission d' examiner, dans un délai de deux mois après qu' un transporteur aérien a informé le coordonnateur de son intention de faire usage de la souplesse prévue à l' article 8 paragraphe 4 , si les dispositions du présent article sont respectées. </s> <s num="980" lang="en">3. A Member State concerned may request the Commission to investigate the application of this Article within two months of an air carrier informing the coordinator of its intention to use the flexibility provided for in Article? 8 ( 4 ). </s> <s num="980" lang="ro">( 3 ) Un stat membru interesat poate solicita Comisiei să analizeze , în decurs de două luni de la data la care transportatorul aerian a informat coordonatorul cu privire la intenţia sa de a face uz de flexibilitatea prevăzută în art. 8 alin. ( 4 ) , dacă se respectă dispoziţiile prezentului articol. </s> 36
L'extraction multilingue (II) n les outils d'alignement lexical: n COWAL (Tufis et al, 2006) pour l'alignement ro-en n Règles héuristiques n n n n 20/12/2021 mots contenus étiquettes entités nommées position GIZA++ (Och et Ney, 2003) pour l'alignement des corpus de-en et fr-en Transfer des alignements lexicaux (Tufis et Koeva, 2007) : fr-ro, ro-fr, fr-de, de-fr, ro-de, de-ro Extraction des listes d'équivalents de traduction pour chaque paire de langues (l'outil Col. Trans): ro-fr, fr-ro 37
L'alignement lexical (I) n Validation manuelle de l'alignement à l'aide de l'éditeur Mt. Kit (Tufis et al, 2006) n n n un corpus de 1000 phrases pour les corpus fr-en, de-en, ro-en; Phrases de longueur et structure variables (20 a 100 mots); Methodologie d'alignement inspiré par le projet Blinker (Melamed, 2000) n n n 20/12/2021 annotation des classes ouvertes (N, Adj, V, . . . ); bonne couverture des mots grammaticaux unités polylexicales 38
Erreurs d'alignement n Problèmes linguistiques n n Termes du domaine Structures syntaxiques différentes n n n Ordre de constituents n n 20/12/2021 <s num="750" lang="fr">tous droits d' importation pour les réactifs pour la détermination des groupes tissulaires <s num="750" lang="ro">orice drepturi de import a reactivilor utilizaţi pentru determinarea grupelor tisulare <s num=996>l' Observatoire doit réparer , conformément aux principes généraux communs aux droits des états membres , les dommages…</s> <s num=996>în concordanţă cu principiile generale comune legislaţiilor statelor membre , Centrul trebuie să compenseze orice pierdere provocată 39
Erreurs d'alignement (II) n Liens multiples n Groupe verbal: infinitif (fr) traduit par un subjonctif (ro) n n Groupe nominal : le determinant défini est un suffixe rajouté au nom (en roumain) n n la Comission | Comisiei Aggregats (préposition+déterminant) n n exercer | să recurgă aux prescriptions | dispoziţiile collocations n préposition non aligné n n 20/12/2021 la Commission n'a pas pris de mesures raisonnables Comisia nu a luat măsurile necesare 40
Extraction de candidats n l'outil Col. Trans n n résultats croisés n n 20/12/2021 les lemmes (verbe et nom) la direction de recherche fr->ro, ro->fr le corpus aligné au niveau lexical erreurs d'alignement erreurs d'étiquetage 41
Plan n n n 20/12/2021 Le projet "Collocations en contexte" Les collocations verbo-nominales Le dictionnaire L'extraction à partir des corpus monolingues L'extraction de candidats à partir des corpus multilingues alignés Evaluation Conclusion et perspectives 42
Résultats de l'extraction n évaluation sur 1000 phrases n malgré les filtres, beaucoup de candidats qui sont des simples co-occurences (prédicat+complément direct, prédicat+circonstanciel) n fr n n ro n 20/12/2021 environ 38% de candidats éliminés par filtrage 36, 7% candidats éliminés par filtrage 43
Résultats de l'extraction (II) n évaluer sur l'ensemble du corpus n les premiers 1000 noms les plus fréquents dans l'Acquis (fr, ro) n n 20/12/2021 extraire les verbes qui co-occurent beaucoup de noms spécifiques au domaine (fr, ro) n comission/comisie, article/articol, paragraphe/paragraf, directive/directivă pas beaucoup de candidats de la classe 1 ou 2 quelques noms n fr n lieu (avoir, donner), vigueur (entrer, mettre), compte (prendre, tenir) n ro n parte (face) vigoare (intra) et măsură (lua, anula) 44
Prédicateurs complexes (ro) Candidats (ro) Prep LL aduce atingere - 51571, 1211771531 lua considerare în 26697, 2875383302 ţine cont - 26637, 3033729519 pune aplicare în 12989, 9639878404 veni contact în 3009, 72649488981 20/12/2021 45
Prédicateurs complexes (fr) Candidats (fr) Prep, Art LL avoir lieu - 45860. 0441745073 faire objet l' 39398. 1847211485 - 39310. 6736511725 mettre oeuvre en 22733. 427464941 prendre considération en 13100. 3090319577 tenir compte 20/12/2021 46
Résultats Les 10 classes de constructions et coocurrences V-N et leurs répartition sur les 1000 premiers candidats 20/12/2021 47
Extraction d'équivalents (I) n Extraire les listes d'équivalents de traduction (études alignements fr-ro, ro-fr): n Prédicateurs complexes traduits par des prédicateurs complexes dans la langue source fait/Vmip 3 s/faire l'/Da 3 ms/le objet/Nc-s--/objet= face/Vmip 3 s/face n obiectul/Ncmsry/obiect n dă/Vmip 3 s/da naştere/Ncfsrn/naştere= donnerait/Vmic 3 s/donner lieu/Ncms--/lieu n Prédicats+compléments équivalents dans les deux langues n 20/12/2021 émis/Vmps-sm/émettre un/Da-ms/un avis/Nc-s-/avis=emis/Vmp--sm/emite avizul/Ncmsry/aviz 48
Extraction d'équivalents (II) n Prédicateur complexe traduit par un verbe ou un nom n a/Vaip 3 s/avea reparat/Vmps-sm/repara pagubele/Ncmp--/pagubă=a/Vaip 3 s/avoir dédommagé/Vmps-sm/dedommager n donnent/Vmip 3 p/donner lieu/Nc-s--/lieu =generează/Vmip 3 s/genera n 20/12/2021 aducă/Vmsp 3/aduce atingere/Ncfsrn/atingere= préjudice/Nc-s--/préjudice 49
Extraction d’équivalents (III) n Entrées multiples n Plusieurs équivalents n n A face referire = faire référence à, faire mention, définir, mentionner plusieurs sens n dă/Vmip 3 s/da naştere/Ncfsrn/naştere = donner lieu n n 20/12/2021 Conflits, débats, interventions dă/Vmip 3 s/da naştere/Ncfsrn/naştere=accoucher 50
Le dictionnaire n n n 20/12/2021 150 entrées/langue (en cours) entrées trilingues possibilité d'extensions vers d'autres langues (l'anglais) informations sur la fréquence de chaque propriété (si > 85%) possibilité de représenter les cas d'équivalence entre collocations et unités lexicales simples interopérabilité de données n format XML, DTD définie 51
<? xml version="1. 0" encoding="utf-8"? > <collocations> <entry id="1"> <te lang="fr"> <construction>tenir compte</construction> <v_lemma>tenir</v_lemma> <v_spec> <form></form><active>oui</active> </v_spec> <prep>null</prep> <n_lemma>compte</n_lemma> <n_spec> <det freq="90%">null</det> <number freq="80%">sg</number> <modifier freq="76%">null</modifier> <case>nospec<case> </n_spec> <colloc_spec> <required_args case="Acc" prep="de">OD</required_args> <lexical_head></lexical_head> <c_spec> <colloc_type>prédicateur complexe</colloc_type> <examples>la commission a tenu compte du rapport de l'expert… </examples> </colloc_spec> </te> <te lang="ro"></te> <te lang="de"></te> </entry> </collocations> 20/12/2021 52
<? xml version="1. 0" encoding="utf-8"? > <collocations> <entry id="1"> <te lang="ro"> <construction>lua considerare</construction> <v_lemma>lua</v_lemma> <v_spec> <form></form><active>oui</active> </v_spec> <prep>în</prep> <n_lemma>considerare</n_lemma> <n_spec> <det freq="98%">null</det> <number freq="100%">sg</number> <modifier freq="97%">null</modifier> <case>nospec<case> </n_spec> <colloc_spec> <required_args case="Acc" det="déf">OD</required_args> <lexical_head></lexical_head> <c_spec> <colloc_type>prédicateur complexe</colloc_type> <examples>comisia a luat în considerare… </examples> </colloc_spec> </te> <te lang="fr"></te> <te lang="de"></te> </entry> </collocations> 20/12/2021 53
Conclusion et perspectives n n Identification des propriétés morphosyntaxiques spécifique pour chaque langue Définition des filtres linguistiques n n n validation manuelle des données extraites Utilisation de corpus alignés pour alimenter le dictionnaire n 20/12/2021 quelques classes de collocations équivalents de traduction 54
Conclusion et perspectives (II) n n n 20/12/2021 enrichir le dictionnaire avec d'autres entrées transformation vers le format LMF développement d'interfaces Web pour interroger le dictionnaire utilisation du dictionnaire comme ressource pour un système de traduction automatique factorisé fr-ro utilisation du corpus annoté syntaxiquement pour automatiser le remplissage du dictionnaire 55
Réferences n n n 20/12/2021 BRAASCH, (Anna), OLSEN (Sussi) : 2000, "Formalised Representation of Collocations in a Danish Computational Lexicon", in Heid (U. ) et al. , eds. The Ninth EURALEX Congress, Proceedings, Vol. II, (Stuttgart), pp. 475 -488. CEAUSU (Alin), ŞTEFANESCU (Dan) and TUFIS (Dan) : 2006, « Acquis Communautaire Sentence Alignment using Support Vector Machines» , in Proceedings of LREC 2006, (Genoa). GROSSMANN (Francis), TUTIN (Agnès), dir. : 2003, « Les collocations: analyse et traitement» , Numéro special : « Travaux et Recherches en Linguistique Appliquée » . HAUSMANN (Franz Josef) : 2004, « Was sind eigentlich Kollokationen? » , in STEYER (K), eds. , Wortverbindungen – mehr oder weniger fest, pp. 309 -334 HALLIDAY (Michael) : 1985, An Introduction to Functional Grammar, (London, Arnold). HEID (Ulrich) and RITZ (Julia) : 2005, « Extracting collocations and their contexts from corpora» , in Actes de Conference on Computational Lexicography and Text Research, (Budapest). 56
Références (II) n n n 20/12/2021 POLGUERE (Alain) : 2006, « Structural properties of Lexical Systems: Monolingual and Multilingual Perspectives» , in Proceedings of the Workshop on Multilingual Language Resources and Interoperability (COLING/ACL 2006, Sydney), pp. 50 -59. RITZ (Julia) and HEID (Ulrich) : 2006, « Extraction tools for collocations and their morphosyntactic specificities» , in Proceedings of the Linguistic Resources and Evaluation Conference, (Genova). SERETAN (VIOLETA), NERIMA (LUKA) AND WEHRLI (ERIC) : 2004, « A tool for multi-word collocation extraction and visualization in multilingual corpora» , in Proceedings of EURALEX’ 2004, (Lorient, France), vol. 2, pp. 755 -766 TUTIN (AGNÈS) : 2004, « Pour une modélisation dynamique des collocations dans les textes» , in Actes du congrès EURALEX’ 2004, (Lorient, France), vol. 1, pp. 207 -221. TODIRASCU(AMALIA), HEID (ULRICH), ŞTEFĂNESCU (DAN), TUFIŞ(DAN), GLEDHILL(CHRISTOPHER), WELLER(MARION), ROUSSELOT (FRANÇOIS): 2008, « Vers un dictionnaire de collocations multilingue » , Cahiers de linguistique, Université de Louvain 57
- Projet rosette
- La macrostructure d'un dictionnaire
- Dictionnaire de données
- La macrostructure d'un dictionnaire
- Amalia rusu
- Cut amalia
- Pengar victoria benedictsson analys
- Diyah ayu amalia avina
- Amalia ballarino
- Titik lebur oleum cacao
- Cultural noise example
- Polona žuber
- Tumulo de amalia rodrigues
- Diyah ayu amalia avina
- Le puedo dejar un mensaje a amalia
- Dr titi amalia
- Dr sigmund freud
- Classification of phraseological units
- Contoh kalimat collocation
- What are collocations
- Collocations
- Collocations nlp
- Collocations keep
- Zsoba
- Motivation collocations
- Rewrite the sentences again
- Outline collocation
- Colocation translate
- Collocations definition
- Collocations make
- Flax nzdl collocations
- Lecture collocations
- Correct the mis collocations in these sentences