Traduction de rgles de construction des mots pour
- Slides: 31
Traduction de règles de construction des mots pour résoudre les problèmes d’incomplétude lexicale en traduction automatique Étude de cas Bruno Cartoni ISSCO / TIM / ETI Université de Genève, Suisse RECITAL 2005 Bruno Cartoni TIM/ISSCO/ETI
Plan de l’exposé } } But de la recherche Motivations Modèle proposé Expérience } Choix d’un processus de construction } Réalisation de l’expérience } Évaluation } Conclusion et perspectives RECITAL 2005 Bruno Cartoni 2
But de la recherche } Résoudre l’incomplétude lexicale en TA } Exploiter les propriétés morphosémantiques des néologismes construits RECITAL 2005 Bruno Cartoni 3
Motivations (I) } Incomplétude lexicale : phénomène important et constant Conséquence d’un mot inconnu en TA : } non-traduction } analyse syntaxique de la phrase affectée Caractérisation des mots inconnus } noms propres } créations lexicales } erreurs typographiques RECITAL 2005 Bruno Cartoni (Maurel, 2004) 4
Motivations (II) } Créativité lexicale } propriété de chaque langue de former de nouvelles unités (Guilbert, 1975) } Néologie formelle } création de formes nouvelles à partir de matériaux lexicaux existants } 75 % de la néologie (Cabré, 2002) } construction morphologique (préfixation, suffixation, etc. ) RECITAL 2005 Bruno Cartoni 5
Motivations (III) } Parallélisme entre deux langues morphologiquement proches } français et italien : même origine, même fonds lexical commun (Geysen, 1990) } similitudes dans les procédés de construction des mots } similitudes exploitables en TALN (Namer, 2001; Gdaniec, et al. 2001) RECITAL 2005 Bruno Cartoni 6
Modèle proposé (I) Italien Français ? Devo riaffrontare questo problema. RECITAL 2005 Je dois riaffrontare ce problème. Bruno Cartoni 7
Modèle proposé (II) Transfert lexical Français Italien Analyse du mot par décomposition : Génération par construction néologique : ri + affrontare réaffronter affrontare Lit Je dois réaffronter ce problème. Mot inconnu construit : riaffrontare RECITAL 2005 Bruno Cartoni 8
Connaissances nécessaires Base : affrontare RCM : ri + verbe = verbe transfert lexical Base : affronter RCM : re + verbe = verbe } Dictionnaire bilingue de formes de base } Règles de construction des mots (Corbin, 1987) bilingues RECITAL 2005 Bruno Cartoni 9
Hypothèses } Les néologismes construits sont sémantiquement transparents. } Les procédés de construction des mots sont parallèles dans deux langues morphologiquement proches. RECITAL 2005 Bruno Cartoni 10
Expérience } Choix d’un processus de construction } Construction et application de RCM bilingues } Evaluation de l’analyse (sens sémantiquement transparent des néologismes en langue source) } Evaluation de la traduction (mots construits en langue cible) RECITAL 2005 Bruno Cartoni 11
Processus de construction } En italien (Dardano, 1978) : ri- + Yverbe = « Y di nuovo » (rimangiare, rifare, etc. ) } En français (Rey-Debove, 2004) : re- + Y’verbe = « Y’ de nouveau » (remanger, refaire, etc. ) RECITAL 2005 Bruno Cartoni 12
La RCM bilingue IT X/VERBE => ri/PREF [Y/VERBE] Y/VERBE Lit FR = X’/VERBE => re/PREF [Y’/VERBE] Y’/VERBE Lfr où : Y/VERBE = Y’/VERBE (équivalents de traduction) (+ tous les changements morphographémiques) RECITAL 2005 Bruno Cartoni 13
Le préfixe réitératif sur un nom déverbal } En italien (Dardano, ibid ) : ri- + Xnom_deverbal (ristabilizzazione) } En français : re- + Xnom_deverbal (redistribution) RECITAL 2005 Bruno Cartoni 14
La RCM bilingue pour les noms déverbaux FR IT X/NOM => ri/PREF [Y/NOM] Y/NOM = [a-z]*zione/i | [a-z]*mento/i | [az]*aggio/i Y/NOM Lit = X’/NOM => re/PREF [Y’/NOM] Y’/NOM = [a-z]*tion/s | [a-z]*ment/s | [az]*age/s Y’/NOM Lfr où : Y/NOM = Y’/NOM (équivalents de traduction) (+ tous les changements morphographémiques) RECITAL 2005 Bruno Cartoni 15
Corrélaire En français comme en italien: « ce qui est défait peut être refait » Paradigmes: IT: stabilizzare/destabilizzare/ristabilizzare FR: stabiliser/déstabiliser/restabiliser RCM pour le préfixe de-/dé- devant un nom ou un verbe RECITAL 2005 Bruno Cartoni 16
Réalisation de l’expérience 1. Extraction des mots inconnus du corpus italien (il. Sole 24 ore) par confrontation avec le lexique Lit 2. Filtrage des mots inconnus correpondant aux patrons de construction décrits dans les RCM bilingues (partie italienne) 3. Traduction de la base (par un système de TA commercial) 4. Construction de la « traduction » grâce aux patrons de la RCM bilingue (partie française) RECITAL 2005 Bruno Cartoni 17
Etape 1 : les mots inconnus Méthode : confrontation du corpus (il. Sole 24 ore) avec le lexique d’un analyseur morphosyntaxique (mmorph) } } Mots inconnus corpus : 1. 88 mio d’occurrences = Corpus – Lex. Ref mots inconnus : 225 075 (12 %) } exclusion des noms propres } potentiellement néologismes : 90 260 (4. 8 %) RECITAL 2005 Bruno Cartoni 18
Etape 2 : analyse Filtrage des mots inconnus correpondant aux patrons de construction décrits dans les RCM bilingues (partie italienne) "riorganizzare"IT = "organizzare" verb [temps=present mode=infinitive …] "redistribuzione" X/ = "distribuzione" noun [gender=f nbr=s …] VERBE => ri/ PREF [Y/VERBE]noun [gender=f nbr=s …] "decentralizzazione" = "centralizzazione" … Y/VERBE Lit RECITAL 2005 Bruno Cartoni 19
Etape 2 : évaluation } Les néologismes construits sont-ils sémantiquement transparents ? RECITAL 2005 Bruno Cartoni 20
Etape 2 : évaluation Les verbes: ex: ri + posare ex: de + cantare } erreurs néologismes } lacunes du lexique de référence RECITAL 2005 Bruno Cartoni 21
Etape 2 : évaluation Les noms: ri + suzione RECITAL 2005 Bruno Cartoni 22
Etape 3 : traduction Traduction de la base (Systran© + validation manuelle) "riorganizzare" = "organizzare" verb [temps=present mode=infinitive …] "redistribuzione" = "distribuzione" noun [gender=f nbr=s …] "decentralizzazione" = "centralizzazione" noun [gender=f nbr=s …] … IT FR "organizzare" = "organiser" "distribuzione" = "distribution" "centralizzazione" = RECITAL 2005 "centralisation" Bruno Cartoni 23
Etape 4 : traduction Construction de la « traduction » grâce aux patrons de la RCM bilingue (partie française) IT = FR "riorganizzare" = "réorganiser" "redistribuzione" = "redistribution" "decentralizzazione" = "décentralisation" … RECITAL 2005 Bruno Cartoni 24
Etape 4 : évaluation } Evaluation des constructions françaises : } jugement humain de la correction de la traduction (sentiment linguistique) } jugement uniquement sur la « bonne » formation du néologisme en français } jugement selon trois critères (correct / incertain / incorrect ) RECITAL 2005 Bruno Cartoni 25
Etape 4 : évaluation recrocheter RECITAL 2005 réemplacement Bruno Cartoni 26
Résultats chiffrés } Bon taux de rappel } Meilleurs résultats sur des règles très contraintes RECITAL 2005 Bruno Cartoni 27
Conclusions } Pour une règle très restreinte, les RCM bilingues proposent des traductions très valables. } La relative constance de l’utilisation du préfixe ri- /re- en fait une règle utile sur le long terme. } La règle permet d’éviter une alimentation frénétique des lexiques informatisés pour tous les mots construits possibles. RECITAL 2005 Bruno Cartoni 28
Perspectives } Application du même principe à l’ensemble des préfixes connus de l’italien } Application du même principe aux formants néoclassiques (Iacobini, 2004) tele-, eco-, euro-, pseudo- } Etude des limites du modèle } Extension à d’autres paires de langues RECITAL 2005 Bruno Cartoni 29
Merci RECITAL 2005 Bruno Cartoni TIM/ISSCO/ETI
Référence } Cabré T. , Freixa, J. , Solé E. , (2002), A la limite des mots construits possible, Actes du Forum de morphologie, pp. 65 -78. } Corbin D. , (1987), Morphologie dérivationnelle et structuration du lexique, Tuebingen, Niemeyer. } Dardano M. , (1978), La formazione delle parole nell'italiano di oggi, Rome, Bulzoni. } Gdaniec C. , Manandise, E. , Mc. Cord, M. , (2001), Derivational Morphology to the Rescue: How It Can Help Resolve Unfound Words in MT. Actes de MT Summit VIII. } Guilbert, L. (1975), La créativité lexicale, Larousse, Paris. } Maurel, D. (2004). Les mots inconnus sont-ils des noms propres? Actes de JADT 2004, Louvain-la-Neuve. } Namer, F. (2001), Génération automatique de néologismes bilingues morphologiquement construits en français et en italien. Actes de TALN 2001. pp. 281 -296. } Rey-Debove J. , Ed. (2004). Brio, Paris, Dictionnaire Le Robert. RECITAL 2005 Bruno Cartoni 31
- Verbe variable ou invariable
- Les mot variables
- Comment rendre heureuse une fille
- Il existe des personnes qui sont des lumières pour tous
- Coop pour moi et pour toi
- C'est une langue belle avec des mots superbes
- Nature du mot du
- Des des des
- 13 conseil de la vie
- Des cartes pour comprendre le monde
- Provision pour dépréciation des titres
- Transpose text
- Si je me tais oh j'apprendrai
- Pour cet immense bonheur paroles
- Henri dès pour toi maman
- Expressions avec le subjonctif
- Docteur malhanche
- Un marqueur de relation
- Les familles de mots
- Fais correspondre les mots aux images
- Composs
- Comment w
- 2 mots par jour
- 3 mots
- Madame nicolas mots
- Ga go gu gue gui
- Jeux de mots homophones
- Les rimes
- Ma liste de courses
- Mots en ouil
- Adjectifs
- Mots manquants