Traduction de rgles de construction des mots pour

  • Slides: 31
Download presentation
Traduction de règles de construction des mots pour résoudre les problèmes d’incomplétude lexicale en

Traduction de règles de construction des mots pour résoudre les problèmes d’incomplétude lexicale en traduction automatique Étude de cas Bruno Cartoni ISSCO / TIM / ETI Université de Genève, Suisse RECITAL 2005 Bruno Cartoni TIM/ISSCO/ETI

Plan de l’exposé } } But de la recherche Motivations Modèle proposé Expérience }

Plan de l’exposé } } But de la recherche Motivations Modèle proposé Expérience } Choix d’un processus de construction } Réalisation de l’expérience } Évaluation } Conclusion et perspectives RECITAL 2005 Bruno Cartoni 2

But de la recherche } Résoudre l’incomplétude lexicale en TA } Exploiter les propriétés

But de la recherche } Résoudre l’incomplétude lexicale en TA } Exploiter les propriétés morphosémantiques des néologismes construits RECITAL 2005 Bruno Cartoni 3

Motivations (I) } Incomplétude lexicale : phénomène important et constant Conséquence d’un mot inconnu

Motivations (I) } Incomplétude lexicale : phénomène important et constant Conséquence d’un mot inconnu en TA : } non-traduction } analyse syntaxique de la phrase affectée Caractérisation des mots inconnus } noms propres } créations lexicales } erreurs typographiques RECITAL 2005 Bruno Cartoni (Maurel, 2004) 4

Motivations (II) } Créativité lexicale } propriété de chaque langue de former de nouvelles

Motivations (II) } Créativité lexicale } propriété de chaque langue de former de nouvelles unités (Guilbert, 1975) } Néologie formelle } création de formes nouvelles à partir de matériaux lexicaux existants } 75 % de la néologie (Cabré, 2002) } construction morphologique (préfixation, suffixation, etc. ) RECITAL 2005 Bruno Cartoni 5

Motivations (III) } Parallélisme entre deux langues morphologiquement proches } français et italien :

Motivations (III) } Parallélisme entre deux langues morphologiquement proches } français et italien : même origine, même fonds lexical commun (Geysen, 1990) } similitudes dans les procédés de construction des mots } similitudes exploitables en TALN (Namer, 2001; Gdaniec, et al. 2001) RECITAL 2005 Bruno Cartoni 6

Modèle proposé (I) Italien Français ? Devo riaffrontare questo problema. RECITAL 2005 Je dois

Modèle proposé (I) Italien Français ? Devo riaffrontare questo problema. RECITAL 2005 Je dois riaffrontare ce problème. Bruno Cartoni 7

Modèle proposé (II) Transfert lexical Français Italien Analyse du mot par décomposition : Génération

Modèle proposé (II) Transfert lexical Français Italien Analyse du mot par décomposition : Génération par construction néologique : ri + affrontare réaffronter affrontare Lit Je dois réaffronter ce problème. Mot inconnu construit : riaffrontare RECITAL 2005 Bruno Cartoni 8

Connaissances nécessaires Base : affrontare RCM : ri + verbe = verbe transfert lexical

Connaissances nécessaires Base : affrontare RCM : ri + verbe = verbe transfert lexical Base : affronter RCM : re + verbe = verbe } Dictionnaire bilingue de formes de base } Règles de construction des mots (Corbin, 1987) bilingues RECITAL 2005 Bruno Cartoni 9

Hypothèses } Les néologismes construits sont sémantiquement transparents. } Les procédés de construction des

Hypothèses } Les néologismes construits sont sémantiquement transparents. } Les procédés de construction des mots sont parallèles dans deux langues morphologiquement proches. RECITAL 2005 Bruno Cartoni 10

Expérience } Choix d’un processus de construction } Construction et application de RCM bilingues

Expérience } Choix d’un processus de construction } Construction et application de RCM bilingues } Evaluation de l’analyse (sens sémantiquement transparent des néologismes en langue source) } Evaluation de la traduction (mots construits en langue cible) RECITAL 2005 Bruno Cartoni 11

Processus de construction } En italien (Dardano, 1978) : ri- + Yverbe = «

Processus de construction } En italien (Dardano, 1978) : ri- + Yverbe = « Y di nuovo » (rimangiare, rifare, etc. ) } En français (Rey-Debove, 2004) : re- + Y’verbe = « Y’ de nouveau » (remanger, refaire, etc. ) RECITAL 2005 Bruno Cartoni 12

La RCM bilingue IT X/VERBE => ri/PREF [Y/VERBE] Y/VERBE Lit FR = X’/VERBE =>

La RCM bilingue IT X/VERBE => ri/PREF [Y/VERBE] Y/VERBE Lit FR = X’/VERBE => re/PREF [Y’/VERBE] Y’/VERBE Lfr où : Y/VERBE = Y’/VERBE (équivalents de traduction) (+ tous les changements morphographémiques) RECITAL 2005 Bruno Cartoni 13

Le préfixe réitératif sur un nom déverbal } En italien (Dardano, ibid ) :

Le préfixe réitératif sur un nom déverbal } En italien (Dardano, ibid ) : ri- + Xnom_deverbal (ristabilizzazione) } En français : re- + Xnom_deverbal (redistribution) RECITAL 2005 Bruno Cartoni 14

La RCM bilingue pour les noms déverbaux FR IT X/NOM => ri/PREF [Y/NOM] Y/NOM

La RCM bilingue pour les noms déverbaux FR IT X/NOM => ri/PREF [Y/NOM] Y/NOM = [a-z]*zione/i | [a-z]*mento/i | [az]*aggio/i Y/NOM Lit = X’/NOM => re/PREF [Y’/NOM] Y’/NOM = [a-z]*tion/s | [a-z]*ment/s | [az]*age/s Y’/NOM Lfr où : Y/NOM = Y’/NOM (équivalents de traduction) (+ tous les changements morphographémiques) RECITAL 2005 Bruno Cartoni 15

Corrélaire En français comme en italien: « ce qui est défait peut être refait

Corrélaire En français comme en italien: « ce qui est défait peut être refait » Paradigmes: IT: stabilizzare/destabilizzare/ristabilizzare FR: stabiliser/déstabiliser/restabiliser RCM pour le préfixe de-/dé- devant un nom ou un verbe RECITAL 2005 Bruno Cartoni 16

Réalisation de l’expérience 1. Extraction des mots inconnus du corpus italien (il. Sole 24

Réalisation de l’expérience 1. Extraction des mots inconnus du corpus italien (il. Sole 24 ore) par confrontation avec le lexique Lit 2. Filtrage des mots inconnus correpondant aux patrons de construction décrits dans les RCM bilingues (partie italienne) 3. Traduction de la base (par un système de TA commercial) 4. Construction de la « traduction » grâce aux patrons de la RCM bilingue (partie française) RECITAL 2005 Bruno Cartoni 17

Etape 1 : les mots inconnus Méthode : confrontation du corpus (il. Sole 24

Etape 1 : les mots inconnus Méthode : confrontation du corpus (il. Sole 24 ore) avec le lexique d’un analyseur morphosyntaxique (mmorph) } } Mots inconnus corpus : 1. 88 mio d’occurrences = Corpus – Lex. Ref mots inconnus : 225 075 (12 %) } exclusion des noms propres } potentiellement néologismes : 90 260 (4. 8 %) RECITAL 2005 Bruno Cartoni 18

Etape 2 : analyse Filtrage des mots inconnus correpondant aux patrons de construction décrits

Etape 2 : analyse Filtrage des mots inconnus correpondant aux patrons de construction décrits dans les RCM bilingues (partie italienne) "riorganizzare"IT = "organizzare" verb [temps=present mode=infinitive …] "redistribuzione" X/ = "distribuzione" noun [gender=f nbr=s …] VERBE => ri/ PREF [Y/VERBE]noun [gender=f nbr=s …] "decentralizzazione" = "centralizzazione" … Y/VERBE Lit RECITAL 2005 Bruno Cartoni 19

Etape 2 : évaluation } Les néologismes construits sont-ils sémantiquement transparents ? RECITAL 2005

Etape 2 : évaluation } Les néologismes construits sont-ils sémantiquement transparents ? RECITAL 2005 Bruno Cartoni 20

Etape 2 : évaluation Les verbes: ex: ri + posare ex: de + cantare

Etape 2 : évaluation Les verbes: ex: ri + posare ex: de + cantare } erreurs néologismes } lacunes du lexique de référence RECITAL 2005 Bruno Cartoni 21

Etape 2 : évaluation Les noms: ri + suzione RECITAL 2005 Bruno Cartoni 22

Etape 2 : évaluation Les noms: ri + suzione RECITAL 2005 Bruno Cartoni 22

Etape 3 : traduction Traduction de la base (Systran© + validation manuelle) "riorganizzare" =

Etape 3 : traduction Traduction de la base (Systran© + validation manuelle) "riorganizzare" = "organizzare" verb [temps=present mode=infinitive …] "redistribuzione" = "distribuzione" noun [gender=f nbr=s …] "decentralizzazione" = "centralizzazione" noun [gender=f nbr=s …] … IT FR "organizzare" = "organiser" "distribuzione" = "distribution" "centralizzazione" = RECITAL 2005 "centralisation" Bruno Cartoni 23

Etape 4 : traduction Construction de la « traduction » grâce aux patrons de

Etape 4 : traduction Construction de la « traduction » grâce aux patrons de la RCM bilingue (partie française) IT = FR "riorganizzare" = "réorganiser" "redistribuzione" = "redistribution" "decentralizzazione" = "décentralisation" … RECITAL 2005 Bruno Cartoni 24

Etape 4 : évaluation } Evaluation des constructions françaises : } jugement humain de

Etape 4 : évaluation } Evaluation des constructions françaises : } jugement humain de la correction de la traduction (sentiment linguistique) } jugement uniquement sur la « bonne » formation du néologisme en français } jugement selon trois critères (correct / incertain / incorrect ) RECITAL 2005 Bruno Cartoni 25

Etape 4 : évaluation recrocheter RECITAL 2005 réemplacement Bruno Cartoni 26

Etape 4 : évaluation recrocheter RECITAL 2005 réemplacement Bruno Cartoni 26

Résultats chiffrés } Bon taux de rappel } Meilleurs résultats sur des règles très

Résultats chiffrés } Bon taux de rappel } Meilleurs résultats sur des règles très contraintes RECITAL 2005 Bruno Cartoni 27

Conclusions } Pour une règle très restreinte, les RCM bilingues proposent des traductions très

Conclusions } Pour une règle très restreinte, les RCM bilingues proposent des traductions très valables. } La relative constance de l’utilisation du préfixe ri- /re- en fait une règle utile sur le long terme. } La règle permet d’éviter une alimentation frénétique des lexiques informatisés pour tous les mots construits possibles. RECITAL 2005 Bruno Cartoni 28

Perspectives } Application du même principe à l’ensemble des préfixes connus de l’italien }

Perspectives } Application du même principe à l’ensemble des préfixes connus de l’italien } Application du même principe aux formants néoclassiques (Iacobini, 2004) tele-, eco-, euro-, pseudo- } Etude des limites du modèle } Extension à d’autres paires de langues RECITAL 2005 Bruno Cartoni 29

Merci RECITAL 2005 Bruno Cartoni TIM/ISSCO/ETI

Merci RECITAL 2005 Bruno Cartoni TIM/ISSCO/ETI

Référence } Cabré T. , Freixa, J. , Solé E. , (2002), A la

Référence } Cabré T. , Freixa, J. , Solé E. , (2002), A la limite des mots construits possible, Actes du Forum de morphologie, pp. 65 -78. } Corbin D. , (1987), Morphologie dérivationnelle et structuration du lexique, Tuebingen, Niemeyer. } Dardano M. , (1978), La formazione delle parole nell'italiano di oggi, Rome, Bulzoni. } Gdaniec C. , Manandise, E. , Mc. Cord, M. , (2001), Derivational Morphology to the Rescue: How It Can Help Resolve Unfound Words in MT. Actes de MT Summit VIII. } Guilbert, L. (1975), La créativité lexicale, Larousse, Paris. } Maurel, D. (2004). Les mots inconnus sont-ils des noms propres? Actes de JADT 2004, Louvain-la-Neuve. } Namer, F. (2001), Génération automatique de néologismes bilingues morphologiquement construits en français et en italien. Actes de TALN 2001. pp. 281 -296. } Rey-Debove J. , Ed. (2004). Brio, Paris, Dictionnaire Le Robert. RECITAL 2005 Bruno Cartoni 31