Corpus aligns Amalia TodirascuCourtier todirasunistra fr Plan Dfinition

  • Slides: 26
Download presentation
Corpus alignés Amalia Todirascu-Courtier todiras@unistra. fr

Corpus alignés Amalia Todirascu-Courtier todiras@unistra. fr

Plan • • Définition et motivation Comment aligner le corpus? Exemples des corpus alignés

Plan • • Définition et motivation Comment aligner le corpus? Exemples des corpus alignés Applications des corpus alignés

Corpus parallèles • Corpus parallèles (Hartmann 1980) - le même contenu numérisé traduit en

Corpus parallèles • Corpus parallèles (Hartmann 1980) - le même contenu numérisé traduit en plusieurs langues – Corpus de traduction: Traduction manuelle des corpus – Alignement possible au niveau de propositions, paragraphe, lexical. .

Corpus comparables • Corpus comparables (EAGLES) (Mc. Enery 2003) (Fung & Yee, 1996) –

Corpus comparables • Corpus comparables (EAGLES) (Mc. Enery 2003) (Fung & Yee, 1996) – pas une traduction exacte – même fonction dans une situation de communication – même thème ou même domaine ou même genre – multilingues ou monolingues

Motivation • Documents numériques qui traduisent le même contenu en plusieurs langues – débat

Motivation • Documents numériques qui traduisent le même contenu en plusieurs langues – débat parlamentaires – legislation européene – normes médicales • Besoin d'acquisition automatique des ressources électroniques - Dictionnaires mono- ou multilingues - Bases terminologiques mono ou multilingues - Grammaires en format électroniques

Applications – Outils d'aide à traduction • Methodes statistiques qui utilisent comme données d'apprentissage

Applications – Outils d'aide à traduction • Methodes statistiques qui utilisent comme données d'apprentissage les corpus alignés – Trans. Type – outil interactif qui assiste le traducteur et qui propose des extensions (Laboratoire « Recherches appliquées en linguistique informatique » http: //rali. iro. umontreal. ca/ – Generic Translation interface (Cour de Justice de Communauté européenne) http: //www. adbs. fr/uploads/journees/537_fr. php • Matrice de traduction: – la structure et la mise en page du document ; – formulations normalisées ; – les données constantes de l'affaire (numéro de l'affaire, nom des parties, nom des juges et de l'avocat général, type de décision) – les citations des textes officiels (règlements et directives communautaires, arrêts antérieurs, etc. ) dans la langue cible ;

Applications - Terminologie • corpus parallèles – Un alignement au niveau lexical • Une

Applications - Terminologie • corpus parallèles – Un alignement au niveau lexical • Une liste de termes pour la langue source – À base d'un thésaurus ou d'un dictionnaire • Identification automatique des termes candidats pour la langue cible – Extraction des paires candidats langue cible – termes langue source

Applications – Extraction de dictionnaires • Dictionnaires bilingues – Implique des corpus alignés au

Applications – Extraction de dictionnaires • Dictionnaires bilingues – Implique des corpus alignés au niveau des mots pour l'apprentissage des outils • Dictionnaires monolingues – S'il y a un dictionnaire disponible dans la langue source et des corpus alignés - Extraction des candidats dans la langue cible

Applications • Utilisation des corpus comparables pour extraire des terminologies bilingues – TTC :

Applications • Utilisation des corpus comparables pour extraire des terminologies bilingues – TTC : Terminology Extraction, Translation Tools and Comparable Corpora (www. ttc-project. eu) – Accurat : Analysis and Evaluation of Comparable Corpora for Under Resourced Areas of Machine Translation (http: //www. accurat-project. eu/index. php) – autres : http: //cordis. europa. eu/fp 7/ict/languagetechnologies/portfolio_en. html

Alignement propositionnel • Corpus de traduction comme matière prémière • Alignement propositionnel = mise

Alignement propositionnel • Corpus de traduction comme matière prémière • Alignement propositionnel = mise en correspondance des unités de texte – Unité de texte: phrase, paragraphe – Algorithmes d'alignement automatique • Longueur des phrases - Church & Gale 1991 • Mots similaires - Simard et al. 1992, Pierre Isabelle et Susan Warwick-Armstrong 1993

Le modèle de Church & Gale • Hypothèses de travail – Unité du texte:

Le modèle de Church & Gale • Hypothèses de travail – Unité du texte: la phrase – La longueur de la phrase (nr. de caractères) doit être similaire dans les deux langues – Correspondances entre le nombre de phrases en langue source et en langue cible • une phrase peut être traduite par une phrase • deux phrases traduites par une, une par deux, deux phrases par deux phrases, une phrase par zéro et zéro par une – Combinaisons possibles et propositions de celle qui a le meilleur score • 95, 8 % de réussite

Exemple d'alignement • E 1 The crisis our farmers are in right now will

Exemple d'alignement • E 1 The crisis our farmers are in right now will affect all of us at a certain point in time. • E 2 We are all consumers and we all need a strong and healthy agricultural sector. • F 1 La crise que vivent en ce moment nos agriculteurs se répercutera sur tous et chacun de nous à un certain moment. • F 2 Nous sommes des consommateurs. • E 3 • F 3 I am glad that the Hon. Member for Algoma (Mr. Foster) mentioned figures in his remarks. Nous avons tous besoin d'une agriculture saine et forte. • F 4 • E 4 Otherwise, the Government might have eluded the problem once again. Heureusement que le député d'Algoma (M. Foster) a mentionné des chiffres dans ses remarques, sans cela ce gouvernement s'en • E 5 serait sorti en douce encore une fois. The Hon. Member for Algoma suggested Tuesday night that the Government had to take a clear position and make a commitment to assist our farmers before it is too late. Le député d'Algoma suggérait mardi soir qu'il fallait que le gouvernement se prononce clairement et s'engage à aider nos agriculteurs avant qu'il ne soit trop tard. • F 5

Le modèle de (Simard & all) • Exploiter les mots qui ont des formes

Le modèle de (Simard & all) • Exploiter les mots qui ont des formes très proches dans les deux langues - Mots apparentés (cognates): liste/list, erreur/error, taxe/tax - noms propres ou chiffres • Paragraphe: liste de mots pour chaque langue et calculs des pairs des mots apparentés • Limites: on peut toujours traduire une phrase et pas utiliser les mots apparentés

Exemples de corpus alignés • Les corpus HANSARD (documents du Parlement canadien) – bilingue

Exemples de corpus alignés • Les corpus HANSARD (documents du Parlement canadien) – bilingue anglaisfrançais – 2, 87 millions de paires de phrases alignés • Discours legislatifs (1995, 1996, 1997) – variété de sujets de disscusion – transcriptions des dialogues + textes écrits – Distribué par Linguistic Data Consortium • Alignement par phrase et par fichier – Notation SGML sur la structure (paragraphe, phrase)

Exemples de corpus alignés (II) • EUROPARL – débat du Parlement européen – 11

Exemples de corpus alignés (II) • EUROPARL – débat du Parlement européen – 11 langues, 20 millions mots/langue – http: //people. csail. mit. edu/koehn/publications/euro parl/ • Acquisition du corpus – – – Extraction du web Alignement au niveau du document Segmentation en phrases Identification des mots et des expréssions figées Alignement au niveau des phrases

Exemples de corpus alignés (III) • EUROPARL (suite) – Certains sous-parties sont arborés (avec

Exemples de corpus alignés (III) • EUROPARL (suite) – Certains sous-parties sont arborés (avec un outil VISL) pour quelques langues: français, portugais, allemand. . . • Interface qui permettra de faire des recherches – http: //visl. sdu. dk/visl/corpus. html • Applications possibles – Outils d'aide à la traduction – Développement des grammaires et des dictionnaires

Autres liens • corpus CLUVI – concordancier multilingue – http: //sli. uvigo. es/CLUVI/index_en. html

Autres liens • corpus CLUVI – concordancier multilingue – http: //sli. uvigo. es/CLUVI/index_en. html • corpus Oslo – possibilité de recher la langue source ou cible – http: //www. hf. uio. no/forskningsprosjekter/sprik /

Exemples d'outils • Vanilla Aligner – pour l'alignement d'Europarl – http: //nl. ijs. si/ME/CD/tool/Vanilla/

Exemples d'outils • Vanilla Aligner – pour l'alignement d'Europarl – http: //nl. ijs. si/ME/CD/tool/Vanilla/ • Aligner de Moore (en-fr, en-ru) – https: //research. microsoft. com/en-us/people/bobmoore/ • SVM (Ceausu) http: //www. racai. ro • Alinéa (Olivier Kraif) – http: //w 3. u-grenoble 3. fr/kraif/ • XAlign (LORIA) – http: //led. loria. fr/download/source/Xalign. zip • Plug (Univ. Uppsala, Göteborg) – http: //stp. ling. uu. se/~corpora/plug/ • Unitex

Avantages et inconvénients • avantages – peu de données d'apprentissage – peu d'information dépendentes

Avantages et inconvénients • avantages – peu de données d'apprentissage – peu d'information dépendentes des langues • inconvénients – corpus parallèls: traduction humaine du même contenu

Alignement lexical • mettre en correspondance des mots ou des expressions – entrée: corpus

Alignement lexical • mettre en correspondance des mots ou des expressions – entrée: corpus aligné au niveau propositionnel • correspondances 1 -1 – sortie: les mots alignés • Ressources: – équivalents de traduction calculés sur les corpus alignés au niveau propositionnel – corpus étiquétés, lemmatisés – ressources sémantiques Word. Net

Outils d'alignement lexical • Giza++ (Och, Ney, 2003) – http: //www. fjoch. com/GIZA++. html

Outils d'alignement lexical • Giza++ (Och, Ney, 2003) – http: //www. fjoch. com/GIZA++. html • Twente Word Alignment Software – http: //linguateca. di. uminho. pt/natools/ • COWAL (Tufis et al, 2005) – http: //www. racai. ro • Editeurs – Mt. Kit (Tufis et al, 2005)

COWAL • Combined aligners (Tufis et al. , 2005) : YAWA et MEBA •

COWAL • Combined aligners (Tufis et al. , 2005) : YAWA et MEBA • Etapes – extraction d'equivalents de traduction (Loglikelihood) – mettre en correspondance les mots contenus, les noms propres, les nombres – règles héuristiques • • classes de correspondance entre les catégories lexicales position alignement à l'intérieur des chunks identité de la classe sémantique (Word. Net ou SUMO)

Avantages et inconvenients • avantages – correspondances au niveau de mot ou des expressions

Avantages et inconvenients • avantages – correspondances au niveau de mot ou des expressions – extraire des dictionnaires multilingues • désavantages – corrections successives – pas toujours évident d'aligner même pour un utilisateur humain – volume important de données d'apprentissage

Bibliographie Fung P. , Yee. L. Y. (1996) An IR approach for translating new

Bibliographie Fung P. , Yee. L. Y. (1996) An IR approach for translating new words from non-parallel, comparable texts, ACL 1996. Deléger L. , Zweigenbaum P. (2010) Extracting Lay Paraphrases of Specialized Expressions from Monolingual Comparable Medical Corpora, Workshop on Building and Using Comparable Corpora, ACL 2010 Gale W. , Church K. (1991) A Program for Aligning Sentences in Bilingual Corpora, Computational Linguistics, 1991 ISABELLE P. , WARWICK-ARMSTRONG S. (1993) Les corpus bilingues : une nouvelle ressource pour le traducteur. In Bouillon, P. et Clas, A. (Eds. ), La traductique. Montréal : les presses de l’Université de Montréal, pp. 288 -306 Ji H. (2010) Mining Name Translations from Comparable Corpora by Creating Bilingual Information Networks, Workshop on Building and Using Comparable Corpora, ACL 2010 Koehn P. (2002) Europarl: A Multilingual Corpus for Evaluation of Machine Translation, Information Sciences Institute, University of Southern California, Rapport interne, 2002

Bibliographie (II) Mihailov M. ; Tommola H. (2001) Compiling Parallel Text Corpora: Towards Automation

Bibliographie (II) Mihailov M. ; Tommola H. (2001) Compiling Parallel Text Corpora: Towards Automation of Routine Procedures International Journal of Corpus Linguistics, Volume 6, Special Issue, December 2001, pp. 67 -77(11) Och F. J. , Ney, H. (2003) A Systematic Comparison of Various Statistical Alignment Models, Computational Linguistics, volume 29, number 1, pp. 19 -51 March 2003. Prochasson, E (2009) Alignement multilingue en corpus comparables spécialisés. Caractérisation terminologique multilingue Rapp, R. (1995) Identifying Word Translation in Non-Parallel Texts, ACL 1995. Simard M, Foster, G. , Isabelle P (1992) Use cognates to align sentences in bilingual corpora, Proceedings of TMI, 1992

Bibliographie(III) Simões A. , Almeida, J. J. , (2003) NATools -- A Statistical Word

Bibliographie(III) Simões A. , Almeida, J. J. , (2003) NATools -- A Statistical Word Aligner Workbench, Sociedade Española para el Procesamiento del Lenguaje Natural, 2003 Tiedemann J. (1999) Uplug - a modular corpus tool for parallel corpora. In L. Borin (ed. ) Parallel Corpora, Parallel Worlds. Proceedings of Parallel Corpus Symposium, Uppsala, April 2223, 1999, Uppsala University. Department of Linguistics. Tufiş D. , Ion R. , Ceauşu A. , Ştefănescu D. (2005) Combined word alignments, Proceedings of the ACL Workshop on Building and Using Parallel Texts, pages 107– 110, Ann Arbor, June 2005. Tufis, D. (2004) Term Translations in Parallel Corpora: Discovery and Consistency Check. In Proceedings of the 4 th LREC Conference, Lisbon, pp. 1981 -1984