Introduction lutilisation des corpus 1 Questce quun corpus

  • Slides: 15
Download presentation
Introduction à l’utilisation des corpus 1. Qu’est-ce qu’un corpus? Alexandra VOLANSCHI

Introduction à l’utilisation des corpus 1. Qu’est-ce qu’un corpus? Alexandra VOLANSCHI

Question ouverte Est-il bien utile d’utiliser les corpus comme aide à la traduction étant

Question ouverte Est-il bien utile d’utiliser les corpus comme aide à la traduction étant donné l’investissement/l’effort nécessaire pour les construire ?

Questions abordées Qu'est-ce qu'un corpus ? Ø Quels types de corpus y a-t-il ?

Questions abordées Qu'est-ce qu'un corpus ? Ø Quels types de corpus y a-t-il ? Ø Quelques exemples. Ø A quoi peut servir un corpus ? Ø Dans quel but doit-on constituer des corpus dans le cadre du Master ? Ø Ou trouver du corpus ? Ø Comment stocker le corpus ?

Questions abordées Ø Les prochaines séances Ø Comment trouver du corpus? Ou et comment

Questions abordées Ø Les prochaines séances Ø Comment trouver du corpus? Ou et comment trouver des ressources (glossaires, dictionnaires, corpus parallèles) ? Ø Comment choisir quel texte inclure ou pas dans le corpus ? Ø Sous quelle forme faut-il le stocker pour qu’il soit facilement utilisable ? (rappel sur les formats de fichiers) Ø De quels outils dispose-t-on pour exploiter les corpus? 1. Outils d’interrogation des corpus 2. Outils d’annotation

Evaluation • 1/3 DST Novembre • 1/3 Rapport sur l’utilisation du corpus • 1/3

Evaluation • 1/3 DST Novembre • 1/3 Rapport sur l’utilisation du corpus • 1/3 Qualité du corpus

Questions abordées Ø 1. ØQu'est-ce qu'un corpus? ØQuels types de corpus y a-t-il ?

Questions abordées Ø 1. ØQu'est-ce qu'un corpus? ØQuels types de corpus y a-t-il ? ØQuelques exemples. ØA quoi peut servir un corpus ? ØA quoi ça va servir dans le cadre du Master ?

Qu’est-ce qu’un corpus? Les corpus sont des Ø collections de textes de taille importante

Qu’est-ce qu’un corpus? Les corpus sont des Ø collections de textes de taille importante (BNC=100 Million words !) Ø constituées de textes authentiques Ø rassemblées selon des critères spécifiques Ø collectées sous format électronique.

Corpus et concordanciers Format électronique • les corpus ne sont pas faits pour être

Corpus et concordanciers Format électronique • les corpus ne sont pas faits pour être consultés de manière séquentielle (~livre) • mais interrogés (concordanciers) La plupart des logiciels d’analyse textuelle sont bases sur le format texte brut (. txt). Pas de. doc, ou. pdf. Un concordancier est un logiciel qui construit des concordances. ET A QUOI RESSEMBLE UNE CONCORDANCE?

Concordances monolingues Exemple 1 Exemple 2 • comparer les divers emplois|sens d'un même terme

Concordances monolingues Exemple 1 Exemple 2 • comparer les divers emplois|sens d'un même terme • observer la fréquence des mots • identifier des collocation, définitions • observer des propriétés distributionnelles de certains mots. (exemple : les Voisins de le Monde, Word Sketch)

Concordances bi-lingues Exemple 1 Exemple 2 Ø la traduction des passages correspondant à la

Concordances bi-lingues Exemple 1 Exemple 2 Ø la traduction des passages correspondant à la requête Ø résoudre les problèmes de traduction que d'autres traducteurs ont déjà rencontrés? ? ? Ø méthodes d'alignement qui établissent automatiquement des liens entre les segments correspondants de textes traduits Ø entrée aux systèmes de traduction automatique basés sur des mémoires de traduction (unités de traduction extraites à partir d'un corpus parallèle).

Quels types de corpus existe-t-il? Ø support : papier, électronique, oral, vidéo Ø version

Quels types de corpus existe-t-il? Ø support : papier, électronique, oral, vidéo Ø version langagière : Ø monolingue, bilingue (comparable ou alignés), multilingue Øoriginaux, traductions Ø locuteurs natifs ou apprenants de la langue Ø état de la langue : synchronique ou diachronique Ø but : corpus de référence ou de spécialité. Ø ouvert // ferme Ø présence d'annotation : textes bruts ou annotés QUEL TYPE D’ANNOTATION? ?

Quel type d’annotation ? Ø les attributs de formatage : paragraphes, sections, titres, etc.

Quel type d’annotation ? Ø les attributs de formatage : paragraphes, sections, titres, etc. Ø l'information textuelle : date de publication, auteur, type de texte, registre, etc. Exemple Ø l'analyse linguistique du contenu du texte : Ø étiquetage morpho-syntaxique (tagging) Exemple Ø lemmatisation Exemple Ø analyse syntaxique Exemple Ø marquage prosodique des corpus oraux transcrits Exemple Ø annotation des erreurs dans les corpus des apprenants Exemple ET A QUOI PEUT SERVIR L’ANNOTATION ? ? ?

Dans quels domaines on les utilise? Ø Lexicographie (aide a la constitution de dictionnaires)

Dans quels domaines on les utilise? Ø Lexicographie (aide a la constitution de dictionnaires) Ø Apprentissage des langues Ø Études sociolinguistiques Ø Linguistique : (l'étude de vocabulaire, de la grammaire, évolution de la langue ou des sens des mots. Ø Linguistique informatique (TALN), entraîner ou tester les outils d'analyse textuelle Ø Terminologie, traduction, rédaction technique Ø analyser les caractéristiques des textes traduits. Ø aide à la traduction.

Réflexion Quels sont les avantages des corpus par rapport aux ØTextes imprimes ØDictionnaire (hint)

Réflexion Quels sont les avantages des corpus par rapport aux ØTextes imprimes ØDictionnaire (hint) ØExpert ØWWW ØIntuition

Ø Exemple : mot umbrella dans Oxford English Dictionary : 1/ portable protection against

Ø Exemple : mot umbrella dans Oxford English Dictionary : 1/ portable protection against rain, consisting of a circular piece of fabric mounted on a foldable frame of spikes attached to a central stick that serves as a handle. 2/ Any kind of general protecting force or influence. Comparer avec l’information dans le BNC