Les Donnes Textuelles Questce quun corpus corpus quilibr
Les Données Textuelles • Qu'est-ce qu'un corpus, corpus équilibré, monitor corpus, corpus de référence, exemples d’utilisation. • Exemples de corpus textuels : le British National Corpus PAROLE Français, Le Monde • Les corpus étiquetés et analysés - corpus syntaxiques Penn Treebank www. cis. upenn. edu/~treebank Corfrans www-rali. iro. umontreal. ca/corfrans NEGRA corpus -corpus sémantiques Framenet www. icsi. berkeley. edu/~framenet Prop. Bank 1
Corpus • Définition : Une collection quelconque de plus d'un texte • Propriétés : représentatif, de taille finie, lisible par une machine • Référence standard • Utilisations : Lexicographie—établir si un verbe est transitif • Utilisations : Développement de grammaire—déterminer la couverture de la grammaire, les erreurs les plus fréquentes. 2
Corpus Le page suivantes sur l’écahntillonage et l’utilisations des corpus sont tiré des ouvrages Benoît Habert, Adeline Nazarenko, et André Salem, Les linguistiques de corpus, Armand Colin Tony Mc Enery et Andrew Wilson, Corpus Lingusitics, Edinburgh Press 3
Corpus équilibrés • En principe, une collection de plus d'un texte peut être appelée un corpus. Cependant, le terme corpus possède en général des connotations plus spécifiques. • Le corpus doit être représentatif. Afin qu’une collection de textes soit représentative, elle doit être échantillonnée de façon équilibrée. La méthode la plus utilisée est la méthode d'échantillonnage stratifiée, où l'on crée une collection équilibrée de textes distribués uniformément à travers les genres (roman, journal, discours politique, etc. ) et les modalités (écrite, orale) qui intéressent. • Le corpus doit être de taille finie définie à l'avance. On parle alors de corpus fermé. D'habitude, les corpus sont des collections des textes fixées à l'avance, afin d'assurer que l'équilibre et la représentativité soient respectés. • Un corpus doit être électronique (machine readable) pour permettre des recherches et des manipulations rapides à large échelle. 4
Corpus équilibrés D'un point de vue statistique, on peut considérer un corpus comme un échantillon d'une population (d'événements langagiers). Comme tout échantillon, un corpus est passible de deux types d'erreurs statistiques qui menacent la généralité des résultats l'incertitude (random error) la déformation (bias error) • L'incertitude survient quand un échantillon est trop petit pour représenter avec précision la population réelle. • Une déformation se produit quand les caractéristiques d'un échantillon sont systématiquement différentes de celles de la population que cet échantillon a pour objectif de refléter. 5
Exemples d’erreurs Incertitude Un extrait de 2 000 mots d'une interview de George Bush ne permet pas d'extrapoler et d'en tirer des conclusions sur l'interaction journaliste-homme politique. Déformation Si on utilise que les articles de la seule rubrique Economie du Monde, quel que soit le volume textuel rassemblé, on risque de déboucher sur une image déformée du français. 6
Échantillonnage • Pour atteindre une diversité maximale de situations de communication dans un corpus de référence on procède souvent à une démarche d'échantillonnage. • L'échantillonnage touche à la fois le choix des documents à intégrer et la partie de ces documents à conserver. • On essaye d'équilibrer en taille les échantillons retenus -- de taille limitée (de 2'000 à 40'000 mots) --, et à ne pas retenir des empans de texte continus, de manière à ne pas risquer de sur-représenter des «lieux» du texte aux caractéristiques particulières (l'introduction par exemple). • Ce saucissonnage rend par contre impossible l'étude des changements de corrélations de traits linguistiques au fil des textes (étude longitudinale). 7
Corpus de contrôle (monitor corpus) • Il existe aussi un autre type de corpus, le corpus de contrôle, qui n'est pas de taille finie, mais plutôt il croit au fur et à mesure. • Un corpus de contrôle est un corpus auquel on ajoute tout le temps des textes. C'est un corpus ouvert. Cela est très utile en lexicographie pour cher les néologismes, mais on ne peut plus garantir que le corpus restera équilibré. La recherche scientifique courante où l'on utilise le Web en tant que corpus rentre dans ce cas de figure. 8
Corpus de référence On parle de corpus de référence lorsque un corpus devient représentatif de la langue - à un certain moment historique, - pour une certaine langue, - dans une certaine modalité. Un corpus de référence est conçu pour fournir une information en profondeur sur une langue. Il vise à être suffisamment grand pour représenter toutes les variétés pertinentes de cette langue et son vocabulaire caractéristique, de manière à pouvoir servir de base à des grammaires, des dictionnaires et d'autres usuels fiables. Il s'agit donc d'associer étroitement deux caractéristiques : une taille suffisante et la diversité des usages représentés. • Par exemple, le Brown Corpus est le corpus de référence de l'anglais Américain écrit, le British National Corpus est le corpus de référence de l'anglais Britannique écrit et oral. 9
Utilisations en lexicographie • Les lexicographes ont utilisées des corpus, ou des ensembles de citations, bien avant que la linguistique de corpus ne se développe (voir par exemple le célèbre dictionnaire de Samuel Johnson, de même que l’Oxford English Dictionary). • À présent, l'existence de larges collections de textes et la possibilité de les consulter et manipuler très rapidement est en train de changer la pratique de la lexicographie. • D'habitude, les lexicographes compilent les entrées d'un dictionnaire sur la base de leurs propres intuitions et d'une collection d'exemples qu'ils collectent à la main (ils utilisent des fiches d'exemples). Un corpus peut ajouter de l'information supplémentaire. 10
Utilisations en lexicographie • Par exemple, Atkins and Levin se sont occupés de certaines verbes dans la même classes que le verbe shake (trembler). • Elles ont consulté le LDOCE (Oxford's Advanced Learner's Dictionary) et COBUILD. Les deux dictionnaires indiquaient que les verbes quake et quiver sont toujours intransitifs (n'ont pas de COD). Par contre, si on consulte un corpus de 50 millions de mots, on trouvera que les deux verbes peuvent être utilisés dans la forme transitive. 11
Utilisations en théorie linguistique • Les corpus sont important pour la recherche linguistique au niveau des phrases et de la syntaxe, car, d'un côté, ils fournissent des informations quantitatives, et, de l'autre côté, ils sont des réservoirs d'exemples naturels de l'usage de la langue. Ils peuvent être utilisés comme ressources pour tester une théorie grammaticale donnée. • Pour illustrer le deuxième point, voici un exemple. 12
Corpus et théorie linguistique • Sampson (1987) analysa manuellement un ensemble de syntagmes nominaux. Il arriva à la conclusion qu'une grammaire générative ne pouvait pas être utilisée pour analyser des données textuelles, car il y a trop de constructions différentes. • Taylor, Grover et Briscoe (1989) contredirent cette hypothèse, à l'aide d'un analyseur syntaxique, basée sur une grammaire. Leur analyseur marche correctement dans 96. 88 % de cas. Les cas incorrectes sont facilement analysable comme lacune de couverture de la grammaire, et ils ne sont pas de cas isolés. • La conclusion est que une grammaire générative peut, en principe, rendre compte des phénomènes naturels des données textuelles. 13
Le British National Corpus Plusieurs projets de constitution de corpus de référence ont été menés à bien aux États-Unis : corpus Brown; et en Angleterre : corpus Lancaster-Oslo/Bergen (LOB). Rappel : Il s'agit d'associer étroitement deux caractéristiques une taille suffisante la diversité des usages représentés. Le BNC compte 100 millions de mots étiquetés. Il mêle oral (10 %) et écrit (textes de fiction à partir de 1960 et textes «informatifs» à partir de 1975). 14
The British National Corpus : les usages En ce qui concerne l'écrit, les variables prises en compte sont le domaine (textes informatifs et textes de fiction), le support (livres, périodiques, discours), la datation et la diffusion (sélection parmi les listes des meilleures ventes, celles de prix littéraires, les indications de prêts en bibliothèque, etc. ). L'accent mis sur la diffusion réelle certifie la représentation d'usages majeurs de l'anglais. Pour l'oral, des conversations spontanées ont été recueillies à partir d'un échantillonnage démographique en termes d'âge, de sexe, de groupe social et de région. Ont été également intégrées des transcriptions d'interactions orales typiques dans divers domaines : affaires (réunions, prises de parole syndicales, consultations médicales ou légales); éducation et information (cours et conférences, informations radio-télévisées); prises de parole publiques (sermons, discours politiques, discours parlementaires et légaux); loisirs (commentaires sportifs, réunions de clubs). 15
The British National Corpus : la taille Le corpus compte 100’ 106’ 008 de mots, et il occupe 1, 5 gigaoctets d’espace disque. Pour vous donner une perspective, si on imprimait le corpus en petite police sur papier très fin (comme livre de poche) il occuperait 10 mètres d’étagère. (Un livre de poche habituel consiste en 250 pages pour chaque centimètre d’épaisseur, et il a 400 mots par page. ) Si on le lisait à haute voix, à la vitesse plutôt rapide de 150 mots par minute, 8 heures par jour, 365 jours par an, il nous faudrait un peu plus de 4 ans pour le lire entièrement. Il y a 6 million 250 milles phrase dans le corpus. La segmentation et l’étiquetage ont été fait automatiquement avec le tagger stochastique CLAWS développé à l’université de Lancaster. On utilise 65 partie du discours. 16
The British National Corpus : exemple <p> <s n="38"><w VVG-NN 1>Raising <w NN 1>money <w PRP>for <w DPS>your <w AJ 0 -NN 1>favourite <w NN 1>charity <w VM 0>can <w VBI>be <w AJ 0>fun<c PUN>. <s n="39"><w PNP>You <w VM 0>can <w VDI>do <w PNP>it <w PRP-AVP>on <w DPS>your <w DT 0>own <w CJC>or <w PNP>you <w VM 0>can <w VVI>get <w AV 0>together <w PRP>with <w NN 1>family <w CJC>and <w NN 2>friends<c PUN>. <s n="40"><w EX 0>There <w VBZ>is <w AT 0>no <w NN 1>limit <w PRP>to <w AT 0>the <w NN 1>number <w PRF>of <w NN 2>ways <w TO 0>to <w VVI>raise <w NN 1>money<c PUN>. <s n="41"><w CJS>Whether <w AT 0>the <w AJ 0>final <w NN 1>total <w VBZ>is <w NN 0>£ 5 <w CJC>or <w NN 0>£ 5, 000<c PUN>, <w PNP>it <w VBZ>is <w DT 0>all <w AV 0>very <w AV 0>much <w VVNVVD>needed<c PUN>. </p> 17
Autres Corpus pour l'anglais The Bank of English http: //titania. cobuild. collins. co. uk/boe_info. html http: //titania. cobuild. collins. co. uk/direct_info. html The International Corpus of English (ICE) http: //www. ucl. ac. uk/english-usage/ice. htm 18
Corpus français (projet PAROLE) • Différemment du BNC, les récents projets de constitution de corpus en France reposent plutôt sur l'assemblage de données préexistantes. • Exemple : corpus réalisé dans le cadre du projet européen Parole (1996 -1998). 19
Corpus français (projet PAROLE) • Les 20 093 099 mots obtenus se répartissent à l'issue du projet en 2 025 964 mots de transcriptions de débats au parlement européen, 3 267 409 mots d'une trentaine d'ouvrages de disciplines variées (en sciences humaines) fournis par CNRS-Éditions, 942 963 mots provenant des notes de vulgarisation de la revue CNRS Info et d'articles sur la communication de la revue Hermès 13 856 763 mots correspondant à 25 654 articles provenant du choix aléatoire de numéros entiers parmi ceux des années 1987, 1989, 1991, 1993 et 1995 du journal Le Monde. • Les données rassemblées sont variées, mais pas représentatives des emplois principaux du français : un seul journal, quotidien. La presse régionale, les hebdomadaires, la presse spécialisée sont absents, ainsi que les langages techniques et scientifiques. Néanmoins, très utile en pratique. 20
Corpus Français University of Virginia Electronic Text Centre Corpus téléchargeables dans plusieurs langues (y compris le français) http: //etext. lib. virginia. edu/uvaonline. html Corpus lexicaux québécois (Onze corpus (entre autres, le Trésor de la langue française au Québec) http: //www. spl. gouv. qc. ca/banque. html Corpus 56 56 articles de journaux (français, canadiens, suisses) http: //tactweb. chass. utoronto. ca/french/corp_dat. htm Ina. LF – Institut National de la Langue Française http: //www. inalf. fr/produits. html 21
Corpus arborés Une collection de textes permet d'engendrer de multiples corpus distincts. Chacun de ces corpus peut donner lieu à des annotations variées: étiquetage morpho-syntaxique, projection de catégories sémantiques, lemmatisation, etc. Description de corpus arborés : http: //www. u-grenoble 3. fr/idl/cursus/enseignants/tutin/corpus. htm http: //treebanks/linguist/jussieu/index. html 22
Constitution du Penn Treebank Le Penn Treebank a été constitué entre 1989 et 1992 (1ère phase). C’est un corpus annoté d’environ 4. 5 millions de mots d’anglais-américain. L’ensemble de ce corpus a presque entièrement été analysé par arbres. http: //www. cis. upenn. edu/~treebank/ Composition résumés du Département d’énergie (230'000 mots) articles du Dow Jones Newswire (3 mos de mots dont 1 mo arboré) bulletins du Département d’agriculture (80'000 mots) bibliothèque de textes américains (105'000 mots) messages MUC-3 (infos sur les terroristes en Amérique du Sud) (112 K mots) phrases d’ATIS (phrases spontanées transcrites) (20'000 mots) phrases prononcées en radio (10'000 mots) Brown Corpus réétiqueté (1’ 200’ 000 mots) phrases des manuels IBM (90'000 mots) 23
Étiquetage du Penn Treebank Le Penn Treebank est en fait un corpus semi-automatisé car l’étiquetage et la parenthétisation sont automatiquement analysés, mais ensuite corrigés par des annotateurs humains. L’étiquetage du Penn Treebank est basé sur celui du Brown Corpus qui comportait 87 étiquettes simples. Le nombre d’étiquettes a été réduit en éliminant les redondances (c'est-à-dire en tenant compte des informations lexicales et syntaxiques), on arrive ainsi à 48 étiquettes (36 étiquettes des parties du discours et 12 autres pour la ponctuation et les symboles monétaires. ) Lorsque les annotateurs ne réussissent pas à désambiguïser, ils ont la possibilité de combiner deux étiquettes. Ainsi, les décisions arbitraires sont évitées. 24
Étiquetage du Penn Treebank Exemples Le nombre d’étiquettes a été réduit. On a éliminé les distinctions que l’on peut déduire en tenant compte des 1) informations lexicales 2) informations syntaxiques. (1) Brown PTB sing/VB am/BE sing/VB am/VB sang/VBD was/BEDZ sang/VBD was/VBD (2) conjonctions de subordination et prépositions reçoivent la même étiquette IN, car les conjonctions précèdent toujours une phrase tandis que les prépositions précèdent des SN. 25
Étiquetage du Penn Treebank Le jeu d'étiquette code la fonction grammatical si possible afin de faciliter une analyse syntaxique ultérieure. Exemple Brown PTB the one/CD the one/NN the ones/NNS the fallen/JJ leaf the fallen/VBN leaf 26
Étiquetage du Penn Treebank 1ère phase : l'étiquetage automatique Cet étiquetage est réalisé par PARTS, un algorithme développé par les laboratoires ATT. Il s'agit en fait d'une version modifiée de l'étiquetage du Brown Corpus, puis de plusieurs étiqueteurs. Le taux d'erreurs est de 7. 9%. 2 e phase : la correction manuelle Cette correction est réalisée simplement avec une souris en positionnant le curseur sur une étiquette fausse et en entrant l'étiquette souhaitée. Cette donnée entrée automatiquement est vérifiée afin de voir si elle appartient bien à la liste d'étiquettes. Si elle est valide, elle est ajoutée à la paire motétiquette séparée par un astérisque. L'étiquette fausse n'est pas supprimée afin d'identifier les erreurs produites à l'étiquetage automatique des parties du discours. (Dans la version de distribution du corpus, les étiquettes fausses de l'étape automatique sont supprimées. ) 27
Parenthétisation du Penn Treebank 3 e phase : la parenthétisation automatique (réalisé par Fidditch) Fidditch est un analyseur développé par Donald Hindle (d'abord à l'université de Pennsylvanie, puis aux laboratoires de l'ATT), qui est utilisé pour fournir une analyse initiale. Cet algorithme laisse beaucoup de constituants non rattachés qui sont étiquetés "? ". Il s'agit des syntagmes prépositionnels, des propositions relatives et des compléments circonstanciels. À ce niveau-là, on n'a pas encore véritablement d'arbre, mais plutôt plusieurs fragments d'arbres. 4 e phase : la parenthétisation simplifiée automatiquement Les représentations sont simplifiées et aplaties par la suppression des étiquettes de parties du discours, des nœuds lexicaux non-branchés et de certains nœuds. 28
Parenthétisation du Penn Treebank 5 e phase : La correction du parenthétisation Cette correction est aussi réalisée à l'aide d'une souris. Les annotateurs collent tout d'abord les fragments ensemble, ils corrigent les analyses incorrectes et effacent certaines structures. La correction des structures parenthétisées est plus difficile à réaliser que la correction de l'étiquetage des parties du discours. Comme on veut que le Penn Treebank contienne seulement des structures certaines , il y a deux façons d'annoter les structures incertaines : l'étiquette de constituant X et le "pseudo-attachement". L'étiquette de constituant X est utilisé si un annotateur est sûr qu'une séquence de mots est un constituant majeur, mais pas sûr de sa catégorie syntaxique. Dans ces cas, l'annotateur parenthèse seulement la séquence et l'étiquette X. Le "pseudo-attachement" est utilisé pour annoter "les ambiguïtés permanentes prévisibles". L'annotateur indique cela quand une structure est globalement ambiguë même donnée dans un contexte. 29
Exemple d'arbres du Penn Treebank – phase 3 ( (S (NP (ADJP Battle-tested industrial) managers) (? here) (? always) (VP buck)) (? (PP up (NP nervous newcomers))) (? (PP with (NP the tale (PP of (NP the (ADJP first)))))) (? (PP of (NP their countrymen))) (? (S (NP *) to (VP visit (NP Mexico)))) (? , ) (? (NP a boatload (PP of (NP warriors)) (VP blown (? ashore) (NP 375 years)))) (? ago) (? . )) Battle-tested industrial managers here always buck up nervous newcomers with the tale of the first of their countrymen to visit Mexico a boatload of warriors blown ashore 375 years ago 30
Exemple d'arbres du Penn Treebank – phase 5 ( (S (NP Battle-tested industrial managers here) always (VP buck up (NP nervous newcomers) (PP with (NP the tale (PP of (NP the (ADJP first (PP of (NP their countrymen))) (S (NP *) to (VP visit (NP Mexico)))) , (NP a boatload (PP of (NP warriors) (VP-1 blown ashore (ADVP (NP 375 years) ago))))) (VP-1 *pseudo-attach*)))). ) 31
Tests comparatifs et évaluation du Penn Treebank Au tout début du projet, une expérience a été réalisée concernant deux modes d'annotation : - l'étiquetage manuel : des annotateurs ont étiqueté des textes entièrement non annotés, à la main - la "correction" : ils ont vérifié et corrigé la production de PARTS. Ce test a montré que l'étiquetage manuel est deux fois plus long que la simple correction (44 min/1000 mots contre 20 minutes) avec deux fois plus de taux de désaccord (7. 2% contre 3. 5%) et un taux d'erreurs 50% plus élevé. En ce qui concerne la structure, les annotateurs peuvent corriger la structure pleine fournie par Fidditch à une vitesse moyenne d'environ 375 m/h après 3 semaines et d'environ 475 m/h après 6 semaines. La réduction à une représentation plus squelettique augmente la productivité de l'annotateur d'environ 100 à 200 mots/heure. Après 3 ou 4 mois d'entraînement, les annotateurs produisent environ 750, voire même pour certains plus de 1000 mots/heure. Le taux d'erreurs de la version finale estimé à environ 1 %. 32
Corfrans : corpus arboré en français Annotation morpho-syntaxique d’environs 400’ 000 mots avec plusieurs variétés de français (présentés dans le Monde, le Hansard, l’hebdo…). Marquage syntaxique automatique avec l’analyseur Shallow parseur développé par A. Kinyon qui annote les frontières en minimisant les cas de rattachement (il se base sur les mots fonctionnels pour déterminer les frontières de constituants). Correction manuelle des erreurs commises lors de l’analyse. Un outil d’aide à la correction pour les annotateurs a été conçu. Définition d’un standard d’annotation en constituants qui évite les syntagmes vides, les syntagmes discontinus qui posent problème lors de la réalisation d’arbres syntaxiques. Évaluation et enrichissement du corpus, dans le but de faire le point sur les besoins et les outils des producteurs et utilisateurs de corpus. 33
Corfrans : corpus arboré en français Comment l’équipe gère-t-elle le problème de la discontinuité de la négation ? Ex : Jean ne veut pas venir ne pas pourrait éventuellement être adverbe continu car il existe des phrases comme Jean préfère ne pas venir mais pour une discontinuité avec d’autre mots négatifs je ne veux voir personne on ne peut pas faire un constituant ne personne car elle ne se trouve jamais dans une séquence *je préfère ne personne voir. Il n’y aura donc pas de syntagmes discontinues. 34
Corfrans : corpus arboré en français Les solutions L’adverbe négatif "ne" fait toujours parti du noyau verbal par contre les forclusifs (mots négatifs : pas, jamais, rien ) ne sont pas rattaché au VN sauf s’ils sont entre l’auxiliaire et le participe passé. Ex : Je <VN> ne veux </VN> pas <VPinf> <VN> venir </VN> </VPinf> Jean <VN> n’est pas venu </VN> Je <VN> n’ai <NP> rien : Pro </NP> vu </VN> 35
Negr@ Corpus arborés de l'allemand http: //www. coli. uni-sb. de/sfb 378/negra-corpus. html 355, 096 tokens (20, 602 phrases) tirés du quotidien allemand Frankfurter Rundschau (Multilingual Corpus 1 de la European Corpus Initiative). Le corpus est étiqueté et arboré. Les arbres peuvent avoir des branches croisées. Si l'on désire, on peut transformer les branches croisés en trace et obtenir le même format du Penn Treebank. 36
Negr@ Corpus Différents types d'information dans le corpus Part-of-Speech Tags -- Stuttgart-Tübingen-Tagset (STTS) Analyse Morphologique (60, 000 tokens) Catégories syntaxiques et fonction grammaticales 37
Negr@ Corpus exemple (CS (S-CJ (PPER-SB Sie) (VVFIN-HD gehen) (CNP-OA (NP-CJ (ADJA-NK gewagte) (NN-NK Verbindungen) ) (KON-CD und) (NN-CJ Risiken) ) (PTKVZ-SVP ein) ) ($, , ) (S-CJ (VVFIN-HD versuchen) (VP-OC (NP-OA (PPOSAT-NK ihre) (NN-NK Möglichkeiten) ) (VVIZU-HD auszureizen) ) ) ($. . ) 38
Canadian Hansards A bilingual corpus of the proceedings of the Canadian parliament Contains parallel texts in English and French which have been used to investigate statistically based machine translation. 39
<PAIR> <ENGLISH> no , it is a falsehood. </ENGLISH> <FRENCH> non , ce est un mensonge. </FRENCH> </PAIR> <ENGLISH> Mr. Speaker , the record speaks for itself with regard to what I said about the price of fertilizer. </ENGLISH> <FRENCH> monsieur le Orateur , ma déclaration sur le prix de les engrais a été confirmée par les événements. </FRENCH> 40 </PAIR>
Les corpus étiquetés sémantiques 41
Framenet (from their web page) The Berkeley Frame. Net project is creating an on-line lexical resource for English, based on frame semantics and supported by corpus evidence. The aim is to document the range of semantic and syntactic combinatory possibilities (valences) of each word in each of its senses, through manual annotation of example sentences and automatic capture and organization of the annotation results. 42
Framenet: basic concepts A lexical unit is a pairing of a word with a meaning. Typically, each sense of a polysemous word belongs to a different semantic frame, a script-like structure of inferences that characterize a type of situation, object, or event. Each frame contains a predicates and what are called frame elements (FEs) - participants and props in the frame whose linguistic expressions are syntactically connected to the target word. 43
Framenet Annotation: example Revenge frame Definition An Avenger performs some Punishment on an Offender as a response to an earlier action, the Injury, that was inflicted on an Injured_party. The Avenger need not be identical to the Injured_party but needs to consider the prior action of the Offender a wrong. Importantly, the punishment of the Offender by the Avenger is seen as justified by individual or group opinion rather than by law. Frame elements in the Revenge frame are Avenger, Punishment, Offender, Injury, and Injured_party. 44
Framenet Annotation: example Lexical units in this frame include avenge. v, avenger. n, get even. v, retaliate. v, retaliation. n, retributive. a, retributory. a, revenge. v, revenge. n, revengeful. a, revenger. n, vengeance. n, vengeful. a, and vindictive. a. Some example sentences with the lexical unit avenge are given here. [His brothers Avenger] avenged [him Injured_party]. With this, [El Cid Agent] at once avenged [the death of his son Injury]. [Hook Avenger] tries to avenge [himself Injured_party] [on Peter Pan Offender] [by becoming a second and better father Punishment]. 45
Framenet Annotation: example Here goes a screen dump 46
Framenet Annotation: easy cases Annotation is easiest when all and only the core frame elements (the conceptually necessary participants of the frame that a syntactic governor evokes) find syntactic expression in the sentence as separate immediate syntactic dependents of the governor. 47
Framenet Annotation: not so easy cases Non core frame elements are conceptually not necessary in the sense that they do not uniquely characterize the frame. Thus, for most frames standing for events or processes, Time and Place frame elements are not core, and therefore may not always be annotated. Similarly, actions often have a Purpose that the Agent intends to accomplish by performing the action indicated by the target word. However, having a purpose doesn't usually distinguish types of actions and so Purpose is often a non-core frame element, as in the following example: They wake you up [to give you a sleeping pill Purpose]. 48
Framenet Annotation: missing frame elements Sometimes FEs that are conceptually salient do not show up as lexical or phrasal material in the sentence chosen for annotation. They are however annotated to indicate omissibility conditions. Constructional Null Instantiation (CNI): Constructionally omitted constituents (also called structurally omitted) have their omission licensed by a grammatical construction in which the target word appears and are therefore more or less independent of the LU. Cases of CNI include: the omitted subject of imperative sentences, the omitted agent of passive sentences, the omitted subjects of independent gerunds and infinitives (PRO), and so on 49
Framenet Annotation: missing frame lements • Family feuds last for generations, and [slurs on honor Injury] are avenged [by murder Punishment]. [CNI Avenger] • Get even [with her Offender] [for this Injury] [CNI Avenger] • In addition, we use CNI for missing objects in instructional imperatives such as exemplified below, even though in this case the omission is not dependent on a particular construction, but rather on a genre. • Cook on low heat until done. [CNI Food] • Tie together loosely. [CNI Items] 50
Framenet Annotation: missing frame elements Definite Null Instantiation (DNI): Cases of definite null (also called anaphoric) instantiation are those in which the missing element must be something that is already understood in the linguistic or discourse context. In the following example, the Offender is not expressed overtly in the syntax, but its referent has to be known in the context. [The monkey Avenger] avenged [himself Injured_party] [by growing to the size of a giant and setting fire to the city Punishment]. [Offender DNI] 51
Framenet Annotation: missing frame elements Indefinite Null Instantiation (INI): The indefinite cases (sometimes also referred to as existential) are illustrated by the missing objects of verbs like eat, sew, bake, drink, etc. , that is, cases in which these ordinarily transitive verbs can be spoken of as used intransitively. Molly rarely eats alone; Granny begins baking about a month before Christmas; Jo even drinks heavily on weeknights. There are often special interpretations of the existentially understood missing objects: for example, with eat the missing entity is likely to be a meal, with bake it is likely to be flour based foods, with drink it is likely to be alcoholic beverages, etc. 52
Framenet Annotation: missing frame elements Indefinite Null Instantiation (INI) continued There is no need to retrieve or construct a specific discourse referent. For example, in the Revenge frame, all lexical units happen to allow the frame element Punishment to be omitted under indefinite null instantiation. He took it out on Scarlet in the same way as [he Avenger] avenged [himself Injured_party] [on her Offender] [for the pressures at work and the demands of his first wife Injury]]. [INI Punishment] Note that usually verbs in a frame differ in this respect. For instance, while eat allows its object to be omitted, devour does not, even though they are both in the Ingestion frame. 53
Framenet Annotation: frame element conflation In some cases, information about two frame elements is expressed in a single constituent, a situation we call conflation. For instance, in the Revenge frame, the Injured_party may be contained as a possessive in the phrase that realizes the Injury frame element as seen in the following example: [He Avenger] avenged [Pedro 's death Injury] [by taking out the poker -faced Guards Officer Punishment]. In this example, the possessive Pedro's realizes the frame element Injured_party, the person who suffered the Injury. Also, We ousted Jones as mayor vs. We ousted the mayor, where the direct object stands for both the office and the incumbent. 54
Penn Proposition Bank all following transparencies on Proposition Bank from web page of ACE project http: //www. cis. upenn. edu/~mpalmer/project_pages /ACE. htm director: Professor Martha Palmer University of Colorado 55
Proposition Bank How much can current statistical NLP systems be made more domain-independent without prohibitive costs, either in terms of engineering or annotation? The Proposition Bank is designed as a broad coverage resource to facilitate the development of more general systems. It focuses on the argument structure of verbs, and provides a complete corpus annotated with semantic roles. Correctly identifying the semantic roles of the sentence constituents is a crucial part of interpreting text, for information extraction machine translation or automatic summarization. http: //www. cis. upenn. edu/~mpalmer/project_pages/ACE. htm 56
Prop. Bank The Proposition Bank project takes a practical approach to semantic representation, adding a layer of predicate-argument information, or semantic roles, to the syntactic structures of the Penn Treebank. The resulting resource can be thought of as shallow, in that it does not represent coreference, quantification, and many other higherorder phenomena, but also broad, in that it covers every verb in the corpus and allows representative statistics to be calculated. http: //www. cis. upenn. edu/~mpalmer/project_pages/ACE. htm 57
Proposition Bank: From Sentences to Propositions http: //www. cis. upenn. edu/~mpalmer/project_pages/ACE. htm Powell met Zhu Rongji battle wrestle join debate Powell and Zhu Rongji met Powell met with Zhu Rongji Powell and Zhu Rongji had a meeting consult Proposition: meet(Powell, Zhu Rongji) meet(Somebody 1, Somebody 2) . . . When Powell met Zhu Rongji on Thursday they discussed the return of the spy plane. meet(Powell, Zhu) discuss([Powell, Zhu], return(X, plane)) 58
Capturing semantic roles* http: //www. cis. upenn. edu/~mpalmer/project_pages/ACE. htm SUBJ George broke [ ARG 1 the laser pointer. ] SUBJ [ARG 1 The windows] were broken by the hurricane. SUBJ [ARG 1 The vase] broke into pieces when it toppled over. 59
A Tree. Banked Sentence http: //www. cis. upenn. edu/~mpalmer/project_pages/ACE. htm (S (NP-SBJ Analysts) (VP have (VP been VP (VP expecting (NP a GM-Jaguar pact) have VP (SBAR (WHNP-1 that) NP-SBJ been VP (S (NP-SBJ *T*-1) Analysts (VP would expecting. NP (VP give SBAR (NP the U. S. car maker) NP S (NP an eventual (ADJP 30 %) stake) a GM-Jaguar WHNP-1 VP (PP-LOC in (NP the British company)))))) pact that NP-SBJ VP *T*-1 would NP give PP-LOC NP Analysts have been expecting a GM-Jaguar NP the US car pact that would give the U. S. car maker an NP an eventual maker eventual 30% stake in the British company. in the British 30% stake company S 60
The same sentence, Prop. Banked http: //www. cis. upenn. edu/~mpalmer/project_pages/ACE. htm (S Arg 0 (NP-SBJ Analysts) (VP have (VP been Arg 1 (VP expecting Arg 1 (NP a GM-Jaguar pact) (SBAR (WHNP-1 that) (S Arg 0 (NP-SBJ *T*-1) a GM-Jaguar (VP would pact (VP give Arg 2 (NP the U. S. car maker) Arg 1 (NP an eventual (ADJP 30 %) stake) (PP-LOC in (NP the British company)))))) Arg 0 that would give have been expecting Arg 0 Analysts Arg 1 *T*-1 Arg 2 the US car maker an eventual 30% stake in the British company expect(Analysts, GM J pact) give(GM J pact, US car maker, 30% stake) 61
Frames File Example: expect Roles: Arg 0: expecter Arg 1: thing expected Example: Transitive, active: Portfolio managers expect further declines in interest rates. Arg 0: REL: Arg 1: Portfolio managers expect further declines in interest rates http: //www. cis. upenn. edu/~mpalmer/project_pages/ACE. htm 62
Frames File example: give Roles: Arg 0: giver Arg 1: thing given Arg 2: entity given to Example: double object The executives gave the chefs a standing ovation. Arg 0: The executives REL: gave Arg 2: the chefs Arg 1: a standing ovation http: //www. cis. upenn. edu/~mpalmer/project_pages/ACE. htm 63
Word Senses in Prop. Bank Orders to ignore word sense not feasible for 700+ verbs Mary left the room Mary left her daughter-in-law her pearls in her will Frameset leave. 01 "move away from": Arg 0: entity leaving Arg 1: place left Frameset leave. 02 "give": Arg 0: giver Arg 1: thing given Arg 2: beneficiary http: //www. cis. upenn. edu/~mpalmer/project_pages/ACE. htm 64
Annotation procedurehttp: //www. cis. upenn. edu/~mpalmer/project_pages/ACE. htm PTB II - Extraction of all sentences with given verb Create Frame File for that verb (3100+ lemmas, 4400 framesets, 118 K predicates) Over 300 created automatically via Verb. Net First pass: Automatic tagging http: //www. cis. upenn. edu/~josephr/TIDES/index. html#lexicon Second pass: Double blind hand correction Tagging tool highlights discrepancies Third pass: Solomonization (adjudication) 65
Trends in Argument Numbering http: //www. cis. upenn. edu/~mpalmer/project_pages/ACE. htm Arg 0 = agent Arg 1 = direct object / theme / patient Arg 2 = indirect object / benefactive / instrument / attribute / end state Arg 3 = start point / benefactive / instrument / attribute Arg 4 = end point Per word vs frame level – more general? 66
Additional tags http: //www. cis. upenn. edu/~mpalmer/project_pages/ACE. htm (arguments or adjuncts? ) Variety of Arg. M’s (Arg#>4): TMP - when? LOC - where at? DIR - where to? MNR - how? PRP -why? REC - himself, themselves, each other PRD -this argument refers to or modifies another ADV –others 67
Inflection http: //www. cis. upenn. edu/~mpalmer/project_pages/ACE. htm Verbs also marked for tense/aspect Passive/Active Perfect/Progressive Third singular (is has does was) Present/Past/Future Infinitives/Participles/Gerunds/Finites Modals and negations marked as Arg. Ms 68
Frames: Multiple Framesetshttp: //www. cis. upenn. edu/~mpalmer/project_pages/ACE. htm Framesets are not necessarily consistent between different senses of the same verb Framesets are consistent between different verbs that share similar argument structures, (like Frame. Net) 69
Résumé du cours • Corpus collection de plus d’un texte • Propriétés représentatif, de taille finie, électronique • Types de corpus équilibré par échantillonnage de contrôle référence Utilisations lexicographie, théorie linguistique données d’entraînement pour apprentissage automatique Exemples de corpus de référence British National Corpus arboré Penn Treebank, Corfrans, Negr@ sémantique Frame. Net Prop. Bank 70
- Slides: 70