ACLDCI The Association for Computational Linguistics Data Collection
































- Slides: 32
第三代语料库 • ACL/DCI语料库 – The Association for Computational Linguistics – Data Collection Initiative • UPenn树库 • LDC( Linguistic Data Consortium ) 超大规模(上亿词级)标准编码体系深度标注/多语种NLP应用 1/25/2022 中文信息处理--基于语料库的 作 10
标记化:什么是一个词 电话号码 国家 0171 378 0647 UK +45 43 48 60 60 Denmark (44. 171 830 1007) UK 95 -51 -279648 Pakistan +44 (0) 1225 753678 UK +411/284 3797 Switzerland 01256 468661 UK (94 -1) 866854 Sri Lanka (202) 522 -2239 USA +49 69 136 -2 98 05 Germany 1 -925 -225 -3000 USA 33 1 34 43 32 36 212. 995. 5402 USA ++31 -20 -5200161 1/25/2022 中文信息处理--基于语料库的 作 France The Netherlands 21
自适应的句子边界检测 • Dr. J. M. Freeman and T. Boone Pickens Jr. • David D. Palmer, Marti A. Hearst, Adaptive Sentence Boundary Disambiguation, Technical Report, 97/94 , UC Berkeley: 9899% correct 1/25/2022 中文信息处理--基于语料库的 作 26
SGML例子 • <p> <s> This book does not delve very deeply into • • SGML. </s> … <s> In XML, such empty elements may be specifically marked by ending the tag name with a forward slash character. </s></p> <utt speak=“Mary”, date = “now”> SGML can be very useful. </utt> Character and Entity codes: begin with ampersand end with semicolon – &#x 43; is the less than symbol→ < is the less than symbol – ré sumé → rèsumè 1/25/2022 中文信息处理--基于语料库的 作 28
语法标注 • • Tagging corresponds to indicating the various • • conventional parts of speech. Tagging can be done automatically (we will talk about that in a later lecture). 多种标注集,e. g. , Brown Tag Set, University of Lancaster Tag Set, Penn Treebank Tag Set, British National Corpus (CLAWS*), Czech National Corpus 标注集的设计 – 标注集的特征– Target Features: useful information on the grammatical class • – Predictive Features: useful for predicting behavior of other words in context (e. g. , distinguish modals and auxiliary verbs from regular verbs) 1/25/2022 中文信息处理--基于语料库的 作 29
Pen Treebank标注集 • Adjective: JJ, JJR, JJS • Cardinal: CD • Adverb: RB, RBR, • • • RBS, WRB Conjunction: CC, IN (subordinating and that) Determiner: DT, PDT, WDT Noun: NN, NNS, NNPS (no distinction for adverbial) 1/25/2022 • Pronoun: PRP, PRP$, WP, • • • WP$, EX Verb: VB, VBP, VBZ, VBD, VBG, VBN (have, be, and do are not distinguished) Infinitive marker (to): TO Preposition to: TO Other prepositions: IN Punctuation: . ; , - $ ( ) ``’’ FW, SYM, LS 中文信息处理--基于语料库的 作 30
标注集 • General definition: – Tags can be represented as a vector: (c 1, c 2, . . . , cn) – Thought of as a flat list T = { ti }i=1. . n with some assumed 1: 1 mapping T (C 1, C 2, . . . , Cn) • English tagsets: – Penn treebank (45) (VBZ: Verb, Pres, 3, sg, JJR: Adj. Comp. ) – Brown Corpus (87), Claws c 5 (62), London-Lund (197) 1/25/2022 中文信息处理--基于语料库的 作 31
其它语言的标注集 • Differences: – – Larger number of tags categories covered (POS, Number, Case, Negation, . . . ) level of detail presentation (short names vs. structured (“positional”)) • Example: 1/25/2022 中文信息处理--基于语料库的 作 32