Tagging PLN Tagging POS Tagging Taggers basados en
Tagging • • PLN Tagging POS Tagging Taggers basados en reglas Taggers estadísticos Otras aproximaciones 1
POS Tagging: … problema Las palabras, tomadas en forma aislada, son ambiguas respecto a su categoría Yo bajo con el hombre bajo a PP VM VM AQ NC SP SP TD NC VM VM AQ NC SP tocar el bajo la escalera. VM VM PLN Tagging TD VM VM AQ NC SP TD NC PP NC FP 2
pero. . . La categoría de la mayoría de las palabras no es ambigua dentro de un contexto Yo bajo con el hombre bajo a PP VM VM AQ NC SP SP TD NC VM VM AQ NC SP tocar el bajo la escalera. VM VM PLN Tagging TD VM VM AQ NC SP TD NC PP NC FP 3
solución desambiguador morfosintáctico (Pos tagger) El objetivo de un desambiguador (tagger) es el de asignar a cada palabra la categoría más "apropiada", dentro de un contexto PLN Tagging • Basados en reglas • Estadísticos • Híbridos 4
Taggers W T = w 1 w 2 … wn cadena de palabras = t 1 t 2 …tn cadena de etiquetas Para cada palabra wi sólo algunas de las etiquetas son válidas (excepto las palabras desconocidas). Podemos obtenerlas a partir de undiccionario o de un analizador morfológico. f : W T = f(W) PLN Tagging 5
Taggers Basados en reglas 1 • Utilización de conocimiento lingüístico (knowledge-driven taggers) • Construcción (normalmente) manual de las reglas • Número limitado ( 1000) de reglas • Modelos del lenguaje y generalizaciones establecidos de forma explícita PLN Tagging 6
Taggers Basados en reglas 2 + Reglas motivadas lingüísticamente + Alta precisión + ej. Eng. CG 99. 5% – Alto coste de desarrollo – No transportable – mayor coste de etiquetado PLN Tagging • TAGGIT, Green, Rubin, 1971 • TOSCA, Oosdijk, 1991 • Constraint Grammars, Eng. CG, Voutilainen, 1994, Karlsson et al, 1995 • AMBILIC, de Yzaguirre et al, 2000 7
ejemplo: Constraint Grammars 1. Una CG consiste en una secuencia de subgramáticas cada una de las cuales consiste en una serie de restricciones (constraints) que establecen condiciones de contexto 1. ej. (@w =0 VFIN (-1 TO)) 1. descarta la categoría VFIN si la palabra anterior es “to” 2. ENGCG 1. ENGTWOL 2. desambiguación morfosintáctica reduccionisa 1. 1100 constraints 2. 93 -97% de las palabras quedan totalmente desambiguadas 3. 99. 7% corrección 4. reglas heurísticas aplicables sobre el residuo 1. 2 -3% ambigüedad residual con 99. 6% de precisión 3. CG sintáctica PLN Tagging 8
Taggers Estadísticos 1 • Modelos del lenguaje y generalizaciones adquiridos automáticamente (a partir de corpus) • Data-driven taggers • Uso de inferencia estadística • Técnicas procedentes del tratamiento del habla PLN Tagging 9
Taggers Estadísticos 2 + Marco teórico bien fundamentado + Aproximación clara. Modelos simples. + Precisión aceptable + > 97% + Independencia de la lengua – Aprendizaje del modelo • • • CLAWS, Garside et al, 1987 De Rose, 1988 Church, 1988 Cutting et al, 1992 Merialdo, 1994 – Sparseness – Menor precisión PLN Tagging 10
Taggers Estadísticos 3 • Modelos del lenguaje de tipo N-gram • suavizado (smoothing) • interpolación • Modelos ocultos de Markov (HMM) • Aprendizaje supervisado • ML (maximum likelihood) • Charniak, 1993 Jelinek, 1998 Manning, Schütze, 1999 Aprendizaje semi-supervisado • Forward-Backward, Baum-Welch (EM Expectation Maximization) PLN Tagging 11
Aplicación al tagging • Las palabras se clasifican en función de sus etiquetas morfosintácticas • modelo 1 -grama • • • PLN Tagging MLE si se dispone de corpus etiquetado (desambiguado) EM si no es así Problema de la sparseness 12
ejemplo: Tagger basado en 3 -gram Probabilidad contextual (trigrams) PLN Tagging Probabilidad léxica 13
Taggers basados en modelos más complejos 1 • Transformaciones guiadas por los errores (Transformation-based, errordriven) Brill, 1995 Roche, Schabes, 1995 • sistema híbrido: basado en reglas adquiridas semi-automáticamente • Máxima Entropía • Combinación de varias fuentes de conocimiento Ratnaparkhi, 1998, Rosenfeld, 1994 Ristad, 1997 • No se asume independencia • Admite gran número de parámetros (ej. rasgos léxicos) PLN Tagging 14
ejemplo: Tagger de Brill • Basado en reglas de transformación que solucionan los errores producidos por un tagger inicial de tipo HMM • regla • cambiar la etiqueta A por la etiqueta B cuando. . . • cada regla corresponde a la instanciación de una templeta • templetas • la palabra anterior (siguiente) está etiquetada con Z • alguna de las dos palabras anteriores (siguientes) está etiquetada con Z • la palabra anterior está etiquetada con Z y la siguiente con W • . . . • Aprendizaje de las variables A, B, Z, W a base de un proceso iterativo que escoge en cada iteración la regla (la instanciación) que más errores corrige PLN Tagging 15
Taggers basados en modelos más complejos 2 • Árboles de decisión • Aprendizaje supervisado • ej. Tree. Tagger • Aprendizaje basado en casos (Case -based, Memory-based Learning) Black, Magerman, 1992 Magerman 1996 Màrquez, 1999 Màrquez, Rodríguez, 1997 Ti. MBL Daelemans et al, 1996 • IGTree • Aprendizaje por relajación • Restricciones (constraints) de tipo estadístico o lingüístico Padrò, 1997 • ej. RELAX PLN Tagging 16
ejemplo: Tree. Tagger (Màrquez) raiz ambigüedad IN/RB IN (preposición) RB (adverbio) P(IN)=0. 81 P(RB)=0. 19 Word Form otros “As”, “as” . . . P(IN)=0. 83 P(RB)=0. 17 tag(+1) otros interpretación estadística: ^ P( RB | word=“A/as” & tag(+1)=RB & tag(+2)=IN) = 0. 987 . . . RB P(IN)=0. 13 P(RB)=0. 87 tag(+2) IN ^ P( IN | word=“A/as” & tag(+1)=RB & tag(+2)=IN) = 0. 013 P(IN)=0. 013 P(RB)=0. 987 PLN Tagging hoja 17
Tagging por combinación • Combinación de modelos del lenguaje en un tagger Màrquez, Rodríguez, 1998 Màrquez, 1999 Padrò, 1997 • STT+ • RELAX • Combinación de taggers mediante votación Màrquez et al, 1998 • aprendizaje mediante bootstrapping • Combinación de clasificadores • bagging (Breiman, 1996) • boosting (Freund, Schapire, 1996) PLN Tagging Brill, Wu, 1998 Màrquez et al, 1999 Abney et al, 1999 18
ejemplo: STT+ (Màrquez) Language Model Lexical probs. + + N-grams Contextual probs. Raw text Morphological analysis Viterbi algorithm Tagged text Disambiguation PLN Tagging 19
ejemplo: RELAX (Padró) Language Model N-grams + + Linguistic rules Set of constraints Raw text Morphological analysis Relaxation Labelling (Padró, 1996) Tagged text Disambiguation PLN Tagging 20
Medidas de la calidad del etiquetado • nivel de la oración: porcentaje de oraciones etiquetadas correctamente • • f(W) = T argmax p(T/W) • Algoritmo de Viterbi (esquema de P. dinámica) • Más sencillo de implementar • Más sencillo de interpretar lingüísticamente nivel de la palabra: porcentaje de palabras etiquetadas correctamente • f(W)i = argmax p(ti/W) T • Algoritmo ML (verosimilitud máxima) • Puede producir secuencias no gramaticales PLN Tagging 21
- Slides: 21