Procesamiento superficial y lxico Nivel de procesamiento superficial

  • Slides: 48
Download presentation
Procesamiento superficial y léxico • • • Nivel de procesamiento superficial El concepto de

Procesamiento superficial y léxico • • • Nivel de procesamiento superficial El concepto de palabra Nivel de procesamiento léxico Lexicones Adquisición de la información léxica PLN Nivel superficial y léxico 1

Nivel de procesamiento superficial 1 • Preprocesado textual • Obtención del documento a procesar

Nivel de procesamiento superficial 1 • Preprocesado textual • Obtención del documento a procesar • acceso a BD • acceso a la Web (wrappers) • detección de elementos textuales • documentos multimedia, páginas Web, . . . • filtrado de meta-información • tags HTML, XML, . . . PLN Nivel superficial y léxico 2

Nivel de procesamiento superficial 2 • • segmentación del texto localización de unidades •

Nivel de procesamiento superficial 2 • • segmentación del texto localización de unidades • • palabra ortográfica vs palabra gramatical términos multipalabras fechas, fórmulas, siglas, jerga, nombres propios • Named Entity Recognition • Named Entity Classification Beeferman et al, 1999 Ratnaparkhi, 1998 Bikel et al, 1999 Borthwick, 1999 Mikheev et al, 1999 • palabras desconocidas • locuciones, lexías, . . . • identificación de la lengua PLN Nivel superficial y léxico Elworthy, 1999 Adams, Resnik, 1997 3

Nivel de procesamiento superficial 3 • Tamaño del vocabulario (V) • Heap's Law •

Nivel de procesamiento superficial 3 • Tamaño del vocabulario (V) • Heap's Law • • V = KN K depende del texto 10 K 100 N número total de palabras depende del , para el inglés 0. 4 0. 6 palabras distintas • El vocabulario crece sublinealmente pero no llega a saturarse • tiende a estabilizarse para 1 Mb de texto (150. 000 w) PLN Nivel superficial y léxico palabras 4

Nivel de procesamiento superficial 4 • • word tokens vs word types Distribución estadística

Nivel de procesamiento superficial 4 • • word tokens vs word types Distribución estadística de las palabras en el texto • Obviamente no uniforme • Las palabras más comunes cubren el 50% de las occurrencias • Un 50% de las palabras sólo aparecen 1 vez • ~12% del texto está constituído por palabras que aparecen 3 veces o menos. PLN Nivel superficial y léxico 5

Nivel de procesamiento superficial 5 Ley de Zipf: Ordenamos las palabras de un texto

Nivel de procesamiento superficial 5 Ley de Zipf: Ordenamos las palabras de un texto por su frecuencia. El producto de la frecuencia de una palabra (f) por su posición (r) es aproximadamente constante. PLN Nivel superficial y léxico 6

Nivel de procesamiento superficial 6 • • Frecuencia de una palabra vs capacidad discriminante

Nivel de procesamiento superficial 6 • • Frecuencia de una palabra vs capacidad discriminante del documento. Stop Words. Palabras muy discriminativas pero poco frecuentes. Las palabras más interesantes tienen frecuencias intermedias. PLN Nivel superficial y léxico 7

Colocaciones 1 • Expresiones formadas por dos o más palabras que tienen una probabilidad

Colocaciones 1 • Expresiones formadas por dos o más palabras que tienen una probabilidad alta de aparecer juntas (con frecuencia contiguas): • • • "Estados Unidos" phrasal verbs ("get up") locuciones, frases hechas, lexías, palabras compuestas terminología Se caracterizan por tener una compositividad limitada (el significado del compuesto no se deduce exactamente del de sus componentes). PLN Nivel superficial y léxico 8

Colocaciones 2 • Utilidad • Extracción de terminología • Extracción de relaciones de afinidad

Colocaciones 2 • Utilidad • Extracción de terminología • Extracción de relaciones de afinidad y repulsión léxica • Lexicografía Computacional • Adquisición de locuciones, lexías, etc. • Generación del LN • Parsing, inducción gramatical PLN Nivel superficial y léxico 9

Colocaciones 3 • Detección de colocaciones • Mc. Callum propone 3 métodos • Método

Colocaciones 3 • Detección de colocaciones • Mc. Callum propone 3 métodos • Método 1 • Frecuencia de la colocación complementada con un filtro morfológico (sólo algunas tuplas son aceptables: AN, NN, AAN, ANN, NAN, NNN, NPN) • Método 2 • Colocaciones no adyacentes • Media y variancia de la distancia entre los elementos de la colocación PLN Nivel superficial y léxico 10

Colocaciones 4 • Método 3 • Likelihood ratio • Decidir qué modelo entre dos

Colocaciones 4 • Método 3 • Likelihood ratio • Decidir qué modelo entre dos posibilidades es más apropiado para describir los datos • H 1 hipótesis del modelo 1 (por ejemplo, w 1 y w 2 no forman una colocación, p(w 1|w 2) = p(w 1|-w 2) ) • H 2 hipótesis del modelo 2 (por ejemplo, w 1 y w 2 si forman una colocación, p(w 1|w 2) = p 1 p 2 = p(w 1|-w 2)) PLN Nivel superficial y léxico 11

Categorización de las palabras • • • Part of Speech (POS), categoría morfosintáctica. Propiedad

Categorización de las palabras • • • Part of Speech (POS), categoría morfosintáctica. Propiedad formal de un word-type que determina sus usos acceptables en sintaxis. Una POS puede considerarse una clase de palabras Un word-type puede poseer varias POS, un word-token sólo una Categorías plenas • abiertas, muchos elementos, neologismos, clases semánticamente ricas e independientes • N, Adj, Adv, V • Categorías funcionales PLN Nivel superficial y léxico 12

Agrupación (clustering) de palabras 1 • • A veces es interesante crear clases o

Agrupación (clustering) de palabras 1 • • A veces es interesante crear clases o agrupaciones (clusters) de palabras (ej. generalización, forma de abordar el data sparseness, backoff, . . . ) Factores (features) a tener en cuenta: • • • palabras adyacentes palabras relacionadas sintácticamente palabras cercanas tema del documento. . . PLN Nivel superficial y léxico 13

Agrupación (clustering) de palabras 2 • VSM (Vector Space Model) • representar cada word-type

Agrupación (clustering) de palabras 2 • VSM (Vector Space Model) • representar cada word-type como un punto en un espacio de k dimensiones (k = tamaño del vocabulario). • definir una medida de proximidad (o distancia) entre los puntos • p. ej. la distancia euclídea, Dice, Jaccard, . . . • Examinar el espacio de k dimensiones en el que hemos colocado todos los puntos (todos los word -types) para localizar núcleos de agrupación (clusters) PLN Nivel superficial y léxico 14

Agrupación (clustering) de palabras 3 Plot in k dimensions (here k=3) PLN Nivel superficial

Agrupación (clustering) de palabras 3 Plot in k dimensions (here k=3) PLN Nivel superficial y léxico 15

Agrupación (clustering) de palabras 4 • Clustering aglomerativo (bottom up) • Comenzar con un

Agrupación (clustering) de palabras 4 • Clustering aglomerativo (bottom up) • Comenzar con un cluster por punto • Iterativamente agrupar los clusters más cercanos • Formas de decidir la proximidad entre clusters: • single link • dist(A, B) = min(dist(a, b)| a A, b B) • complete link • dist(A, B) = max(dist(a, b)| a A, b B) • average link • dist(A, B) = mean(dist(a, b)| a A, b B) • centroid link • • dist(A, B) = min(dist(mean(A), mean(B)) Clustering divisivo (top down) PLN Nivel superficial y léxico 16

Qué es un lexicón • • Un lexicón es simplemente un repositorio de información

Qué es un lexicón • • Un lexicón es simplemente un repositorio de información léxica que puede ser utilizada por usuarios humanos o por algún tipo de procesador del lenguaje natural Dos aspectos a considerar • Representar la información léxica • Adquirir la información léxica PLN Nivel superficial y léxico 17

Adquisición del conocimiento léxico • qué hace falta codificar en los léxicos computacionales (cuantitativamente

Adquisición del conocimiento léxico • qué hace falta codificar en los léxicos computacionales (cuantitativamente y cualitativamente) • cuáles son las fuentes de conocimiento idóneas para extraer dicho conocimiento • qué métodos de extracción son necesarios para ello. PLN Nivel superficial y léxico 18

El contenido de los lexicones computacionales 1 • • Transcripción ortográfica Transcripción fonética Modelo

El contenido de los lexicones computacionales 1 • • Transcripción ortográfica Transcripción fonética Modelo flexivo Alternancias de diátesis, marcos de subcategorización • AMAR VTR(OBJLIST: SN). • AMAR • CAT = VERBO • SUBCAT = <SN, SN> PLN Nivel superficial y léxico 19

El contenido de los lexicones computacionales 2 • • • Categoría gramatical (POS) Estructura

El contenido de los lexicones computacionales 2 • • • Categoría gramatical (POS) Estructura argumental Información semántica • diccionarios => definición • léxicos computacionales => asignación de tipos semánticos predefinidos en una jerarquía. • Relaciones léxicas • derivación • Equivalencias con otras lenguas PLN Nivel superficial y léxico 20

Representación del conocimiento léxico • expresividad • idoneidad representacional • idoneidad inferencial • eficiencia

Representación del conocimiento léxico • expresividad • idoneidad representacional • idoneidad inferencial • eficiencia PLN Nivel superficial y léxico 21

Problemas que plantea la representación léxica • • Forma: pares atributo/valor, rels binarias o

Problemas que plantea la representación léxica • • Forma: pares atributo/valor, rels binarias o n-arias, valores codificados, valores de dominio abierto… Asignaciones múltiples (relaciones uno a varios o varios a varios), dependencias contextuales… Facetas de los rasgos o atributos: obligatoriedad u opcionalidad, cardinalidad, valores por omisión… Gradación en las propiedades: valores exactos, preferencias, asignaciones probabilísticas. PLN Nivel superficial y léxico 22

Sistemas de Representación • • Bases de datos de propósito general Modelos textuales Bases

Sistemas de Representación • • Bases de datos de propósito general Modelos textuales Bases de datos léxicas Sistemas Orientados a Objetos (OO) Bases de datos orientadas a objetos Sistemas basados en esquemas (frames) Sistemas basados en unificación PLN Nivel superficial y léxico 23

Bases de datos de propósito general • • • Modelo de datos relacional. Aproximación

Bases de datos de propósito general • • • Modelo de datos relacional. Aproximación E/R ventajas • rasgos de tipo atributo/valor • software convencional de gestión de base de datos • capacidad expresiva, mantenimiento, eficiencia y facilidad de interrogación. • limitaciones: • Fragmentación de los datos • Falta de estructura jerárquica • Excesiva uniformidad, poco apropiadas para los rasgos de tipo textual. PLN Nivel superficial y léxico 24

Modelos textuales • • Información consistente en texto posiblemente marcado (tipográfico, descriptivo) SGML, TEI,

Modelos textuales • • Información consistente en texto posiblemente marcado (tipográfico, descriptivo) SGML, TEI, Eagles Obtención de las apariciones de una palabra en un corpus, Coapariciones de varias palabras Uso de expresiones regulares en la consulta Consulta de fragmentos de palabra Uso de comodines, expresiones booleanas, etc. . . PLN Nivel superficial y léxico 25

Las bases de datos léxicas • aproximación de dos niveles • fuente primaria de

Las bases de datos léxicas • aproximación de dos niveles • fuente primaria de datos • índices • • • integran en un solo modelo las dos aproximaciones anteriores limitación : a menudo implementaciones ad-hoc Ejemplos de bases de datos léxicas son IBM-LDB [Neff et al. 88] o Acquilex LDB [Briscoe et al. 90]. PLN Nivel superficial y léxico 26

Sistemas Orientados a Objetos • Capacidad deductiva • herencia de propiedades • transformacione léxicas

Sistemas Orientados a Objetos • Capacidad deductiva • herencia de propiedades • transformacione léxicas • Capacidades procedimentales (asertivas) • Tratamiento de excepciones. PLN Nivel superficial y léxico 27

Bases de Datos Orientadas a Objetos • • Gestión de la persistencia Dos tipos

Bases de Datos Orientadas a Objetos • • Gestión de la persistencia Dos tipos básicos • bases de datos orientadas a objetos puras, que extienden algunos lenguajes orientados al objeto como C++, Smalltalk, Eiffel, CLOS, etc… • bases de datos orientadas al objeto que extienden sistemas convencionales de gestión de bases de datos • => Sistemas basados en esquemas (frames) PLN Nivel superficial y léxico 28

Sistemas basados en unificación • • • relaciones de reentrancia. disyunción, negación, asignación condicional.

Sistemas basados en unificación • • • relaciones de reentrancia. disyunción, negación, asignación condicional. . . formas variadas de herencia (simple, múltiple, monótona, por omisión, etc. . . ) operaciones: generalización, reescritura, formas varias de unificación, etc. . . Uso de macros, alias, reglas léxicas, etc. . . compilación de las estructuras de rasgos en estructuras más eficientes (como términos Prolog) PLN Nivel superficial y léxico 29

Sistemas basados en Estructuras de rasgos • Dos familias de sistemas basados en rasgos:

Sistemas basados en Estructuras de rasgos • Dos familias de sistemas basados en rasgos: • estructuras de rasgos libres: PATR-II • estructuras de rasgos restringidas por tipos: ALE, ALEP, CUF, TFS • ER -> tipo que determina su Taxonomía de tipos • tipo -> restricciones sobre los rasgos • rasgo -> tipos apropiados PLN Nivel superficial y léxico estructura. 30

Adquisición de la información léxica • Los Diccionarios como fuente de información • •

Adquisición de la información léxica • Los Diccionarios como fuente de información • • • MRD Finalidad: codificar información sobre el léxico Estructura interna predeterminada Cierto grado de codificación en determinados contenidos Relaciones internas (sinonimia, hiponimia, etc. ) de manera implícita o explícita • Vocabulario restringido • Sistemática en la elaboración de las definiciones PLN Nivel superficial y léxico 31

El proceso de extracción • Manualmente • introspección • auxiliado (p. ej. una estación

El proceso de extracción • Manualmente • introspección • auxiliado (p. ej. una estación de trabajo lexicográfica). • Automáticamente, utilizando (y posiblemente combinando) fuentes ya disponibles • los diccionarios accesibles por ordenador • los corpus textuales. • En forma semiautomática PLN Nivel superficial y léxico 32

Los diccionarios accesibles por ordenador ejemplos: LDOCE, LINKS, OALD, Acquilex PLN Nivel superficial y

Los diccionarios accesibles por ordenador ejemplos: LDOCE, LINKS, OALD, Acquilex PLN Nivel superficial y léxico 33

Acquilex PLN Nivel superficial y léxico 34

Acquilex PLN Nivel superficial y léxico 34

diccionario en soporte electrónico PLN Nivel superficial y léxico 35

diccionario en soporte electrónico PLN Nivel superficial y léxico 35

diccionario editado PLN Nivel superficial y léxico 36

diccionario editado PLN Nivel superficial y léxico 36

estructura parentizada PLN Nivel superficial y léxico 37

estructura parentizada PLN Nivel superficial y léxico 37

Análisis de las definiciones ((CLASS pedazo) (PROPERTIES (pequeño (PREP-MOD (DE (OBJECT alguna cosa))))) =>

Análisis de las definiciones ((CLASS pedazo) (PROPERTIES (pequeño (PREP-MOD (DE (OBJECT alguna cosa))))) => Traducción al lenguaje de la BC PLN Nivel superficial y léxico 38

Métodos de extracción de relaciones 1 • Sinonimia • cabaret [fr. ] **m. **

Métodos de extracción de relaciones 1 • Sinonimia • cabaret [fr. ] **m. ** Cabaré. • cabaret SIN cabaré • sinonimia aproximada • caza **f. ** Acción de cazar. • caza CASI-SIN cazar PLN Nivel superficial y léxico 39

Métodos de extracción de relaciones 2 • antonimia. • patrones de las definiciones que

Métodos de extracción de relaciones 2 • antonimia. • patrones de las definiciones que indican negación • abierto **adj** no murado o cerrado • • abierto ANT murado abierto ANT cerrado • descomposición de los lemas • antisocial **adj** Contrario a la sociedad, a la convivencia social. • antisocial ANT social PLN Nivel superficial y léxico 40

Métodos de extracción de relaciones 3 • meronimia/ holonimia: • patrones. • parte de

Métodos de extracción de relaciones 3 • meronimia/ holonimia: • patrones. • parte de • miembro de • porción/ trozo/ pedazo/ punta, . . . de • X (entrada) es merónimo de Y (elemento que sigue al patrón en la definición) • mano **f. ** Parte del cuerpo humano que … • mano MER cuerpo humano PLN Nivel superficial y léxico 41

Métodos de extracción de relaciones 4 • Relaciones entre un nombre y la acción

Métodos de extracción de relaciones 4 • Relaciones entre un nombre y la acción básica en la que está implicado. • verbo con su agente, paciente, instrumento, etc. • Instrumento • • • patrones • que sirve para + V (SN) • que se usa para + V (SN) fotómetro **m. ** Instrumento para medir la intensidad de la luz • medir (la intensidad. . . ) INVOLVED fotómetro aflicción CAUSA aflictivo PLN Nivel superficial y léxico 42

Los corpus como fuentes de información 1 • Ventajas: • Gran volumen de información

Los corpus como fuentes de información 1 • Ventajas: • Gran volumen de información • Facilidad de clasificación • Capacidad de utilización como banco de pruebas para refrendo de teorías o intuiciones. • Capacidad de integración de datos experimentales. • Posibilidad de utilización de métodos estadísticos de tratamiento. PLN Nivel superficial y léxico 43

Los corpus como fuentes de información 2 • Dificultades: • Casos poco o nada

Los corpus como fuentes de información 2 • Dificultades: • Casos poco o nada representados. • Combinación de métodos estadísticos con métodos basados en conocimiento gramaticales • Garantía o control de la coherencia interna. • Nivel de completitud suficiente sin sobrerrepresentar • Nivel de granularidad deseado para una aplicación concreta. • Adaptación a un dominio concreto. PLN Nivel superficial y léxico 44

Información contenida en los Corpus • • • Colocaciones Estructura argumental. Frecuencia de aparición

Información contenida en los Corpus • • • Colocaciones Estructura argumental. Frecuencia de aparición de las unidades. Contexto de aparición de las unidades. Inducción gramatical. Análisis probabilístico. Relaciones léxicas. Ejemplos de uso. Restricciones selectivas. Compuestos nominales. Lexías, frases hechas, . . . PLN Nivel superficial y léxico 45

Tipos de corpus • Según la información incorporada: • • • Corpus bruto Corpus

Tipos de corpus • Según la información incorporada: • • • Corpus bruto Corpus horizontales o verticales Corpus etiquetados (tagged) Corpus parentizados Corpus analizados • treebanks PLN Nivel superficial y léxico 46

Los métodos de tratamiento • Manual: • presentación al lexicógrafo de las apariciones que

Los métodos de tratamiento • Manual: • presentación al lexicógrafo de las apariciones que correspondan al patrón pedido • Diversos niveles de preproceso y ayuda • Automático • técnicas estadísticas • Semiautomáticos • filtrado manual por parte del lexicógrafo, de los casos propuestos por el sistema. PLN Nivel superficial y léxico 47

Aplicaciones • Lexicografía • Extracción de información • Etiquetadores • Para el enriquecimiento de

Aplicaciones • Lexicografía • Extracción de información • Etiquetadores • Para el enriquecimiento de corpus • Coocurrencias • Identificación de unidades léxicas complejas PLN Nivel superficial y léxico 48