Los diccionarios como fuente de conocimiento Lexicografa Luis

  • Slides: 52
Download presentation
Los diccionarios como fuente de conocimiento Lexicografía Luis Villaseñor Pineda Laboratorio de Tecnologías del

Los diccionarios como fuente de conocimiento Lexicografía Luis Villaseñor Pineda Laboratorio de Tecnologías del Lenguaje Coordinación de Ciencias Computacionales, Instituto Nacional de Astrofísica, Óptica y Electrónica Laboratorio de Tecnologías del Lenguaje

Contenido l l ¿Qué es un diccionario? ¿Qué es una definición? Relaciones semánticas entre

Contenido l l ¿Qué es un diccionario? ¿Qué es una definición? Relaciones semánticas entre palabras Descubriendo semi-automáticamente relaciones entre palabras Laboratorio de Tecnologías del Lenguaje 2

¿Qué es un diccionario? l l l Diccionario: libro en el que se recogen

¿Qué es un diccionario? l l l Diccionario: libro en el que se recogen y explican de forma ordenada voces de una o más lenguas, de una ciencia o de una materia determinada. Lexicón = diccionario Lexicografía: parte de la lingüística que se ocupa de los principios teóricos en que se basa la composición de diccionarios. Laboratorio de Tecnologías del Lenguaje 3

¿Para qué la lexicografía? l Dos aspectos nos interesan computacionalmente l l Reestructuración y

¿Para qué la lexicografía? l Dos aspectos nos interesan computacionalmente l l Reestructuración y explotación de diccionarios humanos para propósitos computacionales Uso de técnicas computacionales para compilar nuevos diccionarios Laboratorio de Tecnologías del Lenguaje 4

Lexicografía l Definición: l l Atendiendo a su cometido práctico, la lexicografía se ha

Lexicografía l Definición: l l Atendiendo a su cometido práctico, la lexicografía se ha venido definiendo como el arte o la técnica de componer léxicos o diccionarios. A diferenciar de Lexicología l su contraparte, en el plano teórico, encargada del estudio científico del léxico. Laboratorio de Tecnologías del Lenguaje 5

Léxico l Léxico y vocabulario son intercambiables, sin embargo: l Léxico – se reserva

Léxico l Léxico y vocabulario son intercambiables, sin embargo: l Léxico – se reserva para aludir al conjunto de clases abiertas portadoras de significado mientras vocabulario se aplica a las clases cerradas, puesto que no se puede hacer una descripción lingüística sin que se reduzcan las clases abiertas a cerradas. l l Clases abiertas: nombres, verbos, adjetivos, adverbios se definen por intensión Clases cerradas: pronombres, artículos, conjunciones y preposiciones se definen por extensión. Laboratorio de Tecnologías del Lenguaje 6

Léxico - Vocabulario l l El léxico estaría en la Lengua – el vocabulario

Léxico - Vocabulario l l El léxico estaría en la Lengua – el vocabulario en el Habla El vocabulario es la puesta en uso de un determinado número de unidades léxicas por un grupo o un individuo. l l El vocabulario de una persona, con sus rasgos específicos, sería su idiolecto Y el de un grupo regional, profesional o social, su dialecto Laboratorio de Tecnologías del Lenguaje 7

Léxico - Vocabulario l l El léxico, como clase abierta, está enriqueciéndose constantemente por

Léxico - Vocabulario l l El léxico, como clase abierta, está enriqueciéndose constantemente por medio de la creatividad que el uso imprime al lenguaje. Este enriquecimiento produce tensiones que se manifiestan en vacilaciones, oscilaciones e inestabilidad, especialmente cuando aparece un nuevo término y desplaza a otro. Laboratorio de Tecnologías del Lenguaje 8

Construyendo un diccionario l Los lexicógrafos recopilan los usos de las palabras y crean

Construyendo un diccionario l Los lexicógrafos recopilan los usos de las palabras y crean las explicaciones de su uso. l l Raíces de la palabra Contexto Tipo de fuente Dos enfoques: l l Un erudito o grupo de eruditos dictan el significado y por ende el uso correcto de las palabras El estudio del uso de las palabras a través de corpus fijan su significado Laboratorio de Tecnologías del Lenguaje 9

¿Qué es una definición? Proposición que expone con claridad y exactitud los caracteres genérico

¿Qué es una definición? Proposición que expone con claridad y exactitud los caracteres genérico y diferenciales de algo material o inmaterial. Defecto. Carencia de alguna cualidad propia de algo l Andrés Manuel López Obrador l l Ser humano Tabasqueño Padre de familia Ex-jefe de gobierno l l l Laboratorio de Tecnologías del Lenguaje Luchador de los derechos sociales Próximo presidente de México Desaforado injustamente 10

Un lexicón computacional l ¿Qué deseamos incluir en un lexicón computacional? l l l

Un lexicón computacional l ¿Qué deseamos incluir en un lexicón computacional? l l l Su definición Su(s) significado(s) El uso de una palabra (sus colocaciones o coocurrencias con otras palabras) Sinónimos, Antónimos En general su relación semántica con otras palabras Cómo usamos una palabra y cómo se relaciona con otras palabras (tesauro – tesoro) Laboratorio de Tecnologías del Lenguaje 11

Relaciones semánticas l Ontología. Parte de la metafísica que trata del ser en general

Relaciones semánticas l Ontología. Parte de la metafísica que trata del ser en general y de sus propiedades trascendentales. l Por un abuso del vocablo: l l Descripción del objeto a partir de sus propiedades Propiedades o relaciones con otras palabras Laboratorio de Tecnologías del Lenguaje 12

Relaciones semánticas l Sinonimia Los sinónimos son palabras con distinto significante, pero un significado

Relaciones semánticas l Sinonimia Los sinónimos son palabras con distinto significante, pero un significado común. (p. e. extraer y sacar) l Polisemia Es al contrario que la sinonimia. A un significante le corresponden varios significados. /Gato/: animal felino, herramienta. l Antonimia. Consiste en una oposición de significados. (alto/bajo, comprar/vender. ) Laboratorio de Tecnologías del Lenguaje 13

Relaciones semánticas l Hiperonimia un hiperónimo es el término cuyo significado comprende a otro

Relaciones semánticas l Hiperonimia un hiperónimo es el término cuyo significado comprende a otro grupo de términos. A éstos últimos se les llama hipónimos. l Hiperónimo: Árbol. l Hipónimos: Olivo, Roble, Castaño. . . Laboratorio de Tecnologías del Lenguaje 14

Relaciones semánticas l Meronimia Un merónimo es el nombre atribuido a un constituyente que

Relaciones semánticas l Meronimia Un merónimo es el nombre atribuido a un constituyente que forma parte de, que es substancia de o que es miembro de algo. Meronimia es lo opuesto a la holonimia. l X es merónimo de Y si X forma parte de Y. l X es merónimo de Y si X es una sustancia de Y. l X es merónimo de Y si X es un miembro de Y. l l l 'azul' es merónimo de 'color'. 'Doctor' es merónimo de 'oficio'. 'auto' es un holónimo de 'llanta'. Laboratorio de Tecnologías del Lenguaje 15

Ejemplos

Ejemplos

Word. Net l tomado de: l Climent S. (1999) Individuación e información Parte. Todo.

Word. Net l tomado de: l Climent S. (1999) Individuación e información Parte. Todo. Representación para el procesamiento computacional del lenguaje. Estudios de Lingüística Española (ELi. Es). http: //elies. rediris. es/elies 8/ Laboratorio de Tecnologías del Lenguaje 17

Word. Net l l l Sistema de referencia combinando un diccionario, un tesauro con

Word. Net l l l Sistema de referencia combinando un diccionario, un tesauro con el potencial de una base de datos ontológica. Word. Net en desarrollo desde los años 80 bajo la dirección del psicolingüista George Miller en la Universidad de Princeton. La última versión hecha pública es Word. Net 1. 5, la cual consta de 126. 000 entradas l l categorías abiertas: nombres (70%), adjetivos (15%), verbos (10%) y adverbios (5%). categorías cerradas (preposiciones, conjunciones, etc. ) no se representan en Word. Net Laboratorio de Tecnologías del Lenguaje 18

Word. Net l l En Word. Net un concepto se define por el conjunto

Word. Net l l En Word. Net un concepto se define por el conjunto de formas léxicas que sirven para representarlo en el lenguaje. Se utiliza una noción débil de sinonimia: la sinonimia en contexto l l l dos unidades léxicas son sinónimas si la sustitución de una por la otra no produce en ningún caso alteración del valor de verdad de la proposición en la que aparecen. Esto no es cierto, generalmente, bajo la noción tradicional de sinonimia. La unidad básica en la que se estructura Word. Net es el synset o conjunto de sinónimos Laboratorio de Tecnologías del Lenguaje 19

Word. Net l Las 126. 000 entradas = 91. 000 conceptos o synsets. l

Word. Net l Las 126. 000 entradas = 91. 000 conceptos o synsets. l el nombre board, traducible según su sentido por 'tabla', 'mesa' (en su sentido de 'manjar') o 'consejo' aparece en los siguientes synsets: (1) {board , plank} 'tabla', 'plancha' (2) {board} 'consejo' (3) {board, table} 'mesa', 'manjar' l lo cual debe interpretarse como que board-1 es sinónimo de plank; y board-3 sinónimo de table. Laboratorio de Tecnologías del Lenguaje 20

Word. Net l El synset no es una unidad explícitamente explicativa de la entidad

Word. Net l El synset no es una unidad explícitamente explicativa de la entidad del concepto, tan sólo es indicativo de la existencia del mismo. l El significado en Word. Net es diferencial: el significado de un concepto viene dado por contraposición al del resto de conceptos de la base de datos. Laboratorio de Tecnologías del Lenguaje 21

Ejemplo l El significado de cada sentido de board puede ser deducido en principio

Ejemplo l El significado de cada sentido de board puede ser deducido en principio a la vista de sus hiperónimos directos, l {lumber, timber}('maderaje'), {committee} ('comité') y {fare} ('alimentos'): l l l (1) {board , plank} (a stout length of sawn timber; made in a wide variety of sizes and used. . . ) HIPERÓNIMO ® {lumber, timber} (2) {board}(a committee having supervisory powers; "the board has seven members") HIPERÓNIMO ® {committee} (3) {board, table} (food or meals in general; "she sets a fine table"; "room and board") HIPERÓNIMO ® {fare} Laboratorio de Tecnologías del Lenguaje 22

Alcance de una ontología l Es prácticamente imposible construir una ontología “global” l l

Alcance de una ontología l Es prácticamente imposible construir una ontología “global” l l l Dependiente del dominio Del idioma De su aplicación Laboratorio de Tecnologías del Lenguaje 23

En resumen l “Todo intento de establecer una descripción estructural de un vocabulario parece

En resumen l “Todo intento de establecer una descripción estructural de un vocabulario parece destinada al fracaso así que todo queda reducido a una lexicografía o la simple enumeración de fenómenos inestables mal definidos. ” (Hjelmskev, 1959) Laboratorio de Tecnologías del Lenguaje 24

Su uso, no su estructura l l Sin embargo, si admitimos que una lengua

Su uso, no su estructura l l Sin embargo, si admitimos que una lengua es un sistema, es necesario considerar el léxico como un conjunto donde sus elementos se relacionan, así como la existencia de subconjuntos ligados los unos a los otros por diferentes relaciones. Dos enfoques: l l l Lingüístico: la estructura es inherente a la lengua Psicológico: la estructuración del locutor Así el estudio del léxico puede apoyarse sobre su uso y no sobre su estructura Laboratorio de Tecnologías del Lenguaje 25

La lexicometría l Serie de métodos que permiten la reorganización de la secuencia textual

La lexicometría l Serie de métodos que permiten la reorganización de la secuencia textual y los análisis estadísticos sobre el vocabulario. Laboratorio de Tecnologías del Lenguaje 26

Antes de contar hay que saber que contar l l Una serie de caracteres

Antes de contar hay que saber que contar l l Una serie de caracteres delimitados por dos caracteres delimitadores es una ocurrencia. Dos secuencias idénticas constituyen dos ocurrencias de una misma forma gráfica l l l Los signos de puntuación: l El guión puede ser el signo de menos, la ruptura de una palabra en sílabas o una palabra compuesta l El punto puede ser un punto final, un punto decimal o un punto en una abreviatura. El uso de mayúsculas Precaución con las palabras acentuadas Laboratorio de Tecnologías del Lenguaje 27

Conceptos básicos l El conjunto de formas gráficas es el vocabulario (formas léxicas) l

Conceptos básicos l El conjunto de formas gráficas es el vocabulario (formas léxicas) l El número total de ocurrencias en un texto es su tamaño l Estas nociones son la base para el cálculo de riqueza de vocabulario l Tamaño del vocabulario entre el tamaño del documento Laboratorio de Tecnologías del Lenguaje 28

Riqueza del vocabulario l Una forma gráfica con frecuencia de 1 es llamada “hapax”

Riqueza del vocabulario l Una forma gráfica con frecuencia de 1 es llamada “hapax” l En número total de hapax nos da una idea de la riqueza del vocabulario l Dividir el tamaño del vocabulario entre el tamaño del documento l l Problema: depende de la longitud del texto Razón D: D = Σr r(r-1)Vr /T(T-1) donde Vr es el número de formas distintas apareciendo exactamente r veces en el texto Laboratorio de Tecnologías del Lenguaje 29

La ley de Zipf “La mayor parte de las palabras tienen una frecuencia muy

La ley de Zipf “La mayor parte de las palabras tienen una frecuencia muy baja, mientras que tan sólo algunas son muy abundantes” l l l Si medimos las frecuencias de las palabras de una obra de un buen escritor cuyo vocabulario activo sea de, digamos, unas 100 000 palabras, las palabras que ocupan los primeros 10 lugares en la lista llenan alrededor de 25% del texto. Si lo medimos en un texto en el que se usara una décima parte de aquel vocabulario (unas 10 000 palabras), como el de un periódico, el porcentaje apenas crece a 30%. Esto se debe principalmente a que el escritor no podría evitar el uso de palabras como "de", "el", "y", "a", etc. , las que generalmente ocupan los primeros rangos en cualquier texto. Laboratorio de Tecnologías del Lenguaje 30

La ley de Zipf l l Se cuentan las palabras y se ordenan de

La ley de Zipf l l Se cuentan las palabras y se ordenan de mayor a menor frecuencia de aparición, F El número de orden de cada palabra es su rango, R VOCABULARIO ORDENADO POR FRECUENCIAS R F Palabras / Descriptores 1 36 WATER 2 25 SURFACTANTS 3 22 NONIONIC-SURFACTANTS 4 21 SYSTEMS 5 19 AQUEOUS-SOLUTIONS 6 15 MICELLIZATION Laboratorio de Tecnologías del Lenguaje frecuencia (F) por el rango (R) igual a constante (k) 31

La ley de Zipf Laboratorio de Tecnologías del Lenguaje 32

La ley de Zipf Laboratorio de Tecnologías del Lenguaje 32

Ajuste de la ley de Zipf Laboratorio de Tecnologías del Lenguaje 33

Ajuste de la ley de Zipf Laboratorio de Tecnologías del Lenguaje 33

Punto de transición l Se trata de una región crítica en la que ocurre

Punto de transición l Se trata de una región crítica en la que ocurre la transición de las palabras de alta frecuencia y las palabras de baja frecuencia. l l l Las palabras frecuentes son palabras vacías (arriba del punto de transición) Las palabras inusuales son expresiones personales dependientes del autor Las palabras en esta región crítica son las palabras que representan/capturan el tema del documento Laboratorio de Tecnologías del Lenguaje 34

Punto de transición l Cálculo del punto de transición [Urbizagastegui. Alvarado, 1999] : l

Punto de transición l Cálculo del punto de transición [Urbizagastegui. Alvarado, 1999] : l Donde I 1 es el número de palabras con frecuencia 1 Laboratorio de Tecnologías del Lenguaje 35

Clasificando documentos por estilo l Proponer un método para la clasificación de textos considerando

Clasificando documentos por estilo l Proponer un método para la clasificación de textos considerando el estilo de redacción l Objetivos Específicos l l l Determinar los atributos adecuados para la clasificación de textos por estilo de redacción. Determinar cual es la mejor configuración si se usan varios clasificadores. Aplicar el método propuesto en la clasificación de textos orientados a niños en educación básica Laboratorio de Tecnologías del Lenguaje 36

Corpus utilizados l Corpus Cuentos l Corpus Poemas l Corpus Poetas l Corpus Desastres

Corpus utilizados l Corpus Cuentos l Corpus Poemas l Corpus Poetas l Corpus Desastres Laboratorio de Tecnologías del Lenguaje 37

Experimentos l Temático usando Corpus Desastres (5 clases). Estilo usando Corpus Cuentos Adultos, Poetas

Experimentos l Temático usando Corpus Desastres (5 clases). Estilo usando Corpus Cuentos Adultos, Poetas y Desastres (3 clases). Autoría usando Corpus Poetas (5 clases). l Caracterizando: l l l Todas las palabras con excepción de palabras vacías (método tradicional) Con únicamente palabras vacías Todas las palabras incluyendo las palabras vacías Con medidas lexicométricas Laboratorio de Tecnologías del Lenguaje 38

Medidas lexicográficas usadas l Promedio de palabras por oración l l l Desviación estándar

Medidas lexicográficas usadas l Promedio de palabras por oración l l l Desviación estándar del promedio Relación entre la cantidad de oraciones y palabras l l l Número de Hapax / Tamaño del vocabulario Palabras en mayúsculas (entidades nombradas) l l Número de palabras / tamaño del vocabulario Hapax con respecto al vocabulario l l Número de oraciones / Número de palabras Número de oraciones / Tamaño del vocabulario Riqueza del vocabulario l l Número de palabras / Número de oraciones (Número de palabras con mayúscula inicial – Número de oraciones) / Número de oraciones Tamaño promedio de las palabras l Total de caracteres / Número de palabras Laboratorio de Tecnologías del Lenguaje 39

Al clasificar por temas (5 clases) Palabra s (sin pala bras vací as) Atribu

Al clasificar por temas (5 clases) Palabra s (sin pala bras vací as) Atribu to s 12 , 0 38 95. 21 64 IG > 0 % 56 6 At rib ut os Atribu to s 19 3 sólo pala 55. 12 Laboratorio de Tecnologías del 53 Lenguaje bras IG > 0 vací % 40

Al clasificar por autoría (5 clases) Atributos 9, 909 Palabras (sin palabras vacías) 70.

Al clasificar por autoría (5 clases) Atributos 9, 909 Palabras (sin palabras vacías) 70. 5382% IG > 0 158 Atributos 224 sólo palabras vacías 56. 3739% IG > 0 50 Atributos 10, 133 todas las palabras 71. 1048% IG > 0 213 Atributos medidas lexicográficas Atributos 10 25. 0000% IG > 0 8 Atributos Laboratorio de Tecnologías del Lenguaje 41

Al clasificar por estilo (3 clases) Atributos 22, 166 Palabras (sin palabras vacías) 97.

Al clasificar por estilo (3 clases) Atributos 22, 166 Palabras (sin palabras vacías) 97. 9661% IG > 0 2, 958 Atributos 212 sólo palabras vacías 90. 5085% IG > 0 180 Atributos 22, 242 todas las palabras 98. 8136% IG > 0 3, 036 Atributos medidas lexicográficas Atributos 10 92. 7800% IG > 0 10 Atributos Laboratorio de Tecnologías del Lenguaje 42

Paréntesis sobre las medidas de evaluación l Precisión l Recall/Recuerdo (evocación, cobertura, recubrimiento, alcance)

Paréntesis sobre las medidas de evaluación l Precisión l Recall/Recuerdo (evocación, cobertura, recubrimiento, alcance) l F-mesure Laboratorio de Tecnologías del Lenguaje 43

Otro vistazo a los resultados Laboratorio de Tecnologías del Lenguaje 44

Otro vistazo a los resultados Laboratorio de Tecnologías del Lenguaje 44

Creando catálogos específicos l Problema: l Responder preguntas de definición “sencillas” l l l

Creando catálogos específicos l Problema: l Responder preguntas de definición “sencillas” l l l ¿Quién es Vicente Fox? ¿Qué es PRI? Solución: l l Crear catálogos a partir de patrones léxicos superficiales 1 er paso – descubrir los patrones léxicos superficiales específicos para una relación semántica (definición) 2 do paso – aplicar los patrones a una colección de documentos específica 3 er paso – dada la pregunta buscar evidencia para responder con la mayor precisión posible Laboratorio de Tecnologías del Lenguaje 45

Creando catálogos específicos Laboratorio de Tecnologías del Lenguaje 46

Creando catálogos específicos Laboratorio de Tecnologías del Lenguaje 46

Descubriendo los patrones Laboratorio de Tecnologías del Lenguaje 47

Descubriendo los patrones Laboratorio de Tecnologías del Lenguaje 47

No es trivial determinar las semillas Descubriendo los patrones Laboratorio de Tecnologías del Lenguaje

No es trivial determinar las semillas Descubriendo los patrones Laboratorio de Tecnologías del Lenguaje 48

¿Qué es una secuencia frecuente maximal? l Secuencia Frecuente l Una Secuencia se considera

¿Qué es una secuencia frecuente maximal? l Secuencia Frecuente l Una Secuencia se considera frecuente si aparece por lo menos en n documentos o frases donde n es el umbral de frecuencia dado. l Secuencia Maximal l Secuencia de palabras que no esté contenida en ninguna secuencia más larga. Laboratorio de Tecnologías del Lenguaje 49

Respondiendo a una pregunta Laboratorio de Tecnologías del Lenguaje 50

Respondiendo a una pregunta Laboratorio de Tecnologías del Lenguaje 50

Sobre el descubrimiento de patrones Question Type Seed Definitions Collected Snippets Maximal Frequent Sequences

Sobre el descubrimiento de patrones Question Type Seed Definitions Collected Snippets Maximal Frequent Sequences Surface Definition Patterns Positions 10 6523 875 78 Acronym 10 10526 1504 122 Position related patterns El <DESCRIPTION>, <CONCEPT>, ha del <DESCRIPTION>, <CONCEPT>. El ex <DESCRIPTION>, <CONCEPT>, por el <DESCRIPTION>, <CONCEPT>. El <DESCRIPTION>, <CONCEPT>, se Laboratorio de Tecnologías del Lenguaje Acronym related patterns del <DESCRIPTION> (<CONCEPT>). que la <DESCRIPTION> (<CONCEPT>) de la <DESCRIPTION> (<CONCEPT>) en del <DESCRIPTION> (<CONCEPT>) y en el <DESCRIPTION> (<CONCEPT>) 51

Resultados sobre el CLEF 05 Answer Selection Question Type More Frequent Sequence Highest Ranking

Resultados sobre el CLEF 05 Answer Selection Question Type More Frequent Sequence Highest Ranking Score Positions 64% 88% Acronym 80% Total 72% 84% Laboratorio de Tecnologías del Lenguaje 52