LINGSTICA COMPUTACIONAL UNIDAD 2 LEXICONES Y CORPUS Ana

LINGÜÍSTICA COMPUTACIONAL UNIDAD 2. LEXICONES Y CORPUS Ana María Tangarife Patiño

HERRAMIENTAS PARA EL ANÁLISIS LEXICOGRÁFICO Lexicones y corpus Herramientas que deben implementarse en los

IMPORTANCIA Y USO DE LEXICONES “El lexicón se ha convertido en el centro de

EN EL ÁMBITO COMPUTACIONAL… Los lexicones se consideran la base fundamental en la construcción

LEXICONES. DEFINICIÓN Diccionario que suministra información necesaria para el análisis sintáctico y semántico en

LEXICÓN PARA PLN Todas las aplicaciones que tienen como objeto el tratamiento computacional del

LEXICONES. ALGUNOS EJEMPLOS Wordnet. Base de datos léxica del inglés que agrupa las palabras

LOS CORPUS “Colección de elementos lingüísticos seleccionados y ordenados de acuerdo con criterios lingüísticos

CORPUS Conjunto de evidencia lingüística que prueba el uso del lenguaje natural. Colecciones organizadas

CORPUS AUTOMATIZADO Corpus que se ha codificado de manera estándar y homogénea para diferentes

CARACTERÍSTICAS DEL CORPUS Representatividad: de un corpus respecto de la lengua que tiene como

TIPOLOGÍA DE CORPUS (1) 1. Corpus orales: Para la lingüística de corpus: Constituye habitualmente,

TIPOLOGÍA DE CORPUS (2) Pueden ser también abiertos o cerrados dependiendo de la posibilidad

CORPUS ORALES. UTILIDAD (1) 1. Para la fonética y las tecnologías del habla �

CORPUS ORALES. UTILIDAD (2) 2. Para el estudio de la lengua oral � Análisis

CORPUS TEXTUALES. UTILIDADES A partir de los corpus se pueden obtener conclusiones relacionadas con:

TIPOLOGÍA DE CORPUS (1) Se pueden establecer según su diseño, características formales, métodos de

TIPOLOGÍA DE CORPUS (2) Se pueden proponer también otras clasificaciones de acuerdo a los

ANOTACIÓN DE CORPUS Como una de las tareas del análisis lexicográfico, con relación a

CORPUS DE REFERENCIA PARA EL ESPAÑOL Real Academia Española desde 1993 comienza los trabajos

CORPUS DEL ESPAÑOL http: //corpus. rae. es/creanet. html http: //corpus. rae. es/cordenet. html

REFERENCIAS Moreno Ortiz, Antonio (2000). Diseño e implementación de un lexicón computacional para lexicografía

Slides: 22

Download presentation

LINGÜÍSTICA COMPUTACIONAL UNIDAD 2. LEXICONES Y CORPUS Ana María Tangarife Patiño

HERRAMIENTAS PARA EL ANÁLISIS LEXICOGRÁFICO Lexicones y corpus Herramientas que deben implementarse en los programas de cómputo Diccionarios basados en corpus, lexicografía basada en corpus

IMPORTANCIA Y USO DE LEXICONES “El lexicón se ha convertido en el centro de atención de aquéllos que se dedican al estudio de los problemas relacionados con el lenguaje, sean éstos del tipo que sean” (Martha Evens, 1988) En diversas disciplinas es importante el uso de lexicones: � Antropología, investigación etnográfica, lingüística, análisis sintácticos, análisis semánticos, análisis del discurso en ciencias sociales (sociología, historia, trabajo social, psicología) y ciencias políticas, etc.

EN EL ÁMBITO COMPUTACIONAL… Los lexicones se consideran la base fundamental en la construcción de sistemas computaciones que posibilitan la interacción entre la máquina y el humano. No se pueden construir sistemas de procesamiento de lenguaje natural que sean lo suficientemente robustos como para ocuparse de problemas del "mundo real", sin antes diseñar lexicones de gran magnitud que contengan información léxica detallada. (Antonio Moreno Ortiz, 2000)

LEXICONES. DEFINICIÓN Diccionario que suministra información necesaria para el análisis sintáctico y semántico en un programa computacional. Aporta información de tipo morfológico (estructura de las palabras), sintáctico (organización de las palabras), gramaticales (significados de las palabras y combinación de ellas en las frases), semántico y pragmático. Son generados a partir de textos del lenguaje natural, por medio de un proceso de adquisición léxica que se realiza con corpus anotados.

LEXICÓN PARA PLN Todas las aplicaciones que tienen como objeto el tratamiento computacional del lenguaje natural consideran el lexicón como componente central, lo que ha provocado una demanda constante de información léxica detallada. La finalidad fundamental del procesamiento de lenguaje natural es la automatización de los procesos lingüísticos, tales como la comprensión, producción o adquisición de una lengua, tareas que los usuarios de una lengua realizan fluida y naturalmente. Las tareas de procesamiento de la lengua, tanto para los humanos como para las máquinas, implican un conocimiento profundo del vocabulario de una lengua.

LEXICONES. ALGUNOS EJEMPLOS Wordnet. Base de datos léxica del inglés que agrupa las palabras en conjuntos de sinónimos, proporcionando definiciones cortas y generales, y almacenando las relaciones semánticas entre estos conjuntos de sinónimos. http: //wordnetweb. princeton. edu/perl/webwn Euro. Wordnet. Es una base de datos multilingüe para varios idiomas europeos. Cada idioma diseña su propia Word. Net estructurándola con syntes (conjuntos de términos sinónimos) con relaciones semánticas básicas entre ellos. http: //ixa 2. si. ehu. es/cgi-bin/mcr/public/wei. consult. perl Frame. Net. Es un proyecto basado en modelos semánticos. Se refiere a que el significado de una sola palabra no puede ser comprendido si no se tienen las nociones de conocimiento relativo o conexo a ella. https: //framenet. icsi. berkeley. edu/fndrupal/home

LOS CORPUS “Colección de elementos lingüísticos seleccionados y ordenados de acuerdo con criterios lingüísticos explícitos, con la finalidad de ser usada como muestra de la lengua” (Sinclair, 1996)

CORPUS Conjunto de evidencia lingüística que prueba el uso del lenguaje natural. Colecciones organizadas de datos, que recogidas mediante un marco de ejemplos de uso de la lengua, permiten el análisis de información relativa a la lengua. Debe contener una colección de textos producidos en situaciones reales de comunicación (bien sea oral o escrita) que cumplan con unos criterios explícitos de la lengua que aseguren que puedan usarse como muestra representativa.

CORPUS AUTOMATIZADO Corpus que se ha codificado de manera estándar y homogénea para diferentes tareas de recuperación de la información. Sirve de base para la elaboración de distintos tipos de productos sobre la lengua, principalmente diccionarios de distinto tipo y gramáticas. Están estructurados en una base de datos dotada de un sistema de interrogación que permita la recuperación de la información textual.

CARACTERÍSTICAS DEL CORPUS Representatividad: de un corpus respecto de la lengua que tiene como referente está en función de una elección equilibrada entre los diferentes tipos de textos que son susceptibles de formar parte del mismo. Etiquetado (anotación): explicita, en forma de categorías lingüísticas y gramaticales, características del texto o de las palabras que forman parte de él. Sistematicidad: mantener una consistencia en el vocabulario que se incluye.

TIPOLOGÍA DE CORPUS (1) 1. Corpus orales: Para la lingüística de corpus: Constituye habitualmente, en la transcripción ortográfica, de una grabación de la lengua hablada que constituye una representación simbólica del uso oral de la lengua. � Para la fonética y las tecnologías del habla: donde se conserva información fonética con el objetivo de desarrollar aplicaciones relacionadas con la síntesis, el reconocimiento del habla y el diálogo. � Corpus escritos: Información lingüística para procesamiento de grandes cantidades textuales que son utilizadas en distintos recursos y aplicaciones 2.

TIPOLOGÍA DE CORPUS (2) Pueden ser también abiertos o cerrados dependiendo de la posibilidad de desarrollo que pueda tener Equilibrados o no, dependiendo de la distribución de la proporción de los datos Simples, etiquetados o analizados, según el proceso al que hayan sido sometidos los textos Para producir una hipótesis válida sobre la lengua como un todo o sobre la variedad del objeto de estudio, se debe recurrir a los métodos de la estadística como mecanismo de validación.

CORPUS ORALES. UTILIDAD (1) 1. Para la fonética y las tecnologías del habla � Estudios fonéticos: Descripción contrastiva, análisis de la producción, interferencia fonética, aprendizaje de segundas lenguas, patologías del habla, dialectología � Reconocimiento: Modelos acústicos, programación de reconocedores � Sistemas de diálogo: Generación de interfaz para interacciones persona-máquina-persona

CORPUS ORALES. UTILIDAD (2) 2. Para el estudio de la lengua oral � Análisis del discurso: especialmente en estudios etnográficos del habla � Sociolingüística: estudio de registros especialmente en dialectología � Análisis gramatical: Recopilación organizada de muestras de lengua oral en donde se combinan la transcripción y el registro original. Utilidad en el aprendizaje de lenguas.

CORPUS TEXTUALES. UTILIDADES A partir de los corpus se pueden obtener conclusiones relacionadas con: � Un escritor � Una época � Una variedad lingüística � Cambios lingüísticos � Adquisición de la lengua � Un grupo social � Un género � Tema � Etc.

TIPOLOGÍA DE CORPUS (1) Se pueden establecer según su diseño, características formales, métodos de constitución. 1. Origen: Aspectos del origen del texto que pueden afectar a la estructura o el contenido. 2. Estado: Cuestiones relativas al aspecto físico del texto y a su soporte en el momento en que es seleccionado para el corpus

TIPOLOGÍA DE CORPUS (2) Se pueden proponer también otras clasificaciones de acuerdo a los parámetros desde los cuales se quieran categorizar: � Tipo de documento � Número de lenguas � Criterios de recolección � Cantidad y distribución � Finalidad � Tipo de procesamiento � Tipo de anotación � Etc.

ANOTACIÓN DE CORPUS Como una de las tareas del análisis lexicográfico, con relación a los corpus, está la anotación de ellos. Es usada para mejorar la información de tipo lingüístico, y se usa para la desambiguación, construcción de bases de conocimiento, evaluación de sistemas de procesamiento del lenguaje, entre otras.

CORPUS DE REFERENCIA PARA EL ESPAÑOL Real Academia Española desde 1993 comienza los trabajos para constituir dos corpus. CORDE (Corpus diacrónico del español) � Integra textos desde los inicios del idioma hasta 1975. 299 millones de palabras CREA (Corpus de referencia del español actual) � Desde 1975 hasta la actualidad. � Está conformado por 90% de textos escritos y 10% orales � 154 millones de palabras Algunos datos estadísticos

CORPUS DEL ESPAÑOL http: //corpus. rae. es/creanet. html http: //corpus. rae. es/cordenet. html

REFERENCIAS Moreno Ortiz, Antonio (2000). Diseño e implementación de un lexicón computacional para lexicografía y traducción automática. En: Estudios de lingüística del español, No. 9 Baquero V. , Julia M. (2010). Lingüística computacional aplicada. Bogotá: Universidad Nacional de Colombia. Rafel i Fontanals, Joaquim; Soler i Bou, Joan (2003). El procesamiento de corpus: la lingüística empírica. En: Martí Antonín, M. A. Tecnologías del lenguaje. España: UOC