Anforas y otras relaciones de correferencia en la

  • Slides: 39
Download presentation
Anáforas y otras relaciones de correferencia en la expansión de Contextos Definitorios Valeria A.

Anáforas y otras relaciones de correferencia en la expansión de Contextos Definitorios Valeria A. Benítez Rosete FF y L / GIL 27 de febrero de 2007 E-mail. Vbenitez. R@ii. unam. mx

Introducción: › La investigación Anáforas y otras relaciones de correferencia en la expansión de

Introducción: › La investigación Anáforas y otras relaciones de correferencia en la expansión de Contextos definitorios se desarrolla en el marco del proyecto Extracción de conceptos en textos de especialidad a través del reconocimiento de patrones lingüísticos y metalingüísticos.

Introducción: › La investigación Anáforas y otras relaciones de correferencia en la expansión de

Introducción: › La investigación Anáforas y otras relaciones de correferencia en la expansión de Contextos definitorios se desarrolla en el marco del proyecto Extracción de conceptos en textos de especialidad a través del reconocimiento de patrones lingüísticos y metalingüísticos. › El objetivo principal de dicho proyecto es la extracción automática de estructuras discursivas denominadas Contextos definitorios (CDs).

Introducción: › La investigación Anáforas y otras relaciones de correferencia en la expansión de

Introducción: › La investigación Anáforas y otras relaciones de correferencia en la expansión de Contextos definitorios se desarrolla en el marco del proyecto Extracción de conceptos en textos de especialidad a través del reconocimiento de patrones lingüísticos y metalingüísticos. › El objetivo principal de dicho proyecto es la extracción automática de estructuras discursivas denominadas Contextos definitorios (CDs). › Los Contexto Definitorios son fragmentos textuales en los que hay un término y su correspondiente definición.

Problemática general: › La estructura y extensión de las definiciones no corresponde a un

Problemática general: › La estructura y extensión de las definiciones no corresponde a un mismo patrón.

Problemática general: › La estructura y extensión de las definiciones no corresponde a un

Problemática general: › La estructura y extensión de las definiciones no corresponde a un mismo patrón. › La definición está “dispersa” en el discurso. Se trata de fragmentos textuales que aparecen espontáneamente en los textos especializados.

Problemática general: › La estructura y extensión de las definiciones no corresponde a un

Problemática general: › La estructura y extensión de las definiciones no corresponde a un mismo patrón. › La definición está “dispersa” en el discurso. Se trata de fragmentos textuales que aparecen espontáneamente en los textos especializados. › Los CD se extraen de manera semiautomática patrones verbales. a partir de

Problemática general: › No hay hasta ahora un criterio para determinar la extensión de

Problemática general: › No hay hasta ahora un criterio para determinar la extensión de los CDs en la extracción automática.

Problemática general: › No hay hasta ahora un criterio para determinar la extensión de

Problemática general: › No hay hasta ahora un criterio para determinar la extensión de los CDs en la extracción automática. La componente horizontal es la suma de la fuerza resultante de la distribución de presiones y la fuerza de fricción. (CLI, CD_269)

Problemática general: › No hay hasta ahora un criterio para determinar la extensión de

Problemática general: › No hay hasta ahora un criterio para determinar la extensión de los CDs en la extracción automática. La componente horizontal es la suma de la fuerza resultante de la distribución de presiones y la fuerza de fricción. (CLI, CD_269) Richling y T. Bartkowski , entre otros ; quienes consideran a la Ecología del Paisaje como: "ciencia transdisciplinar que tiene como objetivo principal la resolución del problema de la gestión y desarrollo de los territorios a escala regional y local a lo que le llaman algunos , Ecosistema Humano Total " ( Naveh , Z and A. S. ; Lieberman , 1984 ; y Naveh , Z , 1991 ). (CLI, CD_44)

Problemática general: › No hay hasta ahora un criterio para determinar la extensión de

Problemática general: › No hay hasta ahora un criterio para determinar la extensión de los CDs en la extracción automática. La componente horizontal es la suma de la fuerza resultante de la distribución de presiones y la fuerza de fricción. (CLI, CD_269) Richling y T. Bartkowski , entre otros ; quienes consideran a la Ecología del Paisaje como: "ciencia transdisciplinar que tiene como objetivo principal la resolución del problema de la gestión y desarrollo de los territorios a escala regional y local a lo que le llaman algunos , Ecosistema Humano Total " ( Naveh , Z and A. S. ; Lieberman , 1984 ; y Naveh , Z , 1991 ). (CLI, CD_44) › La condición necesaria de un CD: un término, su correspondiente definición y casi siempre una predicación verbal que los ligue.

Problemática particular: › La problemática general deriva en la necesidad de describir y estudiar

Problemática particular: › La problemática general deriva en la necesidad de describir y estudiar ciertos recursos lingüísticos, en especial fenómenos discursivo que garantizan la cohesión y la coherencia textuales. (Entre ellos: Relaciones de correferencias, anáforas, elipsis, paráfrasis, y otros recursos lingüísticos tales como los tiempos verbales, el aspecto y los marcadores discursivos. )

Problemática particular: › La problemática general deriva en la necesidad de describir y estudiar

Problemática particular: › La problemática general deriva en la necesidad de describir y estudiar ciertos recursos lingüísticos, en especial fenómenos discursivo que garantizan la cohesión y la coherencia textuales. (Entre ellos: Relaciones de correferencias, anáforas, elipsis, paráfrasis, y otros recursos lingüísticos tales como los tiempos verbales, el aspecto y los marcadores discursivos. ) › El CD abarca “toda” la información que se proporciona del término definido.

Problemática particular: › La problemática general deriva en la necesidad de describir y estudiar

Problemática particular: › La problemática general deriva en la necesidad de describir y estudiar ciertos recursos lingüísticos, en especial fenómenos discursivo que garantizan la cohesión y la coherencia textuales. (Entre ellos: Relaciones de correferencias, anáforas, elipsis, paráfrasis, y otros recursos lingüísticos tales como los tiempos verbales, el aspecto y los marcadores discursivos. ) › El CD abarca “toda” la información que se proporciona del término definido. › Las relaciones de correferencia entre el término y otras unidades lingüísticas (frases nominales, frases con demostrativo o pronombres) se establecen fuera de los supuestos límites de los CDs (extracción automática).

Objetivos: 1. Localizar, clasificar y etiquetar relaciones de correferencia dentro de los CDs y

Objetivos: 1. Localizar, clasificar y etiquetar relaciones de correferencia dentro de los CDs y fuera de ellos cuando el término establece relaciones de correferencia con unidades lingüísticas “externas” al CD.

Objetivos: 1. Localizar, clasificar y etiquetar relaciones de correferencia dentro de los CDs y

Objetivos: 1. Localizar, clasificar y etiquetar relaciones de correferencia dentro de los CDs y fuera de ellos cuando el término establece relaciones de correferencia con unidades lingüísticas “externas” al CD. 2. Proponer una tipología de anáforas y relaciones de correferencia implicadas en los CDs.

Objetivos: 1. Localizar, clasificar y etiquetar relaciones de correferencia dentro de los CDs y

Objetivos: 1. Localizar, clasificar y etiquetar relaciones de correferencia dentro de los CDs y fuera de ellos cuando el término establece relaciones de correferencia con unidades lingüísticas “externas” al CD. 2. Proponer una tipología de anáforas y relaciones de correferencia implicadas en los CDs. 3. Establecer patrones lingüísticos recurrentes en el uso de correferencias y anáforas que permitan llevar a cabo búsquedas automáticas más precisas.

Hipótesis: › A través del reconocimiento y análisis de las relaciones de correferencia establecidas

Hipótesis: › A través del reconocimiento y análisis de las relaciones de correferencia establecidas entre el término definido y otras entidades nominales y pronominales, será posible rastrear los límites de un CD.

Hipótesis: › A través del reconocimiento y análisis de las relaciones de correferencia establecidas

Hipótesis: › A través del reconocimiento y análisis de las relaciones de correferencia establecidas entre el término definido y otras entidades nominales y pronominales, será posible rastrear los límites de un CD. › Al delimitar la extensión de un CD, la cohesión y coherencia textuales de éste no deberán diluirse a pesar de que se trata de fragmentos discursivos extraídos de un texto completo.

Hipótesis: › A través del reconocimiento y análisis de las relaciones de correferencia establecidas

Hipótesis: › A través del reconocimiento y análisis de las relaciones de correferencia establecidas entre el término definido y otras entidades nominales y pronominales, será posible rastrear los límites de un CD. › Al delimitar la extensión de un CD, la cohesión y coherencia textuales de éste no deberán diluirse a pesar de que se trata de fragmentos discursivos extraídos de un texto completo. › Los patrones obtenidos nos permitirán establecer cuándo, en la extracción automática, debe expandirse un CD para recuperar la información prominente del término definido.

Ámbito del problema: Coherencia y cohesión textuales › Coherencia- Unidad entre las partes del

Ámbito del problema: Coherencia y cohesión textuales › Coherencia- Unidad entre las partes del texto, proceso total de la intensión comunicativa, significado global del texto. › Cohesión- Conjunto de funciones lingüísticas que indican relaciones dentro de un texto (recurrencia, paráfrasis, sustitución, elipsis, marcadores discursivos)

Ámbito del problema: REFERENCIA en dos sentidos: a. La facultad denotativa del lenguaje, establece

Ámbito del problema: REFERENCIA en dos sentidos: a. La facultad denotativa del lenguaje, establece una relación entre entidades lingüísticas y el referente que se desea comunicar (ajeno al sistema de la lengua). b. En un sentido más acotado, referencia como un fenómeno discursivo en el que las unidades lingüísticas establecen relación con otras unidades lingüísticas y constituyen entonces relaciones referenciales intrínsecas al acto comunicativo.

Ámbito del problema: EXPRESIONES REFERENCIALES › Unidades lingüísticas encargadas de identificar las entidades, objetos,

Ámbito del problema: EXPRESIONES REFERENCIALES › Unidades lingüísticas encargadas de identificar las entidades, objetos, ideas y realidades queremos comunicar. › Las expresiones referenciales corresponden a sintagmas nominales que van de lo más simple a lo complejo: Nombres propios, descripciones definidas, descripciones indefinidas, frases nominales con cuantificadores (todos, algunos, la mayoría, etc. ), frases nominales con demostrativo, expresiones con posesivo y pronombres.

Ámbito del problema: Correferencia La relación simétrica entre dos expresiones referenciales concretas que en

Ámbito del problema: Correferencia La relación simétrica entre dos expresiones referenciales concretas que en cierto contexto de uso comparten una misma identidad a pesar del sentido que tengan por sí mismas o en otros contextos. • Por ejemplo correferencia entre FN definida y pronombre: la salinidad es uno de los principales indicadores, ya que ésta es una variable que refleja la dinámica de intercambio y mezcla entre el agua dulce y el agua de mar (CLI, CD_208) salinidad CORREFERENCIA ésta

Ámbito del problema: Entre expresiones referenciales: Existen cuchillas que pueden desconectar circuitos con carga.

Ámbito del problema: Entre expresiones referenciales: Existen cuchillas que pueden desconectar circuitos con carga. Estas cuchillas reciben generalmente el nombre de seccionadores y son casi siempre cuchillas de operación vertical con accesorios especiales para desconexión rápida. (CLI, CD_229) El concepto correferencia apunta al concepto anáfora como el principal recurso lingüístico que permite hacer referencia a unidades del discurso ya antes enunciadas.

Ámbito del problema: Anáfora (Relaciones fóricas) › De la palabra griega que pasó al

Ámbito del problema: Anáfora (Relaciones fóricas) › De la palabra griega que pasó al latín como anapherein ‘repetir, recordar’ (ana- ‘atrás, hacía atrás’ + pherein ‘llevar’) indica el hecho de hacer referencia a algo mencionado anteriormente. › Mecanismos que nos permite hacer una referencia abreviada a alguna entidad o entidades, con la confianza de que el receptor del discurso sea capaz de desabreviar la referencia y por consiguiente determinar la entidad a la que se alude. › Establece una relación de referencia entre una forma lingüística (expresión anafórica) y un antecedente. La anáfora prototípica es el pronombre.

Ámbito del problema: Relaciones fóricas en el texto: › Referencias exofóricas (exáforas)- denotan entidades

Ámbito del problema: Relaciones fóricas en el texto: › Referencias exofóricas (exáforas)- denotan entidades ajenas al › Referencias discurso. endofóricas (endáforas)- refieren entidades expresadas dentro del discurso es decir en un contexto discursivo (anáfora/catáfora)

Ámbito del problema: Relaciones fóricas en el texto: › Referencias exofóricas (exáforas)- denotan entidades

Ámbito del problema: Relaciones fóricas en el texto: › Referencias exofóricas (exáforas)- denotan entidades ajenas al › Referencias discurso. endofóricas (endáforas)- refieren entidades expresadas dentro del discurso es decir en un contexto discursivo (anáfora/catáfora) Anáfora- Hace referencia a un antecedente ya mencionado, se orientan hacia el texto anterior. Catáfora- Refiere a una entidad que será introducida en el discurso, se orienta hacia el texto posterior

Ámbito del problema: Importante distinción para este trabajo: a) Expresiones referenciales (referring expressions): Nombres

Ámbito del problema: Importante distinción para este trabajo: a) Expresiones referenciales (referring expressions): Nombres › Elementos anafóricos (anaphoric elements)- PRONOMBRES propios, descripciones definidas, descripciones indefinidas, frases nominales con demostrativo, expresiones con posesivo, frases nominales con cuantificador (todos, algunos, la mayoría, ningún)

Corpus: Se trabajó con 250 CDs del Corpus Lingüístico de Ingeniería, GIL; 100 del

Corpus: Se trabajó con 250 CDs del Corpus Lingüístico de Ingeniería, GIL; 100 del Bwana. Net. Corpus Tècnic del IULA de la UPF y 100 del Corpus de Informática en Español, Groupe Éclectik, Université de Montreal. La extracción automática de CDs arroja: • Buenos candidatos Un interruptor es un dispositivo cuya función es interrumpir y restablecer la continuidad en un circuito eléctrico. (CLI, CD_356)

Corpus: b) Malos candidatos Otra opción de navegación interior en México se tiene en

Corpus: b) Malos candidatos Otra opción de navegación interior en México se tiene en el Estado de Chiapas, de acuerdo con el proyecto concebido por el entonces Presidente Gral. a) Candidatos anómalos o incompletos el cual, como su nombre lo indica, es un geotextil que se colocar antes del geotubo, a manera de tapete y que tiene en uno o en ambos extremos un tubo de un diámetro mínimo, el cual trabaja como lastre y, al iniciarse la erosión o socavación por debajo de él, (CLI, CD_220)

Método: 1. Se trabaja con Buenos candidatos y Candidatos anómalos. 2. Se separan Buenos

Método: 1. Se trabaja con Buenos candidatos y Candidatos anómalos. 2. Se separan Buenos candidatos de los Candidatos anómalos. 3. Para rastrear las relaciones de corr� eferencia y anáforas dentro y fuera de los CDs fue necesario volver a los documento completos del corpus. 4. Se expandieron todos los CDs cotejándolos documentos originales con los

Método: Expansión de Candidatos anómalos para rastrear el antecedente (el término definido) CD sin

Método: Expansión de Candidatos anómalos para rastrear el antecedente (el término definido) CD sin expansión: Este modelo se conoce como modelo potencial porque con él el campo de velocidades se puede considerar como el gradiente de una función potencial , que además cumple la ecuación de Laplace en todo el dominio. (CLI, CD_30) CD expandido Por ello es particularmente propicio a la utilización del modelo matemático de fluido incompresible y sin viscosidad. Este modelo se conoce como modelo potencial porque con él el campo de velocidades se puede considerar como el gradiente de una función potencial , que además cumple la ecuación de Laplace en todo el dominio.

Método: Expansión de Buenos candidatos para verificar los límites del CD CD sin expansión:

Método: Expansión de Buenos candidatos para verificar los límites del CD CD sin expansión: El sistema de doble barra permite también dividir la corriente cuando se tienen varios generadores operando en paralelo, ya que algunos pueden operar sobre la barra de transferencia y otros sobre la de reserva. (CLI, CD_145) CD expandido El sistema de doble barra permite que se alimente por una barra y se tenga otra de reserva para los casos de reparación o mantenimiento de aisladores de la barra principal (transferencia). El sistema de doble barra permite también dividir la corriente cuando se tienen varios generadores operando en paralelo, ya que algunos pueden operar sobre la barra de transferencia y otros sobre la de reserva.

En proceso: › Contabilización de los resultados en Buenos candidatos de los tres corpus

En proceso: › Contabilización de los resultados en Buenos candidatos de los tres corpus › Contabilización de los resultados en Candidatos anómalos de los tres corpus › Tipología de anáforas y comunes en los CDs de expresiones correferenciales más › Definir patrones regulares de anáforas y correferencias en Buenos candidatos › Definir patrones regulares de anáforas y correferencias en Candidatos anómalos.

Mejorar patrones de búsqueda: • Pronombre relativo (el cual, la cual, los cuales, las

Mejorar patrones de búsqueda: • Pronombre relativo (el cual, la cual, los cuales, las cuales) + clítico se + verbo definitorio. El cual se conoce como… • Pronombre relativo (el cual, la cual, los cuales, las cuales) + verbo ser (auxiliar) + verbo definitorio. La cual se define como… • Genus + relativo que + diferencia Una calculadora es un aparato que sirve para hacer cuentas… • Verbo gerundio + pronombre lo = anáfora o catá de término Definiéndolo desde la perspectiva científica…

Aportaciones (ETIQUETAS): Se denomina transformador de potencial a aquél cuya función principal es transformar

Aportaciones (ETIQUETAS): Se denomina transformador de potencial a aquél cuya función principal es transformar los valores de voltaje sin tomar en cuenta la corriente. Estos transformadores sirven para alimentar instrumentos de medición, control o protección que requieran señal de voltaje. (CLI, CD_341) Se denomina <ANT tipant= "TERM" indcf= "" inanf= "1"> transformador </ANT> de potencial a <Anf ant= "TERM" tipanf= "D" indanf= "1"> aquél </Anf> <Anf ant= "Ot" tipanf= "Cat" indanf= "2"> cuya </Anf> <ANT tipant= "Ot" indcf= "" inanf= "2"> función principal </ANT> es transformar los valores de voltaje sin tomar en cuenta la corriente. <Cf tipcf= "TERM" stcf= "FND" indcf= "1"> Estos transformadores </Cf> sirven para alimentar <ANT ant= "Ot" indcf= "" inanf= "3"> instrumentos de medición, control o protección </ANT> <Anf ant= "Ot" tipanf= "R" indanf= "3"> que </Anf> requieran señal de voltaje. (CLI, CD_341)

Conclusiones preliminares: › Las anáforas y otras relaciones de correferencia son un recurso lingüístico

Conclusiones preliminares: › Las anáforas y otras relaciones de correferencia son un recurso lingüístico sumamente productivo en las construcción de definiciones (CDs) › La resolución de correferencias y anáforas es determinante para detectar y delimitar la extensión de los CDs. › La cohesión y coherencia de un CDs dependen en gran medida de que las relaciones de correferencia entre expresiones referenciales y las relaciones anafóricas sean tomadas en cuenta en la extracción automática de CDs. › Los patrones que describen el uso de relaciones de correferencia y anáforas en las definiciones no sólo sirven para delimitar si un CD debe expandirse en la extracción automática, pueden mejorar también el patrón de búsqueda (criterio de predicación verbal)

FIN de las relaciones de correferencia por h 0 y porque de CD´s todavía

FIN de las relaciones de correferencia por h 0 y porque de CD´s todavía más…