Inteligencia Artificial Introduccin a la comprensin del lenguaje

  • Slides: 35
Download presentation
Inteligencia Artificial Introducción a la comprensión del lenguaje natural Primavera 2009 profesor: Luigi Ceccaroni

Inteligencia Artificial Introducción a la comprensión del lenguaje natural Primavera 2009 profesor: Luigi Ceccaroni

Objetivos generales • Conocer el ámbito del PLN y sus principales aplicaciones • Comprender

Objetivos generales • Conocer el ámbito del PLN y sus principales aplicaciones • Comprender la problemática asociada a la comprensión del LN y los niveles de análisis sintáctico y semántico • Conocer las bases de la programación del análisis con gramáticas de cláusulas definidas (DCGs) 2

Ámbitos del PLN • El PLN consiste en construir sistemas computacionales capaces de comprender

Ámbitos del PLN • El PLN consiste en construir sistemas computacionales capaces de comprender i generar lenguaje humano en todas sus formas. • Para esto se necesita: – Saber cómo las personas generan expresiones correctas y comprensibles – Conocer cómo las personas comprenden expresiones de otras personas – Ser capaces de formalizar el conocimiento y los procesos necesarios de manera que sean tratables por un sistema computacional 3

Interdisciplinariedad • Disciplinas asociadas al PLN: – Inteligencia artificial • Representación del conocimiento •

Interdisciplinariedad • Disciplinas asociadas al PLN: – Inteligencia artificial • Representación del conocimiento • Razonamiento • Aprendizaje – Lingüística computacional – Teoría de lenguajes formales • Compiladores 4

Comprensión y generación • Son las dos operaciones básicas de las interfaces en LN.

Comprensión y generación • Son las dos operaciones básicas de las interfaces en LN. Sistema de PLN Consulta Emisor Respuesta Comprensión Actuación Generación • La consulta y la respuesta pueden ser en lenguaje oral: speech recognition and synthesis 5

Comprensión y traducción Representación interna texto LN origen Transformación (traducción) Comprensión Texto LN origen

Comprensión y traducción Representación interna texto LN origen Transformación (traducción) Comprensión Texto LN origen Representación interna texto LN destino Generación Texto LN destino • En lugar de texto puede haber una intervención oral. 6

Comprender el LN • La comprensión exige: – Extraer el significado individual de las

Comprender el LN • La comprensión exige: – Extraer el significado individual de las palabras – Comprender las relaciones entre las palabras – Referir el significado literal al contexto de actuación del sistema • Todo esto se alcanza a través de un análisis de los componentes del lenguaje a diferentes niveles. 7

Aplicaciones • • Traducción y resumen automáticos Extracción de información a partir de textos

Aplicaciones • • Traducción y resumen automáticos Extracción de información a partir de textos Interfaces y sistemas de diálogo Sistemas de consulta telefónica Clasificación y filtro de documentos, email Question answering Web semántica Búsqueda de información en Internet 8

Ejemplo de análisis “Em parlarà sens dubte de la reestructuració urbana a Barcelona” •

Ejemplo de análisis “Em parlarà sens dubte de la reestructuració urbana a Barcelona” • Ejemplos de cosas que hay que detectar: – Palabras individuales: em, parlarà, sens. . . – El papel (categoría) de las palabras en la frase: nombre, nombre propio, nombre compuesto, verbo, artículo. . . – La relación entre categorías (papel sintáctico) para establecer el significado global: sujeto, objeto directo. . . 9

Niveles de análisis • • • Fonológico Textual Morfológico Léxico Sintáctico Lógico Semántico Pragmático

Niveles de análisis • • • Fonológico Textual Morfológico Léxico Sintáctico Lógico Semántico Pragmático Ilocutivo 10

Niveles de análisis • Fonológico – Se aplica en el procesamiento del lenguaje oral.

Niveles de análisis • Fonológico – Se aplica en el procesamiento del lenguaje oral. – Es el tratamiento de los sonidos para detectar unidades de expresión (palabras). 11

Niveles de análisis • Textual – Filtrado de información no relevante: los textos a

Niveles de análisis • Textual – Filtrado de información no relevante: los textos a tratar vienen a menudo acompañados de otros materiales que deben ser eliminados o extraídos (por ejemplo, si la fuente de información es una página web, diferentes tipos de marcas que definen las características de visualización de la página). 12

Niveles de análisis • Textual – Segmentación y localización de unidades tratables: • El

Niveles de análisis • Textual – Segmentación y localización de unidades tratables: • El texto debe ser segmentado en fragmentos que puedan tratarse de forma hasta cierto punto independiente (párrafos, oraciones, intervenciones de diversos interlocutores. . . ). • Las unidades básicas de tratamiento son las palabras; localizar las palabras ortográficas es sencillo si el espacio o los signos de puntuación actúan como separadores. 13

Niveles de análisis • Textual – Localización de unidades tratables • Métodos basados en

Niveles de análisis • Textual – Localización de unidades tratables • Métodos basados en localización de marcas de puntuación: “. ”, “? ”, “!”, ”…” • Problemas: ? – siglas – iniciales 14

Niveles de análisis • Morfológico – La morfología estudia la estructura de las palabras

Niveles de análisis • Morfológico – La morfología estudia la estructura de las palabras y su relación con las categorías del lenguaje. – El objetivo del análisis morfológico automático es llevar a cabo una clasificación morfológica de las palabras. – Por ejemplo, el análisis de la palabra gatos resulta en gato+Noun+Masc+Pl, que nos indica que se trata de un sustantivo plural con género masculino y que su forma normalizada (lema) es gato. 15

Niveles de análisis • Morfológico – Versión simple: utilización de formarios (listas de formas

Niveles de análisis • Morfológico – Versión simple: utilización de formarios (listas de formas con información morfológica y los lexemas correspondientes) • Morfemas = lexemas (o raíz) o gramemas Lexema Gramema cant o es a em en 16

Niveles de análisis • Morfológico – Analizadores morfológicos: • Diccionarios de morfemas: – de

Niveles de análisis • Morfológico – Analizadores morfológicos: • Diccionarios de morfemas: – de raíces (lexemas), de sufijos, de prefijos, de infijos • Morfotáctica: reglas de combinación de morfemas • Variaciones fonológicas: cambios al combinar morfemas (ej. , ploure, plovisquejar) 17

Niveles de análisis • Léxico – Distingue entre palabras ortográficas y palabras gramaticales. –

Niveles de análisis • Léxico – Distingue entre palabras ortográficas y palabras gramaticales. – Obtiene información léxica de diccionarios, ontologías. . . 18

Niveles de análisis • Léxico – Detecta unidades de significado • Reconoce y fragmenta

Niveles de análisis • Léxico – Detecta unidades de significado • Reconoce y fragmenta adecuadamente las palabras: “/Parlarà/ /sens dubte/ /de/ /les/ /reestructuracions/ /urbanes/ /a/ /Sant Cugat/” – Recoge información útil y facilita las fases de análisis posterior • Asocia categorías gramaticales a las unidades léxicas • Asocia información semántica a las unidades léxicas (uso de ontologías y diccionarios) • Detecta y clasifica entidades con nombre propio 19 (named entity recognition, NER)

Niveles de análisis • Léxico – Correspondencia palabras ortográficas/gramaticales • Detecta, por ejemplo, los

Niveles de análisis • Léxico – Correspondencia palabras ortográficas/gramaticales • Detecta, por ejemplo, los casos siguientes: – “dóna-m’ho”, “dímelo” (1 p. ortográfica, 3 p. gramaticales) – “sens dubte”, “sin embargo” (2 p. ortográficas, 1 p. gramatical) – Homonimia • Misma forma, diferentes categorías gramaticales – “roda” (verbo, 3 a persona), “roda” (nombre) -> conexión con sintaxis – Polisemia • Misma forma y categoría, diferentes sentidos 20 – p. e. : “banco”

Niveles de análisis • Léxico – Sigles • “Un cop s’ha generat un PCB

Niveles de análisis • Léxico – Sigles • “Un cop s’ha generat un PCB es pot enviar a una cua FIFO” • “The cell’s DNA sample was identified by PRC, a process approved by the official UBI” – Abreviatures • “El Dr. Pirvo va parlar del Tract. del Lleng. Natural…” – Fórmules i mesures • “Afegir dos mg de DM-oxano i guardar dins d’un vial de PVC” • “Si tenim en compte que x=y*2 + k, on k és una constant. . . ” – Volum d’informació 21

Niveles de análisis • Ambigüedad léxica – “Pinchó la rueda de delante” • “rueda”

Niveles de análisis • Ambigüedad léxica – “Pinchó la rueda de delante” • “rueda” puede ser nombre o verbo (part-of-speech tagging - POS-tagging) – “Vio el banco” • “banco” puede ser el mueble para sentarse, la entidad financiera o un grupo de peces (word sense disambiguation - WSD) 22

Ejemplo “Quina es la capital de França? ” • Resultado del análisis morfológico: quina

Ejemplo “Quina es la capital de França? ” • Resultado del análisis morfológico: quina és la capital de França ? quin ésser el capital de frança ? DT 0 FS 00 VMIP 3 S 0 TDFS 0 AQPCS 00 SPS 00 NP 00000 -loc Fit quina NCFS 000 ell capital PP 3 FSO 00 NCFS 000 la capital I NCMS 000 23

Ejemplo “Quina es la capital de França? ” • Resultado del POS-tagging: quina és

Ejemplo “Quina es la capital de França? ” • Resultado del POS-tagging: quina és la capital de França ? quin ésser el capital de frança ? DT 0 FS 00 VMIP 3 S 0 TDFS 0 NCFS 000 SPS 00 NP 00000 -loc Fit 24

Niveles de análisis • Utilización de lexicones – “Diccionarios léxicos” – Reúnen información útil

Niveles de análisis • Utilización de lexicones – “Diccionarios léxicos” – Reúnen información útil para reconocer y categorizar las palabras y su ubicación en el texto. Lexema Informació cant- cantar V / Infinitiu -o/-es/-a/-em/-eu/-en 25

Problemática: representación • Decidir el tipo de información que contiene: – Categoría sintáctica •

Problemática: representación • Decidir el tipo de información que contiene: – Categoría sintáctica • determinante, proposición, nombre propio, sustantivo, verbo, etc. • Problema de la granularidad (verbo -> transitivo/intransitivo) – Propiedades sintácticas de concordancia • • género (masculino/femenino) número (singular/plural) persona (primera, segunda. . . ) caso (acusativo, dativo. . . )

Problemática: representación • Otras propiedades sintácticas: – Tipo de complemento del verbo – Preposiciones

Problemática: representación • Otras propiedades sintácticas: – Tipo de complemento del verbo – Preposiciones que acepta una palabra • Categoría semántica • Información morfológica – Derivación: prefijos/infijos/sufijos plov + -isquej- + ar re- + estructura + -cio + -ns prefijo raíz sufijo

Problemática: representación – Información léxica repetición nombre plural re- + estructura + -cio +

Problemática: representación – Información léxica repetición nombre plural re- + estructura + -cio + -ns prefijo raíz sufijo

Problemática: representación – Información léxica diminutivo infinitivo plov + -isquej- + ar raíz infijo

Problemática: representación – Información léxica diminutivo infinitivo plov + -isquej- + ar raíz infijo sufijo

Niveles de análisis • Sintáctico – Reconoce, extrae y representa estructuras sintácticamente válidas (o

Niveles de análisis • Sintáctico – Reconoce, extrae y representa estructuras sintácticamente válidas (o inválidas): Els gat vell menja bacallà El gata menja bacallà El gat menja bacallà | | Det Noun Verb Noun SN SV F 30

Niveles de análisis • Ambigüedad sintáctica – “El vendedor de diarios del barrio” (prepositionalphrase

Niveles de análisis • Ambigüedad sintáctica – “El vendedor de diarios del barrio” (prepositionalphrase attachment - PP-attachment) – “Vio un hombre con unos prismáticos” 31

Niveles de análisis • Lógico – Extrae y representa el significado literal de una

Niveles de análisis • Lógico – Extrae y representa el significado literal de una oración a través de un lenguaje formal: cálculo de predicados de primer orden (CP 1), ontologías, mapas conceptuales. . . – En el caso de CP 1, expresiones en términos de predicados, variables, funciones, constantes, conectivas lógicas. . . “El gat menja bacallà” existen x, y (Gat(x) & Bacallà(y) & Menja(x, y)) 32

Niveles de análisis • Semántico – Interpretación de la forma lógica: Relación de les

Niveles de análisis • Semántico – Interpretación de la forma lógica: Relación de les entidades lógicas (constantes, variables, términos) con el mundo real (o su representación) – El gato es un felino, el bacalao es un pez comestible, el actor de comer tiene que ser un ser vivo. . . – Extraer sentido global a partir de sentidos individuales y relaciones • Ambigüedad semántica – “Dio un pastel a los niños” • Puede ser 1 a todos o 1 a cada niño – “Las ideas verdes duermen furiosamente”

Niveles de análisis • Pragmático – Interpretación en un contexto determinado (incorpora referencias implícitas)

Niveles de análisis • Pragmático – Interpretación en un contexto determinado (incorpora referencias implícitas) • “Le dio un libro” • “No les gustó” – Relación con el resto del discurso • “L’avió va detectar el banc” • “El gat vell” (perro viejo)

Niveles de análisis • Ilocutivo – Problema de asignación de intenciones • “Los platos

Niveles de análisis • Ilocutivo – Problema de asignación de intenciones • “Los platos están sucios” – ¿Es una frase declarativa neutra? – ¿Es una invitación a la acción? (¡Lávalos!) – ¿Es un reproche? (Siempre los dejas sucios y me toca lavarlos a mí)