Processamento de Linguagem Natural Flvia Barros Centro de
Processamento de Linguagem Natural Flávia Barros Centro de Informática - UFPE CIn/UFPE
Roteiro n Breve histórico n Arquitetura geral de sistemas de PLN n Etapas na interpretação da LN • • • Processamento morfológico Processamento sintático Análise semântica Análise do discurso Processamento pragmático CIn/UFPE
Processamento de Linguagem Natural n Há 20 anos atrás. . . • Os dados estavam ordenadamente armazenados em Bancos de Dados n Hoje: • Os dados estão armazenados em forma de texto livre – e. g. , Internet • Como ter acesso a esses dados? n Processamento de Linguagem Natural (PLN) !!! • tem por objetivo interpretar e gerar frases isoladas ou textos em alguma língua natural • congrega estudos da Lingüística e da Ciência da Computação. CIn/UFPE
Um Pouco de História n Déc. 40 - 60: • Tradução automática (Ling. ) • Recuperação de informação (C. C. ) n Final 60 - 70 • Técnicas de Inteligência Artificial para representar e manipular conhecimento • Sistemas de pergunta-resposta • Interfaces em L. N. para bancos de dados e bases de conhecimento n Final 70 - final 80 • Lógica de Predicados e Frames para representar conhecimento e fazer inferência • Análise automática do discurso • Geração de linguagem natural • PLN conexionista • Ressurgimento de tradução automática (EUROTRA, UNL) CIn/UFPE
Um Pouco de História n Final 80 - 90: • PLN estatístico (grandes corpora) • Recuperação de informação na Web • Apresentações multimídia • Ajuda on-line • Sistemas tutores inteligentes n Outras aplicações: • Verificadores ortográficos e gramaticais • Reconhecimento e síntese de voz • Extração de informação • Geração de resumos • Avaliação empírica de teorias lingüísticas CIn/UFPE
Arquitetura de Sistemas para PLN n Etapas: • Processamento morfológico • Processamento sintático • Análise semântica • Análise do discurso • Processamento pragmático n Ver figura na apostila CIn/UFPE
Processamento Morfológico Objetivo: n Na interpretação: decompor as palavras da frase de entrada em radical + morfema gramatical • morfologia inflexional: – menina = menin + a – cadeiras = cadeira + s • morfologia derivativa: – fazia = faz + ia – desfaz = des + faz n Na geração: gerar as palavras que vão formar a frase a partir do seu radical + morfema gramatical CIn/UFPE
Processamento Morfológico n Análise morfológica: • Utiliza os radicais, morfemas gramaticais e regras morfológicas de formação das palavras • É central na construção de – verificadores ortográficos automáticos – qualquer aplicação com léxico e gramática de grande tamanho CIn/UFPE
Processamento Sintático Objetivo: n Na interpretação: • obter a representação da estrutura sintática da frase: Parsing n Na geração: • determinar a estrutura sintática da frase a ser gerada CIn/UFPE
A partir de agora. . . n Veremos apenas Interpretação de Linguagem Natural CIn/UFPE
Processamento Sintático n Parser: • algoritmo que mapeia uma frase na sua estrutura sintática • com base no léxico e na gramática do sistema. CIn/UFPE
Parsing n Etapas de processamento: • rotular cada palavra com sua categoria sintática (postagging) – mesa: substantivo; casa: subst. ou verbo • delimitar constituintes sintáticos - sintagmas (bracketing) • rotular os constituintes com categorias sintáticas – SN (sintagma nominal), SV (sintagma verbal), etc – Gramática de Constituintes Imediatos • rotular os constituintes com sua função sintática – sujeito, objeto, predicado, . . . • identificar dependências estruturais entre os constituintes – oração coordenada, subordinada, embedding, . . . CIn/UFPE
O Léxico n Dicionário com os termos utilizados pelo sistema. n Existem variados formalismos para representação dos léxicos. n A representação do léxico deve estar de acordo com a da gramática do sistema. n Exemplos de entradas de um léxico em PATR-II (Shieber 1984): mesa <categoria> = substantivo <gênero> = feminio <número> = singular <contável> = yes comprou <cat> = verbo <tempo> = pretérito-perfeito <número> = singular <pessoa> = 3 <voz passiva> = yes <arg 1> = SN <arg 2> = SN CIn/UFPE
A Gramática n Define, através de regras, quais são as cadeias de palavras válidas para o sistema. n Sistemas de PLN tratam um sub-conjunto de uma língua natural. n Existem diversos formalismos para a representação de gramáticas. n Exemplos de regras de uma gramática em PATR-II: • este formalismo oferece mecanismos para verificação de concordância gênero e número, por exemplo. SN ® Det Subst <Det gênero> = <Subs gênero> <Det número> = <Subs número> SN ® Subst Adj <Subst gênero> = <Adj gênero> <Subst número> = <Adj número> CIn/UFPE
Ambigüidade no nível Sintático n Frases onde as palavras podem assumir categorias sintáticas diferentes, a depender da interpretação: • I saw her duck n Ambigüidade estrutural: • Eu vi o banco da praça • Eu vi o rapaz no parque com o binóculo. (1) O rapaz estava com o binóculo (2) Eu estava com o binóculo CIn/UFPE
Ambigüidade no nível Sintático Ver figura na apostila CIn/UFPE
Interpretação Semântica n Estrutura sintática apenas não basta! • frases com palavras e estruturas sintáticas diferentes, porém com mesmo significado: (1) Eu dei um livro a Maria. (2) Maria recebeu um livro de mim. • receber e dar ® conceito semântico de transferência n Controle de inferência • Eu vi uma baleia grande – eu vi uma baleia – eu vi algo grande • Eu vi uma baleia pequena – eu vi algo pequeno? ? ? CIn/UFPE
Interpretação Semântica • estuda o significado das palavras e como elas se combinam para formar o significado das frases. Objetivo: n Na interpretação: mapear a estrutura lingüística da frase nos conceitos do domínio que a frase pode expressar. • problema: ambigüidade – Ela estava em minha companhia (1) companhia = empresa (2) companhia = pessoa (i. e. , ela estava comigo) n Na geração: expressar os conceitos do domínio na estrutura lingüística da frase. • problema: paráfrase CIn/UFPE
Restrições de Seleção n Restrições de seleção são atribuídas às palavras no léxico: • menino ® [+humano], [+masculino], [-adulto] • pensamento ® [+abstrato] • cabo ® [+vivente], [+humano], [+adulto] • cabo ® [+concreto], [+inanimado] • jovem = Substantivo modificado pelo adjetivo ® [+vivente] • morrer = Substantivo sujeito do verbo ® [+vivente] • Exemplo: – o cabo é jovem – o cabo é longo CIn/UFPE
Restrições de Seleção Ontologias n Restrições de seleção definem classes semânticas de palavras, que podem ser organizadas em hierarquias de tipos (ontologias). CIn/UFPE
Gramáticas de Casos n Formalismo muito utilizado no processamento semântico de frases. n Papéis temáticos, ou casos, são atribuídos aos constituintes da frase. n Papéis temáticos são determinados pelo verbo, o constituinte central da frase. n Exemplo de entrada lexical para o verbo entregar: entregar, Verbo argumentos: agente, tema, beneficiário • Eu entreguei a carta a Pedro. CIn/UFPE
Gramáticas de Casos Ver figuras na apostila CIn/UFPE
O Modelo do Domínio n Fornece o contexto enciclopédico do sistema. n Armazena conhecimento a respeito das entidades, relações, eventos, lugares e datas do domínio da aplicação. n O conhecimento é representado em uma Ontologia do domínio, em um (ou mais de um) formalismo de IA • e. g. , Lógica de Predicados, Redes Semânticas, Frames, Scripts. n Na interpretação: interpretação do conteúdo implícito das palavras. n Na geração: escolha do conteúdo a explicitar. CIn/UFPE
Processamento Automático do Discurso n Problema: Antônio quer fazer uma festa de formatura na sua casa. Ele a limpou e arrumou ontem. n Qual o referente do pronome a? • festa e casa apresentam os mesmos traços morfológicos (fem, sing) e sintáticos (subs). • o que nos ajuda a optar por casa é o nosso conhecimento do mundo (ou senso comum). CIn/UFPE
Processamento Automático do Discurso n Como é possível resolver automaticamente problemas desta natureza? n Foram desenvolvidos teorias lingüísticas e algoritmos computacionais para representar, interpretar e gerar discurso, a fim de construir sistemas de PLN capazes de manter um diálogo com o usuário. n Discurso: qualquer produção lingüística composta por mais de uma frase. CIn/UFPE
Discurso tem Estrutura (a) João e Maria saíram para comprar um cortador de grama novo (b) porque o deles foi roubado. (c) Maria viu os homens que o roubaram. (d) Ela os seguiu até o final da rua, (e) mas eles fugiram num caminhão. (f) Depois de procurar no shopping center, (g) eles concluíram que não têm dinheiro para um novo. (h) A propósito, João perdeu o emprego, (i) por isso ele está sem dinheiro. (j) Finalmente, eles decidiram comprar um cortador usado. CIn/UFPE
Análise do Discurso n Estuda os princípios que governam a produção de seqüências estruturadas de frases = discurso escrito ou falado. n O discurso é formado por segmentos • unidades lingüísticas que contêm uma ou mais frases consecutivas • que tratam do mesmo assunto (o foco daquele trecho do discurso). n Qual a importância de se identificar a estrutura do discurso? • entre outras, a identificação dos referentes de pronomes e dêiticos (e. g. , hoje, aqui, agora). CIn/UFPE
Análise do Discurso n Como determinar automaticamente a fronteira entre segmentos? • analisando a “superfície” do texto em busca de marcadores discursivos – e. g. , "A propósito", "Bem", "Como eu ia dizendo", "Em resumo", etc. • analisando o "conteúdo semântico" do , em busca de identificar mudanças de foco. CIn/UFPE
O Modelo do Discurso n Fornece o contexto discursivo. n É construído dinamicamente durante o processamento do discurso. n Armazena informações sobre as frases previamente processadas. n Central na interpretação e geração de pronomes e dêiticos. n Geralmente, consiste em uma pilha contendo as caraterísticas sintáticas e semânticas das entidades já introduzidas no discurso. n Essa pilha deve espelhar a estrutura do discurso, indicando onde começa e termina cada segmento. CIn/UFPE
Processamento Pragmático n Pragmática • estuda os enunciados - frases com seu significado no contexto do discurso. • tem como preocupação central a análise dos objetivos da comunicação (interação social). n Atos da Fala • atividades desenvolvidas pelos falantes enquanto fazem uso da íngua. 1. Atos Locutórios - "A janela está aberta'’ 2. Atos Ilocutórios - ordem ou um pedido para fechar a janela 3. Atos Perlocutórios - o efeito de um enunciado sobre o (fechar a janela) n Problema: um mesmo enunciado pode realizar atos da fala diversos, dependendo do seu contexto de uso. CIn/UFPE
Atos da Fala n Tipos de Atos da Fala, e possíveis realizações lingüísticas: • Assertivos - assertiva, constatação, afirmação, negação • Diretivos - ordem, comando, requisição • Comissivos - promessa, garantia, juramento, aposta • Expressivos - elogio, agradecimento, parabenização • Declarativos (a) encontro, indicação, declaração (b) declaração de guerra (c) estímulo, resignação, excomunhão n Exemplos: • Prometo que vou à festa. • Aposto que você vai gostar do livro. • Fale com o diretor. n Muito úteis na IA Distribuída, na comunicação entre os diversos agentes de uma sociedade. CIn/UFPE
Processamento Pragmático n É necessário em qualquer tarefa de PLN que requeira a análise das intenções dos participantes no discurso. • modelagem do usuário. n O Modelo do Usuário • fornece o contexto interpessoal. • armazena conhecimento a respeito do usuário do sistema, por exemplo: – seus objetivos, planos, intenções, – sua função, seu status, – seu conhecimento do domínio. n Pode ser modificado ou enriquecido durante o processamento com auxílio do componente pragmático. n Utiliza representações como planejamento hierárquico ou atos da fala. CIn/UFPE
Processamento de Linguagem Natural n Interpretação de LN – OK n Geração de LN • Ver apostila o outros livros e papers. . . CIn/UFPE
- Slides: 33