Recuperao de Informao Exemplos de Aplicaes Flvia Barros
Recuperação de Informação Exemplos de Aplicações Flávia Barros CIn-UFPE 1
2 Roteiro Exemplos de Sistemas de RI n Aplicações, agentes, serviços na Web Áreas de pesquisa e desenvolvimento relacionadas CIn-UFPE
3 Tarefa típica de Recuperação de Informação (RI) Dados n n Um corpus de documentos (itens de dados) & Uma consulta do usuário w geralmente representada por palavras-chave Encontrar n Um conjunto ordenados de documentos que são relevantes para a consulta CIn-UFPE
Sistemas de RI Etapas principais 4 Aquisição (seleção) dos documentos n Manual ou automática Preparação dos documentos n Criação da sua representação Indexação dos documentos n Na maioria dos casos, construção da base de índices invertidos Busca e recuperação n casamento da consulta do usuário com os índices na base n recuperação dos documentos selecionados Ordenação dos documentos recuperados n de acordo com alguma função de relevância CIn-UFPE
5 Aplicações, Serviços, Agentes. . . Sistemas de Automação de Bibliotecas n n n Primeira aplicação na área de RI Atualmente, a tendência são as bibliotecas digitais RI + BD Engenhos de Busca na Web n Google, Yahoo!, etc. . . CIn-UFPE
6 Aplicações, Serviços, Agentes. . . Sistemas que fazem mais do que simples RI n Sistemas de meta-busca w Na Web ou em BDs n n n Sistemas de Pergunta-resposta Sistemas de Recuperação multi-língua Sistemas de Extração de Informação w Extraem, de documentos relevantes, apenas a informação requerida CIn-UFPE
7 Aplicações, Serviços, Agentes. . . Sistemas que fazem mais do que simples RI n Sistemas de Recomendação w Recomendam de itens de informação ao usuário de acordo com o seu perfil n n n Sistemas de classificação automática de documentos w categorização/clustering de documentos Sistemas de mineração de dados/informação Sistemas de gerenciamento de documentos CIn-UFPE
8 Aplicações, Serviços, Agentes. . . Sistemas que fazem mais do que simples RI n Agentes de filtragem de informação w E. g. , filtragem de spam n Agentes Notificadores w Enviam emails para o usuário de acordo com seus interesses n Agentes de Comércio Eletrônico w Capazes de representar o usuário em compras na Web n Agentes Chatterbots w Capazes de dialogar com os usuários em linguagem natural restrita CIn-UFPE
9 Bibliotecas Digitais Projeto LIBER n n n Mantém uma base de teses e dissertações produzidas na UFPE http: //www. virtus. ufpe. br/liber Documentos indexados por metadados w Autor, titulo, palavras-chave, resumo Citeseer n n Scientific Literature Digital Library http: //citeseer. ist. psu. edu/ CIn-UFPE
10 Engenhos de Busca na Web Indexam os documentos na Web Aquisição automática de documentos n Através do uso de spiders w robôs de indexação que varrem a Web em busca de novos documentos w Busca em largura e/ou profundidade a partir de um dado site Preparação dos documentos n Até onde eu sei, indexam o documento inteiro w Não eliminam termos irrelevantes n Podem explorar o layout do documento HTML quando determinam o peso dos termos na representação do documento CIn-UFPE
11 Engenhos de busca na Web Busca e recuperação n n Utilizam bases de índices invertidos Modelo espaço vetorial? ? ? Ordenação dos documentos recuperados n de acordo com alguma função de relevância w Co-seno? ? ? Alguns problemas com a Web n n Taxa de atualização MUITO alta Falta de estrutura padrão nos documentos Alguns problemas com os engenhos de busca n n Baixa precisão na recuperação de documentos “Information overload” CIn-UFPE
12 Engenhos de Busca Engenho de Busca Usuário Servidor de Consultas Consulta Browser Resposta 1 4 Base de Índices Indexador Representação dos Docs Spider Aquisição 3 Ordenador Motor de Indexação Web 2 Recuperador Docs Pré-Processador CIn-UFPE
13 Sistemas para recuperação de documentos similares Engenhos de busca n n São robustos e gerais Porém, muitas vezes retornam uma quantidade muito grande de documentos irrelevantes Sistemas de recuperação de documentos similares ao que o usurário está acessando n n E. g. Google. Toolbar, Alexa, Kenjin Problemas: w Lidam apenas com documentos em HTML (Google. Toolbar, Alexa) w O documento do usuário deve estar indexado previamente (Google. Toolbar, Alexa) w Baixa precisão (Kenjin) CIn-UFPE
14 Active Search Sistema de meta busca Sistema para recuperação de documentos similares em repositórios digitais n n Recupera documentos similares ao que o usuário esta acessando/editando Processo de recuperação é online e baseado no conteúdo do documento w Utiliza o modelo Espaço Vetorial n Lidam com diferentes tipos de documentos w HTML, doc n Plataformas: w Internet Explorer e Microsoft Word n Projeto financiado pela Lei de Informática w Juliano Rabelo, Eduardo Amaral, Fred Brito, Eu, Gustavo de Paula, Geber. . . CIn-UFPE
Active Search - Arquitetura Application 1 Doc’s Content Document Pre-Processor Doc. Post. Processor Docs Retriever Application 2 Application 3 Ordered List of Docs Current Doc’s Internal Representation 15 Meta-search Query Preparation Documents Bases Docs’ Pointers Web Query Docs Searcher LAN Docs’ Local Docs’ Internal Content Directories Representatio n Pointers to Documents Docs Reorderer User’s Profile Relevant Documents Manager CIn-UFPE
Active Search - Protótipo 16 Busa documentos similares n ao que está sendo acessado/editado n a uma parte do documento selecionada com drag-and-drop Similarity percentage to the current doc Starts a search from the active document Keyword search Last results cache System configuration CIn-UFPE
17 Sistemas de Pergunta-Resposta Recuperação de Informação + Processamento de Linguagem Natural n n Recebem como entrada uma pergunta em linguagem natural Retornam como saída a resposta (curta) ao invés de uma lista de documentos w Utilizando também técnicas de Extração de Informação Exemplo: n n P: Qual o melhor time de futebol do Brasil? R: Santa Cruz Futebol Clube CIn-UFPE
Sistemas de Pergunta-Resposta Arquitetura Genérica 18 CIn-UFPE
19 Sistemas de Pergunta-Resposta na Web Motivação n n A Web é o maior repositório de informações já construído Necessidade de informação melhor representada sob forma de pergunta Tecnologias (de RI) existentes são inadequadas Negligenciam a semântica da pergunta e dos documentos Sistema Pergunte! n Uma interface em Português para pergunta-resposta na Web w não existem sistemas de PR na Web para o Português n Mestrado de Juliano Rabelo, 2004 CIn-UFPE
20 Sistemas de Extração de Informação Sistemas capazes de extrair de documentos relevantes apenas a informação requerida A informação extraída pode ser apresentada ao usuário e/ou armazenada em BDs ou BCs. Página de Hotel Template Sistema de EI Nome: End. : Fone: Fax: Preços: BD BC CIn-UFPE
21 Técnicas para Extração de Informação A escolha da técnica utilizada depende do tipo de texto a ser tratado - PLN Textos livres ou não estruturados - Wrappers • Textos estruturados • Textos semi-estruturados A localização da. Some informação no texto é sempre feita Country Codes Estudantes caras-pintadas protestaram, Uno 97, 4 p. , Ar, Dir, VE, Som, ontem, Prata no por meio de • regras Centro de São Paulo exigindo o impeachment do • Gol Congo 16 V, ano 94, Ar, 2 portas, Al. - 242 prefeito Celso Pitta, acusado de corrupção por sua ex Egypt -mulher. • Corsa 92, -c/20 2 portas, Alarme, Rodas Belize - 501 Spain - 34 CIn-UFPE
22 Wrappers As regras de extração são criadas com base na estrutura do texto e no conhecimento do domínio Construídos de maneira ad-hoc n Não existe uma arquitetura consensual Modos de Construção n Manual w técnica simples, boa precisão, porém requer grande esforço de programação n Semi-Automático w tempo de construção reduzido, ineficiente para gerar regras mais robustas n Automático w nenhuma programação requerida, porém apresenta baixa precisão e requer esforço para anotação do corpus CIn-UFPE
23 O Prod. Ext: Um Wrapper para extração de referências bibliográficas a partir de páginas eletrônicas n Mestrado de Carla Nunes, 2000 Abordagem utilizada n Construção manual de base de regras A. V. Garcia and A. Haeberer. An Architecture for Semantically Based Code Migration. In Proc. of the II Brazilian Symposium on Progr. Languages, pp 179 -192, Sept/1997, Campinas, Brasil. Autor: A. V. Garcia and A. Haeberer Título: An Architecture for Semantically Based Code Migration Veículo: In Proc. of the II Brazilian Symp. on Progr. Languages Páginas: pp 179 -192 Data: Sept/1997 Local: Campinas, Brasil CIn-UFPE
24 Arquitetura do Prod. Ext Base de Conhecimento Dicionário de Termos do Domínio Docum. HTML P a r s e r Blocos Árvore HTML Prod. Ext Conjunto de Regras Módulo Extrator Autor Título Veículo. . . Configurador/ Adaptador BD CIn-UFPE
25 EI utilizando Aprendizagem de Máquina Mestrado de Eduardo Amaral CIn-UFPE
26 Integração de Informação Pergunta-resposta + Extração de informação Objetivo n n Integrar automaticamente diversos Web sites para responder a determinadas perguntas do usuário cuja resposta não está disponível em um site único Para cada site secionado, um wrapper é construído Os dados extraídos de cada site podem ser tratados como tabelas de bancos de dados n que podem ser consultadas usando-se uma query language (e. g. SQL). CIn-UFPE
27 Sistemas de Personalização São sistemas que buscam adaptar-se às preferências e necessidade individuais de cada usuário n Utilizam profiles Sistemas de personalização incluem: n n n Recomendação Filtragem Predição CIn-UFPE
28 Sistemas de Recomendação São sistemas que recomendam itens para usuários com base em suas preferências n Itens: livros, filmes, CDs, páginas web, mensagens de newsgroup Exemplos de sistemas n Lojas virtuais oferecem esse serviço para aumentar as vendas w e. g. Amazon, CDNow n Projeto GEP (Guia de Entretenimento Virtual) w Equipe: Francisco, Geber, Ivan, Byron, Sérgio, etc Existem duas abordagens básicas par recomendação: n n Filtragem colaborativa (um tipo de filtragem social) Recomendação baseada em conteúdo CIn-UFPE
29 Filtragem Colaborativa Essa técnica mantém um BD de itens a serem recomendados n E as avaliações dos usuários do sistemas para cada um desses itens Dado um usuário, o sistema n n busca os usuários com perfil similar ao dele e recomenda a esse usuário os itens que w não foram ainda avaliados por ele, w porém foram bem avaliados pelos usuários similares a ele A maioria dos sistemas comerciais utiliza essa abordagem n e. g. Amazon CIn-UFPE
30 Recomendação baseada em conteúdo Aqui, a recomendação é baseada no conteúdo n n nas características dos itens e não mais na opinião de outros usuários Utiliza algoritmos de aprendizagem de máquina para induzir um profile das preferências dos usuários CIn-UFPE
Filtragem de Informação Sistemas que filtram a informação recuperada de acordo com o interesse do usuário Usuário Servidor News Artigos Indexados Engenho de Busca Perfil do usuário Internet
32 Classificação de Texto Objetivo n Classificar documentos de acordo com um conjunto ou hierarquia de categorias Algumas aplicações: n Páginas Web w Recomendação w Hierarquias de classes como a do Yahoo para facilitar busca w Criação de repositórios de domínio específico n Mensagens de Newsgroups w Recomendação w Filtragem de spam CIn-UFPE
33 Classificação de Texto Algumas aplicações: n Notícias w Jornal personalizado n Mensagem de Email w Filtragem de spam w Routing w Atribuição de prioridades w Seleção de folders CIn-UFPE
34 Classificação de Texto Abordagens: n Classificação manual por especialistas n Construção manual de classificadores w sistemas baseados em conhecimento n Construção automática de classificadores w árvores de decisão, indução de regras, aprendizagem bayesiana, redes neurais, aprendizagem baseada em instâncias, etc. CIn-UFPE
35 Sistema Citation. Finder Classificação automática de páginas de publicações n Mestrado de Mariana Lara Neves, 2001 Objetivo n Criação e manutenção de um repositório de documentos desse domínio w Para alimentar o sistema Prodext Construção manual: n n Bases de conhecimento com regras de produção Máquina de inferência (JEOPS) CIn-UFPE
36 Sistema Citation. Finder Plug-in para engenhos de busca Web Busca por palavraschave do domínio Engenhos de Busca tradicionais URLs recuperadas Consulta Base de Índices Específica Citation. Finder URLs classificadas positivamente CIn-UFPE
37 Agentes Chatterbots n n Sistemas capazes de dialogar com os usuários em linguagem natural restrita E. g. , Eliza, ALICE Utilizam técnicas de armazenagem e recuperação muito semelhantes aos sistemas de Perguntaresposta Esses agentes também podem ser usados como interfaces em linguagem natural para n n n Bancos de dados Bases de conhecimento Sites na web CIn-UFPE
38 Agentes Chatterbots Exemplo de bot na Web - Pixel n n http: //www. virtus. ufpe. br/pixel Tese de doutorado de André Neves w Utiliza a linguagem AILM w Criação de novas tags para descrever o nível pragmático dos diálogos com chatterbots CIn-UFPE
Algumas Áreas relacionadas a RI 39 Bancos de dados n Uso de XML na descrição dos dados Ciência da informação n n Biblioteconomia Bibliotecas digitais Inteligência artificial n n Ontologias na web e sistemas inteligentes de RI Aprendizagem de máquina w Classificação e clustering de documentos, criação e manutenção de profiles, extração de informação, mineração de texto, etc. . n Processamento de linguagem natural - a seguir CIn-UFPE
40 Processamento de Linguagem Natural Algumas regiões de interseção n n Métodos para determinar o significado de termos e palavras dependendo do contexto w word sense disambiguation Extração de informação Sistemas Pergunta-resposta E mais os métodos de processamento de documentos já vistas CIn-UFPE
- Slides: 40