Recuperao de Informao Flvia Barros e Teresa Ludermir
Recuperação de Informação Flávia Barros e Teresa Ludermir CIn-UFPE 1
2 Roteiro Introdução Histórico Arquitetura básica Aplicações Programa do curso CIn-UFPE
Recuperação de Informação Motivação 3 “Morrendo ignorante num mar de informações” - Dificuldade de localizar documentos relevantes !! Web Pages 1870 found. Como funciona? Necessidade de Informação Representação Indexação Consulta Formulação Documentos Usuário Casamento CIn-UFPE
4 Recuperação de Informação Área de pesquisa e desenvolvimento que n n investiga métodos e técnicas para a representação, a organização, o armazenamento, a busca e a recuperação de itens de informação Objetivo principal n facilitar o acesso a documentos (itens de informação) relevantes à necessidade de informação do usuário w Geralmente representada através de consultas baseadas em palavras-chaves CIn-UFPE
5 Histórico 1ª Fase: computadores – cartão perfurado n Dec. 1950: w Aplicações: sistemas de recuperação de referências bibliográficas e outros serviços para bibliotecas. w Técnicas: indexação manual n n documentos indexados por termos de um vocabulário restrito montado manualmente Dec. 1960: w Aplicações: sistemas de recuperação de documentos off-line w Técnicas: início da indexação automática n título e abstract w Algoritmos de busca na recuperação dos itens CIn-UFPE
6 Histórico 2ª Fase: Decs. de 1970 e 1980 n n Aumento do poder computacional Aplicações: w Sistemas de Pergunta-Resposta n n Técnicas: RI + Processamento de Linguagem Natural Evoluíram para interfaces em Linguagem Natural para BDs w Sistemas de RI on-line n n Técnicas: estatística e probabilidade, Modelo de Espaço Vetorial Avaliação do desempenho do sistema pelo usuário CIn-UFPE
7 Histórico 3ª Fase: Web - Dec. 1990 até. . . n Técnicas tradicionais de RI foram adaptadas ao caso da Web w Web: gigabytes de dados não estruturados n Alguns problemas: w Escalabilidade das soluções w Velocidade de atualização da Web w Velocidade de acesso aos documentos armazenados n n Explosão de serviços + agentes TREC (Text REtrieval Conference) CIn-UFPE
Aplicações, Serviços, Agentes. . . CIn-UFPE 8
9 Engenhos de Busca Engenho de Busca Usuário Servidor de Consultas Consulta Browser Resposta 1 4 Ordenador Motor de Indexação Aquisição 3 Base de Índices Indexador Representação dos Docs Spider Web 2 Recuperador Docs Pré-Processador CIn-UFPE
Filtragem de Informação Sistemas que filtram a informação recuperada de acordo com o interesse do usuário Usuário Servidor News Artigos Indexados Engenho de Busca Perfil do usuário Internet
11 Extração de Informação Sistemas capazes de extrair de documentos relevantes apenas a informação requerida A informação extraída pode ser apresentada ao usuário e/ou armazenada em BDs ou BCs. Página de Hotel Template Sistema de EI Nome: End. : Fone: Fax: Preços: BD BC CIn-UFPE
12 Aplicações, Serviços, Agentes. . . Agentes Notificadores n Enviam emails para o usuário de acordo com seus interesses Agentes de Comércio Eletrônico n Capazes de representar o usuário em compras na Web Agentes Chatterbots n Capazes de dialogar com os usuários em linguagem natural restrita CIn-UFPE
Etapas de processamento de Sistemas para RI 13 Um sistema para RI automático pode ser visto como n n n a parte do sistema de informação responsável pelo armazenamento ordenado dos documentos em um BD, e sua posterior recuperação para responder a consulta do usuário. Etapas principais: n n n Aquisição (seleção) dos documentos Representação (preparação) dos documentos Indexação dos documentos Classificação Busca (casamento com a consulta) Recuperação CIn-UFPE
14 Plano do Curso 1. Introdução – apresentação do curso e da área de RI 2. Parte Introdutória n n n n n a. b. c. d. e. f. g. h. i. História da RI e o impacto da Web - A RI moderna Arquitetura básica de sistemas de RI e etapas de processamento Modelos Clássicos para RI Técnicas de representação de documentos Técnicas/algoritmos de Indexação e Busca de documentos Modelos para navegação de bases de documentos Linguagens de consulta Operações com consultas Avaliação de desempenho de Sistemas de RI n CIn-UFPE
15 Plano do Curso 3. n n n n n Temas avançados a. b. c. d. e. f. g. h. i. Linguagens para representar metadados Buscas na Web Categorização/Classificação e Clustering de documentos Extração de Informação Sistemas de Filtragem e Recomendação Modelos Avançados para RI Bibliotecas Digitais Interfaces de Visualização Sistemas de RI multimídia n n Livro Texto: Modern Information Retrieval. Baeza-Yates & Ribeiro-Neto. Addison. Wesley, 1999 n n Link: http: //www. dcc. ufmg. br/irbook/ CIn-UFPE
- Slides: 15