Minerao da Web Recuperao de Informao Modelos de
Mineração da Web Recuperação de Informação Modelos de Recuperação de Documentos Parte 1 Flávia Barros CIn-UFPE 1
2 Roteiro Resumo da aula passada Tarefas de Recuperação de Informação Modelos de Recuperação de Documentos n n Modelo Booleano Modelo Espaço Vetorial CIn-UFPE
3 Relembrando… Sistemas de Recuperação de Informação Um sistema automático para RI pode ser visto como n n n a parte do sistema de informação responsável pelo armazenamento ordenado dos documentos em um BD, e sua posterior recuperação para responder a consulta do usuário Etapas principais: n n Preparação dos documentos Indexação dos documentos Busca (casamento com a consulta do usuário) Ordenação dos documentos recuperados Obs. : Inicialmente, vamos tratar apenas documentos textuais CIn-UFPE
Sistemas de RI: Criação da base de índices Preparação dos documentos Documentos Representação do documento (visão lógica) Indexação Gerenciador do BD Arquivo de índices invertido Base de indices Base de docs. ou Web
Sistemas de RI: Consulta à Base de índices Interface do usuário Necessidade do usuário Preparação da consulta Busca e recuperação Índices-docs ordenados Ordenação Base de índices Indices-docs recuperados
Aula de hoje. . . 6 Modelos de Recuperação de Informação Existe uma distinção entre: n A tarefa do usuário w Recuperação ou browsing n A visão lógica dos documentos w sua representação no sistema n O modelo de recuperação de informação w Clássico ou estruturado Obs. : n as figuras que se seguem foram copiadas dos slides do prof. Berthier Ribeiro-Neto, na sua homepage CIn-UFPE
Tarefas e Modelos de Recuperação de Informação Teoria dos conjuntos Fuzzy Booleano estendido Modelos Clássicos T A R E F A Recuperação: Adhoc Filtragem D O u S U Á R I O Booleano Espaço vetorial Probabilista Modelos Estruturados Listas não-sobrepostas Nós proximais Browsing Plano Estruturado Hipertextual Algebraico ES generalizado Semântica Latente Redes Neurais Probabilista Redes de inferência Redes de crença
Tarefa do usuário Recuperação ad-hoc 8 Recupera os mesmos documentos para todos os usuários que digitarem as mesmas consultas (queries) Q 1 Q 2 Coleção de documentos Q 3 Q 4 Q 5 CIn-UFPE
Tarefa do usuário Recuperação com filtragem 9 Recupera documentos considerando o perfil do usuário e a consulta Perfil do usuário 1 Docs para usuário 1 Perfil do usuário 2 Docs para usuário 2 Base de documentos CIn-UFPE
10 Representação do Documento Visão Lógica Cada documento da base pode ser representado por: n um conjunto de termos (ou palavras) que melhor representam seus tópicos w geralmente, substantivos e verbos n seu texto completo w todos os termos que aparecem no documento, incluindo artigos, preposições, . . . n seu texto completo + estrutura w títulos, fonte (negrito, itálico), hiperlinks. . . CIn-UFPE
Quadro Geral
Modelos Clássicos de Recuperação de Documentos 12 Veremos inicialmente os seguintes modelos: n n n Modelo Booleano Modelo Espaço Vetorial Modelos Probabilistas Para cada modelo, veremos: n n n A representação do documento A representação da consulta A noção de relevância dos documentos em relação à consulta utilizada na recuperação w pode ser binária (sim/não) ou ordenada w depende do modelo de recuperação utilizado CIn-UFPE
Modelos Clássicos Conceitos Básicos 13 Considere uma base qualquer de documentos Cada documento na base é representado por um conjunto de n termos (ou palavras isoladas) n k 1, k 2, . . . , kn Esses termos são escolhidos a partir da base de documentos completa n cada base terá seu conjunto de termos representativos CIn-UFPE
Modelos Clássicos Conceitos Básicos 14 Cada documento (dj) é representado por termos da base associados a pesos n d 1 = k 1 (w 1), k 2 (w 2), . . . , kn (wn) Peso n n Importância da palavra para descrever o documento Quando o termo não aparece no documento, o peso associado é zero Cada modelo de recuperação define pesos de uma maneira diferente CIn-UFPE
Modelos Clássicos Conceitos Básicos 15 As consultas podem ser representadas pelo mesmo conjunto de termos da base n Alguns modelos permitem associar pesos aos termos da consulta CIn-UFPE
Modelo Booleano Representação do documento 16 Dado o conjunto de termos representativos para a base em questão n K = {k 1, k 2, . . . , kn} Os documentos são representados como vetores de pesos binários de tamanho n n Cada posição no vetor corresponde a um termo usado na indexação dos documentos da base A representação indica apenas se o termo está ou não presente no documento e. g. , d 1 = {1, 1, 0} w documento d 1 contém os termos k 1 e k 2, e não contém o termo k 3 CIn-UFPE
17 Modelo Booleano Representação da consulta Consulta: n n Termos conectados por AND, OR e/ou NOT Exemplo: k 1 AND (k 2 OR not k 3) A consulta é transformada em uma fórmula normal disjuntiva (DNF) n n objetivo: facilitar o casamento entre documento e consulta Exemplo acima: (1, 1, 1) OR (1, 1, 0) OR (1, 0, 0) Documento casa com a consulta se ele casa com algum dos componentes da consulta n O documento d 1 = {1, 1, 0} casa com a consulta CIn-UFPE
Modelo Booleano Relevância 18 Relevância “binária”: n n O documento é considerado relevante sse seu “casamento” com a consulta é verdadeiro Não é possível ordenar os documentos recuperados Exemplo de consulta Base de Documentos K 1 k 2 Consulta k 1 k 2 k 3 Documentos apresentados ao usuário k 3 CIn-UFPE
19 Modelo Booleano Vantagens n n Modelo simples baseado em teoria bem fundamentada Fácil de implementar Desvantagens n n n Não permite casamento parcial entre consulta e documento Não permite ordenação dos documentos recuperados A necessidade de informação do usuário deve ser expressa em termos de uma expressão booleana w Nem todo usuário é capaz disso n Em conseqüência, este modelo geralmente retorna ou poucos documentos, ou documentos demais w a depender da consulta CIn-UFPE
20 Modelo Espaço Vetorial Associa pesos positivos não-binários aos termos Isso permite casamento “parcial” entre consulta e documento n Esses pesos são usados para calcular um “grau de similaridade” entre consulta e documento O usuário recebe um conjunto ordenado de documentos como resposta à sua consulta n Mais interessante do que apenas uma lista desordenada de documentos CIn-UFPE
21 Modelo Espaço Vetorial Este modelo pode utilizar diferentes fórmulas para: n Calcular os pesos dos vetores w Freqüência de ocorrência do termo no documento w TF-IDF (mais usado) n Calcular a medida de similaridade entre consulta e documentos w Co-seno (mais usado) w Jaccard, Coeficiente de Pearson, etc. . . Essa escolha depende de quem constrói o sistema, e não do modelo EV CIn-UFPE
22 Modelo Espaço Vetorial Representação do documento e da consulta Dado o conjunto de termos representativos para a base em questão K = {k 1, k 2, . . . , kn} n cada termo de K é um eixo de um espaço vetorial Consultas (q) e documentos (d) são representados como vetores nesse espaço n-dimensional Consulta q : Brasil Olimpíadas Sidney Documento d : Brasil em Sidney 2000 O Brasil não foi bem no quadra das medalhas da Olimpíada de Sidney 2000. . . Sidney Representação de q Brasil 0. 4 Olimpíadas 0. 3 Sidney 0. 3 Representação de d Brasil 0. 5 Olimpíadas 0. 3 Sidney 0. 2 q 0. 2 0. 3 Olimpíadas d 0. 5 Brasil CIn-UFPE
23 Modelo Espaço Vetorial Relevância O modelo ordena os documentos recuperados de acordo com sua similaridade em relação à consulta Similaridade pode ser medida pelo co-seno do ângulo entre q e d n Existem outras medidas de similaridade usadas com o modelo EV, porém o co-seno é a mais usada K 1 d Similaridade(q, d) = cos( ) q K 2 CIn-UFPE
24 Modelo Espaço Vetorial Relevância Similaridade pode ser medida pelo co-seno do ângulo entre q e d n função inversamente relacionada ao ângulo entre os documentos w Quanto menor é o ângulo entre os documentos, maior o coseno w E maior é a similaridade entre d e q n n Varia entre 0 e 1 Independe do tamanho do vetor w Considera apenas sua direção CIn-UFPE
Modelo Espaço Vetorial Relevância 25 Existem diversas outras medidas de (dis)similaridade que podem ser usadas neste modelo Medidas de Similaridade n Calculam a similaridade entre objetos Medidas de Dissimilaridade n Calculam a dissimilaridade entre objetos CIn-UFPE
26 Medidas de Similaridade Co-seno Sidney Prata d 1 d 2 Exemplo: Brasil Olimpíadas CIn-UFPE
27 Medidas de Similaridade Coeficiente de Pearson Dice Jaccard Inclusão CIn-UFPE
28 Medidas de Similaridade Sobreposição Spearman onde n é o número máximo de termos documentos considerados Sorensen CIn-UFPE
29 Medidas de Dissimilaridade Calculam a dissimilaridade entre objetos Podem ser transformadas em uma medida de similaridade normalizada pela fórmula: CIn-UFPE
30 Medidas de Dissimilaridade Distância Euclidiana Exemplo: CIn-UFPE
31 Medidas de Dissimilaridade Canberra Bray-Curtis Distância de Chord Distância Taxonômica CIn-UFPE
32 Modelo Espaço Vetorial Cálculo dos Peso = freqüência de ocorrência do termo no documento Doc original Operações de Texto Doc : www. filosofia. com “Se o desonesto soubesse a vantagem de ser honesto, ele seria honesto ao menos por desonestidade. ” desonesto / soubesse / vantagem / honesto / seria / honesto / menos/desonestidade/ socrates Sócrates Representação Doc : www. filosofia. com honesto 2 desonesto 1 soubesse 1 vantagem 1 seria 1 menos 1 desonestidade 1 socrates 1 CIn-UFPE
Modelo Espaço Vetorial Cálculo dos Pesos 33 Método TF-IDF leva em consideração: n Freqüência do termo no documento w Term Frequency (TF) w Quanto maior, mais relevante é o termo para descrever o documento n Inverso da freqüência do termo entre os documentos da coleção w Inverse Document Frequency (IDF) w Termo que aparece em muitos documentos não é útil para distinguir relevância n Peso associado ao termo tenta balancear esses dois fatores CIn-UFPE
Modelo Espaço Vetorial 34 Cálculo dos Pesos com TF-IDF Definições n n n dj: documento; ki: termo freqi, j: freqüência do termo ki no documento dj ni: número de documentos que contêm termo ki N: número total de documentos da base maxl freql, j : a freqüência do termo mais freqüente no documento TF: tf = i, j IDF: freqi, j maxl freql, j idfi= log N ni Freqüência (normalizada) do termo no documento Inverso da freqüência do termo CIn-UFPE nos documentos da base
Modelo Espaço Vetorial 35 Cálculo dos Pesos com TF-IDF wi, j = tfi, j x idfi wi, j = freqi, j maxl freql, j x log N ni CIn-UFPE
Modelo Espaço Vetorial 36 Cálculo dos Pesos com TF-IDF Exemplo de TF n n freqi, j: freqüência do termo ki no documento dj maxl freql, j = 2 Termo honesto desonesto soubesse vantagem seria menos desonestidade socrates – freq - f 2– 1– 1– freqi, j fi, j= maxl freql, j 1. 0 0. 5 0. 5 CIn-UFPE
37 Modelo Espaço Vetorial Cálculo dos Pesos com TF-IDF Definição do peso nos documentos: n wi, j: peso associado ao termo ki no documento dj n wi, j = tfi, j X idfi Para definição dos pesos dos termos nas consultas, Berthier sugere: wi, j = 0. 5 + 0. 5 freqi, q maxl freql, q X log N ni CIn-UFPE
Exemplo 1 Espaço Vetorial usando Co-seno 38 k 2 k 1 d 7 d 6 d 2 d 4 d 5 d 1 d 3 k 3 CIn-UFPE
Exemplo 2 Espaço Vetorial usando Co-seno 39 k 2 k 1 d 7 d 6 d 2 d 4 d 5 d 1 d 3 k 3 CIn-UFPE
Exemplo 3 Espaço Vetorial usando Co-seno 40 k 2 k 1 d 7 d 6 d 2 d 4 d 5 d 1 d 3 k 3 CIn-UFPE
41 Modelo Espaço Vetorial Vantagens n Pesos não-binários associados a termos permitem casamento parcial dos documentos com a consulta n Co-seno ordena documentos de acordo com o grau de similaridade com a consulta Desvantagens: n Assume independência entre os termos usados na indexação w q 1 = redes neurais artificiais w q 2 = redes neurais w Resultados das consultas q 1 e q 2 são diferentes CIn-UFPE
42 Próxima Aula Modelos de RI baseados em teoria dos conjuntos n Objetivo: possibilitar casamento parcial e ordenação dos documentos recuperados w Modelo booleano estendido w Modelos difusos (fuzzy sets) Modelo Algébrico n Semântica Latente Modelo probabilista CIn-UFPE
- Slides: 42