Avaliao De Sistemas De Recuperao De Informao RI

Avaliação De Sistemas De Recuperação De Informação (RI): Panorâmica E Reflexões Rachel Virgínia Xavier

Avaliação De Sistemas De RI: Panorâmica O que avaliar n Como avaliar n Avaliação

O Que Avaliar n Qual o objetivo da avaliação? n Fazer uma avaliação do

O Que Avaliar Avaliando O Sistema (1 -5) n Que forma de indexação funciona

O Que Avaliar Avaliando O Sistema (2 -5) n As avaliações são feitas com:

Avaliando O Sistema (3 -5) Exemplos de avaliação deste tipo são as avaliações do

Avaliando O Sistema (4 -5) n Críticas: O Que Avaliar n Credibilidade • Ambiente

Avaliando O Sistema (5 -5) n Críticas: O Que Avaliar n Utilidade • Alguns

O Que Avaliar Avaliando Os Usuários (1 -3) n Comportamento (processo de explorar a

Avaliando Os Usuários (2 -3) n Estas avaliações promoveram avanços: n O Que Avaliar

Avaliando Os Usuários (3 -3) n Problemas: O Que Avaliar n n n Os

Avaliando O Sistema Considerando Os Usuários (1 -2) n Questões entre estes dois paradigmas

O Que Avaliar Avaliando O Sistema Considerando Os Usuários (2 -2) n Estas questões

Avaliação De Sistemas De RI: Reflexões O que avaliar n Como avaliar n Avaliação

Como Avaliar n Nem uma técnica proporciona por si só uma avaliação completa. n

Como Avaliar n É difícil construir corpora. n Benchmarks pra web ainda estão sendo

Precision e Recall (precisão e revocação) Documentos relevantes Documentos recuperados Como Avaliar Todos os

Precision E Recall No TREC Como Avaliar n n Sumário estatístico: número de tópicos,

Dificuldades em medir Como Avaliar n Eficiência está relacionada à relevância dos documentos recuperados

Dificuldades em medir n A relevância é: Subjetiva: depende do julgamento n Situacional: relacionada

Fallout n Problemas com precision e recall: Número de documentos irrelevantes não é considerado.

Como Avaliar Outras Medidas n Diferença simétrica normalizada. n Fornece a diferença proporcional entre

Medidas subjetivas De relevância n Novelty: Proporção de items relevantes recuperados que o usuário

do na o nã ecio ado sel cion e sel Precision = A /

Particularidades Da Avaliação De Máquinas De Busca n O que é mais importante: recall

Particularidades Da Avaliação De Máquinas De Busca n Apesar das dificuldades em definir os

Particularidades da avaliação de máquinas de busca Medidas Utilizadas n n n Composição dos

Particularidades da avaliação de máquinas de busca Medidas Sugeridas Por Gwizdka & Chignell (1

Particularidades da avaliação de máquinas de busca Medidas Sugeridas Por Gwizdka & Chignell (2

Particularidades da avaliação de máquinas de busca Medidas Sugeridas Por Gwizdka & Chignell (3

Particularidades da avaliação de máquinas de busca Medidas Sugeridas Por Gwizdka & Chignell (4

Particularidades da avaliação de máquinas de busca Medidas Sugeridas Por Gwizdka & Chignell (5

Particularidades da avaliação de máquinas de busca Clickthrough Data n Avaliação baseada totalmente nos

Planejamento De Uma Avaliação De Máquinas De Busca n O que interessa verificar sobre

Questões Tradicionais Ainda Não Respondidas Para Máquinas De Busca Para Português n Qual a

Questões Interessantes Sobre As Máquinas De Busca Para Português É fácil encontrar artigos? n

O Que Definir n Que mecanismos de busca avaliar n Que consultas utilizar n

Que Mecanismos De Busca Avaliar (1 -2) n n Somente máquinas de busca ou

Que Mecanismos De Busca Avaliar (2 -2) n n n Avaliar apenas as máquinas

Que Consultas Utilizar (1 -2) n Selecionando dentre as consultas mais freqüentes do log

Que Consultas Utilizar (2 -2) n Elaborar uma lista de consultas manualmente. n n

Filtrar Ou Não As Consultas n n n SPC Nem sempre é possível interpretar

Filtrar Ou Não As Consultas n n n Nem sempre é possível interpretar os

Quantas Consultas n Quantas consultas para avaliar a precisão? n 03 07 15 18

A Relevância Ou Não Dos Documentos (1 -3) n Dentre os documentos retornados como

A Relevância Ou Não Dos Documentos (2 -3) n O julgamento será binário? Relevante

A Relevância Ou Não Dos Documentos (2 -3) n O julgamento será binário? SPC

A Relevância Ou Não Dos Documentos (3 -3) n Que instruções dar aos juizes?

Avaliação De Sistemas De RI: Reflexões n É possível realizar uma avaliação conjunta de

Avaliação De Sistemas De RI: Reflexões n Para quaisquer das tarefas de RI é

Como Criar Esta Base Cooperativamente? n n Definir como criar os tópicos n Que

O Que Vamos Avaliar Cooperativamente n Sugestões sob o ponto de vista de uma

Referências n (Bruza et al, 2000) Peter Bruza; Robert Mc. Arthur; Simon Dennis. Interactive

Referências n (Cooper, 1968) W. S. Cooper. Expected search length: A single measure of

Referências n (Hawking et al, 1999) David Hawking; Nick Craswell; Donna Harman. Results and

Referências n (Li et al, 2001) Longzhuang Li; Yi Shang; Wei Zhang. Relevance evaluation

Referências n(Notess, 2002) Greg R. Notess. Seacrh Engine Statistics: Unique Hits Report. http: //www.

Referências n (Saracevic, 1995) T. Saracevic. (1995). Evaluation of evaluation in information retrieval. Proceedings

Referências n (Wu & Sonnenwald, 1999) Mei-Mei Wu; Diane H. Sonnenwald. Reflections in Information

Lista de mecanismos de busca n Brasil n n n Portugal n n n

Slides: 63

Download presentation

Avaliação De Sistemas De Recuperação De Informação (RI): Panorâmica E Reflexões Rachel Virgínia Xavier Aires 27 de junho de 2002

Avaliação De Sistemas De RI: Panorâmica O que avaliar n Como avaliar n Avaliação de máquinas de busca n Planejamento de uma avaliação de máquinas de busca n 2

O Que Avaliar n Qual o objetivo da avaliação? n Fazer uma avaliação do sistema n Fazer uma avaliação dos usuários n Fazer uma avaliação do sistema pensando nos usuários 3

O Que Avaliar Avaliando O Sistema (1 -5) n Que forma de indexação funciona melhor? n Qual algoritmo de RI é melhor? 4

O Que Avaliar Avaliando O Sistema (2 -5) n As avaliações são feitas com: um conjunto de documentos, um conjunto de consultas e um conjunto de respostas n A comparação em geral é feita através de duas medidas: recall e precision (ambas serão explicadas em “como avaliar”) 5

Avaliando O Sistema (3 -5) Exemplos de avaliação deste tipo são as avaliações do TREC n Estas iniciativas são importantes para melhorar a qualidade sob o ponto de vista técnico de RI n Exemplos de iniciativas semelhantes são as do japão e china O Que Avaliar n 6

Avaliando O Sistema (4 -5) n Críticas: O Que Avaliar n Credibilidade • Ambiente de laboratórios X ambiente real • Relevância dos julgamentos (em “como avaliar”) n Generalidade • As consultas são representativas? • Coleções de texto pequenas e mais voltadas para ciência e tecnologia 7

Avaliando O Sistema (5 -5) n Críticas: O Que Avaliar n Utilidade • Alguns sistemas tem de ser avaliados segundo outros critérios • A precisão está relacionada a visão do usuário de um bom sistema? n Comprovação teórica • Recall e precision têm algum significado para o usuário? • Diferenças estatísticas entre estas medidas são significante em contextos e situações reais? 8

O Que Avaliar Avaliando Os Usuários (1 -3) n Comportamento (processo de explorar a informação) e satisfação dos usuários na busca n Eficiência do sistema n n n Se as necessidades do usuário foram atendidas Se a informação recuperada é útil ou não Se a interface é amigável 9

Avaliando Os Usuários (2 -3) n Estas avaliações promoveram avanços: n O Que Avaliar n n n Para conhecer as necessidades dos usuários Novos sistemas de RI, como os que passaram a incluir interfaces de interação gráfica Novas informações sobre que recursos podem ajudar o usuário a encontrar recursos relevantes E principalmente serviram para mostrar que relevância é um conceito dinâmico e situacional 10

Avaliando Os Usuários (3 -3) n Problemas: O Que Avaliar n n n Os pesquisadores deste tipo de avaliação são experientes em teorias e métodos e raramente em tecnologia – não sabem como fazer sistemas de acordo com seus resultados ou traduzi-los de forma que outros possam fazer É difícil comparar ou resumir os resultados porque são utilizados dados, métodos e níveis de análise diferentes São estudos em geral focados em públicos específicos Não estão relacionados a públicos grandes e diferenciados As análises levam de meses a anos 11

Avaliando O Sistema Considerando Os Usuários (1 -2) n Questões entre estes dois paradigmas (Saracevic, 1995): O Que Avaliar n n n Quanto sucesso teve e tem a RI em resolver o problema da explosão de informação? Quão bem a RI dá suporte às pessoas em situações difíceis quando têm de escolher entre diversas opções? Como toda esta informação, associada a tecnologia de RI existente, afeta nosso trabalho, lazer, sociedade, cultura? 12

O Que Avaliar Avaliando O Sistema Considerando Os Usuários (2 -2) n Estas questões devem ser respondidas já que o propósito geral de uma avaliação é aumentar as chances de um determinado sistema de RI ser adotado e utilizado. n Só é possível respondê-las com análises de sistemas associadas a análises de usuários e unindo as pesquisas de laboratório as situações reais, contextos, indivíduos e organizações. 13

Avaliação De Sistemas De RI: Reflexões O que avaliar n Como avaliar n Avaliação de máquinas de busca n Planejamento de uma avaliação de máquinas de busca n 14

Como Avaliar n Nem uma técnica proporciona por si só uma avaliação completa. n Nem todos os critérios e medidas são necessários para todos os contextos. n Como a performance é medida através de benchmarks, a performance é válida apenas para o ambiente em que foi medida. 15

Como Avaliar n É difícil construir corpora. n Benchmarks pra web ainda estão sendo construídos. n Não existem banchmarks para várias línguas. Como é o caso do português. 16

Precision e Recall (precisão e revocação) Documentos relevantes Documentos recuperados Como Avaliar Todos os documentos 17

Precision E Recall No TREC Como Avaliar n n Sumário estatístico: número de tópicos, número de documentos recuperados, número de documentos relevantes. Recall-precision: precisão média em 11 níveis de recall (de 0 a 1, de 0. 1 em 0. 1). Precisão média quando 5, 10, . . , 100, … 1000 documents são recuperados. Recall-precision para cada tópico e a média de recall-precision para cada um dos sistemas para aquele tópico. 18

Dificuldades em medir Como Avaliar n Eficiência está relacionada à relevância dos documentos recuperados Não é fácil de calcular este número n O que é relevante? n Vai usar uma medida binária (sim/não) ou não? n • A forma não binária é mais natural 19

Dificuldades em medir n A relevância é: Subjetiva: depende do julgamento n Situacional: relacionada as necessidades atuais do usuário n Cognitiva n Dinâmica Como Avaliar n 20

Fallout n Problemas com precision e recall: Número de documentos irrelevantes não é considerado. n Como medir o recall se não existir documento relevante no conjunto de documentos? n Como medir precision se nenhum documento for recuperado? Como Avaliar n 21

Como Avaliar Outras Medidas n Diferença simétrica normalizada. n Fornece a diferença proporcional entre o conjunto de documentos relevantes e irrelevantes recuperados por um sistema. Quanto menor a diferença, melhor o sistema em recuperar todos os documentos relevantes para uma dada consulta. 22

Medidas subjetivas De relevância n Novelty: Proporção de items relevantes recuperados que o usuário não conhecia. Como Avaliar n n Habilidade de encontrar nova informação sobre um tópico. Coverage: Proporção de items relevantes recuperados que usuário já conhecia. n Quando o usuário quer encontrar documentos que ele já conhecia. 23

do na o nã ecio ado sel cion e sel Precision = A / A+C Recall = A / A+B B A D nte eva não rel nte C rel eva Como Avaliar Particularidades da avaliação de sistemas RI na web Na Web não temos B Difícil obter A e C 24

Avaliação De Sistemas De RI: Reflexões O que avaliar n Como avaliar n Avaliação de máquinas de busca n Planejamento de uma avaliação de máquinas de busca n 25

Particularidades Da Avaliação De Máquinas De Busca n O que é mais importante: recall ou precision? n Devido a generalidade desta aplicação o recall e precision realmente não servem como medidas únicas 26

Particularidades Da Avaliação De Máquinas De Busca n Apesar das dificuldades em definir os número de documentos relevantes recuperados e não recuperados a maioria dos estudos compara máquinas de busca utilizando recall e/ou precision n Por exemplo, olhando as 2 primeiras páginas de resultados (Gwizdka & Chignell, 1999) 27

Particularidades da avaliação de máquinas de busca Medidas Utilizadas n n n Composição dos índices: freqüência de atualização e tamanho Capacidade de busca: o que a máquina de busca permite usar Performance: além de precision e recall usam tempo de resposta Apresentação da saída Esforço do usuário: quão difícil é para um usuário comum utilizar a máquina de busca 28

Particularidades da avaliação de máquinas de busca Medidas Sugeridas Por Gwizdka & Chignell (1 -5) n n n Sugerem que não se considere tempo de resposta. Pois apesar de ser uma medida importante é uma medida muito instável. Falam de documentos relevantes, documentos indiretamente relevantes e não relevantes. Propõe uma medida de precisão que considere a posição do item relevante (se entre os 10 primeiros tem um peso maior). 29

Particularidades da avaliação de máquinas de busca Medidas Sugeridas Por Gwizdka & Chignell (2 -5) n Definem 4 tipos de precisão que variam de acordo com a forma que a relevância é utilizada: full precision, best precision, useful precision e objective precision. 30

Particularidades da avaliação de máquinas de busca Medidas Sugeridas Por Gwizdka & Chignell (3 -5) n Full precision - considera a pontuação associada a cada hit n Best precision - considera apenas os hits mais relevantes Useful precision - considera apenas os hits mais relevantes e os que contém links para os mais relevantes Objective precision - não requer julgamentos de relevância. É baseada na presença ou ausência de termos requisitados e na distinção entre links 31 bons e ruins n n

Particularidades da avaliação de máquinas de busca Medidas Sugeridas Por Gwizdka & Chignell (4 -5) n A precisão é medida para os 20 primeiros itens recuperados 32

Particularidades da avaliação de máquinas de busca Medidas Sugeridas Por Gwizdka & Chignell (5 -5) Propõe uma medida de esforço baseada na medida de tamanho da busca (número de documentos irrelevantes de um documento relevante) – diferencia as paginas indiretamente relevantes. n Número de links ruins e de links duplicados. n 33

Particularidades da avaliação de máquinas de busca Clickthrough Data n Avaliação baseada totalmente nos cliques de usuários. Não requer julgamentos ou feedback por parte do usuário. n Se o usuário clica em mais documentos de uma máquina de busca do que nos de outra tal máquina retornou resultados mais relevantes (Joachims, 2002). 34

Avaliação De Sistemas De RI: Reflexões O que avaliar n Como avaliar n Avaliação de máquinas de busca n Planejamento de uma avaliação de máquinas de busca n 35

Planejamento De Uma Avaliação De Máquinas De Busca n O que interessa verificar sobre uma máquina de busca? Exemplos: Qual é a melhor máquina de busca sobre medicina? n Qual a melhor máquina de busca para encontrar artigos científicos? n n Para diferentes necessidades, diferentes medidas e formas de proceder a avaliação 36

Questões Tradicionais Ainda Não Respondidas Para Máquinas De Busca Para Português n Qual a melhor para as perguntas mais freqüentes? n Qual o tamanho estimado do índice de cada uma das máquinas de busca? n Como o índice vem sendo alterado ao longo do tempo (volume, que tipo de conteúdo, etc)? 37

Questões Tradicionais Ainda Não Respondidas Para Máquinas De Busca Para Português n Qual a freqüência com que seus índices são atualizados (freshness)? n Como é a intersecção (overlap) entre as máquinas de busca? n Qual a freqüência de links que não existem mais? 38

Questões Interessantes Sobre As Máquinas De Busca Para Português É fácil encontrar artigos? n Como é seu desempenho na busca por serviços on-line? n Dão suporte a estudantes em suas pesquisas para o colégio? n Qual a melhor para perguntas que estão freqüentes em um determinado período? n n Islã, tiazinha, etc 39

O Que Definir n Que mecanismos de busca avaliar n Que consultas utilizar n n Como selecionar as consultas Filtrar ou não as consultas Quantas consultas Como julgar a relevância dos resultados

Que Mecanismos De Busca Avaliar (1 -2) n n Somente máquinas de busca ou máquinas de busca e diretórios? Só serviços de busca gratuitos? Somente máquinas de busca genéricas ou também máquinas especializadas em um determinado assunto? Os meta searchers devem ser avaliados ou não, somente quando possuem também algum mecanismo de busca próprio? 41

Que Mecanismos De Busca Avaliar (2 -2) n n n Avaliar apenas as máquinas de busca que só indexam páginas em português ou também as que indexam várias línguas incluindo o português? Quantas máquinas de busca avaliar? Quais máquinas avaliar? n www. cade. com. br, www. todobr. com. br, www. sapo. pt, www. tumba. pt, www. google. com 42

Que Consultas Utilizar (1 -2) n Selecionando dentre as consultas mais freqüentes do log de uma máquina de busca ou dentre todas: n n Retirando uma amostra aleatória Removendo os assuntos que não se quer avaliar e então retirar uma amostra Escolher entre as consultas sobre um dado assunto Escolher uma amostra seguindo proporções • Uma determinada porcentagem de questões com apenas 2 palavras, com apenas 3, com frases • Questões em linguagem natural 43

Que Consultas Utilizar (2 -2) n Elaborar uma lista de consultas manualmente. n n n Para por exemplo, avaliar o desempenho das máquinas de busca para pesquisa científica. Solicitar que bibliotecários elaborem uma lista de consultas para representar diferentes necessidades de usuários. Traduzir listas de consultas utilizadas em outros estudos, por exemplo CLEF. 44

Filtrar Ou Não As Consultas n n n SPC Nem sempre é possível interpretar os objetivos por trás de uma consulta. CEE Utilizar juízes humanos para CETescolher dentre as consultas quais possuem pelo Sd. PM menos um objetivo possível. ou Coletar consultas com um grupo pequeno de usuários e solicitar que explicitem o objetivo. 45

Filtrar Ou Não As Consultas n n n Nem sempre é possível interpretar os objetivos por trás de uma consulta. Utilizar juízes humanos para escolher dentre as consultas quais possuem pelo menos um objetivo possível. ou Coletar consultas com um grupo pequeno de usuários e solicitar que explicitem o objetivo. 46

Quantas Consultas n Quantas consultas para avaliar a precisão? n 03 07 15 18 n Acima de 50 n n (Pratt & Fragan, 2000; Notess, 2000), 04 (Notess, 2002) (Consumidor S. A; Moreira) (Gwizdka & Chignell 1999; Notess, 1999) (Bruza et al, 2000), 1999) 20 (CNET. com), 50 (Hawking et al, 2001; Li et al, 2001) Quantas consultas para avaliar critérios que devem ser avaliados com uma freqüência maior? Por exemplo, freshness. 47

A Relevância Ou Não Dos Documentos (1 -3) n Dentre os documentos retornados como resposta, quantos julgar? n n Os primeiros 10 (CNET. com; Chu & Rosenthal, 1996; Hawking et al, 2001), 20 (Gwizdka & Chignell, 1999; Hawking et al, 1999; Li et al, 2001; Su et al, 1998) de cada máquina (1ª e 2ª páginas de resultados)? Quem irá julgar a relevância? n n O grupo que está realizando a avaliação (Chu & Rosenthal, 1996) – pesquisadores da área. Pessoas que não são de RI nem de computação. Por exemplo, usuários interessados em um determinado assunto. (Pratt & Fagan, 2000). n Bibliotecários. (Chu & Rosenthal, 1996) 48

A Relevância Ou Não Dos Documentos (2 -3) n O julgamento será binário? Relevante e não relevante n Relevante, pouco relevante e irrelevante n Níveis de relevância (Su et al, 1998; Gwidka & n Chignell, 1999) n Haverá apenas um objetivo para cada consulta? 49

A Relevância Ou Não Dos Documentos (2 -3) n O julgamento será binário? SPC - Sociedade de Proteção ao Crédito Relevante e não relevante n Relevante, pouco relevante e irrelevante SPC - Só para contrariar n Níveis de relevância (Su et al, 1998; Gwidka & n Chignell, 1999) n Considerar apenas um objetivo para cada consulta? 50

A Relevância Ou Não Dos Documentos (3 -3) n Que instruções dar aos juizes? (Hawking et al, 2000) Não considerem a avaliação do documento anterior na avaliação atual n Não considerem a qualidade do documento, vejam apenas se trata do assunto questionado n Não importa a veracidade das informações n 51

Avaliação De Sistemas De RI: Reflexões n É possível realizar uma avaliação conjunta de RI tomando por base os critérios das já existentes e/ou atualizando-os para as necessidades atuais n É necessário criar uma base de consultas e documentos relevantes para português 52

Avaliação De Sistemas De RI: Reflexões n Para quaisquer das tarefas de RI é possível fazer avaliações mais detalhadas individuais e participar de avaliações conjuntas como o TREC e CLEF n É necessário criar uma base de consultas e documentos relevantes para português 53

Como Criar Esta Base Cooperativamente? n n Definir como criar os tópicos n Que assuntos n Por exemplo: 20 consultas, avaliando os primeiros 30 resultados de 5 mb Definir o processo de medir relevância Definir um processo de adicionar novos tópicos nas avaliações seguintes Compatível com o TREC?

O Que Vamos Avaliar Cooperativamente n Sugestões sob o ponto de vista de uma base da web: Recuperação de informação na web n Recuperação de informação multilíngüe n Filtering n Question answering n Information extraction n Sumarização de documentos da web n

Referências n (Bruza et al, 2000) Peter Bruza; Robert Mc. Arthur; Simon Dennis. Interactive Internet Search: keyword, directory and query reformulation mechanisms compared. www. guidebeam. com/sigir 00. pdf n (CNET. com) CNET. com. Search Engines Shoot-out. http: //www. cnet. com/software/0 -352106 -7276936. html? tag=txt n (Chu & Rosenthal, 1996). Heting Chu; Marilyn Rosenthal. Search Engines the World Wide Web: A comparative study and evaluation methodology. ASIS 1996. http: //www. asis. org/annual-96/Electronic. Proceedings/chu. html n (Consumidor S. A) http: //server. digipronto. com. br/idec. org. br/consumidorsa/arquiv o/jun 99/aval. htm 56

Referências n (Cooper, 1968) W. S. Cooper. Expected search length: A single measure of retrieval effectiveness based on weak ordering action of retrieval systems. Journal of the American Society for Information Science, 19, 30 -41. 1968. n (Greisdorf & Spink, 2001) Howard Greisdorf; Amanda Spink. Median Measure: an approach to IR systems evaluation. Information Processing and Management 37, 843 -857. 2001. n (Gwizdka & Chignell, 1999) Jacek Gwizdka; Mark Chignell. Towards Information Retrieval Measures for Evaluation of Web Search Engines. http: //www. imedia. mie. utoronto. ca/~jacekg/pubs/web. IR_eval 1_ 99. pdf 57

Referências n (Hawking et al, 1999) David Hawking; Nick Craswell; Donna Harman. Results and Challenges in Web Search Evaluation. http: //www 8. org/w 8 -papers/2 c-searchdiscover/results. html n (Hawking et al, 2000) David Hawking; Nick Craswell; Peter Bailey; Kathy Griffiths. Measuring Search Engine Quality. Journal of Information Retrieval. http: //www. wkap. nl/journalhome. htm/1386 -4564. n (Hawking et al, 2001)David Hawking; Nick Craswell; Kathleen Griffiths. Which search engine is best at finding online services? http: //citeseer. nj. nec. com/455030. html n (Joachims, 2002) Thorsten Joachims. Evaluating Search Engines using Clickthrough Data. 2002. http: //www. cs. cornell. edu/People/tj/publications/joachims_02 b. p df 58

Referências n (Li et al, 2001) Longzhuang Li; Yi Shang; Wei Zhang. Relevance evaluation of search engines´query results. http: //www 10. org/cdrom/posters/1017. pdf n (Moreira) Wálter Moreira. Eficácia dos mecanismos de busca brasileiros na internet. http: //intermega. globo. com/biblio_fespsp/artigos. htm n (Notess, 1999) Greg R. Notess. Comparing Internet Search Engines. http: //www. csu. edu. au/special/online 99/proceedings 99/103 a. ht m n (Notess, 2000) Greg R. Notess. Seacrh Engine Statistics: Dead links report. http: //www. notess. com/search/stats/deads. shtml. 59

Referências n(Notess, 2002) Greg R. Notess. Seacrh Engine Statistics: Unique Hits Report. http: //www. notess. com/search/stats/unique. html. n(Pratt & Fagan, 2000) Wanda Pratt; Lawrence Fagan. The usefulness of dynamically categorizing search results. Journal of the American Medical Informatics Association, Vol 7, 6, 2000. n(Rijsbergen, 1979) C. J. van RIJSBERGEN. Information Retrieval. 1979. Disponível em http: //www. dcs. gla. ac. uk/Keith/Preface. html. n(Robertson & Teather, 1974) S. E. Robertson; D. Teather. A statistical analysis of retrieval tests: a Bayesian approach. Journal of Documentation, 30, 273 -282. 1974. 60

Referências n (Saracevic, 1995) T. Saracevic. (1995). Evaluation of evaluation in information retrieval. Proceedings og SIGIR 95, 138 -146. http: //www. scils. rutgers. edu/~muresan/Docs/sigir. Saracevic 1995. pdf n (Su et al, 1998) L. T. Su; H. Chen; X. Dong. Evaluation of Web -based search engines from the end-user´s perspective: a pilot study. Proceedings of the Annual Conference for the American Society for Information Science, 348 -361. n (Swets, 1963) J. A. Swets. Information Retrieval Systems. Science, 141, 245 -250. 1963. n (Wishard, 1998) Lisa Wishard. Precision Among Internet Search Engines: An Earth Sciences Case Study. http: //www. library. ucsb. edu/istl/98 -spring/article 5. html 61

Referências n (Wu & Sonnenwald, 1999) Mei-Mei Wu; Diane H. Sonnenwald. Reflections in Information Retrieval Evaluation. Proceedings of the 1999 EBTI, ECAI, SEER & PNC Joint Meeting, 63 -81. http: //pnclink. org/eventsreport/1999/Proceedings/wu-mm. pdf 62

Lista de mecanismos de busca n Brasil n n n Portugal n n n www. todobr. com. br www. cade. com. br www. paginasamarelas. pt www. gertrudes. pt www. sapo. pt www. aeiou. pt Genéricas n n n www. google. com www. altavista. com. br www. fast. no 63