SELEO DE DESCRITORES PARA A INDEXAO AUTOMTICA DE

  • Slides: 16
Download presentation
SELEÇÃO DE DESCRITORES PARA A INDEXAÇÃO AUTOMÁTICA DE TESES E DISSERTAÇÕES DA UFPE Remi

SELEÇÃO DE DESCRITORES PARA A INDEXAÇÃO AUTOMÁTICA DE TESES E DISSERTAÇÕES DA UFPE Remi Correia Lapa Renato Fernandes Corrêa XXXIII ENEBD 1

INTRODUÇÃO Crescente Número de Documentos Virtuais Informação Sociedade da Informação XXXIII ENEBD 2

INTRODUÇÃO Crescente Número de Documentos Virtuais Informação Sociedade da Informação XXXIII ENEBD 2

REVISÃO DE LITERATURA: INDEXAÇÃO • Santos e Ribeiro (2003), a indexação é uma ação

REVISÃO DE LITERATURA: INDEXAÇÃO • Santos e Ribeiro (2003), a indexação é uma ação que descreve e identifica um documento de acordo com seu assunto, extraindo os conceitos através de um processo de análise. Indexação Manual Indexação Automática XXXIII ENEBD 3

REVISÃO DE LITERATURA: INDEXAÇÃO AUTOMÁTICA O documento é indexado por: • Extração - adota

REVISÃO DE LITERATURA: INDEXAÇÃO AUTOMÁTICA O documento é indexado por: • Extração - adota critérios de freqüência, posição e contexto com que as palavras aparecem no decorrer do texto para então extraí-las como descritores. • Atribuição - desenvolve, para cada termo a ser indexado, um “perfil” de palavras ou expressões que costumam ocorrer freqüentemente nos documentos. XXXIII ENEBD 4

REVISÃO DE LITERATURA: STOPWORDS • Baeza-Yates (1999) apud Gonzalez e Lima (2003) conceitua as

REVISÃO DE LITERATURA: STOPWORDS • Baeza-Yates (1999) apud Gonzalez e Lima (2003) conceitua as stopwords como sendo palavras operacionais, como artigos, pronomes, conjunções, preposições e alguns adjetivos e advérbios. XXXIII ENEBD 5

REVISÃO DE LITERATURA: BIBLIOMETRIA Curva de Zipf 1ª Lei Nº de • Guedes e

REVISÃO DE LITERATURA: BIBLIOMETRIA Curva de Zipf 1ª Lei Nº de • Guedes e Borschiver (2005) conceitua bibliometria a um Ocorrência Ponto T conjunto de leis e princípios empíricos, abordando diversos da palavra 2ª Lei focos de estudo, como: periódicos, autores, palavras, citações e demanda de informação. Palavra Leis de Zipf 1ª Lei Ponto T de Goffman 2ª Lei c = r. f XXXIII ENEBD 6

METODOLOGIA • Pesquisou-se na web por páginas que possuíssem os termos stoplist ou stopwords

METODOLOGIA • Pesquisou-se na web por páginas que possuíssem os termos stoplist ou stopwords na URL (endereço eletrônico na internet). • Utilizou-se o extphrj, uma ferramenta de análise de texto, em todas as stoplists obtidas. • Utilizou-se o extphrj, para obter uma lista das palavras ordenadas juntamente com sua respectiva freqüência de ocorrência dos resumos de teses e dissertações da BDTD-UFPE. • Trabalhou-se com dez resumos escolhidos aleatoriamente: quatro da área de conhecimento da Teoria Literária; um de Lingüística; um de Letras; um de Comunicação; dois de Desenho Industrial; e um de Biologia Geral. XXXIII ENEBD 7

METODOLOGIA • A aplicação da operação matemática para calcular o Ponto T de Goffman

METODOLOGIA • A aplicação da operação matemática para calcular o Ponto T de Goffman foi adaptada para o português. • Calculou-se os coeficientes de precisão e revocação em dois momentos: com e sem a eliminação de stopwords. • Utilizou-se como parâmetro de referência para cálculo dos coeficientes as palavras-chave empregadas nos campos assunto das teses e dissertações representando os itens úteis recuperados; e os itens úteis existentes eram obtidos através do resumo das teses e dissertações. XXXIII ENEBD 8

RESULTADOS • Construiu-se um quadro com a URL, o NÚMERO DE TERMOS e uma

RESULTADOS • Construiu-se um quadro com a URL, o NÚMERO DE TERMOS e uma DESCRIÇÃO sobre oito URL´s de entidades criadoras e mantenedoras destas ferramentas para o português. URL http: //www. unine. ch/info/clef/portuguese. ST 2. txt NÚMERO DE TERMOS 378 DESCRIÇÃO Clef (Cross-Language Evaluation Forum) é um forum desenvolvido pela Coordenação de Ação Table. CLEF que tem como objetivo promover o acesso a informação multilíngüe e pretende desenvolver uma infra-estrutura para o ensaio, a regularização e a avaliação dos sistemas de recuperação de informação operacionais em línguas européias, tanto monolíngües quanto inter-contextos de línguas. http: //download. oracle. com/docs/cd/B 28359_ 01/text. 111/b 28304/astopsup. htm#i 636805 67 Oracle é um SGBD (sistema gerenciador de banco de dados) que surgiu no fim dos anos 70, e possui o mesmo nome da empresa desenvolvedora de software que oferece também serviços voltados à informação. Lista de Palavras Irrelevantes (stoplists) XXXIII ENEBD 9

RESULTADOS • Observou-se uma grande variação quanto ao número de stopwords presentes nas stoplists

RESULTADOS • Observou-se uma grande variação quanto ao número de stopwords presentes nas stoplists encontradas, reforçando o indício de que não há um padrão quanto a sua construção. • Constatou-se a existência de empresas empenhadas em estudos destinados a recuperação da informação para comercializar serviços e produtos, como é o caso: da Oracle e da Ranks. XXXIII ENEBD 10

RESULTADOS • Gráfico obtido através das listas de stopwords. Número de Palavras 250 200

RESULTADOS • Gráfico obtido através das listas de stopwords. Número de Palavras 250 200 Observou-se que cada lista contém grupos de palavras em comum, porém são muitas as palavras que as diferenciam. 150 100 50 0 1 2 3 4 5 6 7 Ocorrência de Palavras XXXIII ENEBD 8 9 11

RESULTADOS • Percebe-se que as palavras apresentadas com maior número de ocorrências são derivações

RESULTADOS • Percebe-se que as palavras apresentadas com maior número de ocorrências são derivações dos verbos de ligação: ter, estar e ser, além da conjunção aditiva ‘e’. • Constatou-se a presença de palavras escritas de forma incorreta, como ‘dezassete’ e ‘promeiro’. • Grande parte das palavras que compõem o grupo de baixa freqüência tem que ser vista com cautela quanto a sua utilização como stopwords, pois muitas não são irrelevantes para a busca de uma tese ou dissertação, como por exemplo, os substantivos ‘filme’ e ‘empresas’, e nomes próprios. XXXIII ENEBD 12

RESULTADOS • Tabela com resultados da aplicação do Ponto T de Goffman juntamente com

RESULTADOS • Tabela com resultados da aplicação do Ponto T de Goffman juntamente com as Leis de Zipf, nos textos selecionados em dois momentos. SEM REMOÇÃO DE STOPWORDS COM REMOÇÃO DE STOPWORDS TEXTO PRECISÃO REVOCAÇÃO 1 35% 67% 100% 67% 2 33% 47% 67% 47% 3 31% 40% 100% 4 25% 18% 80% 18% 5 9% 12% 50% 12% 6 20% 36% 100% 36% 7 26% 100% 67% 100% 8 14% 25% 40% 25% 9 14% 40% 36% 40% 10 13% 86% 30% 86% MÉDIA 22% 47% 67% 47% DESVIO PADRÃO 9% 29% 29% XXXIII ENEBD 13

RESULTADOS • Constatou-se que os textos 4 e 5 tiveram baixos coeficientes de revocação,

RESULTADOS • Constatou-se que os textos 4 e 5 tiveram baixos coeficientes de revocação, causados pela baixa repetição de palavras consideradas bons descritores no resumo. • Observou-se também que a utilização de termos isolados nas palavras-chave e a baixa freqüência destas no resumo seria a causa para que o texto 8 obtivesse um resultado baixo quanto ao coeficiente de revocação. • O coeficiente de precisão 100% dos textos 1, 3 e 6 é devido a presença apenas de bons descritores após a eliminação das stopwords, porém não foram selecionados todos, o que pode ser constatado nos valores moderados da revocação. XXXIII ENEBD 14

CONCLUSÃO • A importância de uma boa indexação como forma de se obter uma

CONCLUSÃO • A importância de uma boa indexação como forma de se obter uma recuperação da informação de maior qualidade e eficácia. • É imprescindível que cada instituição adote sua lista de stopwords, adequando-a a sua necessidade, visto que, uma palavra que pode ser entendida como mal descritor, pode vir a ser um importante descritor para outra instituição que atua em uma realidade diferente. • A aplicação das stoplists na seleção de descritores proporciona um aumento na seleção de bons descritores dentro do total de descritores recuperados, melhorando a precisão. • Os estudos sobre as Leis de Zipf e do Ponto T de Goffman, aplicados em resumos de teses e dissertações da BDTD-UFPE, apresentaram um resultado considerado satisfatório na revocação e bom na precisão. XXXIII ENEBD 15

AGRADECIMENTOS • A UFPE pela bolsa PIBIC. • A FACEPE pelo fomento ao Projeto

AGRADECIMENTOS • A UFPE pela bolsa PIBIC. • A FACEPE pelo fomento ao Projeto Mapeador de Teses e Dissertações da UFPE. XXXIII ENEBD 16