Minerao na Web Preparao dos documentos Flvia Barros
Mineração na Web Preparação dos documentos Flávia Barros CIn-UFPE 1
2 Roteiro Revisão n Etapas dos Sistemas de Recuperação de Informação Preparação dos documentos n n Operações sobre o texto Criação da representação do documento CIn-UFPE
3 Sistemas de Recuperação de Informação Etapas principais: n n Preparação dos documentos Indexação dos documentos Busca (casamento com a consulta do usuário) Ordenação dos documentos recuperados CIn-UFPE
4 Preparação dos documentos Duas Fases Operações sobre o texto n objetivo: criar a visão lógica do documento Criação da representação do documento n Utilizando algum modelo de RI Doc original Visão Lógica Doc : www. filosofia. com “Se o desonesto soubesse a vantagem de ser honesto, ele seria honesto ao menos por desonestidade. ” desonesto / soubesse / vantagem / honesto / seria / honesto / menos/desonestidade/ socrates Sócrates Representação Doc : www. filosofia. com honesto 2 desonesto 1 soubesse 1 vantagem 1 seria 1 menos 1 desonestidade 1 socrates 1 CIn-UFPE
5 Visão lógica do documento Conjunto de termos usados para representar (indexar) o documento n Vamos tratar aqui apenas documentos textuais A seleção desses termos pode ser n Manual w Realizada por um especialista w Ex. , um bibliotecário (em sistemas de bibliotecas) n Automática w Termos são automaticamente extraídos do texto w Ex. , a maioria dos sistemas automáticos de RI CIn-UFPE
6 Visão lógica do documento Seleção automática de termos Duas opções: n Usar o texto completo ou selecionar os termos mais representativos Texto completo n n n Visão lógica mais completa do documento Porém tem alto custo computacional Adotada por sistemas com bases de documentos pequenas & por alguns engenhos de busca na Web CIn-UFPE
7 Visão lógica do documento Seleção automática de termos Conjunto reduzido de termos n n Obtido através de Operações sobre o texto O objetivo é selecionar os termos que melhor descrevem o documento w Reduzindo assim a complexidade da representação do documento n Representação mais comum: Centróide w Lista de termos com pesos associados ou não w Problema: perda do “contexto” CIn-UFPE
Seleção automática de termos 8 Operações sobre o texto Fases n Análise léxica w Elimina dígitos, pontuação, etc n Eliminação de stopwords w Artigos, pronomes, etc n Operação de stemming w Redução da palavra ao seu radical n Identificação de grupos nominais w Ex. , Recuperação de Informação CIn-UFPE
Seleção automática de termos 9 Operações sobre o texto Cada fase de operação de texto pode utilizar diferentes técnicas na sua implementação Cada sistema de RI implementa uma ou mais dessas fases n A escolha depende do tipo de sistema desejado CIn-UFPE
Operações sobre o texto: Fases Texto completo Documento Acentos, espaços, . . . stopwords Grupos nominais stemming Lista reduzida de termos Indexação manual ou automática • Operações sobre o texto reduzem progressivamente a visão lógica do documento
11 Operações sobre o texto Análise léxica Entrada n O texto original w uma cadeia de caracteres Objetivo n n Converter o texto original em uma lista de palavras Identificando as palavras que ocorrem no texto Procedimento padrão n n Utilizar espaços como sendo separadores de palavras Tratar pontuação, hífens, dígitos, e letras maiúsculas e minúsculas w Cada caso pode requerer tratamentos diferenciados CIn-UFPE
Análise léxica 12 Tratamento de pontuação e hífens Geralmente, todos os caracteres de pontuação são removidos n . , !? : ; - Porém, há casos em que eles são mantidos por serem necessários n Código de programa dentro do texto w Variável “x. id” xid n URLs de Sites na Web Caso do hífen n Palavras compostas e prefixos w Guarda-chuva, pré-processamento n Alguns termos compostos w state-of-the-art CIn-UFPE
Análise léxica 13 Eliminação de dígitos Geralmente, dígitos são removidos por serem vagos n Por não terem uma semântica associada quando aparecem isolados w Ex. 1910 (ano, peso, tamanho? ? ? ) Contudo, dígitos associados a alguns termos/caracteres especiais podem ser importantes n 510 d. C w d. C não significa nada em isolamento n Windows 95, X 3 PO, . . . CIn-UFPE
14 Análise léxica Substituição de letras maiúsculas Objetivo principal n n Tornar a representação homogênea Facilitar a recuperação do documento a partir de consultas Exceções n Carneiro w Animal ou nome próprio? n n Banco – instituição financeira banco - assento CIn-UFPE
15 Operações sobre o texto Análise léxica Como visto, existem diversas exceções a tratar n Isso depende da aplicação, do domínio do sistema, etc. . . Sugestão n Preparar lista de exceções e tratar caso a caso Engenhos de busca n Geralmente, não eliminam nada w Funcionam em todos os domínios. . . n Indexam o texto completo com sua pontuação, dígitos, etc. . . CIn-UFPE
Operações sobre o texto 16 Eliminação de stopwords Algumas palavras não são bons discriminadores n n Palavras muito freqüentas na base de documentos Palavras semântica associada w artigos, preposições, conjunções, alguns advérbios e adjetivos Aqui também há exceções a considerar n Em domínios específicos, podemos precisar manter algumas dessas palavras w Redes de computadores CIn-UFPE
17 Operações sobre o texto Eliminação de stopwords Vantagens n n Diminui a representação do texto Melhora a ordenação na recuperação w TF-IDF Desvantagens n Diminui a precisão na recuperação w Ex. , “ser ou não ser” w Somente o termo “ser” será usado na indexação documento n Mais uma razão para os engenhos de busca utilizarem representação do texto completo CIn-UFPE
Operações sobre o texto 18 Stemming Problema n Freqüentemente, o usuário especifica uma palavra na consulta, mas apenas uma variação dessa palavra aparece nos documentos relevantes w Ex. , plural, gerúndio, verbos flexionados, aumentativo. . . Objetivo dessa operação: n Substituir a palavra por seu radical (stem) w Porção da palavra que resta após a remoção de prefixos e sufixos n Possibilitar casamento parcial entre variações de uma mesma palavra w Ex. : engenheiro, engenharia, . . . CIn-UFPE
Operações sobre o texto 19 Técnicas de stemming Table look-up n n Mantém uma tabela de radicais de palavras Procedimento simples, porém necessita de dados sobre os todos os radicais da língua Successor variety n Considera os morfemas da língua w menin+o+s n Procedimento complexo e muito dependente da língua CIn-UFPE
Operações sobre o texto 20 Técnicas de stemming Remoção de afixos (prefixos e sufixos) Algoritmo de Porter: n Considera que a remoção de sufixos é mais importante que a de prefixos w A maioria das variações de palavras é gerada por sufixos n Usa uma regra de redução para cada sufixo w O livro texto traz o algoritmo completo para a língua inglesa n Procura pela maior seqüência de letras que casa com alguma regra w Plural: “sses ss”, “ies i” , “ss ss”, “s ” CIn-UFPE
Operações sobre o texto 21 Técnicas de stemming Algoritmo de Porter: n Outras regras de redução w ed -> 0 w ing -> 0 Termo engineering engineered engineer Stem engineer CIn-UFPE
22 Operações sobre o texto Técnicas de stemming Para o Português, o problema é mais complexo n Plural w existe um número muito maior de formas de fazer plural em português n Para substantivos, artigos e alguns adjetivos w Precisamos de regras para tratar aumentativo, diminutivo, feminino, masculino, . . . n Número de regras para flexões verbais também aumenta consideravelmente CIn-UFPE
23 Operações sobre o texto Stemming Snowball n Uma linguagem para processamento de strings específica para criar algoritmos de stemming para RI http: //snowball. tartarus. org/ n Veja algoritmo disponível para Português em n w http: //snowball. tartarus. org/algorithms/portugu ese/stemmer. html w O site também traz exemplo de stoplist para Português CIn-UFPE
Stemming 24 Exemplo do Snowball para Português word quilométricas quilométricos quilômetros quilos químicas químicos quimioterapia quimioterápicos => stem quilométr quilômetr quil químic quimioterap quimioteráp CIn-UFPE
25 Operações sobre o texto n-grams Uma alternativa ao uso de stemmers. . . Uma n-gram é uma subsequência de n itens de uma dada sequência n n Os items podem ser fonemas, letras, palavras. . . Uma n-gram de tamanho 1 é chamada de "unigram"; de tamanho 2 é "bigram“, etc, e de tamanho 5 ou mais é apenas chamada de "n-gram". O objetivo é o mesmo da operação de stemming n “Cortar” a palavra para possibilitar casamento parcial entre variações de uma mesma palavra CIn-UFPE
Operações sobre o texto 26 Thesaurus Dicionário de sinônimos de uma língua n Eg. , Word. Net Thesaurus podem ser também definidos para domínios específicos Entradas contêm palavras isoladas ou termos compostos Para cada entrada, o thesaurus pode trazer n Sinônimos, antônimos, kind-of, part-of, . . . n n Classe gramatical E, às vezes, uma definição do termo CIn-UFPE
27 Operações sobre o texto Thesaurus Uso de thesaurus em sistemas de RI n n Auxilia na seleção de termos relevantes para indexar o documento Auxilia no processamento da consulta w Expansão de termos Objetivo principal de usar thesaurus de um domínio específico em sistemas de RI n Restringir o sistema a um vocabulário controlado para indexação e busca de documentos CIn-UFPE
28 Operações sobre o texto Thesaurus Para sistemas na Web em inglês, usa-se o Word. Net com freqüência n http: //wordnet. princeton. edu/ CIn-UFPE
29 Operações sobre o texto Identificação de Grupos Nominais Objetivo: identificar grupos nominais (termos compostos) para indexar o documento n Ex. , Recuperação de Informação, Inteligência Artificial Procedimentos n n Selecionar substantivos do texto, eliminando sistematicamente palavras de outras classes gramaticais w Usando uma stoplist ou w usando um etiquetador automático (parts-of- speech tagger) para determinar a classe das palavras e/ou w usando um thesaurus da língua ou do domínio Agrupar substantivos para formar termos compostos CIn-UFPE
30 Identificação de Grupos Nominais Como agrupar substantivos para formar termos compostos n n Considerando os grupos nominais identificados pelo tagger Considerando a distância entre os termos no texto w Número de palavras entre os dois substantivos n n Ex. , Recuperação de Informação n Apenas uma palavra (de) Extraindo esses termos de um thesaurus do domínio w Pode conter um vocabulário controlado de termos em vez de palavras isoladas CIn-UFPE
31 Preparação dos documentos Criação da Representação do Documento Entrada n Visão lógica do documento w Lista de termos representativos do documento Saída n Representação final do documento w Termos representativos da base + peso associados a cada termo w Dependente do modelo de RI escolhido n n Booleano, espaço vetorial, probabilista. . . Aulas passadas CIn-UFPE
32 Operações sobre a Consulta Em geral. . . n Quando possível, devem ser usadas aqui as mesmas operações utilizadas para criar a visão lógica do documento, e. g. , w limpeza das stopwords, uso de stemming, thesaurus. . . Porém, existem mais operações a serem realizadas na consulta n Assunto da próxima aula. . . CIn-UFPE
Criação da Representação da Consulta 33 Entrada n Visão lógica da consulta Saída n Representação final da consulta w Dependente do modelo de RI escolhido n n Booleano, espaço vetorial, probabilista. . . Aulas passadas CIn-UFPE
Próxima aula Consultas - queries 34 Como tratar as Consultas a um sistema de RI n Linguagens e Operações CIn-UFPE
- Slides: 34