Tendncias em indexao e Indexao automtica Disciplina CBD
Tendências em indexação e Indexação automática Disciplina: CBD 0284 Indexação: Teoria e métodos ECA/USP Profa Dra Vânia Mara Alves Lima Profa. Dra. Cibele A. C. Marques dos Santos 2015
n “De nada adianta arquivar um documento que não saberemos encontrar porque ele não foi indexado” (CHAUMIER, 1990, p. 278)
Indexação hoje n n representação de conteúdo dos documentos eletrônicos a consistência e o controle de vocabulário complexidade do processo de indexação manual, semi-automatizada e automatizada setembro 21 3
Consistência/Padronização n n Normas de valores linguísticos, sintáticos e semânticos Classificações, tesauros, taxonomias ontologias, mapas conceituais, anéis de sinônimos. setembro 21 4
Normalização n norma ANSI/NISO Z 39. 19 n n diretrizes para construção, formatação e gerenciamento de tesauros monolíngues, revisão de 2005 - expansão do conceito de tesauro e processos automatizados. norma britânica BS 8723 diretrizes para o desenvolvimento de tesauros monolíngues atualizada pela norma ISO 25964 -1: 2011 e interoperabilidade entre vocabulários ISO 25964 -2: 2013 setembro 21 5
Normalização n Metadados n n Padrões internacionais, equipe interdisciplinar , desenhados para ajudar os motores de busca a encontrar e recuperar as páginas Web. Inclusão de marcadores temáticos n n n Indexação de assuntos – palavras-chaves regras explícitas para a organização e hierarquização Vocabulário Controlado (tesauro, taxonomia) n n setembro 21 Conceitos com características compartilhadas Categorias linguístico-funcionais Normalização (ANSI/NISO Z 39. 19 – ISO 25964 -1: 2011) Ontologias, mapas conceituais, nuvens de tags 6
Taxonomia n classificação, espécie em relação a leis genéricas ou princípios de subdivisão da ciência, de uma ciência particular ou um assunto, n n relações de classificação sistemática dos organismos vivos. n n n Exemplo: Organismo --> Sistemas --> Órgãos -->Tecidos --> Células --> Organelas --> Moléculas http: //www. ncbi. nlm. nih. gov/Taxonomy/Browser/w wwtax. cgi setembro 21 7
Taxonomia n O uso genérico do termo mapeamento tem sido enfatizado nas taxonomias e ontologias com novas técnicas n n O tesauro começa a ficar quase invisível para os usuários. Taxonomia tem sido usada com pelo menos 5 sentidos: n 1) Diretórios Web: usado na Internet e nas intranets. n n setembro 21 Uma forma de classificação, com um menu de termo superior, o segundo nível é mostrado e com os diversos níveis. os termos podem estar repetidos nos diferentes níveis criando caminhos alternativos para pesquisa. 8
Taxonomia n 2) Taxonomias para indexação automática: n n n setembro 21 Em site comercial o usuário é apresentado a 2 níveis de classificação. O que o usuário não vê é a taxonomia atrás da classificação, onde cada termo carrega conjuntos de algoritmos de palavras e frases, sinônimos, variações sintáticas, pesos. Soluções deste tipo são interessantes onde a indexação manual não é viável economicamente. 9
Taxonomia n Exemplos: n n n setembro 21 Open Directory Project (www. dmoz. com) Taxonomia com mais de 350. 000 organizados por mais de 35. 000 editores voluntários. Factiva (www. factiva. com) Serviço comercial de taxonomias: http: //www. taxonomywarehouse. com 10
Taxonomia n 3) Taxonomias criadas por categorização automática: n n n setembro 21 alguns softwares fazem análise de texto, criam categorias e classificam os documentos a partir das categorias criadas. podem ser disponibilizados no formato de diretórios Web, ou em mapas bi-dimensionais, com os termos relacionados linkados. Exemplo: www. gammasite. com 11
Taxonomia n 4) Cabeçalhos e filtros: n n setembro 21 a taxonomia é criada ou importada e usada numa formulação de busca. Os homógrafos podem ser especificados para perderem a ambiguidade e os sinônimos inseridos em suas hierarquias. É um tesauro formatado para facilitar a navegação. Exemplo: http: //www. wordmap. com/ 12
Taxonomia n 5)Taxonomias corporativas: n n setembro 21 Mapeamento e diretrizes para os repositórios institucionais e seus conteúdos. Novo tipo de tesauro/ontologia usado para mapeamento de alto nível em portais corporativos guiando o capital intelectual da organização. 13
Taxonomia n Ex. Glaxo. Smith. Kline n n setembro 21 corporação internacional tem um “megatesauro” com 53. 500 conceitos básicos (termos preferidos), 201. 750 (sinônimos – inclusive equivalentes de produtos químicos) e 443. 500 termos relacionados. associaram-se a uma empresa de software americana especializada em ontologias para o desenvolvimento de novo software para a taxonomia. 14
Ontologia n ciência ou estudo do ser, parte da metafísica relacionado com o ser ou a essência das coisas, ou o ser no abstrato. n setembro 21 definições foram apropriadas pela área da ciência da informação com significados modificados. O sentido original e o sentido apropriado pela área são corretos. É questão de terminologia de área de domínio. 15
Ontologias n n setembro 21 documento ou arquivo que define formalmente as relações entre termos e conceitos, uma especificação de uma conceituação, para compartilhamento de definições necessárias à criação de um vocabulário comum. Nos novos sentidos destes termos existe uma interrelação que deve ser levada em conta. 16
Ontologias n Vickery (1997) primeiro uso do termo ontologia para a área de engenharia e ciência da informação. n n “Uma ontologia pode ser definida como uma explicitação formal de uma conceituação compartilhada” Conceitualização: n setembro 21 refere-se a um modelo abstrato de um fenômeno do mundo que é identificado por conceitos relevantes deste fenômeno. 17
Ontologias n Explicita: n n Formal: n n refere-se ao fato que a ontologia pode ser lida por máquina. Compartilhada: n setembro 21 significa que os tipos de conceitos usados, em contraste com o seu uso de explicitamente definidos. reflete a noção de que a ontologia captura o conhecimento consensual que não é privado ou individual e aceito por um grupo. 18
Ontologias n n Uma ontologia descreve uma área usando a noção de conceitos, relações, funções e axiomas. Os conceitos em uma ontologia são organizados em taxonomias, onde mecanismos de relações podem ser aplicados. setembro 21 19
Ontologias n Duas das mais antigas e maiores ontologias do mundo são Word. Net and CYC. n Word. Net: n n n setembro 21 termos agrupados em cinco categorias: verbos, adjetivos, advérbios e funções de palavras e seus significados são relacionados através de sinônimos, antônimos, hipônimos (relações hierárquicas), merônimos (parte de relacionamentos que contém conceitos) e relações morfológicas. Word. Net é uma ferramenta léxica, disponível gratuitamente na Internet http: //wordnet. princeton. edu/ 20
Ontologias n A ontologia da CYC foi produzida pela companhia que trabalhou com a Glaxo. Smith. Kline. n n n setembro 21 o conhecimento é representado por uma variante de predicado lógico. http: //www. cyc. com http: //www. opencyc. org/images/opencyckb-browser. gif 21
Ontologias n Ontologias de domínio específico foram construídas para aplicações com tradução por máquina, mapeamento empresarial, re-uso do conhecimento e recuperação da informação. n n n setembro 21 1) Ontologia organizacional descreve um meta-modelo de informação ex. estrutura e formato de fontes de informação. 2) Ontologia de domínio é usada para descrever o conteúdo de uma fonte de informação. 3) Ontologia empresarial é usada para modelar os processos de negócios. Propõe um modelo de atendimento às necessidades de conhecimento para processos empresariais. 22
Web Semântica n n A Web Semântica foi proposta por Berners-Lee. “A Web Semântica não é separada da Web, mas uma extensão da atual, na qual a informação é dada por um significado bem definido, melhor aplicado a computadores e elaborado por trabalho cooperativo” setembro 21 23
Web Semântica n n É um sistema online, com o conceito de Web universal, sistema descentralizado sem discriminação de informação comercial ou acadêmica, cultura, linguagem ou mídia. A Web. Semântica roda em XML e RDF. setembro 21 24
Redes semânticas baseadas na Árvore de Porfírio setembro 21 25
Redes semânticas setembro 21 26
Mapas Conceituais Psicologia cognitiva de Ausubel Aprendizagem ocorre por assimilação de novos conceitos e proposições na estrutura cognitva Aprendizagem significativa setembro 21 27
Mapas Conceituais Joseph Novak década de 70 São diagramas que indicam relações entre conceitos setembro 21 28
Mapas Conceituais n n Modelo de aprendizagem Estrutura cognitiva está constantemente se reestruturando durante a apresendizagem significativa; O processo é dinâmico; O conhecimento vai sendo construído. setembro 21 29
Mapas Conceituais – C. I n n setembro 21 linguagem para descrição e comunicação de conceitos. Estrutura que vai desde os conceitos mais abrangentes até os menos inclusivos. Representações gráficas de conceitos em um domínio específico com interações entre os conceitos. Conceitos são conectados por arcos, formando proposições mediante frases simplificadas. 30
Mapas Conceituais n Regras de construção: n n Não há um único modo de traçar um mapa conceitual. Um mapa conceitual é uma coisa dinâmica, refletindo a compreensão de quem faz no momento em que faz. setembro 21 31
Mapas Conceituais n n n Etapas: seleção: escolha do assunto e identificação das palavras-chave ou frases relacionadas ordenação: organização de conceitos do mais abstrato para o mais concreto agrupamento: reunir conceitos em um mesmo nível de abstração e com forte inter-relacionamento arranjo: organização de conceitos na forma de um diagrama link e preposição: conexão de conceitos com linhas e nomeação de cada linha com uma proposição (Lima, 2004) setembro 21 32
Mapas Conceituais n Mapas Conceituais setembro 21 33
Mapas Conceituais n n n Softwares Cmaptools http: //cmap. ihmc. us/ Inspiration http: //www. inspiration. com/ n n n Kidsinspiration http: //www. inspiration. com/Kidspiration C-tools https: //ctools. umich. edu/portal setembro 21 34
Folksonomia n n n Maneira de indexar informações. Esta expressão foi cunhada por Thomas Vander Wal. É uma analogia à taxonomia, mas inclui o prefixo folks, palavra da língua inglesa que significa pessoas. Construção a partir da lingua natural da comunidade que a utiliza. Enquanto na taxonomia clássica primeiro são definidas as categorias do índice para depois encaixar as informações em uma delas (e em apenas uma), a folksonomia permite a cada usuário da informação classificar com uma ou mais palavraschaves ou tags (marcadores). Por meio das tags, o usuário pode recuperar as informações e compartilhá-las. Pode visualizar as tags de outros usuários, assim como identificar o grau de popularidade de cada tag no sistema, e acessar as informações relacionadas. setembro 21 35
Folksonomia n n n O primeiro site a usar folksonomia foi o del. icio. us (http: //delicious. com/) e, em seguida, o flickr e o you. Tube. O gmail oferece, no lugar de pastas, o recurso de tags para organizar os emails. Mas não é um exemplo clássico de folksonomia, pois não permite compartilhar as tags entre usuários do sistema. A rede social Last FM http: //www. lastfm. com. br/ usa a folksonomia para efetuar a classificação de faixas e artistas. O Library Thing é um catalogo cooperativo que utiliza a folksonomia (http: //br. librarything. com/) Blogs e microblogs utilizam marcadores. O Twitter utiliza #hashtags. setembro 21 36
Controle da linguagem e estrutura semântica n n n n n setembro 21 Glossários e dicionários Lista de autoridades Lista de sinônimos Cabeçalhos de assunto Classificações Taxonomias/Folksonomia Tesauros Mapas conceituais Rede semânticas Ontologias 37
Barreiras de acesso à informação n n n desconhecimento de como usar as ferramentas das TICs; desconhecimento das estratégias de busca e recuperação da informação; deficiências na representação da informação (indexação).
Indexação automática n DIVERSAS DENOMINAÇÕES n indexação por computador (computer indexing), n indexação mecânica (mechanical indexing), n programa de indexação (indexing program), n indexação automática (automatic indexing),
Tipos de indexação automática n n n programas que auxiliam o processo de armazenamento de termos de indexação, obtidos de modo intelectual, mais conhecido como armazenamento de termos de indexação assistido por computador; sistemas que analisam os documentos de modo automático, mas os termos de indexação propostos são validados e editados por um profissional (indexação semi-automática); programas sem nenhum tipo de validação, isto é, os termos propostos são armazenados diretamente como descritores do dito documento (indexação automática).
Histórico n n Luhn (1958 e 1959): critérios estatísticos de ocorrência/freqüência. Schank & Abelson (1977) e Lehnert (1984) : geração de resumos automáticos, utilizados como mecanismos de validação da compreensão de textos de natureza diversa: (textos jornalísticos, mensagens de telex, narrativas) n Gardin (1977): aproximação da Análise Documentária da Linguística, via tradução automática
Experiências no Brasil: n Robredo (1991): propôs um sistema para gerar termos indexadores a partir da análise automática de títulos e resumos de textos, onde os termos candidatos a descritores são selecionados pela comparação do texto com 2 dicionários: n n n "palavras vazias invariáveis" (preposições, conjunções, advérbios, etc. ) raízes de palavras tidas como "não significativas na área de conhecimento em questão O conjunto extraído é, em seguida, submetido a tratamentos estatísticos (freqüência) para a determinação da relevância de cada unidade do texto.
PROPOSTA KURAMOTO n n Kuramoto (1996): propôs um modelo de indexação automática, de base linguística, centrada na identificação de sintagmas nominais. Sintagma nominal: menor unidade de informação contida em um texto. Ex. n A indexação é automática.
Indexação automática n Ocorre quando um programa de computador, adotando critérios de freqüência, extrai palavras, expressões ou radicais de palavras do texto para representar o seu conteúdo como um todo. (SANTOS e RIBEIRO, 2003) n n Indexação por extração automática Indexação por atribuição automática
Indexação por extração automática n Palavras ou expressões do texto são extraídas, por um software, e utilizadas para representar o conteúdo do texto, como um todo n n O software n n Critérios de seleção: frequência, posição e contexto. conta as palavras do texto, compara-os com uma lista de palavras proibidas; elimina palavras não-significativas (artigos, preposições, conjunções etc. ) ordena as palavras segundo a frequência de sua ocorrência. Palavras com > número de ocorrências = Descritores (LANCASTER, 2004, p. 286)
Indexação por atribuição automática n n n Para cada termo a ser atribuído um “perfil” de palavras ou expressões que costumam ocorrer frequentemente nos documentos. O software compara o perfil dos termos do documento com o perfil dos termos frequentemente atribuídos por indexador humano. O software atribui um termo ao documento, sempre que o perfil do documento coincide com o perfil dos termos. (LANCASTER, 2004, p. 289).
Indexação semi-automática n Combinação de indexação manual e automática. n ETAPAS n n Inicialmente, o sistema faz indexação automática levando em conta as ocorrências das palavras mais freqüentes no texto. Em um segundo momento, indexador humano refina a lista dos descritores propostos pelo sistema, fazendo ajustes e/ou complementações necessárias. (PINTO, 2001, p. 227)
Softwares documentários n Objetivo: descentralizar a produção de informações documentárias como também distribuí-las de forma extensiva e rápida.
Sistema de Indexação Semi Automática (SISA) n n Ferramenta para auxiliar a indexação. Desenvolvido em 1997 por Isidoro Gil Leiva (Universidade de Múrcia , Espanha)
Requisitos do SISA n Todos os textos a serem indexados devem estar no mesmo diretório, em formato txt, marcados com os seguintes parâmetros : n #CTI# e #FTI# para identificar o título; n #CR# e #FR# para identificar o resumo; n #CTE# e #FTE# para identificar o texto do artigo.
Exemplo de marcação no arquivo txt #CTI# Titulo; título; título. #FTI# #CR# Resumo; resumo; resumo. #FR# #CTE# Texto; texto; texto. #FTE#
Arquivos Default no SISA (em espanhol) n n n Vocabulario. txt = lista de descritores em Ciência da Informação em ordem alfabética. TG. txt = lista de descritores de Ciência da Informação hierarquizados. Foram retirados das obras: n n “Tesauro en documentacíon e informacíon”; “Tesauro de la UNESCO” “Vocabulário controlado en bibliotecologia, Ciência de la información y temas afines” Vacias. txt = lista de palavras vazias
Funcionamento do SISA n n Indexa simultaneamente até 10 textos Etapas: n n Horizontalização do texto, cada frase não pode ter mais de 100 palavras. Eliminação de palavras vazias (palavras com funções apenas gramaticais, como por exemplo os conectivos, artigos, pronomes, etc). n Comparação dos termos retidos com os descritores do vocabulário controlado do sistema. n Segmentos considerados: título, resumo e corpo do texto. n Apresentação de todos os termos candidatos à indexação: n n termos do vocabulário controlado palavras que não estão contidas no vocabulário controlado do sistema, mas que apresentam várias ocorrências no título, no resumo e no texto completo. permite ao indexador tomar a decisão de utilizá-las ou não na indexação final Permite exportar os resultados para um arquivo denominado Resultados.
Para indexação em português n Substituímos na pasta Config do programa os arquivos default pelos arquivos: n n n Vocabulário. txt: lista com os assuntos principais do “Vocabulário Controlado USP” (VOCAUSP) TG. txt: lista dos assuntos principais relacionados hierarquicamente Vacias. txt: lista de palavras vazias em português
Instalando o SISA n n Copiar a pasta “SISA para Alves Lima de Sao Paulo” para o seu micro Rodar o arquivo Set up para instalação. O programa será instalado na pasta arquivos de programas na pasta “SISA” Copiar para a pasta “Config” que se encontra na pasta “SISA” os arquivos enviados em anexo: “Vocabulario. txt”; “TG. txt” e “Vacias. txt”
Etapas para a indexação com SISA n n Selecionar artigos de um domínio do conhecimento, por exemplo: Medicina, Arquitetura, Engenharia, etc. . . Preparar os artigos: n n n salvar em formato txt; inserir etiquetas de marcação (#CTI#, #FTI#, etc. ) reunir os arquivos em um mesmo diretório. Indexar com o SISA Exportar resultados Abrir arquivo resultados. txt, inserir o comando #TODOS# e salvar arquivo.
Tela de abertura do SISA
Selecionar arquivos
Indexar
Exportar Resultados
Abrir Arquivo Resultados na pasta Config e inserir #TODOS# após resultado da ultima indexação
Para consultar Vocabulário clicar no botão “V”
Referências n n n n n ALVARENGA, L; SOUZA, R. R. A Web Semântica e suas contribuições para a ciência da informação. Ciência da Informação. , v. 33, n 1, 2004 BROUGHTON, V. Meccano, molecules and the organization of knowlegde: the continuing contribution of S. R. Ranganathan. (Apresentado em ISKO UK, nov. 2007). Disponível em: http: //www. iskouk. org/presentations/Vanda. Broughton. Nov 2007. ppt BAX, M. P e SOUZA, R. R. Uma proposta de uso de agentes e mapas conceituais para representação de conhecimentos altamente contextualizados. Disponível em: http: //www. emack. com. br/info/apostilas/nestor/agentes. pdf GIL LEIVA, I. La automatizacíon de la indización de documentos. Gijón (Asturias): Ediciones Trea, 1999. LIMA, G. A. B. Mapa conceitual como ferramenta para organização do conhecimento em sistema de hipertextos e seus aspectos cognitivos. Belo Horizonte, Perspectiva em Ciência da Informação, v. 9, n. 2, p. 134 -145, jul. / dez. 2004. Disponível em: http: //www. eci. ufmg. br/pcionline/viewarticle. php? id=72 LANCASTER, F. W. Indexação e resumos: teoria e prática. Brasília: Briquet de Lemos, 1993. MÉNDEZ RODRÍGUES, E. Modelos de metadatos. In: Méndez Rodrígues, E. Metadados y recuperación de información: estándares, problemas y aplicabilidad em bibliotecas digitales. Gijón: Trea, 2002. cap. 3. SISA: sistema de indizacíon semi-automático: guía de usuário. 16 p. ZENG, M. L. Standards for Controlled Vocabularies. Denver, 2005. (Apresentado em 7 th NKOS Workshop, 2005). setembro 21 68
- Slides: 67