1 A lgica na recuperao da informao MPI

  • Slides: 47
Download presentation
1 A lógica na recuperação da informação MPI 4008 - Informação: da produção ao

1 A lógica na recuperação da informação MPI 4008 - Informação: da produção ao acesso e uso Profa. Dra. Vânia Mara Alves Lima PPGCI/ECA/USP 2018

2 Linguagem • É a capacidade do homem em designar os objetos que o

2 Linguagem • É a capacidade do homem em designar os objetos que o circundam, assim como de comunicar-se com os seus semelhantes.

3 Linguagem Natural • É linguagem utilizada nas necessidades da vida diária. • É

3 Linguagem Natural • É linguagem utilizada nas necessidades da vida diária. • É a linguagem comum, que comporta uma grande quantidade de unidades, adaptada à comunicação oral ou escrita. • Supõe nuanças, associação de idéias, expressão de emoções e de valores.

4 Comunicação • Se realiza através de signos, pois um sistema de comunicação não

4 Comunicação • Se realiza através de signos, pois um sistema de comunicação não existe sem um repertório de signos e sem um corpo de regras que definam como se selecionam e combinam esses signos para formar as mensagens transmissíveis.

5 Gramática • São as regras que todo usuário competente de uma linguagem conhece

5 Gramática • São as regras que todo usuário competente de uma linguagem conhece e aplica quando emite uma mensagem verbal qualquer.

6 Problema • Os Sistemas de Recuperação de Informação (SRI) não entendem os enunciados

6 Problema • Os Sistemas de Recuperação de Informação (SRI) não entendem os enunciados da Linguagem Natural.

7 Sistemas de Recuperação de Informação • Sistemas de operações interligadas para identificar, dentre

7 Sistemas de Recuperação de Informação • Sistemas de operações interligadas para identificar, dentre um grande conjunto de informações (base de dados), aquelas que de fato são úteis, ou seja, estão de acordo com a demanda expressa pelos usuários.

8 Um SRI realiza 3 etapas: • Indexação • Armazenamento • Recuperação Exemplos: Bases

8 Um SRI realiza 3 etapas: • Indexação • Armazenamento • Recuperação Exemplos: Bases de dados on-line; CD-Rom, Catálogos de bibliotecas, etc. . .

9 Função do SRI • Levar ao usuário o documento certo que irá satisfazer

9 Função do SRI • Levar ao usuário o documento certo que irá satisfazer a sua necessidade específica de informação.

10 Solução • Transformar as formulações realizadas em Linguagem Natural de maneira que o

10 Solução • Transformar as formulações realizadas em Linguagem Natural de maneira que o SRI possa entendê-la. • Montar um modelo de busca e recuperação de informação com a finalidade de estabelecer uma estratégia que possa minimizar a imprecisão, considerando-se a exaustividade e a especificidade.

11 Comunicação documentária Documentos Análise Documentária (Indexação) LD Bibliotecário Análise Documentária Usuários (Análise da

11 Comunicação documentária Documentos Análise Documentária (Indexação) LD Bibliotecário Análise Documentária Usuários (Análise da consulta)

12 Análise documentária • Análise • Síntese • Representação Objetivo: identificar, selecionar, coletar e

12 Análise documentária • Análise • Síntese • Representação Objetivo: identificar, selecionar, coletar e apresentar de forma concisa os conteúdos informacionais mais relevantes nos documentos para os diferentes usuários de um Sistema de Informação.

13 Objetivos da LD • Recuperar documentos que se ajustem de maneira mais adequada

13 Objetivos da LD • Recuperar documentos que se ajustem de maneira mais adequada a necessidade de informação. • Realizar uma recuperação onde: o ruído (documentos não pertinentes) + silêncio (documentos não recuperados) = um conjunto vazio.

14 Procedimentos para recuperação da informação • 1 a. Fase: Análise conceitual da consulta.

14 Procedimentos para recuperação da informação • 1 a. Fase: Análise conceitual da consulta. ▫ Quais são os conceitos arrolados na consulta? ▫ Esse conceitos são individuais ou gerais? ▫ Representam seres, coisas, qualidades, ações, localizações, etc.

15 • 2 a. Fase: Tradução ◦ LN LD • O resultado dessa tradução

15 • 2 a. Fase: Tradução ◦ LN LD • O resultado dessa tradução é uma Equação de Busca. • A tradução compara a equação de busca com a representação dos documentos (descritores) utilizados no processo de Indexação.

16 • Representação (LD) = • • Equação de busca • • Documentos recuperados

16 • Representação (LD) = • • Equação de busca • • Documentos recuperados (LD)

17 • É necessário: – solucionar algumas questões sintáticas e semânticas sem recorrer a

17 • É necessário: – solucionar algumas questões sintáticas e semânticas sem recorrer a estratégia de ensaio e erro. – estabelecer uma gramática formal (sintaxe e semântica) para a utilização da linguagem documentária empregada nos processos de recuperação de informação. • Como?

18 • Introduzindo os fundamentos lógicos nas estratégias de busca. • Elaborando equações de

18 • Introduzindo os fundamentos lógicos nas estratégias de busca. • Elaborando equações de busca de modo que os SRI, respeitando o nosso uso da linguagem documentária, tome decisões de forma automática, simplificando e tornando produtiva nossa interação com este tipo de sistemas. �Portanto, � Linguagem de busca = Linguagem documentária

19 Processo de busca e recuperação da informação • É o processo de localizar

19 Processo de busca e recuperação da informação • É o processo de localizar documentos e itens de informação que tenham sido objeto de armazenamento com a finalidade de permitir o acesso dos usuários. • Para que a recuperação seja precisa deve haver um monitoramento das necessidades de informação dos usuários.

20 Gramática formal • Necessita de uma sintaxe e de uma semântica que expliquem

20 Gramática formal • Necessita de uma sintaxe e de uma semântica que expliquem essa linguagem. ▫ Propriedades sintáticas: relações que se produzem entre os signos dessa linguagem. ▫ Propriedades semânticas: relações que mantêm esses signos com os objetos que representam. • Ocorre que como utilizamos a LN sem ter consciência explicita da gramática que a explica, muitas vezes utilizamos uma LD sem gramática.

21 Sintaxe �A linguagem é formada por um conjunto de símbolos que recebem o

21 Sintaxe �A linguagem é formada por um conjunto de símbolos que recebem o nome de léxico. �Algumas combinações desses símbolos dão lugar a certas unidades sintáticas mínimas. ◦ unidades sintáticas mínimas = unidades sintáticas significativas da linguagem �Utilizando essas unidades, o usuário leva a cabo uma ação lingüística: transmite informação, expressa opinião, dá uma ordem, etc.

22 • A principal propriedade sintática dessas unidades é a de ser gramatical, ou

22 • A principal propriedade sintática dessas unidades é a de ser gramatical, ou seja, estar corretamente formada. • Importante: • Todas as unidades sintáticas significativas da língua são combinações de símbolos corretos ou gramaticais, mas nem todas as combinações de símbolos são unidades sintáticas significativas da linguagem. • Exemplos: maracujá/macarujá • • O menino foi buscar água/ Buscar água o menino foi. ônibus/ombinus

23 Semântica • Enunciados: ▫ são aquelas combinações de símbolos utilizadas pelos usuários exclusivamente

23 Semântica • Enunciados: ▫ são aquelas combinações de símbolos utilizadas pelos usuários exclusivamente para realizar certos atos lingüísticos específicos: as afirmações. ▫ a principal propriedade semântica dos enunciados é a de expressar uma proposição, ou seja, possuir um conteúdo suscetível de ser verdadeiro ou falso. ▫ Uma proposição pode ser a premissa de um argumento Exemplos de proposições: Todos os homens são honestos. (Todo G é H) Todos os políticos são homens. (Todo F é G) Todos os políticos são honestos (Todo F é H)

24 Gramática formal para uma linguagem de busca • Para obter essa gramática é

24 Gramática formal para uma linguagem de busca • Para obter essa gramática é necessário descrever as propriedades que a caracterizam no âmbito da sintaxe e da semântica: ▫ a propriedade sintática de gramaticalidade. ▫ a propriedade semântica de expressar uma proposição.

25 • Linguagem de busca dos SI é formada por um conjunto de símbolos

25 • Linguagem de busca dos SI é formada por um conjunto de símbolos o léxico da linguagem de busca. • Este conjunto é constituído: – por um conjunto de termos e operadores booleanos AND, OR e NOT ; – mais signos de pontuação ) e (. • Alfabeto da linguagem de busca = Léxico da linguagem de busca + os signos de pontuação.

26 • Propriedade sintática destas sucessões de símbolos: – é ser gramatical e estar

26 • Propriedade sintática destas sucessões de símbolos: – é ser gramatical e estar corretamente constituída. �Importante: � Todas as equações de busca são sucessões de símbolos, mas nem todas as sucessões de símbolos desse alfabeto são equações de busca. � Exemplo: x AND y � NOT x AND y

27 Objetivo da equação de busca �Expressar ou definir por compreensão certo conjunto de

27 Objetivo da equação de busca �Expressar ou definir por compreensão certo conjunto de documentos a serem recuperados para satisfazer uma necessidade de informação. Importante: o conjunto que expressa ou define toda equação de busca depende sistematicamente do conteúdo semântico das unidades significativas menores que a constituem.

28 Propriedade sintática de uma equação de busca Uma equação de busca só pode

28 Propriedade sintática de uma equação de busca Uma equação de busca só pode ser considerada como tal se for gerada pela aplicação das seguintes regras: (a) Se T é uma palavra ou uma frase da linguagem utilizada nos documentos, então, T é uma equação de busca da linguagem de busca. (b) Se A e B são equações de busca da linguagem de busca então são equações de busca: (b. i) (A AND B) (b. ii) (A OR B) (b. iii) (A NOT B)

29 Exemplo: • T= FUTEBOL • FUTEBOL AND LOTERIA • FUTEBOL OR FUTEBOL DE

29 Exemplo: • T= FUTEBOL • FUTEBOL AND LOTERIA • FUTEBOL OR FUTEBOL DE SALÃO • FUTEBOL NOT FUTEBOL DE SALÃO

30 � Da mesma forma, a expressão: ◦ (Biblioteca AND Aquisição) NOT Seleção ◦

30 � Da mesma forma, a expressão: ◦ (Biblioteca AND Aquisição) NOT Seleção ◦ Deve ser considerada uma equação de busca já que é obtida a partir das 3 aplicações das regras citadas. – Biblioteca, Aquisição e Seleção são equações de busca (regra (a)). – (Biblioteca AND Aquisição) é uma equação de busca (a partir de 1 e aplicando a regra (b. i)). – (Biblioteca AND Aquisição) NOT Seleção é uma equação de busca (a partir de 1, 2 e aplicando a regra (b. iii).

31 ▫ ▫ Capoeira ▫ Escravos ▫ Fazenda • Na indexação (AD) associamos cada

31 ▫ ▫ Capoeira ▫ Escravos ▫ Fazenda • Na indexação (AD) associamos cada documento com uma série de termos (descritores) que o representam • Podemos identificar em um conjunto cada um dos documentos administrados pelo Sistema de Informação, isto é, podemos identificar cada documento como o conjunto desses termos que se obtém a partir de sua indexação.

32 Propriedade semântica de uma equação de busca • Se no processo de indexação

32 Propriedade semântica de uma equação de busca • Se no processo de indexação do documento d se obtém que A, B e C são seus termos representativos (descritores) podemos identificar d da seguinte maneira: d = {A, B, C} A= Morango B= Dióxido de Carbono C= Fisiologia pós-colheita documento = {Morango, Dióxido de Carbono e Fisiologia pós-colheita }

33 �Se A e B são equações de busca da linguagem de busca então:

33 �Se A e B são equações de busca da linguagem de busca então: � (b. i) (A AND B) = d onde: d A e d B � � � Morango A B AND Dióxido de carbono � Resultado: 1 registro no DEDALUS, restringindo a busca ao campo assunto. � 13 registros no portal da Busca integrada (todos os campos) � 03/10/2018 �

34 onde: d A ou d B � (b. ii) (A OR B) =

34 onde: d A ou d B � (b. ii) (A OR B) = d A � � B �Morango OR Dióxido de carbono � Resultado: mais de 548 registros recuperados � (b. ii) (A NOT B) = d onde: d A e d B � A B � Morango NOT Dióxido de carbono � Resultado: 173 registros recuperados. 03/10/2018

35 • Importante: – Cada uma das regras sintáticas corresponde uma regra semântica. –

35 • Importante: – Cada uma das regras sintáticas corresponde uma regra semântica. – O conjunto de documentos que expressa toda equação de busca depende sistematicamente do conteúdo semântico das unidades menores que a constituem. • Portanto: – A simetria entre as regras sintáticas e semânticas nos mostra que as mudanças sintáticas que se introduzem nas expressões costumam provocar mudanças semânticas. • Equação (a): • (Informação AND Conhecimento) OR Cultura • Equação (b): ▫ Informação AND (Conhecimento OR Cultura)

36 • Equação (a) • (Informação AND Conhecimento) OR Cultura Informação Conhecimento Cultura ▫

36 • Equação (a) • (Informação AND Conhecimento) OR Cultura Informação Conhecimento Cultura ▫ ▫ No DEDALUS (só monografias) foram recuperados mais de 17089 registros e 290. 838 na busca integrada (monografias, artigos de periódicos, trabalhos apresentados em eventos, etc) 03/10/2018

37 • Equação (b) ▫ Informação AND (Conhecimento OR Cultura) Informação Conhecimento Cultura ▫

37 • Equação (b) ▫ Informação AND (Conhecimento OR Cultura) Informação Conhecimento Cultura ▫ No DEDALUS foram recuperados 479 registros e 20. 874 registros na busca integrada. 03/10/2018

38 • A equação (a) representa os documentos, tal que: – d Informação AND

38 • A equação (a) representa os documentos, tal que: – d Informação AND Conhecimento ou d a Cultura. • A equação (b) representa os documentos, tal que: – d Informação AND Conhecimento • Mas, – um documento que contém o descritor Cultura, e não contém os descritores Informação e Conhecimento pertencerá ao conjunto de documentos representados pela equação (a), mas não estará incluído no conjunto de documentos representados pela equação (b).

39 • (Informação AND Conhecimento) NOT Cultura Informação Conhecimento • No DEDALUS foram recuperados

39 • (Informação AND Conhecimento) NOT Cultura Informação Conhecimento • No DEDALUS foram recuperados 369 registros. • Na busca integrada 10. 902 registros. 03/10/2018

40 • Qualquer sucessão de signos do alfabeto da linguagem de busca que possamos

40 • Qualquer sucessão de signos do alfabeto da linguagem de busca que possamos imaginar, por mais extensa que seja, se for bem elaborada, é uma equação de busca que representará um conjunto de documentos. • Não existe nenhuma sucessão de símbolos desse alfabeto que seja uma equação e que não represente algum conjunto documentos.

41 Benefícios da Gramática proposta • Na sintaxe: ▫ Identifica e define a propriedade

41 Benefícios da Gramática proposta • Na sintaxe: ▫ Identifica e define a propriedade sintática das unidades significativas da linguagem de busca, isto é, identifica a equação de busca. • Na semântica: ▫ Estabelece que a principal propriedade semântica das equações de busca ou unidades da linguagem de busca é a de representar um determinado conjunto de documentos.

42 • Pragmáticos – Decidir sem ambiguidade se uma sucessão de símbolos do alfabeto

42 • Pragmáticos – Decidir sem ambiguidade se uma sucessão de símbolos do alfabeto da linguagem de busca, por ampla e complicada que nos pareça é ou não uma equação de busca dessa mesma linguagem.

43 �Quando o SI não responde apresentam-se 3 hipóteses: • não existe realmente um

43 �Quando o SI não responde apresentam-se 3 hipóteses: • não existe realmente um conjunto de documentos que corresponde à equação de busca formulada; • os documentos não foram indexados adequadamente de forma a serem recuperados; • a sucessão de símbolos proposta ao sistema não é uma equação de busca e, portanto, não representa nenhum conjunto de documentos que possam ser recuperados. �No caso da terceira hipótese deve-se reformular a sucessão de símbolos até convertê-la em uma genuína equação de busca.

44 �Importante • O objetivo principal do usuário que decide consultar um SI para

44 �Importante • O objetivo principal do usuário que decide consultar um SI para satisfazer uma necessidade informativa consiste em que o sistema recupere, a partir de uma determinada equação de busca, e com um ruído e um silêncio igual ao conjunto vazio, um conjunto de documentos adequados a essa necessidade. • O êxito ou fracasso da consulta se encontra no fato da equação de busca corresponder corretamente a necessidade de informação, isto é, que a equação represente adequadamente um conjunto de documentos no qual o usuário do SI está interessado.

45 • Portanto, • devemos formular a necessidade de informação em termos de conjunto,

45 • Portanto, • devemos formular a necessidade de informação em termos de conjunto, isto é, identificar qual é o conjunto de documentos requerido para que essa necessidade seja satisfeita; • devemos propor equações de busca adequadas a representar essa necessidade.

46 • Exemplo • O usuário quer documentos que contenham sempre o termo Emigração,

46 • Exemplo • O usuário quer documentos que contenham sempre o termo Emigração, que contenham indistintamente o termo Economia ou o termo Política, mas que não incluam o termo França. • d Emigração e d Economia ou d Política mas d França • Equação (a) • (Emigração AND Economia OR Política) NOT França • Resultado: mais de 66537 registros DEDALUS e 344. 087 na busca integrada • Equação (b) • Emigração AND (Economia OR Política) NOT França • Resultado: 19 registros DEDALUS e 253 na busca integrada • 03/10/2018

Referências • ARAÚJO JR; R. H. Precisão no processo de busca e recuperação da

Referências • ARAÚJO JR; R. H. Precisão no processo de busca e recuperação da informação. Brasília: Thesaurus, 2007. p. 65 -89. • BREDA, S. M; BUFREM, L. S. Presença da lógica no domínio da organização do conhecimento: aspectos interdisciplinares no currículo do ensino superior. Perspectivas em Ciência da Informação. v. 16, n. 1, p. 185 -194, jan/mar 2011. • GIRALDES, M. J. C; MONTEIRO, S. D. Aspectos lógicofilosóficos da organização do conhecimento na esfera da Ciência da Informação. Info & Soc. Est. , João Pessoa, v. 18, n. 3, p. 13 -27, set/dez. 2008. • GUTIERREZ, M. P. El lenguaje de interrogacion: uma gramática formal para la recuperacíon de información. Rev. Esp. Doc. Cient. , v. 23, n. 3, p. 247 -266, 2000