Indexao por Semntica Latente Latent Semantic Indexing Joaquim

  • Slides: 35
Download presentation
Indexação por Semântica Latente (Latent Semantic Indexing) Joaquim Macedo

Indexação por Semântica Latente (Latent Semantic Indexing) Joaquim Macedo

Fontes • Apresentação de Berthier Neto • Outras apresentações disponíveis na Internet

Fontes • Apresentação de Berthier Neto • Outras apresentações disponíveis na Internet

Leituras Scott Deerwester, Susan T. Dumais, George W. Furnas, Thomas K. Landauer, Richard Harshman,

Leituras Scott Deerwester, Susan T. Dumais, George W. Furnas, Thomas K. Landauer, Richard Harshman, "Indexing by latent semantic analysis". Journal of the American Society for Information Science, Volume 41, Issue 6, 1990. http: //www 3. interscience. wiley. com/cgibin/issuetoc? ID=10049584 Livro Modern Information Retrieval Cap. 02: Modeling (Latent Semantic Indexing) 2. 7. 2, 2. 7. 3

Indexação por Semântica Latente • A RI clássica pode conduzir a baixa eficácia na

Indexação por Semântica Latente • A RI clássica pode conduzir a baixa eficácia na busca devido a – Documentos não relacionados podem ser incluídos no conjunto da resposta – Documentos relevantes que não contenham pelo menos um termo de índice da interrogação podem não ser devolvidos • Raciocínio: Busca baseada em termos de índice é vaga e ruidosa.

Deficiências com indexação automática convencional Sinónimos: Várias palavras e frases referenciam o mesmo conceito

Deficiências com indexação automática convencional Sinónimos: Várias palavras e frases referenciam o mesmo conceito (diminui a cobertura) Homógrafas: Palavras que têm mais que um significado (diminui a precisão) Independência: Não é dada importância ao facto de 2 termos aparecerem em conjunto frequentemente

Indexação por Semântica Latente Objectivo Substituir índices que usam conjunto de termos de índice

Indexação por Semântica Latente Objectivo Substituir índices que usam conjunto de termos de índice por índices que usam conceitos. Abordagem Estabelecer uma correspondência entre o espaço vectorial dos índices por um espaço de menor dimensão, usando a decomposição em valores singulares

Espaço vectorial dos termos de índice O espaço tem tantas dimensões como os termos

Espaço vectorial dos termos de índice O espaço tem tantas dimensões como os termos da lista de palavras t 3 d 1 d 2 t 1

PCA e SVD • PCA ( Principle Component Analysis) – Análise em Componentes Principais

PCA e SVD • PCA ( Principle Component Analysis) – Análise em Componentes Principais • SVD: Singular Value Decomposition – Decomposição em Valores Singulares • Recursos – The Matrix Cookbook • http: //www. imm. dtu. dk/pubdb/views/edoc_download. php/3274/pdf/i mm 3274. pdf

Análise em Componentes Principais (PCA) • Exemplo: Projectar dados 2 D num PC 1

Análise em Componentes Principais (PCA) • Exemplo: Projectar dados 2 D num PC 1 D • Variabilidade dos dados pode ser descrito usando um menor número de dimensões – Funciona bem quando as facetas de entrada estão correlacionadas – As novas dimensões são não correlacionadas.

Análise Discriminante Linear Discriminant Analysis (LDA) • A análise por componentes principais não é

Análise Discriminante Linear Discriminant Analysis (LDA) • A análise por componentes principais não é necessariamente boa para discriminação na classificação. • A Análise disciminante linear procura encontrar uma transformação linear que maximiza a variância entre classes e minimizar a variância interna das classes – i. e. discriminação das facetas

Análise Discriminante Linear • Projectar um espaço 2 D num 1 PC B 2.

Análise Discriminante Linear • Projectar um espaço 2 D num 1 PC B 2. 0 1. 5 Não descriminante 1. 0 0. 5 . . . w A 0. 5 1. 0 1. 5 2. 0 (from slides by Shaoqun Wu)

Análise Discriminante Linear LDA: descobre uma discriminação linear PCA 2. 0 B 1. 5

Análise Discriminante Linear LDA: descobre uma discriminação linear PCA 2. 0 B 1. 5 1. 0 0. 5 2. 0 B . . 1. 5 1. 0 . . 0. 5 w 0. 5 1. 0 1. 5 2. 0 A . . 0. 5 1. 0 1. 5 2. 0 w A

PCA e SVD • Fazer a PCA é equivalente ao SVD nos dados •

PCA e SVD • Fazer a PCA é equivalente ao SVD nos dados • Qualquer matriz X nxm pode ser descrita como: – – X=T·S·VT T é os vectores de valores próprios de X·XT (nxn) S é a diag(eig(X·XT) (nxm) V é os vectores de valores próprios dr XT·X (mxm) documents terms X n x m

Exemplo de Documentos: Títulos c 1 c 2 c 3 Human machine interface for

Exemplo de Documentos: Títulos c 1 c 2 c 3 Human machine interface for Lab ABC computer applications A survey of user opinion of computer system response time The EPS user interface management system c 4 c 5 System and human system engineering testing of EPS Relation of user-perceived response time to error measurement m 1 m 2 m 3 m 4 The generation of random, binary, unordered trees The intersection graph of paths in trees Graph minors IV: Widths of trees and well-quasi-ordering Graph minors: A survey

Exemplo : Termos e Documentos Terms Documents c 1 human 1 interface 1 computer

Exemplo : Termos e Documentos Terms Documents c 1 human 1 interface 1 computer 1 user 0 system 0 response 0 time 0 EPS 0 survey 0 trees 0 graph 0 minors 0 c 2 0 0 1 1 1 0 0 0 c 3 0 1 1 0 0 0 0 c 4 1 0 0 0 2 0 0 1 0 0 c 5 0 0 0 1 1 0 0 0 m 1 0 0 0 0 0 1 0 0 m 2 0 0 0 0 0 1 1 0 m 3 0 0 0 0 0 1 1 1 m 4 0 0 0 0 1 0 1 1

Dimensão das matrizes t x d X txm = T 0 m é o

Dimensão das matrizes t x d X txm = T 0 m é o rank de X < min(t, d) mxm mxd S 0 D 0'

Latent Semantic Indexing Singular Value Decomposition documents * S 0 * terms * X

Latent Semantic Indexing Singular Value Decomposition documents * S 0 * terms * X = * T 0 * m x m t x d m x d t x m Select first k singular values documents * terms D 0 ^ X t x d * = T * * S * k x k t x k D k x d

T 0

T 0

S 0

S 0

D 0

D 0

Rank Reduzido Os elementos da diagonal de S 0 são positivos e decrescem em

Rank Reduzido Os elementos da diagonal de S 0 são positivos e decrescem em magnitude. Considere apenas os k maiores e coloque os restantes a zero. Apague as colunas e as filas a zero de S 0 e as filas correspondentes de T 0 e D 0. Isto dá: ^ ~ X = TSD' X~ Interpretação ^ Se o valor k for bem seleccionado, espera-se que X retenha a informação semântica de X, mas elemine o ruído de sinónomos, homografias e reconhece a dependência.

Selecção de valores singulares t x d txk kxk S ^ X = kxd

Selecção de valores singulares t x d txk kxk S ^ X = kxd D' T k é o número de valores singulares escolhidos para representar os conceitos no conjunto de documentos Normalmente k « m.

SVD com os termos menores descartados TS define coordenadas para documentos no espaço latente

SVD com os termos menores descartados TS define coordenadas para documentos no espaço latente

Termos Graficados em 2 dimensões

Termos Graficados em 2 dimensões

Documentos e Termos

Documentos e Termos

Comparação de dois termos ^ O produto interno de duas filas de X reflecte

Comparação de dois termos ^ O produto interno de duas filas de X reflecte em que medida dois termos têm um padrão similar de ocurrências. ^ ^ = TSD'(TSD')' XX' = TSD'DS'T' = TSS'T Uma vez que D é ortonormal = TS(TS)' Para calcular a posição i, j, calcule o produto interno entre a fila i e j de TS Uma vez que S é diagonal, TS difere apenas de T pela mudança do sistema de coordenadas.

Comparação entre 2 documentos ^ O produto interno de duas colunas de X reflecte

Comparação entre 2 documentos ^ O produto interno de duas colunas de X reflecte a medida em que dois documentos têm um padrão similar de ocurrências. ^ ^ = (TSD')'TSD' X'X = DS(DS)' Para calcular a posição i, j, obtenha o produto interno entre as colunas i e j de DS. Uma vez que S é diagonal DS difere D apenas pela mudança do sistema de coordenadas.

Comparação de um termo e um documento A comparação entre um termo e um

Comparação de um termo e um documento A comparação entre um termo e um documento duma ^ célula individual de X. X = TSD' - = TS(DS)' Onde S é uma matriz diagonal cujos valores são a raiz quadrada dos correspondentes valores de S.

Exemplo duma Memo técnica: Interrogação Terms Query xq human 1 interface 0 computer 0

Exemplo duma Memo técnica: Interrogação Terms Query xq human 1 interface 0 computer 0 user 0 system 1 response 0 time 0 EPS 0 survey 0 trees 1 graph 0 minors 0 Interrogação: "human system interactions on trees" No espaço termo-documento, uma interrogação é representada por xq, um vector t x 1. No espaço de conceitos, uma interrogação é representada por dq, um vector 1 x k.

Interrogação A forma sugerida de dq é : dq = xq'TS-1 Exemplo de uso.

Interrogação A forma sugerida de dq é : dq = xq'TS-1 Exemplo de uso. Para comparar uma interrogação com um documento i, tome o elemento iésimo do produto de DS e dq. S, que é iésimo elemento do produto de DS e xq'T. Observe que dq é um vector coluna.

Interrogação Seja xq um vector de termos para a interrogação q. No espaço de

Interrogação Seja xq um vector de termos para a interrogação q. No espaço de dimensão reduzido, q, é representado pelo pseudo-documento, dq, no centroides de termos, com aapropriada mudança de escala dos eixos. dq = xq'TS-1

Resultados Experimentais Deerwester, et al. ensaiaram o LSI em duas colecções de teste MED

Resultados Experimentais Deerwester, et al. ensaiaram o LSI em duas colecções de teste MED e CISI, com interrogações e julgamentos de relevância disponíveis. Documentos eram compostos por títulos e resumos. Listas de Stopwords de 439 palavras, sem stemming, etc. Comparação com: (a) unificação simples de termos , (b) SMART, (c) método de Voorhees.

Resultados Experimentais: 100 Factores

Resultados Experimentais: 100 Factores

Resultados Experimentais: Nº de Factores

Resultados Experimentais: Nº de Factores

Conclusões • O Latent semantic indexing fornece uma diferente conceptualização do problema da RI(IR)

Conclusões • O Latent semantic indexing fornece uma diferente conceptualização do problema da RI(IR) • Permite a redução da complexidade do quadro de representação subjacente o que pode ser explorado por exemplo com o propósito de interface com o utilizador