RESOLUO DE ENTIDADES Ricardo Prudncio LINK MINING TAREFAS

  • Slides: 37
Download presentation
RESOLUÇÃO DE ENTIDADES Ricardo Prudêncio

RESOLUÇÃO DE ENTIDADES Ricardo Prudêncio

LINK MINING - TAREFAS Ranking de Nós Relacionadas a Objetos Classificação de Nós Detecção

LINK MINING - TAREFAS Ranking de Nós Relacionadas a Objetos Classificação de Nós Detecção de Grupos Resolução de Entidades Relacionadas a Arestas Predição de Links Descoberta de Sub-Grafos Relacionadas a Grafos Classificação de Grafos Modelos Geradores

EXEMPLO � Entidade: � Possíveis Ricardo Bastos Cavalcante Prudêncio referências na Web of Science

EXEMPLO � Entidade: � Possíveis Ricardo Bastos Cavalcante Prudêncio referências na Web of Science através da busca por Prudêncio, R*: Prudencio Ricardo B. C. Prudencio Ricardo Prudencio RBC Prudencio RF Prudenci. RF Prudenico RBC

EXEMPLO Ocorrências Verdadeiras Falsas Prudencio Ricardo B. C. 1 1 0 Prudencio Ricardo 1

EXEMPLO Ocorrências Verdadeiras Falsas Prudencio Ricardo B. C. 1 1 0 Prudencio Ricardo 1 1 0 Prudencio R 6 1 5 Prudencio RBC 2 2 0 Prudencio RF 1 0 1 Prudenci RF 2 0 2 Prudenico RBC 1 1 0

RESOLUÇÃO DE ENTIDADES Coleta de dados em Redes sociais Ricardo Prudêncio ricardobcp Ricardo Prudêncio

RESOLUÇÃO DE ENTIDADES Coleta de dados em Redes sociais Ricardo Prudêncio ricardobcp Ricardo Prudêncio

RESOLUÇÃO DE ENTIDADES Múltiplas referências para a mesma entidade no mundo real é algo

RESOLUÇÃO DE ENTIDADES Múltiplas referências para a mesma entidade no mundo real é algo comumente observado Duplicação de referências se deve a: � Erros na entrada de dados � Abreviações e representações alternativas � Nicknames, sinônimos �. . .

RESOLUÇÃO DE ENTIDADES – OUTRO EXEMPLO Construção de bases de artigos, autores e citações

RESOLUÇÃO DE ENTIDADES – OUTRO EXEMPLO Construção de bases de artigos, autores e citações R. Agrawal and R. Srikant. Fast algorithms for mining association rules, In: VLDB, 1994. Rakesh Agrawal and Ramakrishnan Srikant. Fast algorithms for mining association rules, In: Proc. Of the 20 th Int. /conference on Very Large Databases, Santiago, Chile, 1994.

RESOLUÇÃO DE ENTIDADES Problema: � Identificar diferentes referências para a mesma entidade no mundo

RESOLUÇÃO DE ENTIDADES Problema: � Identificar diferentes referências para a mesma entidade no mundo real

RESOLUÇÃO DE ENTIDADES Problema: � Transformar um grafo de referências em um grafo de

RESOLUÇÃO DE ENTIDADES Problema: � Transformar um grafo de referências em um grafo de entidades correspondentes

RESOLUÇÃO DE ENTIDADES -APLICAÇÕES Integração e limpeza de dados PLN (Co-referência) Coleta de dados

RESOLUÇÃO DE ENTIDADES -APLICAÇÕES Integração e limpeza de dados PLN (Co-referência) Coleta de dados em redes sociais Outras. .

RESOLUÇÃO DE ENTIDADES Multi-Entity Resolution R. Agrawal VLDB R. Agrawal and R. Srikant. Fast

RESOLUÇÃO DE ENTIDADES Multi-Entity Resolution R. Agrawal VLDB R. Agrawal and R. Srikant. Fast algorithms for mining association rules, In: VLDB, 1994. Rakesh Agrawal and Ramakrishnan Srikant. Fast algorithms for mining association rules, In: Proc. Of the 20 th R. Srikant Rakesh Agrawal Ramakrishnan Srikant Int. Conference on Very Large Databases, Santiago, Chile, 1994. Int. Conference on Very Large Databases

Eduardo Raul Hruschka Estevam Rafael Hruschka Jr

Eduardo Raul Hruschka Estevam Rafael Hruschka Jr

RESOLUÇÃO DE ENTIDADES Baseada em Atributos � Similaridade Exemplo: entre os atributos das referências

RESOLUÇÃO DE ENTIDADES Baseada em Atributos � Similaridade Exemplo: entre os atributos das referências String Similarity � Levenshtein Distance Prudencio RBC Prudenico RBC Distância = 1

RESOLUÇÃO DE ENTIDADES Limitações: � Atributos devem ser bem definidos e ricos Distância =

RESOLUÇÃO DE ENTIDADES Limitações: � Atributos devem ser bem definidos e ricos Distância = 0, mas Falso Positivo

RESOLUÇÃO DE ENTIDADES Baseada em Relacionamentos � Ligações entre referências comuns Prudenico RBC Ludermir

RESOLUÇÃO DE ENTIDADES Baseada em Relacionamentos � Ligações entre referências comuns Prudenico RBC Ludermir TB Prudencio RBC Carvalho FDT Referencias podem ser unificadas considerando os links em comum

RESOLUÇÃO DE ENTIDADES Resolução Prudenico RBC Ludermir TB coletiva Prudencio RBC Carvalho FDT Referências

RESOLUÇÃO DE ENTIDADES Resolução Prudenico RBC Ludermir TB coletiva Prudencio RBC Carvalho FDT Referências “Ludermir TB” e “Ludermir Teresa” devem ser unificadas Prudencio Ricardo Ludermir Teresa

Prudenico RBC Clark SS Ludermir Teresa Carvalho FDT Ludermir TB Prudencio RF Prudencio Ricardo

Prudenico RBC Clark SS Ludermir Teresa Carvalho FDT Ludermir TB Prudencio RF Prudencio Ricardo Prudencio RBC Difícil unificar referências pelos links de forma local (pode existir um caminho curto entre Flavia e Teresa) Marlett M Barros Flavia A Prudencio Ricardo B. C. Silva Eduardo A

CLUSTER-BASED ENTITY RESOLUTION I. Bhattacharya; L. Gettor

CLUSTER-BASED ENTITY RESOLUTION I. Bhattacharya; L. Gettor

CLUSTER-BASED ENTITY RESOLUTION Idéias básicas: � Agrupar referências similares de acordo com atributos e

CLUSTER-BASED ENTITY RESOLUTION Idéias básicas: � Agrupar referências similares de acordo com atributos e relacionamentos � Cada grupo corresponde a uma entidade distinta � Agrupamento aglomerativo de referências

CLUSTER-BASED ENTITY RESOLUTION ALGORITMOS Passo (1): Inicialize cada referência como um cluster (entidade) isolado

CLUSTER-BASED ENTITY RESOLUTION ALGORITMOS Passo (1): Inicialize cada referência como um cluster (entidade) isolado Passo (2): Calcule a similaridade entre clusters e juste o par de clusters mais similares Passo (3): Atualize grafo de entidades Passo (4) Repita o passo (2), até atingir um critério de parada

CLUSTER-BASED ENTITY RESOLUTION Notação � Referências: ri � Clusters de referências: ci � Labels

CLUSTER-BASED ENTITY RESOLUTION Notação � Referências: ri � Clusters de referências: ci � Labels dos clusters: ei � Atributos: r. A � Arestas: c. H

Paper 1: Paper 2: Alfred V Aho A V Aho Jeffrey D Ullman r

Paper 1: Paper 2: Alfred V Aho A V Aho Jeffrey D Ullman r 1 r 4 r 3 r 5 Paper 3: S C Johnson r 2 A V Aho r 6 Grafo de Entidades J D Ullman r 7 h 2 c 1 h 3 e 1: r 1, r 4, r 6 h 1 c 3 e 3: r 4 c 2 e 1: r 3, r 5, r 7

CLUSTER-BASED ENTITY RESOLUTION Medida de similaridade combina atributos e relacionamentos das referências

CLUSTER-BASED ENTITY RESOLUTION Medida de similaridade combina atributos e relacionamentos das referências

CLUSTER-BASED ENTITY RESOLUTION Similaridade de atributos com single-link Máxima similaridade entre referências par-a-par

CLUSTER-BASED ENTITY RESOLUTION Similaridade de atributos com single-link Máxima similaridade entre referências par-a-par

Paper 1: Paper 2: Alfred V Aho A V Aho Jeffrey D Ullman r

Paper 1: Paper 2: Alfred V Aho A V Aho Jeffrey D Ullman r 1 r 3 r 4 r 5 Paper 3: S C Johnson r 2 A V Aho r 6 Grafo de Entidades J D Ullman r 7 h 2 h 3 e 1: r 1, r 4, r 6 h 1 e 3: r 4 e 1: r 3, r 5, r 7

h 2 e 1: r 4. A = “A V Aho” e 3: r

h 2 e 1: r 4. A = “A V Aho” e 3: r 6. A = “A V Aho” e 5: r 1. A = “Alfred V Aho” h 3 e 2: r 5. A = “J D Ullman” e 4: r 7. A = “J D Ullman” e 6: h 1 e 7: r 2. A = “S C Johnson” r 3. A = “Jeffrey D Ullman”

h 2 e 1: r 5. A = “J D Ullman” e 3: r

h 2 e 1: r 5. A = “J D Ullman” e 3: r 7. A = “J D Ullman” r 6. A = “A V Aho” r 4. A = “A V Aho” h 3 e 4: e 2: r 1. A = “Alfred V Aho” e 5: h 1 e 6: r 2. A = “S C Johnson” r 3. A = “Jeffrey D Ullman”

h 2 e 1: e 2: r 6. A = “A V Aho” r

h 2 e 1: e 2: r 6. A = “A V Aho” r 4. A = “A V Aho” r 5. A = “J D Ullman” r 7. A = “J D Ullman” h 3 e 3: r 1. A = “Alfred V Aho” e 4: h 1 e 5: r 2. A = “S C Johnson” r 3. A = “Jeffrey D Ullman”

h 2 e 1: r 6. A = “A V Aho” r 4. A

h 2 e 1: r 6. A = “A V Aho” r 4. A = “A V Aho” r 1. A = “Alfred V Aho” e 2: r 5. A = “J D Ullman” r 7. A = “J D Ullman” h 3 e 3: h 1 e 4: r 2. A = “S C Johnson” r 3. A = “Jeffrey D Ullman”

h 2 e 1: r 6. A = “A V Aho” r 4. A

h 2 e 1: r 6. A = “A V Aho” r 4. A = “A V Aho” r 1. A = “Alfred V Aho” e 2: h 3 h 1 e 3: r 2. A = “S C Johnson” r 5. A = “J D Ullman” r 7. A = “J D Ullman” r 3. A = “Jeffrey D Ullman”

CLUSTER-BASED ENTITY RESOLUTION Similaridade baseada em arestas Coeficiente de Jaccard aplicado ao conjunto de

CLUSTER-BASED ENTITY RESOLUTION Similaridade baseada em arestas Coeficiente de Jaccard aplicado ao conjunto de entidades de cada aresta

h 2 e 1: r 6. A = “A V Aho” r 4. A

h 2 e 1: r 6. A = “A V Aho” r 4. A = “A V Aho” r 1. A = “Alfred V Aho” e 2: r 5. A = “J D Ullman” r 7. A = “J D Ullman” h 3 c 2. H = {h 2, h 3} c 3. H = {h 1} e 3: Sim(h 1, h 2) = |{e 1}|/|{e 1, e 2, e 3, e 4}|=1/4 Sim(h 1, h 3) = |{e 1}|/|{e 1, e 2, e 3, e 4}|=1/4 h 1 Sim(c 2, c 3) = max(Sim(h 1, h 2) , Sim(h 1, h 3) ) = 1/4 e 4: r 2. A = “S C Johnson” r 3. A = “Jeffrey D Ullman”

CLUSTER-BASED ENTITY RESOLUTION Similaridade baseada em vizinhança Coeficiente de Jaccard aplicado ao conjunto de

CLUSTER-BASED ENTITY RESOLUTION Similaridade baseada em vizinhança Coeficiente de Jaccard aplicado ao conjunto de viznhos de cada entidade

h 2 e 1: r 6. A = “A V Aho” r 4. A

h 2 e 1: r 6. A = “A V Aho” r 4. A = “A V Aho” r 1. A = “Alfred V Aho” e 2: r 5. A = “J D Ullman” r 7. A = “J D Ullman” h 3 c 2. N = {c 1} c 3. N = {c 1, c 4} e 3: h 1 Sim(c 2, c 3) = |{c 1}|/|{c 1. c 4}| = 1/2 e 4: r 2. A = “S C Johnson” r 3. A = “Jeffrey D Ullman”

CLUSTER-BASED ENTITY RESOLUTION Similaridade baseada em arestas Entidades e 1 e e 2 são

CLUSTER-BASED ENTITY RESOLUTION Similaridade baseada em arestas Entidades e 1 e e 2 são similares porque apresentam links h 1 e h 2 muito similares h 1 h 2 e 1 e 2 Similaridade baseada em vizinhos Entidades e 1 e e 2 são similares, independente se as arestas são similares h 2 h 1 e 1 h 3 h 4 e 2 Obs. : usa menos informação, mas tem menor custo computacional

MATERIAL BÁSICO I. Bhattacharya; L. Gettor, Entity resolution in graphs. In: Mining Graph Data

MATERIAL BÁSICO I. Bhattacharya; L. Gettor, Entity resolution in graphs. In: Mining Graph Data (cap 13). 2006.