RESOLUO DE ENTIDADES Ricardo Prudncio LINK MINING TAREFAS
- Slides: 37
RESOLUÇÃO DE ENTIDADES Ricardo Prudêncio
LINK MINING - TAREFAS Ranking de Nós Relacionadas a Objetos Classificação de Nós Detecção de Grupos Resolução de Entidades Relacionadas a Arestas Predição de Links Descoberta de Sub-Grafos Relacionadas a Grafos Classificação de Grafos Modelos Geradores
EXEMPLO � Entidade: � Possíveis Ricardo Bastos Cavalcante Prudêncio referências na Web of Science através da busca por Prudêncio, R*: Prudencio Ricardo B. C. Prudencio Ricardo Prudencio RBC Prudencio RF Prudenci. RF Prudenico RBC
EXEMPLO Ocorrências Verdadeiras Falsas Prudencio Ricardo B. C. 1 1 0 Prudencio Ricardo 1 1 0 Prudencio R 6 1 5 Prudencio RBC 2 2 0 Prudencio RF 1 0 1 Prudenci RF 2 0 2 Prudenico RBC 1 1 0
RESOLUÇÃO DE ENTIDADES Coleta de dados em Redes sociais Ricardo Prudêncio ricardobcp Ricardo Prudêncio
RESOLUÇÃO DE ENTIDADES Múltiplas referências para a mesma entidade no mundo real é algo comumente observado Duplicação de referências se deve a: � Erros na entrada de dados � Abreviações e representações alternativas � Nicknames, sinônimos �. . .
RESOLUÇÃO DE ENTIDADES – OUTRO EXEMPLO Construção de bases de artigos, autores e citações R. Agrawal and R. Srikant. Fast algorithms for mining association rules, In: VLDB, 1994. Rakesh Agrawal and Ramakrishnan Srikant. Fast algorithms for mining association rules, In: Proc. Of the 20 th Int. /conference on Very Large Databases, Santiago, Chile, 1994.
RESOLUÇÃO DE ENTIDADES Problema: � Identificar diferentes referências para a mesma entidade no mundo real
RESOLUÇÃO DE ENTIDADES Problema: � Transformar um grafo de referências em um grafo de entidades correspondentes
RESOLUÇÃO DE ENTIDADES -APLICAÇÕES Integração e limpeza de dados PLN (Co-referência) Coleta de dados em redes sociais Outras. .
RESOLUÇÃO DE ENTIDADES Multi-Entity Resolution R. Agrawal VLDB R. Agrawal and R. Srikant. Fast algorithms for mining association rules, In: VLDB, 1994. Rakesh Agrawal and Ramakrishnan Srikant. Fast algorithms for mining association rules, In: Proc. Of the 20 th R. Srikant Rakesh Agrawal Ramakrishnan Srikant Int. Conference on Very Large Databases, Santiago, Chile, 1994. Int. Conference on Very Large Databases
Eduardo Raul Hruschka Estevam Rafael Hruschka Jr
RESOLUÇÃO DE ENTIDADES Baseada em Atributos � Similaridade Exemplo: entre os atributos das referências String Similarity � Levenshtein Distance Prudencio RBC Prudenico RBC Distância = 1
RESOLUÇÃO DE ENTIDADES Limitações: � Atributos devem ser bem definidos e ricos Distância = 0, mas Falso Positivo
RESOLUÇÃO DE ENTIDADES Baseada em Relacionamentos � Ligações entre referências comuns Prudenico RBC Ludermir TB Prudencio RBC Carvalho FDT Referencias podem ser unificadas considerando os links em comum
RESOLUÇÃO DE ENTIDADES Resolução Prudenico RBC Ludermir TB coletiva Prudencio RBC Carvalho FDT Referências “Ludermir TB” e “Ludermir Teresa” devem ser unificadas Prudencio Ricardo Ludermir Teresa
Prudenico RBC Clark SS Ludermir Teresa Carvalho FDT Ludermir TB Prudencio RF Prudencio Ricardo Prudencio RBC Difícil unificar referências pelos links de forma local (pode existir um caminho curto entre Flavia e Teresa) Marlett M Barros Flavia A Prudencio Ricardo B. C. Silva Eduardo A
CLUSTER-BASED ENTITY RESOLUTION I. Bhattacharya; L. Gettor
CLUSTER-BASED ENTITY RESOLUTION Idéias básicas: � Agrupar referências similares de acordo com atributos e relacionamentos � Cada grupo corresponde a uma entidade distinta � Agrupamento aglomerativo de referências
CLUSTER-BASED ENTITY RESOLUTION ALGORITMOS Passo (1): Inicialize cada referência como um cluster (entidade) isolado Passo (2): Calcule a similaridade entre clusters e juste o par de clusters mais similares Passo (3): Atualize grafo de entidades Passo (4) Repita o passo (2), até atingir um critério de parada
CLUSTER-BASED ENTITY RESOLUTION Notação � Referências: ri � Clusters de referências: ci � Labels dos clusters: ei � Atributos: r. A � Arestas: c. H
Paper 1: Paper 2: Alfred V Aho A V Aho Jeffrey D Ullman r 1 r 4 r 3 r 5 Paper 3: S C Johnson r 2 A V Aho r 6 Grafo de Entidades J D Ullman r 7 h 2 c 1 h 3 e 1: r 1, r 4, r 6 h 1 c 3 e 3: r 4 c 2 e 1: r 3, r 5, r 7
CLUSTER-BASED ENTITY RESOLUTION Medida de similaridade combina atributos e relacionamentos das referências
CLUSTER-BASED ENTITY RESOLUTION Similaridade de atributos com single-link Máxima similaridade entre referências par-a-par
Paper 1: Paper 2: Alfred V Aho A V Aho Jeffrey D Ullman r 1 r 3 r 4 r 5 Paper 3: S C Johnson r 2 A V Aho r 6 Grafo de Entidades J D Ullman r 7 h 2 h 3 e 1: r 1, r 4, r 6 h 1 e 3: r 4 e 1: r 3, r 5, r 7
h 2 e 1: r 4. A = “A V Aho” e 3: r 6. A = “A V Aho” e 5: r 1. A = “Alfred V Aho” h 3 e 2: r 5. A = “J D Ullman” e 4: r 7. A = “J D Ullman” e 6: h 1 e 7: r 2. A = “S C Johnson” r 3. A = “Jeffrey D Ullman”
h 2 e 1: r 5. A = “J D Ullman” e 3: r 7. A = “J D Ullman” r 6. A = “A V Aho” r 4. A = “A V Aho” h 3 e 4: e 2: r 1. A = “Alfred V Aho” e 5: h 1 e 6: r 2. A = “S C Johnson” r 3. A = “Jeffrey D Ullman”
h 2 e 1: e 2: r 6. A = “A V Aho” r 4. A = “A V Aho” r 5. A = “J D Ullman” r 7. A = “J D Ullman” h 3 e 3: r 1. A = “Alfred V Aho” e 4: h 1 e 5: r 2. A = “S C Johnson” r 3. A = “Jeffrey D Ullman”
h 2 e 1: r 6. A = “A V Aho” r 4. A = “A V Aho” r 1. A = “Alfred V Aho” e 2: r 5. A = “J D Ullman” r 7. A = “J D Ullman” h 3 e 3: h 1 e 4: r 2. A = “S C Johnson” r 3. A = “Jeffrey D Ullman”
h 2 e 1: r 6. A = “A V Aho” r 4. A = “A V Aho” r 1. A = “Alfred V Aho” e 2: h 3 h 1 e 3: r 2. A = “S C Johnson” r 5. A = “J D Ullman” r 7. A = “J D Ullman” r 3. A = “Jeffrey D Ullman”
CLUSTER-BASED ENTITY RESOLUTION Similaridade baseada em arestas Coeficiente de Jaccard aplicado ao conjunto de entidades de cada aresta
h 2 e 1: r 6. A = “A V Aho” r 4. A = “A V Aho” r 1. A = “Alfred V Aho” e 2: r 5. A = “J D Ullman” r 7. A = “J D Ullman” h 3 c 2. H = {h 2, h 3} c 3. H = {h 1} e 3: Sim(h 1, h 2) = |{e 1}|/|{e 1, e 2, e 3, e 4}|=1/4 Sim(h 1, h 3) = |{e 1}|/|{e 1, e 2, e 3, e 4}|=1/4 h 1 Sim(c 2, c 3) = max(Sim(h 1, h 2) , Sim(h 1, h 3) ) = 1/4 e 4: r 2. A = “S C Johnson” r 3. A = “Jeffrey D Ullman”
CLUSTER-BASED ENTITY RESOLUTION Similaridade baseada em vizinhança Coeficiente de Jaccard aplicado ao conjunto de viznhos de cada entidade
h 2 e 1: r 6. A = “A V Aho” r 4. A = “A V Aho” r 1. A = “Alfred V Aho” e 2: r 5. A = “J D Ullman” r 7. A = “J D Ullman” h 3 c 2. N = {c 1} c 3. N = {c 1, c 4} e 3: h 1 Sim(c 2, c 3) = |{c 1}|/|{c 1. c 4}| = 1/2 e 4: r 2. A = “S C Johnson” r 3. A = “Jeffrey D Ullman”
CLUSTER-BASED ENTITY RESOLUTION Similaridade baseada em arestas Entidades e 1 e e 2 são similares porque apresentam links h 1 e h 2 muito similares h 1 h 2 e 1 e 2 Similaridade baseada em vizinhos Entidades e 1 e e 2 são similares, independente se as arestas são similares h 2 h 1 e 1 h 3 h 4 e 2 Obs. : usa menos informação, mas tem menor custo computacional
MATERIAL BÁSICO I. Bhattacharya; L. Gettor, Entity resolution in graphs. In: Mining Graph Data (cap 13). 2006.
- Tarefas de um supervisor
- Tarefas
- Slidetodoc.com
- Desenho de cargos
- Liderança orientada para tarefas
- Mining complex data types
- Difference between strip mining and open pit mining
- Text and web mining
- Strip mining vs open pit mining
- Mining multimedia databases
- Chapter 13 mineral resources and mining worksheet answers
- Link analysis data mining
- Site:.com "fill link item" "add link"
- La federación se integra por entidades mediante
- Entidades de classe de enfermagem em angola
- Conjuntos de entidades
- Modelo entidad relación
- Sfn estrutura
- Atributo multivaluado modelo relacional
- Entidades
- Entidades de classe enfermagem
- Diagrama de clases de negocio
- Entidades sin fines de lucro paraguay
- Ejemplo de sustantivos primitivos
- Entidades de classe da enfermagem
- Epnl
- Ricardo montaner amarte es un pecado
- Division sintetica
- Ricardo linden
- Chees
- Ricardo losso
- Ea4. pensamiento sistémico
- David ricardo economics
- Ricardo leyva ramirez
- Ricardo alonso teruel
- Teoria del valor de david ricardo
- Ricardo echange
- Lucas sürpriz arz fonksiyonu