Minerao de dados Exerccios de clustering Exerccio 1

  • Slides: 10
Download presentation
Mineração de dados Exercícios de clustering

Mineração de dados Exercícios de clustering

Exercício 1 Considere o conjunto de seis vetores bidimensionais {x 1, x 2 ,

Exercício 1 Considere o conjunto de seis vetores bidimensionais {x 1, x 2 , . . . , x 6} mostrados abaixo, que representam os dados de treinamento para o algoritmo k-médias: x 1 = ( 2, 1), x 2 = (0, 3), x 3 = (1, 4), x 4 = (2, 2), x 5 = (4, 4), x 6 = ( 2, 1) Encontre a configuração de agrupamentos para estes dados, utilizando o kmédias, com (k = 2) dois centróides c 1(n) e c 2(n) respectivamente, onde n é o passo de tempo discreto (iteração), inicializados com os valores dois primeiros vetores, ou seja, c 1(1) = x 1; c 2(1) = x 2. Use a distância euclidiana como critério de similaridade. • Calcule o valor dos centróides após a convergência e atribua cada dado a um dos centróides.

Exercício 2 Para o quadro abaixo, aplique o algoritmo aglomerativo MIN (single link) e

Exercício 2 Para o quadro abaixo, aplique o algoritmo aglomerativo MIN (single link) e apresente o dendograma final.

Passo 1: calcular a tabela de distâncias iniciais A B C B 4 C

Passo 1: calcular a tabela de distâncias iniciais A B C B 4 C 6 2 D 6 4 2 E 7 3 3 D d(A, B) = |3 -4| + |2 -5| = 4 d(A, C) = |3 -4| + |2 -7| = 6 …. Considerando a menor distância como BC temos o primeiro grupo. O próximo passo é recalcular a matriz de distâncias considerando agora o grupo BC. 5 2 A B C D E

A BC BC 4 D 6 2 E 7 3 D d(A, BC)= min(d(A,

A BC BC 4 D 6 2 E 7 3 D d(A, BC)= min(d(A, B), d(A, C)) = min(4, 6) = 4 d(D, BC)= min(d(D, B), d(D, C)) = min(4, 2) = 2 d(E, BC)= min(d(E, B), d(E, C)) = min(3, 3) = 3 5 A menor distância é entre BC e D que formam o próximo grupo. O próximo passo é recalcular a matriz de distâncias considerando agora o grupo BCD. 2 A B C D E

A BCD 4 E 7 d(A, BCD)= min(d(A, B), d(A, C), d(A, D)) =

A BCD 4 E 7 d(A, BCD)= min(d(A, B), d(A, C), d(A, D)) = min(4, 6, 6) = 4 d(E, BCD)= min(d(E, B), d(E, C), d(E, D)) = min(3, 3, 5) = 3 BCD 3 A menor distância é entre BCD e E que formam o próximo grupo. O próximo passo é recalcular a matriz de distâncias considerando agora o grupo BCDE. d(A, BCDE)= min(d(A, B), d(A, C), d(A, D), d(A, E)) = min(4, 6, 6, 7) = 4 4 3 2 A B C D E

Exercício 3 l Idem ao anterior, mas considerando a similaridade MAX

Exercício 3 l Idem ao anterior, mas considerando a similaridade MAX

Exercício 4 Analisando o dendograma abaixo, quantos clusters deveriam ser utilizados? Porque? Quais são

Exercício 4 Analisando o dendograma abaixo, quantos clusters deveriam ser utilizados? Porque? Quais são os clusters? A B C D E F G H I

Exercício 5 Considerando os dados acima e o algoritmo DBSCAN, identifique os pontos core,

Exercício 5 Considerando os dados acima e o algoritmo DBSCAN, identifique os pontos core, border e noise, para: 1. min. Points=2 e Eps=3 2. min. Points=2 e Eps=4

Exercício 6 Considere o conjunto de seis vetores bidimensionais {x 1, x 2 ,

Exercício 6 Considere o conjunto de seis vetores bidimensionais {x 1, x 2 , . . . , x 6} mostrados abaixo, que representam os dados de treinamento para o algoritmo k-médias: x 1 = ( 2, 1), x 2 = (0, 3), x 3 = (1, 4), x 4 = (2, 2), x 5 = (4, 4), x 6 = ( 2, 1) Encontre a configuração de agrupamentos para estes dados, utilizando o kmédias, com (k = 2) dois centróides c 1(n) e c 2(n) respectivamente, onde n é o passo de tempo discreto (iteração), inicializados com x 3 e x 5, ou seja, c 1(1) = x 3; c 2(1) = x 5. Use a distância euclidiana como critério de similaridade. • Calcule o valor dos centróides após a convergência e atribua cada dado a um dos centróides.