Introduccin al Anlisis Cluster 1 ndice Introduccin Conceptos

  • Slides: 51
Download presentation
Introducción al Análisis Cluster 1

Introducción al Análisis Cluster 1

Índice • Introducción • Conceptos básicos – – – Elementos Características de los elementos

Índice • Introducción • Conceptos básicos – – – Elementos Características de los elementos Distancias Particiones Jerarquías • Modelos de análisis cluster • Modelo de análisis cluster jerárquico – – – Métodos aglomerativos Dendograma El problema del número de clusters Ejemplo Cuestiones complementarias 2

Introducción • El problema de la clasificación – Identificar grupos de individuos/objetos de características

Introducción • El problema de la clasificación – Identificar grupos de individuos/objetos de características similares – Tipologías • Economía: segmentación del mercado de consumidores • Biología: creación de una sistemática sobre el mundo vegetal y animal • Medicina: clasificación de las enfermedades en función de su sintomatología • Definición de análisis cluster Conjunto de técnicas multivariantes cuyo principal propósito es la agrupación de individuos en conglomerados (cluster) basándose en las características de los mismos • Cuestiones a tratar – – – Características Similaridad Modelos a utilizar El problema del número de cluster o conglomerados Interpretación de las características de los cluster 3

Conceptos básicos • Objetos: son los elementos a clasificar • Características de los objetos

Conceptos básicos • Objetos: son los elementos a clasificar • Características de los objetos – Escala – Nominal 4

Conceptos básicos • Matriz de datos Peso Altura 86 1, 76 53 1, 58

Conceptos básicos • Matriz de datos Peso Altura 86 1, 76 53 1, 58 60 1, 65 5

Conceptos básicos Representación gráfica de la matriz de datos 6

Conceptos básicos Representación gráfica de la matriz de datos 6

Conceptos básicos • Distancia – La distancia es un índice de disimilaridad que verifica

Conceptos básicos • Distancia – La distancia es un índice de disimilaridad que verifica las siguientes propiedades: 7

Conceptos básicos • Existe una gran variedad de distancias; enumeramos unicamente las más habituales

Conceptos básicos • Existe una gran variedad de distancias; enumeramos unicamente las más habituales – Distancia euclídea al cuadrado – Distancia de Manhattan – Distancia de correlación de Pearson 8

Conceptos básicos • Distancia euclídea 9

Conceptos básicos • Distancia euclídea 9

Conceptos básicos 10

Conceptos básicos 10

Conceptos básicos 11

Conceptos básicos 11

Conceptos básicos • Distancia de Manhattan 12

Conceptos básicos • Distancia de Manhattan 12

Conceptos básicos 13

Conceptos básicos 13

Conceptos básicos • Distancia de correlación de Pearson Esta distancia esta basada en el

Conceptos básicos • Distancia de correlación de Pearson Esta distancia esta basada en el coeficiente de correlación de Pearson y por lo tanto hereda todas sus propiedades. El coeficiente de correlación de Pearson mide el grado de asociación lineal entre dos objetos, es decir, hasta que punto dos objetos son proporcionales. A diferencia de otras medidas, este coeficiente no se ve afectado por las escalas de medidas utilizadas. El recorrido de este coeficiente varía entre -1 y 1 (1 indica una relación proporcional perfecta). 14

Conceptos básicos • La estandarización de variables. • Debido a la propia definición de

Conceptos básicos • La estandarización de variables. • Debido a la propia definición de distancia se deduce que ésta va a ser sensible a los cambios de escala, es decir, va a ser afectada por las unidades de medida que hemos utilizado para medir las características de los elementos. • Si los rangos de las distintas características son dispares el cálculo de las distancias se vería seriamente afectado. 15

Conceptos básicos (1, 76 -1, 65)^2=0, 01 (86 -60)^2=676 16

Conceptos básicos (1, 76 -1, 65)^2=0, 01 (86 -60)^2=676 16

Conceptos básicos 17

Conceptos básicos 17

Conceptos básicos • El problema de utilizar variables con distinto recorrido. -Homogeneizar las escalas

Conceptos básicos • El problema de utilizar variables con distinto recorrido. -Homogeneizar las escalas en el intervalo 0 -1. 18

Conceptos básicos 86 1, 76 1, 00 53 1, 58 0, 00 60 1,

Conceptos básicos 86 1, 76 1, 00 53 1, 58 0, 00 60 1, 65 0, 21 0, 39 19

Conceptos básicos • Estandarizar variables Realizar una transformación de forma que las variables transformadas

Conceptos básicos • Estandarizar variables Realizar una transformación de forma que las variables transformadas tengan media 0 y varianza 1. 20

Conceptos básicos 86 1, 76 1, 13 1, 07 53 1, 58 -0, 77

Conceptos básicos 86 1, 76 1, 13 1, 07 53 1, 58 -0, 77 -0, 92 60 1, 65 -0, 36 -0, 15 21

Conceptos básicos • Partición • Sea A un conjunto finito, consideramos una clase de

Conceptos básicos • Partición • Sea A un conjunto finito, consideramos una clase de subconjuntos de A, denominada H: • H es una partición de A si se verifica: 22

23

23

24

24

Conceptos básicos • Jerarquía Dado un conjunto finito A, consideramos una clase H de

Conceptos básicos • Jerarquía Dado un conjunto finito A, consideramos una clase H de subconjuntos de A. Se dice que H es una jerarquía de A si: 25

Conceptos básicos Jerarquía Austria Alemania Noruega Suecia Austria Alemania Austria Suecia Noruega Alemania Suecia

Conceptos básicos Jerarquía Austria Alemania Noruega Suecia Austria Alemania Austria Suecia Noruega Alemania Suecia Noruega 26

Conceptos básicos 27

Conceptos básicos 27

Modelos de análisis cluster • Métodos de agrupación jerárquica. 1. Se establecen n agrupamientos.

Modelos de análisis cluster • Métodos de agrupación jerárquica. 1. Se establecen n agrupamientos. Cada agrupamiento contiene exactamente un elemento. 2. Se agrupan los dos cluster más cercanos formando un único cluster. 3. Se recalcula la matriz de distancias. 4. Pasamos al punto 1. Este algoritmo realiza exactamente n-1 iteraciones. 28

Métodos de agrupación jerárquica 29

Métodos de agrupación jerárquica 29

Métodos de agrupación jerárquica 30

Métodos de agrupación jerárquica 30

Métodos de agrupación jerárquica 31

Métodos de agrupación jerárquica 31

Métodos de agrupación jerárquica 32

Métodos de agrupación jerárquica 32

Métodos de agrupación jerárquica • Ventajas del modelo de agrupación jerárquica. 1. No requiere

Métodos de agrupación jerárquica • Ventajas del modelo de agrupación jerárquica. 1. No requiere hacer inferencias sobre el número de cluster. 2. Permite representar las sucesivas agrupaciones en forma de árbol (dendograma). • Inconvenientes 1. Alto coste computacional. 2. Sensible respecto de las primeras agrupaciones. 3. Complicado de interpretar cuando el número de elementos a clasificar es grande. 33

Métodos de agrupación no jerárquica 1. Se determina a priori el número de clusters

Métodos de agrupación no jerárquica 1. Se determina a priori el número de clusters que se desea construir (k). 2. Se establece una configuración aleatoria de los centros de estos clusters, estos centros se denominan centroides. 3. Los elementos se asignan al cluster cuyo centroide esté más cerca. 4. Se recalculan (actualizan) nuevamente los centroides en función de los elementos que les han sido asignados 5. Se repite el algoritmo desde el paso 3, hasta que los centroides dejan de cambiar. 34

Métodos de agrupación no jerárquica 35

Métodos de agrupación no jerárquica 35

Métodos de agrupación no jerárquica 36

Métodos de agrupación no jerárquica 36

Métodos de agrupación no jerárquica • Ventajas del análisis cluster no jerárquico. 1. Rapidez.

Métodos de agrupación no jerárquica • Ventajas del análisis cluster no jerárquico. 1. Rapidez. 2. Permite el procesamiento de gran número de datos. • Inconvenientes 1. Hay que determinar el número óptimo de cluster a priori. 2. Muy sensible ante la presencia de datos extremos. 3. Sólo se pueden utilizar medidas euclídeas. 4. Sensible respecto de la ordenación de los datos. 37

Análisis cluster jerárquico • Fases de un análisis cluster jerárquico. 1. Determinar qué características

Análisis cluster jerárquico • Fases de un análisis cluster jerárquico. 1. Determinar qué características vamos a utilizar para comparar los elementos a clasificar. 2. Considerar la conveniencia de estandarizar o no dichas características. 3. Determinar qué distancia debemos utilizar para medir la similaridad entre elementos. 4. Fijar el método de conglomeración. 5. Examinar el dendograma para determinar el número óptimo de agrupaciones. 6. Estudio e interpretación de la partición obtenida. 7. Verificar la estabilidad de la solución. 38

Análisis cluster jerárquico • Métodos de conglomeración – Vecino más cercano. – Vecino más

Análisis cluster jerárquico • Métodos de conglomeración – Vecino más cercano. – Vecino más lejano. – Centroide – Vinculación intergrupos 39

Análisis cluster jerárquico • Vecino más cercano. – La distancia entre dos conglomerados se

Análisis cluster jerárquico • Vecino más cercano. – La distancia entre dos conglomerados se define como la distancia (en la métrica considerada) de los dos elementos más cercanos. – Este método tiende a maximizar lo conexo. 40

Análisis cluster jerárquico 41

Análisis cluster jerárquico 41

Análisis cluster jerárquico • Vecino más lejano. – La distancia entre dos conglomerados se

Análisis cluster jerárquico • Vecino más lejano. – La distancia entre dos conglomerados se define como aquélla entre los elementos más alejados. – Este método tiende a minimizar las distancias dentro de los conglomerados. 42

Análisis cluster jerárquico • Método del centroide. • La distancia entre dos cluster se

Análisis cluster jerárquico • Método del centroide. • La distancia entre dos cluster se define como la distancia entre las medias (centroides) de los mismos. 43

Análisis cluster jerárquico 44

Análisis cluster jerárquico 44

Análisis cluster jerárquico • Vinculación entre grupos • Se define la distancia entre dos

Análisis cluster jerárquico • Vinculación entre grupos • Se define la distancia entre dos clusters como el promedio de las distancias entre todos los pares de elementos de los dos conglomerados. 45

Análisis cluster jerárquico 46

Análisis cluster jerárquico 46

Análisis cluster jerárquico • Dendograma • El dendograma es un diagrama con estructura de

Análisis cluster jerárquico • Dendograma • El dendograma es un diagrama con estructura de árbol binario que muestra las fusiones de los elementos en cada paso del procedimiento jerárquico. • El dendograma se representa por medio de dos ejes perpendiculares. En uno de ellos se representan los elementos a clasificar, en el otro eje se representan las distancias a la que se van juntando los elementos. 47

Análisis cluster jerárquico 48

Análisis cluster jerárquico 48

Análisis cluster jerárquico • El problema del número de clusters. • No existe ningún

Análisis cluster jerárquico • El problema del número de clusters. • No existe ningún criterio general que nos permita determinar el número óptimo de clusters, pues influyen factores como el número de elementos con valores extremos, las distribuciones que siguen las variables … etc. • Una forma de determinar el número óptimo de cluster es examinar atentamente el historial del algoritmo de aglomeración y el dendograma del mismo. • Un factor a tener muy en cuenta es el tamaño de los clusters resultantes. 49

Análisis cluster jerárquico 50

Análisis cluster jerárquico 50

Análisis cluster jerárquico 51

Análisis cluster jerárquico 51