Computacion inteligente Clustering Algorithms Contenido Nociones basicas en

Computacion inteligente Clustering Algorithms

Contenido Nociones basicas en el clustering p Clustering Fuzzy de las c-medias p El algoritmo p Parametros del algoritmo p Ejemplos de aplicación p

Nociones basicas en el clustering

El conjunto de datos p El conjunto de datos n n n Los datos son observaciones de algun proceso fisico. Cada observacion consiste de n variables medidas Agrupadas en vectores columna

El conjunto de datos p El conjunto de N observaciones en una matriz p Columnas = patrones Filas = caracteristicas p

El conjunto de datos p En el modelado p Columnas = muestras de señales en el tiempo Filas = variables fisicas (posicion, temperatura, etc) p

Clusters p Un cluster es un grupo de objetos que son mas similares que otros que son miembros de otros clusters Similaridad = distancia (espacios metricos)

Prototipos p Prototipo: referente del cluster. Con respecto al prototipo se hace la medida de la distancia

Prototipos p Usualmente los prototipos no se conocen de antemano p Pueden ser: n n Subespacios funciones

Metodos de hacer clustering p Según el tipo de subconjuntos Hard clustering: subconjuntos clasicos Fuzzy clustering: la pertenencia a un cluster tiene grados

Particion HARD p Una particion HARD de Z es una familia de subconjuntos Ai con las siguientes propiedades

La matriz de la particion p En terminos de las funciones de pertenencia Fila i = funciones de pertenencia al conjunto Ai de Z

Condiciones de la matriz U p Los elementos de U deben satisfacer

El espacio de particionamiento Hard El cojunto de todas las posibles matrices de particion para Z p es el espacio de particionamiento p

Ejemplo: Un conjunto de datos en R 2 p Dos clusters Dos elementos extraños

Ejemplo: Un conjunto de datos en R 2 p Una posible particion Hard z 5 y z 6 se han asigando a A 1

Particion fuzzy p Una particion fuzzy de Z es una familia de subconjuntos Ai con las siguientes propiedades

La matriz de la particion fuzzy p En terminos de las funciones de pertenencia Fila i = funciones de pertenencia al conjunto Ai de Z

Condiciones de la matriz U fuzzy p Los elementos de U fuzzy satisfacen

Espacio de particionamiento fuzzy p El cojunto de todas las posibles matrices de particion para Z

Ejemplo: Una posible particion fuzzy p Particion restringida z 5 y z 6 se han asigando por igual a A 1 y A 2

Particion posibilistica p Los elementos de U posibilistica satisfacen

Ejemplo: Una particion posibilistica p Particion no restringida La suma total del grado de pertencia de z 5 y z 6 a A 1 y A 2 no es igual a uno

Clustering Fuzzy de las c-medias

El algoritmo de clustering p El clustering c-means es un proceso de optimizacion. Dada la matriz Z, encontrar: n n n p el numero de clusters K, La matriz de particion U, la matriz de prototipos V, basado en, la minimizacion de una funcion objetivo, (Dunn, 1974; Bezdek, 1981):

El proceso de optimizacion p Minimizar: p Sujeto a las restricciones impuestas a la matriz U.

Optimizacion: condiciones sobre U p Los elementos de U fuzzy satisfacen

Medida de la distancia p La norma de la distancia es distinta para cada direccion p La matriz A es comun a todos los clusters

Medida de las Distancia Norma euclidiana Norma del producto interno

Diferentes medidas de la distancias La norma influye en el criterio de agrupamiento

Optimizacion: la funcion objetivo p Definiendo Hacer cero los gradientes de J con respecto a U, V, y : Multiplicadores de Lagrange

El algoritmo FCM (fuzzy c-means) p Se puede demostrar que, si m>1

El algoritmo

Pasos del algoritmo c-means After King, 2000

El algoritmo FCM (fuzzy c-means) p Paso 1: inicializacion n n Escoger el numero de clusters c < N Escoger el exponente m, Escoger la matriz A, Selccionar la tolerancia para terminar la iteracion Inicializar la matriz de particion U aleatoriamente.

El algoritmo FCM (fuzzy c-means) p Paso 2: calcular los prototipos p Paso 3: calcular las distancias

El algoritmo FCM (fuzzy c-means) p Paso 4: actualizar la matriz de particion p Paso 5: verificar

Parametros del algoritmo

El Parametro de Fuzificacion m p Influye significativamente en la fuzificacion de la particion resultante n m=1 m →∞, particion hard particion completamente fuzzy n m=2 valor tipico n Estas propiedades son independientes del metodo de optimizacion

Medidas de las Distancias: la matriz A p Teniendo en cuenta las varianzas en las diferentes direcciones

Medidas de las Distancias: la matriz A p Teniendo en cuenta la matriz de covarianza p Norma de Mahalanobis

Diferentes medidas de la distancias La norma influye en el criterio de agrupamiento

Algoritmo de Gustafson-Kessel (1979) p La norma de la distancia es distinta para cada cluster p Cada cluster tiene su propia matriz Ai

Algoritmo de Gustafson-Kessel

Validacion del numero de clusters

Validacion del numero de clusters p ¿Cómo determinar el numero apropiado de clusters? n n n Coeficiente de particion, F Entropia de la particion, H Exponente de proporcion, P maximizar minimizar maximizar Estas medidas se calculan despues de completar el clustering

Validacion: coeficiente de particion F=1 es crisp F=1/c significa que cada observacion tiene grado de pertenencia igual a 1/c a cada cluster

Validacion: entropia de la particion H=0 es crisp H=ln(c) significa que cada observacion tiene grado de pertenencia igual a 1/c a cada cluster

Validacion: exponente de proporcion P= is crisp P=0 significa que cada observacion tiene grado de pertenencia igual a cada cluster

Xie-Beni index (1991) p Minimizar

Ejemplos de aplicacion

Extraccion de las reglas por clustering: Modelo After Babuska

Extraccion de las reglas por clustering: Modelo inverso After Babuska

Fuentes Robert Babuska. Course Fuzzy and Neural Control, 2001/2002. p Kevin M. Passino, Stephen Yurkovich, Fuzzy Control. Addison Wesley Longman, Inc. 1998 p Jonathan R. King, New Applications of Fuzzy Logic. University of East Anglia, Norwich England. PHD thesis, december 2000 p