Computacion inteligente Clustering Algorithms Contenido Nociones basicas en
Computacion inteligente Clustering Algorithms
Contenido Nociones basicas en el clustering p Clustering Fuzzy de las c-medias p El algoritmo p Parametros del algoritmo p Ejemplos de aplicación p
Nociones basicas en el clustering
El conjunto de datos p El conjunto de datos n n n Los datos son observaciones de algun proceso fisico. Cada observacion consiste de n variables medidas Agrupadas en vectores columna
El conjunto de datos p El conjunto de N observaciones en una matriz p Columnas = patrones Filas = caracteristicas p
El conjunto de datos p En el modelado p Columnas = muestras de señales en el tiempo Filas = variables fisicas (posicion, temperatura, etc) p
Clusters p Un cluster es un grupo de objetos que son mas similares que otros que son miembros de otros clusters Similaridad = distancia (espacios metricos)
Prototipos p Prototipo: referente del cluster. Con respecto al prototipo se hace la medida de la distancia
Prototipos p Usualmente los prototipos no se conocen de antemano p Pueden ser: n n Subespacios funciones
Metodos de hacer clustering p Según el tipo de subconjuntos Hard clustering: subconjuntos clasicos Fuzzy clustering: la pertenencia a un cluster tiene grados
Particion HARD p Una particion HARD de Z es una familia de subconjuntos Ai con las siguientes propiedades
La matriz de la particion p En terminos de las funciones de pertenencia Fila i = funciones de pertenencia al conjunto Ai de Z
Condiciones de la matriz U p Los elementos de U deben satisfacer
El espacio de particionamiento Hard El cojunto de todas las posibles matrices de particion para Z p es el espacio de particionamiento p
Ejemplo: Un conjunto de datos en R 2 p Dos clusters Dos elementos extraños
Ejemplo: Un conjunto de datos en R 2 p Una posible particion Hard z 5 y z 6 se han asigando a A 1
Particion fuzzy p Una particion fuzzy de Z es una familia de subconjuntos Ai con las siguientes propiedades
La matriz de la particion fuzzy p En terminos de las funciones de pertenencia Fila i = funciones de pertenencia al conjunto Ai de Z
Condiciones de la matriz U fuzzy p Los elementos de U fuzzy satisfacen
Espacio de particionamiento fuzzy p El cojunto de todas las posibles matrices de particion para Z
Ejemplo: Una posible particion fuzzy p Particion restringida z 5 y z 6 se han asigando por igual a A 1 y A 2
Particion posibilistica p Los elementos de U posibilistica satisfacen
Ejemplo: Una particion posibilistica p Particion no restringida La suma total del grado de pertencia de z 5 y z 6 a A 1 y A 2 no es igual a uno
Clustering Fuzzy de las c-medias
El algoritmo de clustering p El clustering c-means es un proceso de optimizacion. Dada la matriz Z, encontrar: n n n p el numero de clusters K, La matriz de particion U, la matriz de prototipos V, basado en, la minimizacion de una funcion objetivo, (Dunn, 1974; Bezdek, 1981):
El proceso de optimizacion p Minimizar: p Sujeto a las restricciones impuestas a la matriz U.
Optimizacion: condiciones sobre U p Los elementos de U fuzzy satisfacen
Medida de la distancia p La norma de la distancia es distinta para cada direccion p La matriz A es comun a todos los clusters
Medida de las Distancia Norma euclidiana Norma del producto interno
Diferentes medidas de la distancias La norma influye en el criterio de agrupamiento
Optimizacion: la funcion objetivo p Definiendo Hacer cero los gradientes de J con respecto a U, V, y : Multiplicadores de Lagrange
El algoritmo FCM (fuzzy c-means) p Se puede demostrar que, si m>1
El algoritmo
Pasos del algoritmo c-means After King, 2000
El algoritmo FCM (fuzzy c-means) p Paso 1: inicializacion n n Escoger el numero de clusters c < N Escoger el exponente m, Escoger la matriz A, Selccionar la tolerancia para terminar la iteracion Inicializar la matriz de particion U aleatoriamente.
El algoritmo FCM (fuzzy c-means) p Paso 2: calcular los prototipos p Paso 3: calcular las distancias
El algoritmo FCM (fuzzy c-means) p Paso 4: actualizar la matriz de particion p Paso 5: verificar
Parametros del algoritmo
El Parametro de Fuzificacion m p Influye significativamente en la fuzificacion de la particion resultante n m=1 m →∞, particion hard particion completamente fuzzy n m=2 valor tipico n Estas propiedades son independientes del metodo de optimizacion
Medidas de las Distancias: la matriz A p Teniendo en cuenta las varianzas en las diferentes direcciones
Medidas de las Distancias: la matriz A p Teniendo en cuenta la matriz de covarianza p Norma de Mahalanobis
Diferentes medidas de la distancias La norma influye en el criterio de agrupamiento
Algoritmo de Gustafson-Kessel (1979) p La norma de la distancia es distinta para cada cluster p Cada cluster tiene su propia matriz Ai
Algoritmo de Gustafson-Kessel
Validacion del numero de clusters
Validacion del numero de clusters p ¿Cómo determinar el numero apropiado de clusters? n n n Coeficiente de particion, F Entropia de la particion, H Exponente de proporcion, P maximizar minimizar maximizar Estas medidas se calculan despues de completar el clustering
Validacion: coeficiente de particion F=1 es crisp F=1/c significa que cada observacion tiene grado de pertenencia igual a 1/c a cada cluster
Validacion: entropia de la particion H=0 es crisp H=ln(c) significa que cada observacion tiene grado de pertenencia igual a 1/c a cada cluster
Validacion: exponente de proporcion P= is crisp P=0 significa que cada observacion tiene grado de pertenencia igual a cada cluster
Xie-Beni index (1991) p Minimizar
Ejemplos de aplicacion
Extraccion de las reglas por clustering: Modelo After Babuska
Extraccion de las reglas por clustering: Modelo inverso After Babuska
Fuentes Robert Babuska. Course Fuzzy and Neural Control, 2001/2002. p Kevin M. Passino, Stephen Yurkovich, Fuzzy Control. Addison Wesley Longman, Inc. 1998 p Jonathan R. King, New Applications of Fuzzy Logic. University of East Anglia, Norwich England. PHD thesis, december 2000 p
- Slides: 54