Un Enfoque de Clustering basado en PSO Asistido
Un Enfoque de Clustering basado en PSO Asistido por Información de Clustering Inicial Carlos Velázquez, Leticia Cagnina y Marcelo Errecalde LIDIC. Departamento de Informática. Universidad Nacional de San Luis carvear 20@yahoo. com. ar, {lcagnina, merreca}@unsl. edu. ar
El algoritmo CLUDIPSO • PSO discreto • Registra dos valores importantes: gbest y pbest • Las partículas evolucionan con sólo dos ecuaciones • Cada clustering válido es representado por una partícula • Función a ser optimizada: Coeficiente de Silueta
Pseudo-Código de CLUDIPSO Para cada ejecución hacer Crear e inicializar la población de partículas (S); Repetir Para cada partícula i de S Hacer Actualizar Velocidad Actualiza la Posición Fin Hacer Registra la mejor posición Personal ( Pbest ) Registra la mejor posición Global ( Gbest ) Cálculo del Coeficiente de Silueta Mientras ¬(Cantidad de Ciclos) Fpara
Partícula de CLUDIPSO
Hibridización de CLUDIPSO Objetivos: • Evitar la búsqueda “ciega” en las primeras iteraciones • Obtener información inicial con poco esfuerzo computacional • Sortear inconvenientes con colecciones grandes de textos cortos • Mejorar los resultados obtenidos con la versión original
Características de las colecciones utilizadas Colección |DOC| |T| |G| R 6 53494 6 R 8 B 816 71842 8 JRC-Acquis 563 1424074 6
Plataforma Weka – Método EM • Utilizado para obtener la semilla con el primer clustering • Se fijaron los valores por defecto • Ejecutado con pocas iteraciones
Características de las ejecuciones • 50 partículas • 10000 iteraciones • Factor Personal Ω 1 y Social de aprendizaje Ω 2 fijados en 1. 0 • pm_min = 0. 4 • pm_max = 0. 9 • Factor de Inercia w = 0. 9 • 30 ejecuciones independientes
Resultados Obtenidos • La calidad fue evaluada y comparada a través de la medida externa F-Measure Algoritmo Mínimo Máximo CLUDIPSO (Colección: R 6) 0, 26 0, 38 CLUDIPSO Híbrido (Colección: R 6) 0, 48 0, 51 CLUDIPSO (Colección: R 8 B) 0, 18 0, 25 CLUDIPSO Híbrido (Colección: R 8 B) 0, 37 0, 42 CLUDIPSO (Colección: JRC) 0, 26 0, 33 CLUDIPSO Híbrido (Colección: JRC) 0, 50 0, 55
Análisis Estadístico
Conclusiones y trabajos futuros • Se obtienen mejores resultados con la versión Hibridizada para las 3 colecciones (R 6, R 8 B. JRC-Acquis). • La distribución de los datos muestra que, en la mayoría de los casos, la dispersión de los mismos es similar en ambas versiones. • Se comparará la version Hibridizada contra CLUDIPSO* • Estos resultados obtenidos y CLUDIPSO Híbrido pero sin el uso de la mutación.
!Gracias! ¿Preguntas?
- Slides: 12