Un Enfoque de Clustering basado en PSO Asistido por Información de Clustering Inicial Carlos Velázquez, Leticia Cagnina y Marcelo Errecalde LIDIC. Departamento de Informática. Universidad Nacional de San Luis carvear20@yahoo.com.ar,{lcagnina,merreca}@unsl.edu.ar
El algoritmo CLUDIPSO PSO discreto Registra dos valores importantes: gbest y pbest Las partículas evolucionan con sólo dos ecuaciones Cada clustering válido es representado por una partícula Función a ser optimizada: Coeficiente de Silueta
Pseudo-Código de CLUDIPSO Para cada ejecución hacer Crear e inicializar la población de partículas (S); Repetir Para cada partícula i de S Hacer Actualizar Velocidad Actualiza la Posición Fin Hacer Registra la mejor posición Personal (Pbest) Registra la mejor posición Global (Gbest) Cálculo del Coeficiente de Silueta Mientras ¬(Cantidad de Ciclos) Fpara
Partícula de CLUDIPSO
Hibridización de CLUDIPSO Objetivos: Evitar la búsqueda “ciega” en las primeras iteraciones Obtener información inicial con poco esfuerzo computacional Sortear inconvenientes con colecciones grandes de textos cortos Mejorar los resultados obtenidos con la versión original
Características de las colecciones utilizadas Colección |DOC| |T| |G| R6 536 53494 6 R8B 816 71842 8 JRC-Acquis 563 1424074
Plataforma Weka – Método EM Utilizado para obtener la semilla con el primer clustering Se fijaron los valores por defecto Ejecutado con pocas iteraciones
Características de las ejecuciones 50 partículas 10000 iteraciones Factor Personal Ω1 y Social de aprendizaje Ω2 fijados en 1.0 pm_min = 0.4 pm_max = 0.9 Factor de Inercia w = 0.9 30 ejecuciones independientes
Resultados Obtenidos La calidad fue evaluada y comparada a través de la medida externa F-Measure Algoritmo Mínimo Máximo CLUDIPSO (Colección: R6) 0,26 0,38 CLUDIPSO Híbrido (Colección: R6) 0,48 0,51 CLUDIPSO (Colección: R8B) 0,18 0,25 CLUDIPSO Híbrido (Colección: R8B) 0,37 0,42 CLUDIPSO (Colección: JRC) 0,33 CLUDIPSO Híbrido (Colección: JRC) 0,50 0,55
Análisis Estadístico
Conclusiones y trabajos futuros Se obtienen mejores resultados con la versión Hibridizada para las 3 colecciones (R6, R8B. JRC-Acquis). La distribución de los datos muestra que, en la mayoría de los casos, la dispersión de los mismos es similar en ambas versiones. Se comparará la version Hibridizada contra CLUDIPSO* Estos resultados obtenidos y CLUDIPSO Híbrido pero sin el uso de la mutación.
!Gracias! ¿Preguntas?