Analizador Numérico Ejecutamos nc.bat:

Métodos de agrupamiento
Clustering © Fernando Berzal

Analizador Numérico Ejecutamos nc.bat:
Pinchamos sobre el botón Inicio y buscamos el fichero de configuración necesario para acceder a nuestros datos (p.ej. Iris.cfg).

Analizador Numérico Ahora podemos utilizar distintas técnicas de aprendizaje sobre nuestro conjunto de datos:

Analizador Numérico Empezamos viendo algunas características del conjunto de datos (Datos > Estadísticas…):

Analizador Numérico También podemos ver gráficamente la distribución de las muestras (Datos > Representación 2D…):

Analizador Numérico Cuando nuestro conjunto de patrones viene dado por un conjunto de imágenes (como es el caso de Galaxy o Igaliko) podemos acceder a la representación visual de cada “dimensión” (Datos > Estadísticas… > Ver imagen):

Objetivo Agrupar objetos similares entre sí que sean distintos a los objetos de otros agrupamientos [clusters]. Aprendizaje no supervisado No existen clases predefinidas Los resultados obtenidos dependerán de: El algoritmo de agrupamiento seleccionado. El conjunto de datos disponible La medida de similitud utilizada para comparar objetos. A veces, influye hasta el ORDEN de los patrones en el conjunto de entrenamiento

Encontrar agrupamientos de tal forma que los objetos de un grupo sean similares entre sí y diferentes de los objetos de otros grupos: Maximizar distancia inter-cluster Minimizar distancia intra-cluster

Medidas de similitud Usualmente, se expresan en términos de distancias: d(i,j) > d(i,k) nos indica que el objeto i es más parecido a k que a j La definición de la métrica de similitud/distancia será distinta en función del tipo de dato y de la interpretación semántica que nosotros hagamos. En otras palabras, la similitud entre objetos es subjetiva.

¿Cuántos agrupamientos?
Medidas de similitud ¿Cuántos agrupamientos? ¿Dos? ¿Seis? ¿Cuatro?

Algoritmos de agrupamiento
Con número de clases desconocido Método adaptativo Algoritmo de máxima distancia (Batchelor & Wilkins) Con número de clases conocido Algoritmo de las K Medias Algoritmo GRASP Algoritmo de agrupamiento secuencial Algoritmo ISODATA Métodos basados en grafos Algoritmo basado en la matriz de similitud

Algoritmo adaptativo

Algoritmo adaptativo Características principales Ventajas
Útil cuando no se conoce de antemano el número de clases del problema (número de clusters desconocido). Simplicidad y eficiencia. Desventajas Dependencia del orden de presentación (comportamiento sesgado por el orden de presentación de los patrones). Presupone agrupamientos compactos separados claramente de los demás (puede no funcionar adecuadamente en presencia de ruido).

Algoritmo adaptativo Funcionamiento Inicialización
Se forma un agrupamiento con el primer patrón del conjunto de datos. Mientras queden patrones por asignar El patrón se asigna a un cluster si la distancia del patrón al centroide del cluster no supera un umbral . En caso contrario, se crea un nuevo agrupamiento si la distancia del patrón al cluster más cercano está por encima de .

Algoritmo adaptativo Funcionamiento
Este algoritmo incluye una clase de rechazo: Algunas observaciones no son clasificadas.

Algoritmo adaptativo Ejemplo

Algoritmo adaptativo Parámetros Umbral de distancia 
Umbral de distancia utilizado para crear nuevos agrupamientos. Fracción  Fracción del umbral de distancia que determina total confianza (utilizada para determinar si un patrón se le asigna a un cluster o no).

Algoritmo adaptativo Resultados Galaxia en espiral
El parámetro fundamental a la hora de conseguir un “buen” resultado es el umbral . Cuanto mayor sea este umbral, menos agrupamientos se formarán. El parámetro  influye menos.

Algoritmo adaptativo Ejercicios: Iris
Encontrar los valores de los parámetros del algoritmo que permiten obtener un porcentaje de clasificación mayor (“bondad estimada del clasificador” que aparece cuando pulsamos el botón “Clasificador asociado”).

Batchelor & Wilkins Ejercicios: Iris
Encontrar los valores de los parámetros del algoritmo que reducen la dispersión media (esto es, la distancia media de un patrón al centroide de su cluster) sin afectar demasiado a la bondad del clasificador asociado ni incrementar en exceso el número de agrupamientos.

Batchelor & Wilkins

Batchelor & Wilkins Características principales Ventajas
Útil cuando no se conoce de antemano el número de clases del problema (número de clusters desconocido). Un único parámetro. Desventajas Sensibilidad al valor del parámetro.

Batchelor & Wilkins Funcionamiento
Primer agrupamiento: Patrón escogido al azar. Segundo agrupamiento: Patrón más alejado del primer agrupamiento . Mientras se creen nuevos agrupamientos, obtener el patrón más alejado de los agrupamientos existentes (máximo de las distancias mínimas de los patrones a los agrupamientos). Si la distancia del patrón escogido al conjunto de agrupamientos es mayor que una fracción f de la distancia media entre los agrupamientos, crear un agrupamiento con el patrón seleccionado. Asignar cada patrón a su agrupamiento más cercano.

Batchelor & Wilkins Ejemplo (f=0.5) Patrones
X6 es el patrón más alejado de X1

Batchelor & Wilkins Ejemplo (f=0.5) Máxima distancia (X10,Z2)
Creación de un nuevo agrupamiento

Batchelor & Wilkins Ejemplo (f=0.5) Puntos de máxima distancia (Z1,X3)
Como la distancia a X2 está por debajo del umbral, no se crean más agrupamientos

Batchelor & Wilkins Parámetros Fracción f
Fracción de la distancia media entre los agrupamientos existentes (utilizada para determinar si se crea o no un nuevo agrupamiento).

Batchelor & Wilkins Resultados Galaxia en espiral
Conforme aumenta el valor de f, disminuye el número de agrupamientos hasta llega un momento en el que nos quedamos sólo con 2 clusters.

Batchelor & Wilkins Ejercicios: Iris
Encontrar los valores de los parámetros del algoritmo que permiten obtener un porcentaje de clasificación mayor a la vez que minimizan el número de clusters (idealmente, sólo tres agrupamientos deberían ser necesarios).

k-Means

k-Means Características principales
El método de las K Medias (MacQueen, 1967) Ventajas Sencillo y eficiente. Un único parámetro. Desventajas Sesgado por el orden de presentación de los patrones (el resultado depende de la configuración inicial de los agrupamientos). Necesidad de conocer el número de clusters k: Su comportamiento depende enormemente del valor elegido para el parámetro k.

k-Means Funcionamiento
Cada cluster tiene asociado un centroide (centro geométrico del cluster). Los puntos se asignan al cluster cuyo centroide esté más cerca (utilizando cualquier métrica de distancia). Iterativamente, se van actualizando los centroides en función de las asignaciones de puntos a clusters, hasta que los centroides dejen de cambiar. BASE TEÓRICA: Algoritmo basado en la minimización de la distancia interna (suma de las distancias de los patrones asignados a un agrupamiento a su centroide). En realidad, se minimiza la suma de las distancias al cuadrado de cada patrón al centroide de su cluster.

k-Means

k-Means Puntos originales Solución óptima Óptimo local
Partitioning approach: Construct various partitions and then evaluate them by some criterion, e.g., minimizing the sum of square errors (k-means, k-medoids, CLARANS) Hierarchical approach: Create a hierarchical decomposition of the set of data (or objects) using some criterion (Diana, Agnes, BIRCH, ROCK, CAMELEON)

k-Means Clusters de distinto tamaño Clusters de distinta densidad
Clusters no convexos

k-Means Variantes GRASP [Greedy Randomized Adaptive Search Procedure] para evitar óptimos locales. k-Modes (Huang’1998) utiliza modas en vez de medias (para poder trabajar con atributos de tipo categórico). k-Medoids utiliza medianas en vez de medias para limitar la influencia de los outliers vg. PAM (Partitioning Around Medoids, 1987) CLARA (Clustering LARge Applications, 1990) CLARANS (CLARA + Randomized Search, 1994) CLARA y CLARANS muestrean el conjunto de datos

k-Means Parámetros K Número deseado de agrupamientos.

GRASP Características principales
Greedy Randomized Adaptive Search Procedure Ventajas Sencillo y eficiente. Evita caer en óptimos locales. Desventajas Necesidad de conocer el número de clusters k: Su comportamiento depende enormemente del valor elegido para el parámetro k.

GRASP Funcionamiento Se repite el siguiente proceso un número determinado de iteraciones Se busca una posible solución (centroides escogidos aleatoriamente de entre aquellos patrones que están más lejos de los centroides ya escogidos). Se aplica una técnica de optimización local (k-Means) para obtener un conjunto de agrupamientos. Opcionalmente, se puede alterar aleatoriamente el resultado obtenido [mutación] y repetir la búsqueda de un óptimo local con la solución “mutada”. De todas las soluciones obtenidas, nos quedamos con la mejor (aquella que minimiza la suma de las distancias al cuadrado de cada patrón al centroide de su cluster). El algoritmo greedy empleado no obtiene soluciones excesivamente buenas aunque sí proporciona buenos puntos de partida (en distintas regiones del espacio de búsqueda) para un algoritmo de búsqueda local como el algoritmo de las K Medias, lo que permite obtener resultados netamente superiores a los que obtienen cuando se parte de una configuración inicial “aleatoria”.

GRASP Parámetros K Número deseado de agrupamientos. Iteraciones
Número de iteraciones. Longitud de ciclo Número de “mutaciones” por iteración.

GRASP Resultados: TITANIC (K=5, sin mutación)
5 particiones del conjunto de datos… J: Suma de las distancias al cuadrado. %TRA: Acierto sobre el conjunto de entrenamiento. %TST: Acierto sobre el conjunto de prueba. From the data archive of the on-line Journal of Statistics Education, originally compiled by Robert Dawson: 'The "Unusual Episode" Data Revisited', Journal of Statistics Education, vol. 3, no. 3 (1995) The titanic dataset gives the values of four categorical attributes for each of the 2201 people on board the Titanic when it struck an iceberg and sank. The attributes are social class (first class, second class, third class, crewmember), age (adult or child), sex, and whether or not the person survived.

GRASP GRASP mejora los resultados del algoritmo de las K Medias
Resultados: TITANIC Distribución de J GRASP mejora los resultados del algoritmo de las K Medias From the data archive of the on-line Journal of Statistics Education, originally compiled by Robert Dawson: 'The "Unusual Episode" Data Revisited', Journal of Statistics Education, vol. 3, no. 3 (1995) The titanic dataset gives the values of four categorical attributes for each of the 2201 people on board the Titanic when it struck an iceberg and sank. The attributes are social class (first class, second class, third class, crewmember), age (adult or child), sex, and whether or not the person survived.

Algoritmo secuencial

Algoritmo secuencial Características principales Ventajas
Flexibilidad: Su comportamiento puede ajustarse gracias a su amplio conjunto de parámetros. Eficiencia: Cálculos muy sencillos, basta con recorrer una vez el conjunto de datos. Desventajas Utilización: Los valores adecuados para los parámetros son difíciles de establecer a priori, por lo que se suele emplear un proceso de prueba y error. Sesgado por los primeros patrones: Los resultados obtenidos dependen del orden de presentación de los patrones.

Algoritmo secuencial Funcionamiento
Similar al K-Means, si bien introduce algunas novedades El parámetro K se considera un valor máximo (puede devolver un número de agrupamientos menor). Partiendo de un único agrupamiento, se van creando nuevos agrupamientos conforme se procesan nuevos patrones secuencialmente (algoritmo incremental). Los patrones se procesan secuencialmente por lotes. Al final de cada lote, se evalúan los agrupamientos obtenidos y se reduce su número.

Algoritmo secuencial Funcionamiento: Creación de agrupamientos
Se selecciona arbitrariamente el centro del primer agrupamiento. Posteriormente, se procesan secuencialmente los demás patrones: Se calcula la distancia del patrón actual al agrupamiento más cercano (a su centroide). Si ésta es menor o igual a R se asigna el patrón a su agrupamiento más cercano. En caso contrario, se crea un nuevo agrupamiento con el patrón actual.

Algoritmo secuencial Funcionamiento: Mezcla de agrupamientos
Cada M patrones, se mezclan agrupamientos Mezcla por cercanía (se mezclan dos agrupamientos si la distancia entre ellos es menor que C). Mezcla por tamaño: Si, tras la mezcla por cercanía, quedan más agrupamientos que los deseados por el usuario (K), se mezclan los agrupamientos de menos del T% de M miembros con sus clusters más cercanos. Mezcla forzada: Si aún quedan demasiados agrupamientos, se mezclan los agrupamientos más cercanos hasta obtener el número deseado K. El proceso de mezcla nos asegura que al final obtenemos el número deseado de agrupamientos y no más (como suele suceder en el método adaptativo o en el algoritmo de Batchelor y Wilkins).

Algoritmo secuencial Parámetros K Número deseado de agrupamientos.
R Umbral de distancia para crear agrupamientos. C Umbral de distancia para mezclar agrupamientos. M Longitud del “lote” (patrones procesados entre procesos de mezcla) T Umbral para la eliminación de agrupamientos (% sobre M)

Algoritmo ISODATA

Algoritmo ISODATA Características principales
Iterative Self-Organizing Data Analysis Techniques Ventajas Flexibilidad: Su comportamiento puede ajustarse gracias a su amplio conjunto de parámetros. No está sesgado por el orden de presentación de los patrones. Desventajas Utilización: Los valores adecuados para los parámetros son difíciles de establecer a priori, por lo que se suele emplear un proceso de prueba y error.

Algoritmo ISODATA Funcionamiento
Similar al K-Means, si bien incorpora heurísticas con tres objetivos: Eliminar agrupamientos poco numerosos. Mezclar agrupamientos cercanos. Dividir agrupamientos dispersos.

Algoritmo ISODATA Funcionamiento
Inicialmente se seleccionan los centros de A agrupamientos. En cada iteración Se asigna cada patrón al cluster más cercano. Se eliminan los agrupamientos de menos de N patrones. Si el número de agrupamientos es pequeño (≤ K/2), se dividen los agrupamientos más dispersos. En las iteraciones pares o cuando el número de agrupamientos es elevado (>2K), mezclamos un máximo de L pares de agrupamientos cercanos.

Algoritmo ISODATA Parámetros K Número deseado de agrupamientos
A Número inicial de agrupamientos N Umbral del número de patrones para la eliminación de agrupamientos s Umbral de desviación típica para la división de un agrupamiento c Umbral de distancia para la unión de agrupamientos L Máximo número de mezclas en una iteración I Máximo número de iteraciones permitidas

Métodos basados en grafos

Características principales p.ej. Agrupamiento basado en la matriz de similitud Ventajas A diferencia de los métodos heurísticos, no dependen del orden en que se presentan los patrones. Desventajas Su coste computacional los hace inviables en muchas ocasiones.

Matriz de similitud Matriz cuadrada que representa la similitud entre cualquier pareja de patrones. Dado un umbral de distancia, Sij=0 si d(Xi,Xj) > umbral Sij=1 si d(Xi,Xj) ≤ umbral Agrupamiento basado en la matriz de similitud: Se selecciona la fila i que contenga más unos. Se crea un agrupamiento con los patrones j tales que Sij=1 Se añaden al agrupamiento todos aquellos patrones k tales que Sjk= 1, donde j es un patrón ya incluido en el nuevo agrupamiento, hasta que no se puedan añadir más patrones a dicho agrupamiento.

Matriz de similitud

Matriz de similitud: Variación del umbral

Parámetros Umbral de distancia utilizado para la construcción de la matriz de similitud

Resultados Galaxia en espiral

Resultados Galaxia en espiral Se mejora en precisión pero se pierde una clase…

Alternativa: Clustering jerárquico divisivo Árbol generador minimal

Validación ¿Cómo se puede evaluar la calidad de los clusters obtenidos? Depende de lo que estemos buscando… Hay situaciones en las que nos interesa: Evitar descubrir clusters donde sólo hay ruido. Comparar dos conjuntos de clusters alternativos. Comparar dos técnicas de agrupamiento

Validación Criterios externos (aportando información adicional)
p.ej. entropía/pureza (como en clasificación) Criterios internos (a partir de los propios datos), p.ej. SSE (“Sum of Squared Error”) para comparar clusters para estimar el número de clusters K Otras medidas: cohesión, separación, coeficientes de silueta…

Validación Matriz de similitud
Ordenamos los datos en la matriz de similitud con respecto a los clusters en los que quedan los datos e inspeccionamos visualmente…

Validación Matriz de similitud Clusters en datos aleatorios
(DBSCAN y k-Means)

Validación Matriz de similitud DBSCAN

Créditos Francisco J. Cortijo Bon: Apuntes de Reconocimiento de Formas, Universidad de Granada, 1999 Jiawei Han: “Data Mining: Concepts and Techniques”, capítulo 7, 2006 Pang-Ning Tan (Michigan State University), Michael Steinbach & Vipin Kumar (University of Minnesota): “Introduction to Data Mining”, capítulos 8 y 9, 2006

Analizador Numérico Ejecutamos nc.bat:

Presentaciones similares

Presentación del tema: "Analizador Numérico Ejecutamos nc.bat:"— Transcripción de la presentación:

Presentaciones similares

Sobre el proyecto

Feedback

Iniciar la sesión

Autorizarse a través de una red social:

Analizador Numérico Ejecutamos nc.bat:

Presentaciones similares

Presentación del tema: "Analizador Numérico Ejecutamos nc.bat:"— Transcripción de la presentación:

Presentaciones similares

Sobre el proyecto

Feedback