Clustering Pablo Palacios 1
Introducción Clasificación de Clustering Clusters de particionamiento ◦ N-means Clusters difusos ◦ GFN-means ◦ Gath-Geva Conclusiones 2
Introducción Clasificación de Clustering Clusters de particionamiento ◦ N-means Clusters difusos ◦ GFN-means ◦ Gath-Geva Conclusiones 3
Interpretar grandes cantidades de datos y encontrar relaciones o patrones. Se usan técnicas de aprendizaje automático, estadística y bases de datos. 4
5
Rama de IA cuyo objetivo es desarrollar técnicas que permitan a las computadoras aprender. En definitiva, trata el problema de la construcción de programas que generalizan comportamientos a partir de una información no estructurada suministrada en forma de ejemplos. 6
Aprendizaje no supervisado (se tratará en este seminario) Aprendizaje supervisado (lo veremos en el siguiente seminario) 7
8
Introducción Clasificación de Clustering Clusters de particionamiento ◦ N-means Clusters difusos ◦ GFN-means ◦ Gath-Geva Conclusiones 9
Métodos de Particionamiento (N-Medias) Métodos Jerárquicos Métodos basados en la densidad Métodos basados en el uso de rejillas Métodos basados en el uso de modelos 10
Introducción Clasificación de Clustering Clusters de particionamiento ◦ N-means Clusters difusos ◦ GFN-means ◦ Gath-Geva Conclusiones 11
12
13
Introducción Clasificación de Clustering Clusters de particionamiento ◦ N-means Clusters difusos ◦ GFN-means ◦ Gath-Geva Conclusiones 14
15
16
17
18
19
20
21
Ventajas: ◦ Funciona bien cuando los clusters son nubes compactas y están bien separados. ◦ Simple y rápido. Inconvenientes: ◦ Conocimiento previo del número de clusters. ◦ Problemas con clusters de forma no convexas o de tamaños muy diferentes. ◦ Sensible al ruido. ◦ Se supone que un objeto pertenece a un solo cluster 22
Introducción Clasificación de Clustering Clusters de particionamiento ◦ N-means Clusters difusos ◦ GFN-means ◦ Gath-Geva Conclusiones 23
24
Utilización de variables lingüísticas. Comportamiento más robusto ante la aparición de ruido. 25
Surgió de la necesidad de solucionar problemas complejos con información imprecisa, para los cuales la matemática y lógica tradicionales no son suficientes. 26
El conjunto difuso A en X puede definirse como el conjunto de los pares ordenados: donde µ A (x) es la función de pertenencia al conjunto difuso. Función de pertenencia: para cada elemento de X da un grado de pertenencia al conjunto A. El valor de esta función está en el intervalo [0, 1] 27
Introducción Clasificación de Clustering Clusters de particionamiento ◦ N-means Clusters difusos ◦ GFN-means ◦ Gath-Geva Conclusiones 28
Reconoce nubes esféricas (p-dimensional). Asume que los cluster tienen ≈ tamaño. Cada cluster se representa por su centro (prototipo). Distancia euclídea 29
30
31
32
33
34
La distancia euclídea no siempre es la adecuada. Muy susceptible al ruido. Necesitamos conocer el número de cluster. Dependencia de los prototipos iniciales óptimos locales 35
Introducción Clasificación de Clustering Clusters de particionamiento ◦ N-means Clusters difusos ◦ GFN-means ◦ Gath-Geva Conclusiones 36
Combinación del algoritmo FNM y el FMLE (Fuzzy Maximun Likelihood Estimation). FMLE refina los resultados de FNM. Para detectar el número óptimo de clusters, se usa una función de validación. Elección inicial de prototipos mediante IPS (Initial Prototype Selection). 37
38
IPS: trata de obtener unos centros de clusters iníciales, mas cercanos a los finales. FMLE: algoritmos similar al GFNM pero que usa una distancia exponencial basada en una matriz de covarianza que permite afinar mas los grados de pertenencía. 39
El algoritmo Gath-Geva reconoce los centros de los clusters como aquellos con baja densidad de datos y gran extensión. La forma de calcular las distancias hace que estas se dividan más o menos en dos rangos, cerrando y remoto. Permite usar un zoom con la distancia. 40
El uso de la distancia exponencial puede provocar overflow en los cálculos. Solución: usar una función exponencial con un crecimiento menor. No es necesario proporcionarle el número de clusters. El uso del IPS permite obtener una partición inicial mucho más adecuada que una aleatoria. 41
Introducción Clasificación de Clustering Clusters de particionamiento ◦ N-means Clusters difusos ◦ GFN-means ◦ Gath-Geva Conclusiones 42
Técnicas de Aprendizaje Automático con Aprendizaje no Supervisado (Clustering) Clustering de Particionamiento ◦ N-means Clustering difuso 43
Imposible llegar a la visión de la Web Semántica de forma manual Necesidad de técnicas semi/automáticas para: ◦ Estructurar los datos en la Web según un modelo ◦ Extracción de modelos de sitios Web ◦ Interoperar modelos y datos ya estructurados Las técnicas de aprendizaje automático se están aplicando con buenos resultados 44
Survey of clustering algorithms. D. R. Xu. IEEE Transactions on Neural Networks, 2005 Data Clustering: A Review. A.K. Jain, M.N. Murty, P.J. Flynn. ACM Computing Surveys, 31(3), 1999 Fuzzy Cluster Analysis. F. Höppner, F. Klawonn, R. Kruse,T. Runkler. Wiley,
¿Podemos mejorar este seminario? Por favor, envía un a: 46