Descargar la presentación
La descarga está en progreso. Por favor, espere
Publicada porJuan Carrasco Sáez Modificado hace 8 años
1
Clustering Pablo Palacios 1
2
Introducción Clasificación de Clustering Clusters de particionamiento ◦ N-means Clusters difusos ◦ GFN-means ◦ Gath-Geva Conclusiones 2
3
Introducción Clasificación de Clustering Clusters de particionamiento ◦ N-means Clusters difusos ◦ GFN-means ◦ Gath-Geva Conclusiones 3
4
Interpretar grandes cantidades de datos y encontrar relaciones o patrones. Se usan técnicas de aprendizaje automático, estadística y bases de datos. 4
5
5
6
Rama de IA cuyo objetivo es desarrollar técnicas que permitan a las computadoras aprender. En definitiva, trata el problema de la construcción de programas que generalizan comportamientos a partir de una información no estructurada suministrada en forma de ejemplos. 6
7
Aprendizaje no supervisado (se tratará en este seminario) Aprendizaje supervisado (lo veremos en el siguiente seminario) 7
8
8
9
Introducción Clasificación de Clustering Clusters de particionamiento ◦ N-means Clusters difusos ◦ GFN-means ◦ Gath-Geva Conclusiones 9
10
Métodos de Particionamiento (N-Medias) Métodos Jerárquicos Métodos basados en la densidad Métodos basados en el uso de rejillas Métodos basados en el uso de modelos 10
11
Introducción Clasificación de Clustering Clusters de particionamiento ◦ N-means Clusters difusos ◦ GFN-means ◦ Gath-Geva Conclusiones 11
12
12
13
13
14
Introducción Clasificación de Clustering Clusters de particionamiento ◦ N-means Clusters difusos ◦ GFN-means ◦ Gath-Geva Conclusiones 14
15
15
16
16
17
17
18
18
19
19
20
20
21
21
22
Ventajas: ◦ Funciona bien cuando los clusters son nubes compactas y están bien separados. ◦ Simple y rápido. Inconvenientes: ◦ Conocimiento previo del número de clusters. ◦ Problemas con clusters de forma no convexas o de tamaños muy diferentes. ◦ Sensible al ruido. ◦ Se supone que un objeto pertenece a un solo cluster 22
23
Introducción Clasificación de Clustering Clusters de particionamiento ◦ N-means Clusters difusos ◦ GFN-means ◦ Gath-Geva Conclusiones 23
24
24
25
Utilización de variables lingüísticas. Comportamiento más robusto ante la aparición de ruido. 25
26
Surgió de la necesidad de solucionar problemas complejos con información imprecisa, para los cuales la matemática y lógica tradicionales no son suficientes. 26
27
El conjunto difuso A en X puede definirse como el conjunto de los pares ordenados: donde µ A (x) es la función de pertenencia al conjunto difuso. Función de pertenencia: para cada elemento de X da un grado de pertenencia al conjunto A. El valor de esta función está en el intervalo [0, 1] 27
28
Introducción Clasificación de Clustering Clusters de particionamiento ◦ N-means Clusters difusos ◦ GFN-means ◦ Gath-Geva Conclusiones 28
29
Reconoce nubes esféricas (p-dimensional). Asume que los cluster tienen ≈ tamaño. Cada cluster se representa por su centro (prototipo). Distancia euclídea 29
30
30
31
31
32
32
33
33
34
34
35
La distancia euclídea no siempre es la adecuada. Muy susceptible al ruido. Necesitamos conocer el número de cluster. Dependencia de los prototipos iniciales óptimos locales 35
36
Introducción Clasificación de Clustering Clusters de particionamiento ◦ N-means Clusters difusos ◦ GFN-means ◦ Gath-Geva Conclusiones 36
37
Combinación del algoritmo FNM y el FMLE (Fuzzy Maximun Likelihood Estimation). FMLE refina los resultados de FNM. Para detectar el número óptimo de clusters, se usa una función de validación. Elección inicial de prototipos mediante IPS (Initial Prototype Selection). 37
38
38
39
IPS: trata de obtener unos centros de clusters iníciales, mas cercanos a los finales. FMLE: algoritmos similar al GFNM pero que usa una distancia exponencial basada en una matriz de covarianza que permite afinar mas los grados de pertenencía. 39
40
El algoritmo Gath-Geva reconoce los centros de los clusters como aquellos con baja densidad de datos y gran extensión. La forma de calcular las distancias hace que estas se dividan más o menos en dos rangos, cerrando y remoto. Permite usar un zoom con la distancia. 40
41
El uso de la distancia exponencial puede provocar overflow en los cálculos. Solución: usar una función exponencial con un crecimiento menor. No es necesario proporcionarle el número de clusters. El uso del IPS permite obtener una partición inicial mucho más adecuada que una aleatoria. 41
42
Introducción Clasificación de Clustering Clusters de particionamiento ◦ N-means Clusters difusos ◦ GFN-means ◦ Gath-Geva Conclusiones 42
43
Técnicas de Aprendizaje Automático con Aprendizaje no Supervisado (Clustering) Clustering de Particionamiento ◦ N-means Clustering difuso 43
44
Imposible llegar a la visión de la Web Semántica de forma manual Necesidad de técnicas semi/automáticas para: ◦ Estructurar los datos en la Web según un modelo ◦ Extracción de modelos de sitios Web ◦ Interoperar modelos y datos ya estructurados Las técnicas de aprendizaje automático se están aplicando con buenos resultados 44
45
Survey of clustering algorithms. D. R. Xu. IEEE Transactions on Neural Networks, 2005 Data Clustering: A Review. A.K. Jain, M.N. Murty, P.J. Flynn. ACM Computing Surveys, 31(3), 1999 Fuzzy Cluster Analysis. F. Höppner, F. Klawonn, R. Kruse,T. Runkler. Wiley, 1999 45
46
¿Podemos mejorar este seminario? Por favor, envía un e-mail a: pablo.palacios@diesia.uhu.es 46
Presentaciones similares
© 2024 SlidePlayer.es Inc.
All rights reserved.