La descarga está en progreso. Por favor, espere

La descarga está en progreso. Por favor, espere

Clustering Pablo Palacios 1.  Introducción  Clasificación de Clustering  Clusters de particionamiento ◦ N-means  Clusters difusos ◦ GFN-means ◦ Gath-Geva.

Presentaciones similares


Presentación del tema: "Clustering Pablo Palacios 1.  Introducción  Clasificación de Clustering  Clusters de particionamiento ◦ N-means  Clusters difusos ◦ GFN-means ◦ Gath-Geva."— Transcripción de la presentación:

1 Clustering Pablo Palacios 1

2  Introducción  Clasificación de Clustering  Clusters de particionamiento ◦ N-means  Clusters difusos ◦ GFN-means ◦ Gath-Geva  Conclusiones 2

3  Introducción  Clasificación de Clustering  Clusters de particionamiento ◦ N-means  Clusters difusos ◦ GFN-means ◦ Gath-Geva  Conclusiones 3

4  Interpretar grandes cantidades de datos y encontrar relaciones o patrones.  Se usan técnicas de aprendizaje automático, estadística y bases de datos. 4

5 5

6  Rama de IA cuyo objetivo es desarrollar técnicas que permitan a las computadoras aprender.  En definitiva, trata el problema de la construcción de programas que generalizan comportamientos a partir de una información no estructurada suministrada en forma de ejemplos. 6

7  Aprendizaje no supervisado (se tratará en este seminario)  Aprendizaje supervisado (lo veremos en el siguiente seminario) 7

8 8

9  Introducción  Clasificación de Clustering  Clusters de particionamiento ◦ N-means  Clusters difusos ◦ GFN-means ◦ Gath-Geva  Conclusiones 9

10  Métodos de Particionamiento (N-Medias)  Métodos Jerárquicos  Métodos basados en la densidad  Métodos basados en el uso de rejillas  Métodos basados en el uso de modelos 10

11  Introducción  Clasificación de Clustering  Clusters de particionamiento ◦ N-means  Clusters difusos ◦ GFN-means ◦ Gath-Geva  Conclusiones 11

12 12

13 13

14  Introducción  Clasificación de Clustering  Clusters de particionamiento ◦ N-means  Clusters difusos ◦ GFN-means ◦ Gath-Geva  Conclusiones 14

15 15

16 16

17 17

18 18

19 19

20 20

21 21

22  Ventajas: ◦ Funciona bien cuando los clusters son nubes compactas y están bien separados. ◦ Simple y rápido.  Inconvenientes: ◦ Conocimiento previo del número de clusters. ◦ Problemas con clusters de forma no convexas o de tamaños muy diferentes. ◦ Sensible al ruido. ◦ Se supone que un objeto pertenece a un solo cluster 22

23  Introducción  Clasificación de Clustering  Clusters de particionamiento ◦ N-means  Clusters difusos ◦ GFN-means ◦ Gath-Geva  Conclusiones 23

24 24

25  Utilización de variables lingüísticas.  Comportamiento más robusto ante la aparición de ruido. 25

26  Surgió de la necesidad de solucionar problemas complejos con información imprecisa, para los cuales la matemática y lógica tradicionales no son suficientes. 26

27 El conjunto difuso A en X puede definirse como el conjunto de los pares ordenados: donde µ A (x) es la función de pertenencia al conjunto difuso. Función de pertenencia: para cada elemento de X da un grado de pertenencia al conjunto A. El valor de esta función está en el intervalo [0, 1] 27

28  Introducción  Clasificación de Clustering  Clusters de particionamiento ◦ N-means  Clusters difusos ◦ GFN-means ◦ Gath-Geva  Conclusiones 28

29  Reconoce nubes esféricas (p-dimensional).  Asume que los cluster tienen ≈ tamaño.  Cada cluster se representa por su centro (prototipo).  Distancia  euclídea 29

30 30

31 31

32 32

33 33

34 34

35  La distancia euclídea no siempre es la adecuada.  Muy susceptible al ruido.  Necesitamos conocer el número de cluster.  Dependencia de los prototipos iniciales  óptimos locales 35

36  Introducción  Clasificación de Clustering  Clusters de particionamiento ◦ N-means  Clusters difusos ◦ GFN-means ◦ Gath-Geva  Conclusiones 36

37  Combinación del algoritmo FNM y el FMLE (Fuzzy Maximun Likelihood Estimation).  FMLE refina los resultados de FNM.  Para detectar el número óptimo de clusters, se usa una función de validación.  Elección inicial de prototipos mediante IPS (Initial Prototype Selection). 37

38 38

39  IPS: trata de obtener unos centros de clusters iníciales, mas cercanos a los finales.  FMLE: algoritmos similar al GFNM pero que usa una distancia exponencial basada en una matriz de covarianza que permite afinar mas los grados de pertenencía. 39

40  El algoritmo Gath-Geva reconoce los centros de los clusters como aquellos con baja densidad de datos y gran extensión.  La forma de calcular las distancias hace que estas se dividan más o menos en dos rangos, cerrando y remoto.  Permite usar un zoom con la distancia. 40

41  El uso de la distancia exponencial puede provocar overflow en los cálculos. Solución: usar una función exponencial con un crecimiento menor.  No es necesario proporcionarle el número de clusters.  El uso del IPS permite obtener una partición inicial mucho más adecuada que una aleatoria. 41

42  Introducción  Clasificación de Clustering  Clusters de particionamiento ◦ N-means  Clusters difusos ◦ GFN-means ◦ Gath-Geva  Conclusiones 42

43  Técnicas de Aprendizaje Automático con Aprendizaje no Supervisado (Clustering)  Clustering de Particionamiento ◦ N-means  Clustering difuso 43

44  Imposible llegar a la visión de la Web Semántica de forma manual  Necesidad de técnicas semi/automáticas para: ◦ Estructurar los datos en la Web según un modelo ◦ Extracción de modelos de sitios Web ◦ Interoperar modelos y datos ya estructurados  Las técnicas de aprendizaje automático se están aplicando con buenos resultados 44

45  Survey of clustering algorithms. D. R. Xu. IEEE Transactions on Neural Networks, 2005  Data Clustering: A Review. A.K. Jain, M.N. Murty, P.J. Flynn. ACM Computing Surveys, 31(3), 1999  Fuzzy Cluster Analysis. F. Höppner, F. Klawonn, R. Kruse,T. Runkler. Wiley, 1999 45

46 ¿Podemos mejorar este seminario? Por favor, envía un e-mail a: pablo.palacios@diesia.uhu.es 46


Descargar ppt "Clustering Pablo Palacios 1.  Introducción  Clasificación de Clustering  Clusters de particionamiento ◦ N-means  Clusters difusos ◦ GFN-means ◦ Gath-Geva."

Presentaciones similares


Anuncios Google