Clustering Pablo Palacios 1.  Introducción  Clasificación de Clustering  Clusters de particionamiento ◦ N-means  Clusters difusos ◦ GFN-means ◦ Gath-Geva.

Clustering Pablo Palacios 1

 Introducción  Clasificación de Clustering  Clusters de particionamiento ◦ N-means  Clusters difusos ◦ GFN-means ◦ Gath-Geva  Conclusiones 2

 Interpretar grandes cantidades de datos y encontrar relaciones o patrones.  Se usan técnicas de aprendizaje automático, estadística y bases de datos. 4

 Rama de IA cuyo objetivo es desarrollar técnicas que permitan a las computadoras aprender.  En definitiva, trata el problema de la construcción de programas que generalizan comportamientos a partir de una información no estructurada suministrada en forma de ejemplos. 6

 Aprendizaje no supervisado (se tratará en este seminario)  Aprendizaje supervisado (lo veremos en el siguiente seminario) 7

 Métodos de Particionamiento (N-Medias)  Métodos Jerárquicos  Métodos basados en la densidad  Métodos basados en el uso de rejillas  Métodos basados en el uso de modelos 10

 Ventajas: ◦ Funciona bien cuando los clusters son nubes compactas y están bien separados. ◦ Simple y rápido.  Inconvenientes: ◦ Conocimiento previo del número de clusters. ◦ Problemas con clusters de forma no convexas o de tamaños muy diferentes. ◦ Sensible al ruido. ◦ Se supone que un objeto pertenece a un solo cluster 22

 Utilización de variables lingüísticas.  Comportamiento más robusto ante la aparición de ruido. 25

 Surgió de la necesidad de solucionar problemas complejos con información imprecisa, para los cuales la matemática y lógica tradicionales no son suficientes. 26

El conjunto difuso A en X puede definirse como el conjunto de los pares ordenados: donde µ A (x) es la función de pertenencia al conjunto difuso. Función de pertenencia: para cada elemento de X da un grado de pertenencia al conjunto A. El valor de esta función está en el intervalo [0, 1] 27

 Reconoce nubes esféricas (p-dimensional).  Asume que los cluster tienen ≈ tamaño.  Cada cluster se representa por su centro (prototipo).  Distancia  euclídea 29

 La distancia euclídea no siempre es la adecuada.  Muy susceptible al ruido.  Necesitamos conocer el número de cluster.  Dependencia de los prototipos iniciales  óptimos locales 35

 Combinación del algoritmo FNM y el FMLE (Fuzzy Maximun Likelihood Estimation).  FMLE refina los resultados de FNM.  Para detectar el número óptimo de clusters, se usa una función de validación.  Elección inicial de prototipos mediante IPS (Initial Prototype Selection). 37

 IPS: trata de obtener unos centros de clusters iníciales, mas cercanos a los finales.  FMLE: algoritmos similar al GFNM pero que usa una distancia exponencial basada en una matriz de covarianza que permite afinar mas los grados de pertenencía. 39

 El algoritmo Gath-Geva reconoce los centros de los clusters como aquellos con baja densidad de datos y gran extensión.  La forma de calcular las distancias hace que estas se dividan más o menos en dos rangos, cerrando y remoto.  Permite usar un zoom con la distancia. 40

 El uso de la distancia exponencial puede provocar overflow en los cálculos. Solución: usar una función exponencial con un crecimiento menor.  No es necesario proporcionarle el número de clusters.  El uso del IPS permite obtener una partición inicial mucho más adecuada que una aleatoria. 41

 Técnicas de Aprendizaje Automático con Aprendizaje no Supervisado (Clustering)  Clustering de Particionamiento ◦ N-means  Clustering difuso 43

 Imposible llegar a la visión de la Web Semántica de forma manual  Necesidad de técnicas semi/automáticas para: ◦ Estructurar los datos en la Web según un modelo ◦ Extracción de modelos de sitios Web ◦ Interoperar modelos y datos ya estructurados  Las técnicas de aprendizaje automático se están aplicando con buenos resultados 44

 Survey of clustering algorithms. D. R. Xu. IEEE Transactions on Neural Networks, 2005  Data Clustering: A Review. A.K. Jain, M.N. Murty, P.J. Flynn. ACM Computing Surveys, 31(3), 1999  Fuzzy Cluster Analysis. F. Höppner, F. Klawonn, R. Kruse,T. Runkler. Wiley, 1999 45

¿Podemos mejorar este seminario? Por favor, envía un e-mail a: pablo.palacios@diesia.uhu.es 46

Clustering Pablo Palacios 1.  Introducción  Clasificación de Clustering  Clusters de particionamiento ◦ N-means  Clusters difusos ◦ GFN-means ◦ Gath-Geva.

Presentaciones similares

Presentación del tema: "Clustering Pablo Palacios 1.  Introducción  Clasificación de Clustering  Clusters de particionamiento ◦ N-means  Clusters difusos ◦ GFN-means ◦ Gath-Geva."— Transcripción de la presentación:

Presentaciones similares

Sobre el proyecto

Feedback

Iniciar la sesión

Autorizarse a través de una red social:

Clustering Pablo Palacios 1.  Introducción  Clasificación de Clustering  Clusters de particionamiento ◦ N-means  Clusters difusos ◦ GFN-means ◦ Gath-Geva.

Presentaciones similares

Presentación del tema: "Clustering Pablo Palacios 1.  Introducción  Clasificación de Clustering  Clusters de particionamiento ◦ N-means  Clusters difusos ◦ GFN-means ◦ Gath-Geva."— Transcripción de la presentación:

Presentaciones similares

Sobre el proyecto

Feedback