Clustering Pablo Palacios 1.  Introducción  Clasificación de Clustering  Clusters de particionamiento ◦ N-means  Clusters difusos ◦ GFN-means ◦ Gath-Geva.

Slides:



Advertisements
Presentaciones similares
Data Mining Minería de Datos Universidad Tecnológica Metropolitana
Advertisements

DATA MINING MINERIA DE DATOS Gersom Costas.
¿Cómo se desarrolla el pensamiento lógico matemático en el niño y la niña de primero y segundo? Carmen Elena Yela Chávez.
Investigación de Operaciones
Master en Recursos Humanos
Base de Datos Distribuidas FUNDAMENTOS DE BASES DE DATOS DISTRIBUIDAS
¿Cómo hacer para que una máquina comprenda el LN?
PROYECTO DE GRADO CARLOS STALIN ALVARADO SANCHEZ
Sistema de Agrupamiento y Búsqueda de Contenidos de la Blogosfera de la ESPOL, Utilizando Hadoop como Plataforma de Procesamiento Masivo y Escalable de.
K-Means Integrantes Natalia Merino (85828) Gastón Sabatelli (85523)
Definición Machine learning traducido al español significa el aprendizaje automático o también aprendizaje de las maquinas. A partir de esto podemos darle.
Clase # 8: Análisis Conformacional (II)
Geoestadística El Término Geoestadística surge de la combinación del carácter aleatorio de una Variable con el carácter geológico que indudablemente poseen.
K-Means Integrantes Natalia Merino (85828) Gastón Sabatelli (85523)
RECONOCIMIENTO DE OBJETOS
Clustering (Agrupamiento)
REDES NEURONALES ARTIFICIALES
Búsqueda de Aproximaciones: Algoritmos
INTELIGENCIA DE NEGOCIOS
FUNDAMENTOS DE DATA MINING Y SUS APLICACIONES N. QUEIPO, S. PINTOS COPYRIGHT 2000 CLASIFICACIÓN NO SUPERVISADA.
RECONOCIMIETO DE PATRONES
FUNCIONES DE DENSIDAD DE PROBABILIDAD
REDES BAYESIANAS Y DECISIÓN ESTADÍSTICA
Sesión 2: Métodos Probabilísticos Básicos
Electrónica Digital.
Diplomado "Gestión de Negocios con Data Warehouse y Data Mining".
J. Trinidad Guillen Bonilla, H. Guillen Bonilla, A. Guillen Bonilla,
Estadística aplicada al análisis financiero
INTELIGENCIA ARTIFICIAL
Tema 6 Razonamiento aproximado
Inicialización de Superficies Deformables mediante Elipsoides Generalizados R. Dosil, X. M. Pardo, A. Mosquera, D. Cabello Grupo de Visión Artificial Departamento.
Business Intelligence y Data Mining
3. Funciones discriminantes para la f.d.p normal.
Sesión 6: Campos de Markov
ANÁLISIS DE CONGLOMERADOS
Análisis de Conglomerados (Cluster Analysis)
Computacion inteligente Clustering Fuzzy. 2 Contenido  Conceptos basicos  Tipos de clustering  Tipos de Clusters  La tarea del clustering  Nociones.
Computacion inteligente
complejidad de un problema.
MÉTODO DE PIXELES DE BORDE
Simplificación de Mallados Ernesto Coto Laboratorio de Computación Grafica Universidad Central de Venezuela.
Redes Competitivas.
Técnicas Supervisadas Aproximación no paramétrica Reconocimiento de Patrones 2003 Notas basadas en el curso Reconocimiento de Formas de F.Cortijo, Univ.
Reconocimiento de Formas en Data Mining Prof: Héctor Allende Capítulo 2 Aproximación Paramétrica.
1 Introducción a la Computación para Biólogos, Bioquímicos, Médicos, etc.
Simular: Representar una cosa, fingiendo o imitando lo que no es.
Sistemas Inteligentes [Unmsm - Fisi] Integrantes : Apaza Ramos Rodolfo Pastor Ferrer Vladimir Rafaele Suni Sonia.
Modelos de Sistemas con
CARPLATE Reconocimiento del marco de la matrícula de un coche
Una introducción a la computación evolutiva
1 Cálculo de fallas en sistemas de distribución de energía eléctrica utilizando aritmética difusa Julio Romero Agüero Alberto Vargas.
Escalabilidad en los Algoritmos de Aprendizaje de Redes Bayesianas ISL – Dpto de Informática – UCLM - Albacete.
INTRODUCCIÓN A LA INTELIGENCIA ARTIFICIAL Y LOS SISTEMAS EXPERTOS
Nieves Ábalos Serrano Mª Teresa Jiménez Ramírez
Procesamiento de Imágenes
SISTEMAS EXPERTOS (SE) Coronel Jaramillo Ricardo
Sistemas Expertos Integrantes Javier Farfán Katherine Jara Héctor Gatica.
PC BD Alexandra Buri H José Rivera De La Cruz.
Diagramas de Voronoi.
DATA MINING KAROL PARDO MIGUEL VALCERO CORPORACION UNIVERSITARIA MINUTO DE DIOS.
Pixelación de imágenes avanzada usando el algoritmo slic
INGENIERIA EN SISTEMAS COMPUTASIONALES. SISTEMAS EXPERTOS Es una aplicación informática capaz de solucionar un conjunto de problemas que exigen un gran.
Procesamiento de Vídeo Digital Máster en Matemática Computacional Francisco Miguel Pérez Romero.
Antivirus Cloud Computing
Es un antivirus gratuito basado en cloud computing, especialmente diseñados para ofrecer protección desde la nube. Es un software de protección, como los.
Computacion inteligente Clustering Fuzzy. 2 Contenido  Conceptos basicos  Tipos de clustering  Tipos de Clusters  La tarea del clustering  Nociones.
Programación I Prof. Carolina Cols. Algoritmo es una lista bien definida, ordenada y finita de operaciones que permite hallar la solución a un problema.
Support Vector Machines.  Vocabulario básico: ◦ Repositorio de datos ◦ Atributos y Instancias ◦ Aprendizaje supervisado  Clasificación (Clase) ◦ Aprendizaje.
ACTIVIDADES DE APRENDIZAJE. ABCFHOEPRIAUDTCDAFDAHOELBADTAQTU PERYUIAETNEDNECSEDAUFHVCMNXAOSOS RSZXVGSDACAAERYFNIAEFGFGSAROPARA OQANALSISZAPATERASECUENCIATRTAXZ.
Conclusiones: En este trabajo se ha demostrado que se pueden aplicar los algoritmos OCH al ajuste de los parámetros de un modelo borroso mediante la discretización.
Transcripción de la presentación:

Clustering Pablo Palacios 1

 Introducción  Clasificación de Clustering  Clusters de particionamiento ◦ N-means  Clusters difusos ◦ GFN-means ◦ Gath-Geva  Conclusiones 2

 Introducción  Clasificación de Clustering  Clusters de particionamiento ◦ N-means  Clusters difusos ◦ GFN-means ◦ Gath-Geva  Conclusiones 3

 Interpretar grandes cantidades de datos y encontrar relaciones o patrones.  Se usan técnicas de aprendizaje automático, estadística y bases de datos. 4

5

 Rama de IA cuyo objetivo es desarrollar técnicas que permitan a las computadoras aprender.  En definitiva, trata el problema de la construcción de programas que generalizan comportamientos a partir de una información no estructurada suministrada en forma de ejemplos. 6

 Aprendizaje no supervisado (se tratará en este seminario)  Aprendizaje supervisado (lo veremos en el siguiente seminario) 7

8

 Introducción  Clasificación de Clustering  Clusters de particionamiento ◦ N-means  Clusters difusos ◦ GFN-means ◦ Gath-Geva  Conclusiones 9

 Métodos de Particionamiento (N-Medias)  Métodos Jerárquicos  Métodos basados en la densidad  Métodos basados en el uso de rejillas  Métodos basados en el uso de modelos 10

 Introducción  Clasificación de Clustering  Clusters de particionamiento ◦ N-means  Clusters difusos ◦ GFN-means ◦ Gath-Geva  Conclusiones 11

12

13

 Introducción  Clasificación de Clustering  Clusters de particionamiento ◦ N-means  Clusters difusos ◦ GFN-means ◦ Gath-Geva  Conclusiones 14

15

16

17

18

19

20

21

 Ventajas: ◦ Funciona bien cuando los clusters son nubes compactas y están bien separados. ◦ Simple y rápido.  Inconvenientes: ◦ Conocimiento previo del número de clusters. ◦ Problemas con clusters de forma no convexas o de tamaños muy diferentes. ◦ Sensible al ruido. ◦ Se supone que un objeto pertenece a un solo cluster 22

 Introducción  Clasificación de Clustering  Clusters de particionamiento ◦ N-means  Clusters difusos ◦ GFN-means ◦ Gath-Geva  Conclusiones 23

24

 Utilización de variables lingüísticas.  Comportamiento más robusto ante la aparición de ruido. 25

 Surgió de la necesidad de solucionar problemas complejos con información imprecisa, para los cuales la matemática y lógica tradicionales no son suficientes. 26

El conjunto difuso A en X puede definirse como el conjunto de los pares ordenados: donde µ A (x) es la función de pertenencia al conjunto difuso. Función de pertenencia: para cada elemento de X da un grado de pertenencia al conjunto A. El valor de esta función está en el intervalo [0, 1] 27

 Introducción  Clasificación de Clustering  Clusters de particionamiento ◦ N-means  Clusters difusos ◦ GFN-means ◦ Gath-Geva  Conclusiones 28

 Reconoce nubes esféricas (p-dimensional).  Asume que los cluster tienen ≈ tamaño.  Cada cluster se representa por su centro (prototipo).  Distancia  euclídea 29

30

31

32

33

34

 La distancia euclídea no siempre es la adecuada.  Muy susceptible al ruido.  Necesitamos conocer el número de cluster.  Dependencia de los prototipos iniciales  óptimos locales 35

 Introducción  Clasificación de Clustering  Clusters de particionamiento ◦ N-means  Clusters difusos ◦ GFN-means ◦ Gath-Geva  Conclusiones 36

 Combinación del algoritmo FNM y el FMLE (Fuzzy Maximun Likelihood Estimation).  FMLE refina los resultados de FNM.  Para detectar el número óptimo de clusters, se usa una función de validación.  Elección inicial de prototipos mediante IPS (Initial Prototype Selection). 37

38

 IPS: trata de obtener unos centros de clusters iníciales, mas cercanos a los finales.  FMLE: algoritmos similar al GFNM pero que usa una distancia exponencial basada en una matriz de covarianza que permite afinar mas los grados de pertenencía. 39

 El algoritmo Gath-Geva reconoce los centros de los clusters como aquellos con baja densidad de datos y gran extensión.  La forma de calcular las distancias hace que estas se dividan más o menos en dos rangos, cerrando y remoto.  Permite usar un zoom con la distancia. 40

 El uso de la distancia exponencial puede provocar overflow en los cálculos. Solución: usar una función exponencial con un crecimiento menor.  No es necesario proporcionarle el número de clusters.  El uso del IPS permite obtener una partición inicial mucho más adecuada que una aleatoria. 41

 Introducción  Clasificación de Clustering  Clusters de particionamiento ◦ N-means  Clusters difusos ◦ GFN-means ◦ Gath-Geva  Conclusiones 42

 Técnicas de Aprendizaje Automático con Aprendizaje no Supervisado (Clustering)  Clustering de Particionamiento ◦ N-means  Clustering difuso 43

 Imposible llegar a la visión de la Web Semántica de forma manual  Necesidad de técnicas semi/automáticas para: ◦ Estructurar los datos en la Web según un modelo ◦ Extracción de modelos de sitios Web ◦ Interoperar modelos y datos ya estructurados  Las técnicas de aprendizaje automático se están aplicando con buenos resultados 44

 Survey of clustering algorithms. D. R. Xu. IEEE Transactions on Neural Networks, 2005  Data Clustering: A Review. A.K. Jain, M.N. Murty, P.J. Flynn. ACM Computing Surveys, 31(3), 1999  Fuzzy Cluster Analysis. F. Höppner, F. Klawonn, R. Kruse,T. Runkler. Wiley,

¿Podemos mejorar este seminario? Por favor, envía un a: 46