Análisis de Conglomerados (Cluster Analysis)

Slides:



Advertisements
Presentaciones similares
ANÁLISIS DE CONGLOMERADOS
Advertisements

U UNIVERSIDAD DE QUINTANA ROO
Cluster.
Master en Recursos Humanos
Punto de equilibrio.
K-NN: K vecinos más cercanos
Dra. Rocío C. Romero Zaliz
Análisis Estadístico de Datos Climáticos
K-Means Integrantes Natalia Merino (85828) Gastón Sabatelli (85523)
KRIGING.
Clase # 8: Análisis Conformacional (II)
Representación en espacio de estado
ANALISIS DE CONGLOMERADOS
Reducción de datos Por Elizabeth León.
K-Means Integrantes Natalia Merino (85828) Gastón Sabatelli (85523)
Clustering (Agrupamiento)
ANÁLISIS DISCRIMINANTE Conjunto de técnicas multivariantes de clasificación que ante un conjunto de datos derivados de una muestra de entidades, tratan.
Definición de grupos: clasificación Capítulos 10 y 11 de McCune y Grace 2002.
ANÁLISIS DISCRIMINANTE
Curso de Estadística Básica
Introducción al Análisis Cluster
Búsqueda de Aproximaciones: Algoritmos
FUNDAMENTOS DE DATA MINING Y SUS APLICACIONES N. QUEIPO, S. PINTOS COPYRIGHT 2000 CLASIFICACIÓN NO SUPERVISADA.
Optimización Multiobjetivo Por: Antonio H
RECONOCIMIETO DE PATRONES
ANALISIS DE DATOS CON EXCEL
Aprendizaje Automático en Bioinformática
Estadística aplicada al análisis financiero
ANÁLISIS DE CONGLOMERADOS
Business Intelligence y Data Mining
Tema 8: Análisis Multivariante. Conjunto de técnicas aplicables cuando se registran los valores de muchas variables (esencialmente numéricas, pero también.
Sesión 6: Campos de Markov
Reconocimiento de Formas en Data Mining
Ángel M. Ramos Domínguez Curso de Doctorado Análisis Conjunto
ANÁLISIS DE CONGLOMERADOS
Computacion inteligente Clustering Fuzzy. 2 Contenido  Conceptos basicos  Tipos de clustering  Tipos de Clusters  La tarea del clustering  Nociones.
Computacion inteligente
Estadística Descriptiva continuación
MÉTODO DE PIXELES DE BORDE
Redes Competitivas.
ANALISIS DE FRECUENCIA EN HIDROLOGIA (2)
Ordenación Polar (Bray Curtis)
Definición de grupos: clasificación Capítulos 10 y 11 de McCune y Grace 2002.
1 DISTRIBUCION DEL EMPLEO EN PAISES EUROPEOS Se dispone de 26 observaciones de porcentajes de empleo en 9 sectores económicos. Cada observación corresponde.
3. Análisis de Correspondencias Simples
Análisis Cuantitativo de Datos (Básico)
Clase 4a Significancia Estadística y Prueba Z
Escalamiento Multidimensional No-Métrico Capítulo 16 de McCune y Grace 2002.
Cluster by mixtures. The Trace criteria (K-means)
Inferencia Multivariante Cap 10 y 11
Clase # 7: Análisis Conformacional (I)
6. ANÁLISIS DISCRIMINANTE
UNIDAD 1.- EVALUACIÓN DE DATOS ANALITICOS
Universidad Nacional del Nordeste Facultad de Humanidades CARRERA DE ESPECIALIZACION TECNOLOGIAS DE LA INFORMACION GEOGRAFICA (TIG) Resoluciones 511/10-CS.
Donuts, Scratches and Blanks: Robust Model-Based Segmentation of Microarray Images Qunhua Li, Chris Fraley, Roger E. Bumgarner, Ka Yee Yeung, Adrian E.
Clasificación visual con fotos aéreas
SESION 5: MEDIDAS DE FORMA. Hasta el momento nos hemos enfocado en el análisis de datos a partir de los valores centrales y la variabilidad de las observaciones.
Estimación Diferencia de dos medias
Escalamiento Multidimensional No-Métrico. Rasgos generales Busca las mejores posiciones de n objetos en un espacio de k dimensiones que se asemejen más.
Introducción a los TADs
RIESGO, RENDIMIENTO Y VALOR
Ejercicios Dado un conjunto de datos, aplicar el Criterio de Fourier para desechar los posibles valores atípicos.
Computacion inteligente Clustering Fuzzy. 2 Contenido  Conceptos basicos  Tipos de clustering  Tipos de Clusters  La tarea del clustering  Nociones.
Coeficiente de variación
TAMAÑO DE LA MUESTRA. Para definir el tamaño de la muestra se debe tener en cuenta los recursos disponibles y las necesidades del plan de análisis, el.
Estadística y probabilidad aplicada a los negocios
RECHAZO DE DATOS DE UNA SERIE
Rafael Zamora Garrido Julio Ejemplos de objetivos de Minería de Datos Reducir las bajas de clientes actuales en un 5%. Aumentar las contrataciones.
Estadística y probabilidad
Alvaro Alfredo Bravo Dpto. de Matemáticas y Estadística Universidad de Nariño - Colombia METODOS ALEATORIOS.
Transcripción de la presentación:

Análisis de Conglomerados (Cluster Analysis)

Agrupamientos Claudia Jiménez R

¿Cuál agrupamiento es mejor?

Métodos de Agrupación Métodos jerárquicos: Métodos de capa única: Los objetos se agrupan (dividen) por partes hasta clasificar todos los objetos. No requiere fijar un número de clústeres o grupos (menos supervisado). Métodos de capa única: Se tiene un número de grupos predefinidos y cada objeto se ubica en un grupo hasta alcanzar estabilidad en los valores de los centroides. Requiere, generalmente, fijar a priori un número de clústeres. Claudia Jiménez R

Varios niveles de agrupamiento Métodos Jerárquicos Varios niveles de agrupamiento Dendograma Claudia Jiménez R

Métodos aglomerativos Esquema general algoritmo: 1. Cada objeto corresponde a un grupo. 2. En cada iteración se juntan los dos grupos más cercanos bajo algún criterio de cercanía entre grupos. 3. Los dos grupos recién unidos forman un único grupo. 4. Iterar hasta formar un único grupo. El método jerárquico aglomerativo más utilizado es el de Ward, por el nombre de su autor. Claudia Jiménez R

Método de Ward Este procedimiento trata de identificar grupos de casos, tratando de minimizar la varianza dentro de los grupos. Se minimiza la distancia euclideana cuadrada a las medias del conglomerado o grupo. Claudia Jiménez R

Dendogramas Un dendograma es un árbol en el que el largo de las ramas está asociado inversamente a la fortaleza de la relación. Debajo de la línea roja Claudia Jiménez R

Métodos divisivos Esquema general algoritmo: 1. Todos los objetos corresponde a un grupo. 2. Cada grupo se separa bajo algún criterio de maximización de varianza entre grupos. 3. Dividir cada uno de los grupos hasta que: – Todos los grupos sean tan homogéneos que no vale la pena seguir dividiendo. – Los grupos son tan pequeños que no vale la pena seguir dividiendo. Claudia Jiménez R

Métodos de una sola capa o particionales Algoritmos iterativos: en cada iteración ubican a los objetos en el grupo más cercano a él, de acuerdo con los valores de los centroides. Claudia Jiménez R

La técnica k-medias en Matlab [idx,ctrs] = kmeans(X,2,... 'Distance','city’); La función kmeans trata a cada observación como un objeto localizado en el espacio. Se pueden escoger cinco medidas de distancia. Cada clúster es definido por sus miembros y por su centroide. El centroide es aquel que minimiza la suma de las desviaciones desde cualquier punto del grupo a ese punto central. La función kmeans minimiza una función diferente dependiendo de la medida de distancia que se utilice. Se pueden controlar los detalles de la minimización como incluir los valores iniciales de los centroides o el máximo número de iteraciones. Claudia Jiménez R

Medidas de distancia en Matlab entre objetos (pdist(X))

Ejemplos usando Rattle y Matlab Tiempo_fac Gasto Horas ocio 36 min $20.500 22 horas Tamaños de clústeres: [1] "4 10 12“ Suma de cuadrados en clúster: [1] 116752251 251603917 221327040 Medida de distancia: Euclidiana Medida de distancia: City block Clúster Tiempo Gasto Horas ocio 1 60 41.750 23.5 2 36.5 24.200 26.3 3 28 10.380 18.4 Clúster Tiempo Gasto Horas ocio 1 45 30000 24 2 30 18000 18 3 20 10000 17

Ejemplo usando Rattle

Ejemplos creando dos grupos Tiempo_fac Gasto Horas ocio 36 min $20.500 22 horas Medida de distancia: Euclidiana Clúster Tiempo_fac Gasto Horas.ocio 1 45 35875 23 2 32 13698 22 Tamaños de clústers: [1] "8 18“ Suma de cuadrados en clúster: [1] 392880110 644939334

Ejemplo usando Weka

Agrupamiento probabilista Función gmdistribution en Matlab: funciones normales Claudia Jiménez R

Comparación de agrupamientos con los lirios, usando una interfaz de Matlab Fuzzy C-means Clustering sustractivo findcluster('iris.dat')

Interpretar y elaborar un perfil de cada grupo Debe buscarse una semántica que diferencie a los objetos de cada grupo. Enfoques complementarios: Análisis y comparación de los centroides de cada grupo. Análisis gráfico para determinar la variables que marcan diferencias significativas.

Evaluación VISUAL DE Agrupamientos K-medias Probabilístico EM Datos originales Claudia Jiménez R