ANÁLISIS DE CONGLOMERADOS

Slides:



Advertisements
Presentaciones similares
ANÁLISIS DE CONGLOMERADOS
Advertisements

Tema 13. Inferencia estadística Principales conceptos. Muestreo
Introducción a la minería de datos
U UNIVERSIDAD DE QUINTANA ROO
CONTENIDOS Teoría del muestreo ¿Cómo seleccionar una muestra?
Cluster.
Master en Recursos Humanos
MAPA CONCEPTUAL.
Definiciones y conceptos básicos
Análisis Estadístico de Datos Climáticos
FRANCISCO JAVIER RODRÍGUEZ
Tema 3 Revisión de diversos métodos robustos aplicados en algunos problemas fotogramétricos.
Modelado y simulación en Ingeniería Química. Manuel Rodríguez
Clase # 8: Análisis Conformacional (II)
UNIVERSIDAD LATINA (UNILA) IV. IMPLANTACION DE ALGORITMOS.
ANALISIS DE CONGLOMERADOS
ESTRATEGIAS Y DISEÑOS AVANZADOS DE INVESTIGACIÓN
Medidas de tendencia central y de variabilidad
CÁLCULO DIFERENCIAL.
Clustering (Agrupamiento)
Regresión y correlación
Definición de grupos: clasificación Capítulos 10 y 11 de McCune y Grace 2002.
Métodos de muestreo.
Nombre: Israel Espinosa Jiménez Matricula: Carrera: TIC Cuatrimestre: 4 Página 1 de 5.
Seleccionar una muestra
Introducción al Análisis Cluster
Búsqueda de Aproximaciones: Algoritmos
FUNDAMENTOS DE DATA MINING Y SUS APLICACIONES N. QUEIPO, S. PINTOS COPYRIGHT 2000 CLASIFICACIÓN NO SUPERVISADA.
Estadística Descriptiva: 4. Correlación y Regresión Lineal
1º BACHILLERATO | Matemáticas © Oxford University Press España, S.A Hacer clic en la pantalla para avanzar VARIABLE ESTADÍSTICA UNIDIMENSIONAL Población:
Tema 2: Métodos de ajuste
Representación del Conocimiento
ANALISIS DE DATOS CON EXCEL
Método de Gauss-Seidel
La Derivada. Ya vimos: los conceptos, métodos ó instrumentos necesarios para establecer el “comportamiento” de una función.  en un entorno de x o [ 
Aprendizaje Automático en Bioinformática
Estadística aplicada al análisis financiero
Especificación de Consultas M
Estructura de Datos II Equipo 4 Equipo 7 Acosta Montiel Miguel A.
Tema 8: Análisis Multivariante. Conjunto de técnicas aplicables cuando se registran los valores de muchas variables (esencialmente numéricas, pero también.
Mt. Martín Moreyra Navarrete.
3. Funciones discriminantes para la f.d.p normal.
Análisis de Conglomerados (Cluster Analysis)
PROGRAMACIÓN PROCEDIMENTAL
Análisis de Agrupamientos y Componentes Principales
ESTADÍSTICA BÁSICA EN ECOLOGÍA EVOLUTIVA Juan J. Soler Cruz Estación Experimental de Zonas Áridas Almería.
MÉTODO DE PIXELES DE BORDE
Medidas de Dispersión.
Tema 2: Parámetros Estadísticos
Definición de grupos: clasificación Capítulos 10 y 11 de McCune y Grace 2002.
Métodos de calibración: regresión y correlación
Universidad Nacional de Colombia Curso Análisis de Datos Cuantitativos.
Capacidad de Proceso.
MEDICION La medición es un proceso básico de la ciencia que consiste en comparar un patrón seleccionado con el objeto o fenómeno cuya magnitud física se.
MEDIDAS DE DISPERSIÓN. La dispersión es la variación en un conjunto de datos que proporciona información adicional y permite juzgar la confiabilidad de.
Sabemos reconocerlas, y calcularlas como soluciones de sistemas de ecuaciones, o de desigualdades Buscamos métodos de cálculo generales y eficientes Problemas.
UNIDAD 1.- EVALUACIÓN DE DATOS ANALITICOS
ANÁLISIS E INTREPRETACIÓN DE DATOS
MÉTODOS DE ANÁLISIS EN LA TOMA DE DECISIONES EXISTEN PROCEDIMIENTOS DE ORDEN MATEMÁTICO, FINANCIERO, ECONÓMICO, ESTADÍSTICO ENTRE OTROS, PARA LA TOMA DE.
Introducción a los TADs
RIESGO, RENDIMIENTO Y VALOR
Septiembre 2009 Mtra. Laura Myriam Franco Sánchez.
Ejercicios Dado un conjunto de datos, aplicar el Criterio de Fourier para desechar los posibles valores atípicos.
FACTORIZACIÓN DE POLINOMIOS Esta presentación no pretende sustituir las explicaciones del profesor, sino que está pensada como complemento de las mismas.
UNIVERSIDAD DE COSTA RICA Sistema de Estudios de Posgrado Escuela de Salud Pública I Ciclo lectivo 2003 Epidemiología – (SP – 2216) Profesora: Carmen.
MEDIDAS DE DISPERSIÓN Pedro Godoy Gómez. Miden qué tanto se dispersan las observaciones alrededor de su media. MEDIDAS DE DISPERSIÓN.
TAMAÑO DE LA MUESTRA. Para definir el tamaño de la muestra se debe tener en cuenta los recursos disponibles y las necesidades del plan de análisis, el.
LE, EI, Profesor Ramón Castro Liceaga UNIVERSIDAD LATINA (UNILA) IV. IMPLANTACION DE ALGORITMOS.
METODO DEL PUNTO ALTO Y DEL PUNTO BAJO
Evaluando los promedios de grupos distintos UNIDAD 7 1.
Transcripción de la presentación:

ANÁLISIS DE CONGLOMERADOS

ANÁLISIS DE CONGLOMERADOS Otros nombres son: En Inglés Cluster análisis Análisis de cúmulos Análisis de agrupación

ANÁLISIS DE CONGLOMERADOS Objetivos El objetivo del análisis de conglomerados es agrupar las unidades en subgrupos SIGNIFICATIVOS. A partir de las distancias existentes entre los vectores de las observaciones La idea central es llegar a una organización ende grupos que desplieguen la mayor variación ENTRE ellos y la menor variación DENTRO de ellos. Al final todas las unidades pertenecen aun sólo grupo.

ANÁLISIS DE CONGLOMERADOS Aplicaciones en Biología En biología se ha usado mucho sobre todo en taxonomía numérica, pero también en ecología en la llamada Escuela de la clasificación de las comunidades (opuesta a la ordenación), también es muy usado en Biogeografía para determinar las relaciones entre ambientes o zonas. En general en todo proceso que requiera agrupación de unidades a las que se le hayan medido varias variables.

ANÁLISIS DE CONGLOMERADOS Definición No existe una definición clara de lo que es un conglomerado o Cluster. En inglés se refiere a una agrupación (en ocasiones informe) de unidades que sólo se pueden visualizar en 2D o 3D Un ejemplo típico sería un “Muégano” una bola formada por subunidades adheridas.

ANÁLISIS DE CONGLOMERADOS Definición Cont. No se imponen restricciones “a priori” ( como lo hace el Análisis Discriminante). Se parte de la base que todas las unidades pueden ser independientes o bien todas las unidades pueden tener algo en común para formar un solo cúmulo.

ANÁLISIS DE CONGLOMERADOS

ANÁLISIS DE CONGLOMERADOS Problemas Por ser tan laxa la definición de un cúmulo existen muchos algoritmos que pretenden resolver e problema sin embargo la mayoría de ellos sólo se aboca a la búsqueda de conglomerado esféricos y es difícil detectar conglomerados no esféricos.

ANÁLISIS DE CONGLOMERADOS Problemas

ANÁLISIS DE CONGLOMERADOS Criterios Hay un sin-número de algoritmos la distancia ENTRE-CLUSTER se puede determinar por las distancia entre centroides Como el objetivo es reducir de n unidades a g grupos donde n>g

ANÁLISIS DE CONGLOMERADOS Similaridades El análisis de cúmulos esta ligado a las medidas de similaridad (que tan cerca o lejos se encuentran las unidades en el espacio n-dimensional. Cuando se trata de medidas métricas (que siguen la distribución normal) se usan las Medidas de distancia. Mientras que si se cuenta con distancias no- paramétricas los llamados tipos de acercamiento son mejores.

ANÁLISIS DE CONGLOMERADOS Medidas de distancia

ANÁLISIS DE CONGLOMERADOS Distancia Euclidiana Concepto. Ejemplo de dos dimensiones con p= 2 (similar al teorema de Pitágoras)

ANÁLISIS DE CONGLOMERADOS Distancia Euclidiana Concepto. Ejemplo de tres dimensiones con p= 3

ANÁLISIS DE CONGLOMERADOS Distancia de Manhatan . La distancia de Manhatan o distancia de “cuadras” se maneja como una distancia alternativa en la que la distancia se mide como unidades fijas de distancia. Como lo son las cuadras de una ciudad. Este es una medida que se encuentra disponible en el NCSS.

ANÁLISIS DE CONGLOMERADOS Variables Nominales En el caso de la variables nominales o dicotómicas se presentan varios índices, llamados generalmente índices de asociación (estos son las bases de medidas de similaridad de Sorensen o Jacard entre otros).

ANÁLISIS DE CONGLOMERADOS Variables Nominales Specie

ANÁLISIS DE CONGLOMERADOS Coeficientes mas usados.

ANÁLISIS DE CONGLOMERADOS Coeficientes mas usados.

ANÁLISIS DE CONGLOMERADOS Técnicas de asociación Jerárquica Las técnicas jerárquicas desarrollan un fusión sucesiva (o divisiones) de los datos. Una de las principales ventajas es que la asignación de una unidad es irrevocable (una vez que se asocian no tiene otra opción) Métodos aglomerativos proceden desarrollando una serie de fusiones Métodos Divisivos parten de un grupo de objetos y lo van dividiendo poco a poco. Ambos se presentan en forma de un dendrograma (diagrama de árbol)

ANÁLISIS DE CONGLOMERADOS Métodos aglomerativos 1 LIGA SIMPLE (Single Linkage) o VECINO MÁS PRÓXIMO: Este método utiliza la DISTANCIA mínima procede encontrando las dos unidades que poseen la menor distancia. Estas conforman el primer conglomerado (cluster) y trabajan juntos como una sola unidad para los subsiguientes análisis. En el siguiente ciclo dos cosas pueden pasar, que una tercera unidad se una al ciclo o bien que otras dos unidades independientes tengan la menor distancia restante. Este proceso continua hasta que todas las unidades se encuentran en un solo cluster.

ANÁLISIS DE CONGLOMERADOS Métodos aglomerativos 1

ANÁLISIS DE CONGLOMERADOS Técnicas de asociación Jerárquica 1

ANÁLISIS DE CONGLOMERADOS Métodos aglomerativos 2 LIGA COMPLETA (Complete Linkage) o el MÉTODO DEL VECINO MÁS LEJANO: Este método es exactamente lo opuesto del anterior en el sentido que la distancia buscado es la mayor que exista entre un par de unidades. A pesar de que los dendrogramas son similares las distancias pueden cambiar rápidamente.

ANÁLISIS DE CONGLOMERADOS Métodos aglomerativos 2

ANÁLISIS DE CONGLOMERADOS Métodos aglomerativos 3 MÉTODO DE LA LIGA PROMEDIO (Average Linkage) Otro método alternativo a los anteriores es el método promedio. Este algoritmo sigue la misma aproximación excepto que la distancia entre los conglomeraos es definida por el promedio de la distancia entre dos conglomerados.

ANÁLISIS DE CONGLOMERADOS Métodos aglomerativos 4 Método de Ward o de la Suma de cuadrados del Error: Este Método (Desarrollado por Ward(1963) se basa en la pérdida de información resultante de la agrupación de individuos en conglomerados en medida como por el total de la suma de cuadrados a partir de las desviaciones de cada observación a la media del conglomerado al que pertenece. La regla de asignación procede por el incremento en la suma de cuadrados del error inducido por la combinación de cada posible par de cluster. Este valor es usada como una función objetiva.

ANÁLISIS DE CONGLOMERADOS Métodos aglomerativos 4 Cont. El algoritmo desarrollado por Ward es usado como método jerárquico. El proceso de agrupamiento procede de la siguiente manera,. Empieza por considerar K grupos de sujetos , un sujeto por grupo, el primer grupo es formado por la selección de dos de esos K grupos que, cuando se unen, producen el menor desapareamiento en el valor de la función objetiva. Estos K-1 grupos es reexaminados para determinar los siguientes dos de esos K-1 grupos para unirse mientras minimizan el incremento en la función objetiva. Así se repite el proceso hasta tener un sólo grupo. En cada paso se reevalúa función objetiva. Los cambios en esta función es importante para determinar cual es el número de grupos naturales.