Definición de grupos: clasificación Capítulos 10 y 11 de McCune y Grace 2002.

Slides:



Advertisements
Presentaciones similares
¿ Que es una muestra?.
Advertisements

Cargas Fabriles o Costos generales de fabricación
ANÁLISIS DE CONGLOMERADOS
INDICADORES ECONÓMICOS
U UNIVERSIDAD DE QUINTANA ROO
Planificación de Monoprocesadores
TECNICATURA UNIVERSITARIA EN INFORMATICA
TEORIA DE DECISIONES Introducción.
La medición en Sociología
Master en Recursos Humanos
Herramienta de Control
INSTITUTO TECNOLOGICO DE MINATITLAN
DISEÑOS NO EXPERIMENTALES
MÉTODOS DE ANÁLISIS FINANCIEROS
Muestreo para la inspección por atributos
ANALISIS DE CONGLOMERADOS
ESTRATEGIAS Y DISEÑOS AVANZADOS DE INVESTIGACIÓN
LECCIÓN 1 La termodinámica El sistema termodinámico Estados y procesos
MUESTREO DE AUDITORIA PARA PRUEBAS DE DETALLES DE SALDOS
Taller 2. Medición de distancia entre variables y sujetos
ESPACIOS VECTORIALES.
Muestreo Obtención de evidencia confiable y pertinente, suficiente para brindar una base razonable sobre la cual emitir una opinión. Procedimientos que.
NÚMEROS DE INDICE GRUPO 4: INTEGRANTES Karla Zepeda Doris Carbajal
Clustering (Agrupamiento)
Definición de grupos: clasificación Capítulos 10 y 11 de McCune y Grace 2002.
Ciclo de formulación del proyecto.
1. FUNCIONES. LÍMITES. Depto. Matemáticas – IES Elaios
Unidad 4. Muestreo de Aceptación
CONCEPTOS BÁSICOSDE ESTADÍSTICA.
ESTADISTICA PARA RELACIONES LABORALES
Búsqueda de Aproximaciones: Algoritmos
FUNDAMENTOS DE DATA MINING Y SUS APLICACIONES N. QUEIPO, S. PINTOS COPYRIGHT 2000 CLASIFICACIÓN NO SUPERVISADA.
vii.- Impacto Neto del Proyecto
Aprendizaje Automático en Bioinformática
ANÁLISIS DE CONGLOMERADOS
Ajustes de datos: transformación de datos.
TEORÍA DE ERRORES SESIÓN Nº 01.
Tema 8: Análisis Multivariante. Conjunto de técnicas aplicables cuando se registran los valores de muchas variables (esencialmente numéricas, pero también.
Geo procesos.
ANÁLISIS DE CONGLOMERADOS
Análisis de Conglomerados (Cluster Analysis)
Muestreo de comunidades
Investigación Experimental
Análisis de la inversión, mantenimiento y seguridad.
Análisis de Agrupamientos y Componentes Principales
MÉTODO DE PIXELES DE BORDE
Escalamiento Multidimensional No-Métrico Capítulo 16 de McCune y Grace 2002.
Herramientas básicas.
Capítulo 4 de McCune y Grace 2002
Clasificación de los mapas
Análisis de correspondencia canónica (CCA)
ELABORACIÓN DE INDICADORES
MÉTODOS DE EVALUACIÓN DEL DESEMPEÑO
ELEMENTOS DE COMPUTACIÓN Profesor: Guillermo Figueroa
INGENIERÍA DEL SOFTWARE GESTIÓN DE PROYECTOS
 Relación matemática que existe entre las dimensiones reales y las del dibujo que representa la realidad sobre un plano o un mapa.  Expresión de relaciones.
Reducción de dimensionalidad por ordenación Capítulo 13 de McCune y Grace 2002.
PLANES DE MUESTREO Y GRAFICAS DE CONTROL
Ing. Efrain Licuona Rojas Consultor de CELAP
CLASIFICACIÓN SUPERVISADA
Conceptos Básicos y Estadística Descriptiva
Medidas de similaridad y distancia
La Programación Orientado a Objetos
Procedimientos de multirespuesta por permutación (MRPP)
HIDROFOR ZONIFICACIÓN DE ESTÁNDARES Y PARÁMETROS EDAFOCLIMÁTICOS PARA LA CONSERVACIÓN Y PROTECCIÓN DE SUELOS Y AGUAS INCLUIDOS EN LA LEY REGIONES.
Métodos para evaluación de proyectos Introducción Los proyectos podrán evaluarse considerando principalmente su pronta recuperabilidad y su rentabilidad.
Las Variables Son elementos o atributos del objeto de investigación que puede ser clasificados en categorías y que además se pueden medir y cuantificar.
MAPAS CONCEPTUALES Nuevas formas de análisis de contenido de lectura.
TEMA 7 ANÁLISIS DE LOS RESULTADOS TEMA 7 ANÁLISIS DE LOS RESULTADOS.
Alvaro Alfredo Bravo Dpto. de Matemáticas y Estadística Universidad de Nariño - Colombia METODOS ALEATORIOS.
Transcripción de la presentación:

Definición de grupos: clasificación Capítulos 10 y 11 de McCune y Grace 2002

Clasificar Proceso natural humano para interpretar el mundo Pero estamos acostumbrados a sólo observar pocas dimensiones Más complejo cuando intentamos clasificar objetos de muchas dimensiones como los datos de composición

Opciones generales Clasificación jerárquica o no-jerárquica –Jerárquica: grupos se componen de otros grupos –No-jerárquica: los grupos no tienen relacion entre ellos Clasificación politética o monotética –Politética: usa > una variable para definir grupos –Monotética: usa una variable Clasificación aglomerativa o divisiva –Aglomerativa: primer grupo formado por los 2 objetos mas parecidos –Divisiva: primer grupo es el conjunto de todos los objetos

Clasificación jerárquica aglomerativa Pasos: –Calcular la matriz de distancias (o similaridades) –Unir 2 elementos de acuerdo a algún criterio de distancia mínima –Combinar los atributos de las entidades en ambos grupos –Desactivar los elementos del primer grupo y evaluar ese grupo con los demas elementos –Formar los próximos 2 grupos, etc. Los resultados se pueden presentar en un dendrograma

Ejemplo Método de enlace sencillo (o de vecino más cercano)

Matriz de similaridades

Subgráfica conectada

Dendrograma

Dendrogramas

La escala en el dendrograma se puede expresar por: –Similaridad según la medida utilizada –Función objetiva: % de información restante:

¿Dónde podar el dendrograma? Los criterios dependen de los objetivos –Homogeneidad dentro de grupos –Número de grupos vs número de elementos Pocos grupos pueden ser muy heterogéneos Muchos grupos derrotan el propósito de clasificar

Tres métodos de enlace recomendados para datos de comunidades UPGMA, Ward y Beta flexible

UPGMA: “Unweighted Pair-Group Mathematical Average”

UPGMA

Enlace sencillo vs. UPGMA

Método de Ward

Método de Beta flexible

¿UPGMA, Ward o Beta flexible? UPGMA: –Bastante conservador de espacio –Pero tiende al encadenamiento Ward: –Conservador de espacio –Pero incompatible con distancias por proporción Beta flexible: –Encadenamiento es alto cuando beta se acerca a +1 –Contrae el espacio cuando beta se acerca a -1 –Resultados más aceptables cuando beta ~ -0.25

Ventajas y desventajas de clasificación jerárquica aglomerativa El resultado en multiniveles puede sugerir relaciones entre grupos Puede haber agrupaciones incorrectas porque las fusiones subsiguientes dependerán de las anteriores. Para datos bien heterogéneos puede ser conveniente subdividir en grupos más manejables y luego analizar con ordenaciones.

Métodos no jerárquicos Este tipo de clasificación asigna las unidades en un número de grupos que uno decida inicialmente. Bien útil cuando el conjunto de datos es bien grande.

Evaluación de la calidad de la clasificación Grado de encadenamiento Interpretabilidad Comparación con algún atributo independiente

Grado de encadenamiento

Interpretabilidad ¿Hace sentido el dendrograma? ¿Son los grupos el resultado de algún proceso biológico interesante?

Comparar con atributo independiente ¿Son los miembros de un grupo similares según los valores de alguna variable (no incluida en los datos analizados) pero distintos en esa variable a los miembros de otros grupos?

¿Qué informar? Medida de distancia utilizada Método de enlazar Si se buscaron elementos clasificados erróneamente, cómo se hizo y cómo se corrigieron. Dendrograma y cuál medida se utilizó en la escala Criterios para podar el dendrograma (mencionar la cantidad de información retenida a ese nivel).

Ejercicio Generar una clasificación manualmente por enlace sencillo con los datos de herbB Comparar con UPGMA, Ward y Beta flexible