Se dispone de N individuos, con información sobre n variables.

Slides:



Advertisements
Presentaciones similares
U UNIVERSIDAD DE QUINTANA ROO
Advertisements

Master en Recursos Humanos
Dra. Rocío C. Romero Zaliz
Clustering (Agrupamiento)
Introducción al Análisis Cluster
Búsqueda de Aproximaciones: Algoritmos
FUNDAMENTOS DE DATA MINING Y SUS APLICACIONES N. QUEIPO, S. PINTOS COPYRIGHT 2000 CLASIFICACIÓN NO SUPERVISADA.
Estadística aplicada al análisis financiero
ANÁLISIS DE CONGLOMERADOS
Tema 8: Análisis Multivariante. Conjunto de técnicas aplicables cuando se registran los valores de muchas variables (esencialmente numéricas, pero también.
Análisis de Conglomerados (Cluster Analysis)
1 TEMA II Prof. Samaria Muñoz Análisis de Regresión simple: ESTIMACION.
Localización de una sola instalación métodos cuantitativos.
UNIDAD 1 OPERACIONES CON EXPRESIONES RACIONALES. 1.2 Factorización.
Diseño factorial 32 Rafael Araujo-Jorge castilla Gustavo jimenez-cristian nieves-brayan ortega.
 E Expresión de un problema de programación lineal  A Aplicaciones de la programación lineal  S Soluciones de un problema de programación lineal.
1 Índice del libro Matrices 1.MatricesMatrices 2.Tipos de matricesTipos de matrices 3.Operaciones con matricesOperaciones con matrices 4.Producto.
Tipos de errores Error de escala Error sistemático Error aleatorio Error total.
¿Qué es el Análisis Multivariante? X Y Z W T Son métodos estadísticos que analizan X, Y, Z, W, …, T simultaneamente Medidas múltiples Individuo u objeto.
Clase 4 y 5 : Generalidades y multiplicación de polinomios.
1 C OMPUTACIÓN A VANZADA PARA M ÚSICA POR O RDENADOR POLYPHONIC INSTRUMENT RECOGNITION USING SPECTRAL CLUSTERING 1 ISMIR 2007.
Master en Recursos Humanos Análisis de Conglomerados (Cluster Analysis): prácticas con SPSS Ana María López Área de Metodología de las Ciencias del Comportamiento.
Métodos de cálculo para el pronóstico de ventas
Microeconomía Clase 6.
Reconocimiento de Formas
A este grupo de personas que tenemos aquí…
Pedro Letelier Patricio Contreras
Normatividad relativa a la calidad
ESTRATEGIAS Y DISEÑOS AVANZADOS DE INVESTIGACIÓN SOCIAL
Álgebra Raíces Propiedades Ejercicios Racionalización Raíces cúbicas Raíz cúbica de un producto Inecuaciones Desigualdad triangular Aplicaciones Representación.
Las barras blancas son los témpanos que forman los cluster, son los separadores de las observaciones y en consecuencia “agrupan visualmente”
Nancy Margarita Gutiérrez Chavira
LA ESCALA.
Unidad 5. Capítulo II. Modelos de sistemas en forma matricial.
CONCEPTOS BASICOS ESTADISTICA.-Conjunto de métodos que nos permiten tomar decisiones en momentos de incertidumbre (duda). Tiene como objetivo que la información.
Relaciones dadas por tablas
CENTROIDES DE SUPERFICIES PLANAS
Licda. DIOSELINA GONZALEZ
ENTROPIA TERMODINÁMICA II.
Funciones Reales de Varias Variables
Procedimiento para la evaluación Semántica de la Ansiedad
El poder generalizador de los SIMBOLOS
Estadística Básica Curso de Estadística Básica MCC. Manuel Uribe Saldaña MCC. José Gonzalo Lugo Pérez SESION 3 MEDIDAS DE TENDENCIA CENTRAL Y MEDIDAS DE.
MT-21 PPTCANMTALA07001V1 Clase Números.
UNIDAD 7 La cambiante superficie de la Tierra Biología y Geología 3º ESO LA ESCALA.
Tema 4 Introducción a la Programación Lineal
Análisis de redes. 3.4 Problema de flujo máximo.
Búsqueda por profundidad iterativa
Kriging Consideremos información de determinada propiedad en el yacimiento y puntos en los cuales se tiene la estimación dea partir de los puntos.
Tema 4 Introducción a la Programación Lineal
Correlación Página: 1. Correlación Página: 2 Correlación Página: 3 Caso Unidimensional.
ÁLGEBRA y El poder generalizador de los SIMBOLOS.
ANÁLISIS RELACIÓN ENTRE DOS VARIABLES CUALITATIVAS Método del test Chi cuadrado Lic. Ramiro Duras Lozano.
 La minería de datos o exploración de datos (es la etapa de análisis de "Knowledge Discovery in Databases" o KDD) es un campo de la estadística y las.
Análisis de Encuestas con Stata
Ecuación Explícita de la Recta
MÉTODO DE MÍNIMO COSTO DANIELA NARANJO LAURA RUBIO RENGIFO
Triángulos Universidad de Ciencias Aplicadas Introducción a la Matemática Universitaria.
INTRODUCCIÓN 1. Álgebra lineal y vectores aleatorios 2. Distribución normal multivariante ANÁLISIS DE LA MATRIZ DE COVARIANZAS 3. Componentes principales.
Desigualdades lineales Introducción a la Programación Lineal
SERIES DE TIEMPO. Concepto Una serie de tiempo es un conjunto de observaciones de un fenómeno tomadas en tiempos específicos, generalmente a intervalos.
 Departamento de Matemática.  Suma (+) de números: Al sumar juntamos varios valores en uno solo. A la operación suma también se la llama adición. Los.
SISTEMAS DE COMUNICACIONES REPRESENTACIÓN DE SEÑALES EN EL ESPACIO ALEX PAUL PORRAS ROBALINO CARLOS RENATO SOLIS GUANIN.
REGRESIONINTERPOLACION Los Métodos Numéricos Métodos mas utilizados Ajuste de Curvas.
Tema 4 Introducción a la Programación Lineal. Cada muñeco: Produce un beneficio neto de 3 €. Requiere 2 horas de trabajo de acabado. Requiere 1 hora de.
Operacionalice sus variables: para operacionalizar las variables es necesario que siga la siguiente secuencia de criterios: variable Tipo de variable Forma.
ALGORITMO Y ESTRUCTURA DE DATOS II UNIDAD 3 ORDENAMIENTO Y BUSQUEDA MARCOS RODRIGUEZ /4/2019ALGORITMO Y ESTRUCTURA DE DATOS II 1 Prof.
2° Medio Unidad: Función cuadrática y Ecuación de segundo grado.
VARIANZA Y Y COVARIANZA DE VARIABLES ALEATORIAS Estadística II MI. MARTHA PAMELA RAMÍREZ VELA ITESM CAMPUS SALTILLO 1.
TIPOS DE ALGORITMO DE APRENDIZAJE Aprendizaje Supervisado Aprendizaje no Supervisado Aprendizaje por Refuerzo.
Transcripción de la presentación:

Se dispone de N individuos, con información sobre n variables. Análisis Cluster Se dispone de N individuos, con información sobre n variables. Queremos agruparlos en grupos de forma que los grupos estén constituidos por individuos semejantes siendo los grupos lo más distintos posible entre sí.

Procedimiento general del A. cluster 1 obtener un criterio de similaridad ( distancia) entre individuos 2 aplicar un algoritmo de clasificación Determinar (o escoger )una distancia grupo-individuo gupo-grupo Procedimiento secuencial de agrupación 3 representación gráfica del agrupamiento Dendograma

Dendograma

Distancia Dados dos individuos i y j identificados en el espacio de las variables como Wi y Wj Definimos la distancia entre i y j como una función d: (P.1)    d(i,j) > 0 (no negatividad) (P.2)    d(i,i) = 0                          (P.3)    d(i,j) = d(j,i) (simetría)    Y adicionalmente con las propiedades (MÉTRICAS)  (P.4)        d(i,j)< d(i,t) + d(j,t) (desigualdad triangular) (P.5)        d(i,j) > 0 " i ≠ j          Y si es ULTRAMÉTRICA:         (P.6) d(i,j) < max [ (d(i,t), d(j,t) ] (desigualdad triangular ultramétrica)                             

Distancias ( individuos) más habituales Euclidea ( E.cuadrática): de(i,j)=(Wi-Wj)’(Wi-Wj) Depende de las unidades Le afecta la correlación Euclidea Normalizada: des(i,j)=(Wi-Wj)’S-1(Wi-Wj) No depende de las unidades Mahalanobis dm(i,j)=(Wi-Wj)’V-1(Wi-Wj) No le afecta la correlación ( elimina la redundancia) Equivale a aplicar la distancia euclidea sobre la totalidad de las compenentes principales

Algoritmos jerárquicos de clasificación PASO 1 Formamos la partición inicial: P = { i1},{ i2 },...{ iN } considerando cada individuo como un cluster. PASO 2 Determinamos los dos clusters más próximos (de menor distancia) ii ,ij , y los agrupamos en uno solo. PASO 3 Formamos la partición: P = { i1},{ i2 },...{ ii  ij },...,{ iN } PASO 4 Repetimos los pasos 2 y 3 hasta obtener la partición final Pr= {W}

Método principales de A.Cluster Single Linkage ( distancia mínima como distancia entre los grupos) Es espacio contractivo Complete linkage ( distacia máxima como distancia entre los grupos) Es espacio dilatante ( expansivo) UPGM ( Centroide) (Distancia entre centroides) Método de Ward: en cada caso se considera la posibilidad de unir cada par de grupos y se opta por aquella que menos incremente la suma de cuadrados al unirse.