Cluster by mixtures. The Trace criteria (K-means)

Slides:



Advertisements
Presentaciones similares
¿ Que es una muestra?.
Advertisements

Tema 6: Regresión lineal.
Tema. 6. Medidas de forma y valores atípicos. Asimetría y curtosis
Objetivo El conocimiento de la distribución de una determinada variable en la población de personas sanas y en la población de personas afectadas por una.
UNIVERSIDAD AUSTRAL DE CHILE
ANÁLISIS EXPLORATORIO DE DATOS
Bivariadas y Multivariadas
UNIVERSIDAD AUTÓNOMA DEL CARIBE
PROCEDIMIENTO DE RESOLUCIÓN GRÁFICA PARA EL PROBLEMA DE PROGRAMACIÓN LINEAL EN DOS VARIABLES EJEMPLO 7 _________________________________ Resolución Gráfica.
KRIGING.
Modelado y simulación en Ingeniería Química. Manuel Rodríguez
Prof. Ramón Garduño Juárez Modelado Molecular Diseño de Fármacos
PROGRAMACION DE ESTRUCTURAS DE DATOS
Capitulo 10: La metodología Box-Jenkins
ALGUNOS CONCEPTOS PREVIOS
ANÁLISIS DISCRIMINANTE
Muestreo Introducción Suma muestral Media muestral
ESCUELA SUPERIOR POLITÉCNICA DEL LITORAL
Estadística Descriptiva: 4. Correlación y Regresión Lineal
Tema 2: Métodos de ajuste
La lógica de covarianza
Técnicas multivariantes:
Análisis Discriminante
Estadística aplicada al análisis financiero
VARIABLE ALEATORIA Y DISTRIBUCION DE PROBABILIDAD
3. Funciones discriminantes para la f.d.p normal.
Vectores Aleatorios 1 Distribución conjunta de un vector aleatorio
Análisis de Conglomerados (Cluster Analysis)
Caso: Situación de las Comunidades Autónomas españolasen cuanto a indicadores de bienestar En el periódico “El País” del día 17 de enero de 2002 se publicó.
Probabilidad y Estadística Inferencia Estadística Se sabe que si cada variable sigue una densidad normal con  y   entonces sigue una ley de densidad.
Unidad V: Estimación de
ANALISIS DE FRECUENCIA EN HIDROLOGIA (2)
(Métodos de aleatorización)
Florence Nightingale Transformaciones univariantes La asimetría y linealidad de las relaciones mejora con frecuencia al transformar las variables.
3. Análisis de Correspondencias Simples
Capítulo 7 Estimación de Parámetros Estadística Computacional
A NALISIS F ACTORIAL Capitulo 15 spss para windows.
Titular: Agustín Salvia
Introducción a la Inferencia Estadística
Capacidad de Proceso.
Método para evaluar valores y cualidades
Análisis de correspondencia canónica (CCA)
27 de octubre 2005 Creación de modelos en ecología y gestión de recursos naturales Problemática ganadera Por: Stefano Montanari.
ESTRATEGIAS Y DISEÑOS AVANZADOS DE INVESTIGACIÓN SOCIAL
2. DISTRIBUCIÓN NORMAL MULTIVARIANTE Introducción Normal bivariante
6. ANÁLISIS DISCRIMINANTE
Departamento de Salud Pública Dra. Laura Moreno Altamirano
Sabemos reconocerlas, y calcularlas como soluciones de sistemas de ecuaciones, o de desigualdades Buscamos métodos de cálculo generales y eficientes Problemas.

Introducción al AM Daniel Peña.
Pruebas de hipótesis.
Titular: Agustín Salvia
INTRODUCCIÓN A LOS MÉTODOS DE MUESTREO
Nombre: Fabian Andres Robayo Quinero Fecha: 14/06/2015
Taller 2 Reflexiones sobre Metodología Cuantitativa: Potencial de la comparación de muestras Germán Fromm R.
Análisis de los Datos Cuantitativos
INVESTIGACION OPERATIVA
PLANES DE MUESTREO Y GRAFICAS DE CONTROL
REPASO DE ESTADISTICA Supóngase que aplicamos un cuestionario de nueve preguntas a un grupo de 30 alumnos y que sus resultados fueran los siguientes: 4.
Septiembre 2009 Mtra. Laura Myriam Franco Sánchez.
INVESTIGACION OPERATIVA 1 SOMOS LO QUE SOMOS Método Grafico La solución de un modelo lineal muestra siempre un conjunto factible delimitado por las restricciones.
Unidad 4 Análisis de los Datos.
Muestreo Probabilístico
Capítulo 10 Análisis de los datos.
20. Comparación de promedios entre grupos Módulo IV: Análisis de datos numéricos Análisis de Datos Aplicado a la Investigación Científica
Pruebas paramétricas y no paramétricas
1 Tema 8. Diseños evaluativos de alta intervención TALLER: DISEÑO Y EVALUACIÓN DE PROGRAMAS XIV CONGRESO DE METODOLOGÍA DE LAS CIENCIAS SOCIALES Y DE LA.
19. Prueba de hipótesis para promedios Módulo IV: Análisis de datos numéricos Análisis de Datos Aplicado a la Investigación Científica
Viviana Acosta Estadística II. Que es Es una distribución de probabilidad que surge del problema de estimar la media de una población normalmente distribuida.
Evaluando los promedios de grupos distintos UNIDAD 7 1.
Transcripción de la presentación:

Cluster by mixtures

The Trace criteria (K-means)

Equal variances: The determinant

General situation:

Mixture estimation

The EM algorithm

Métodos de Proyección(*) Idea central: buscar direcciones de proyección que muestren la heterogeneidad de una muestra. Proyectar los datos y buscar grupos sobre las proyecciones “Cluster Identification using Projections” * Peña, D. y Prieto, J. (2001). “Cluster Identification using Projections” The Journal of American Statistical Association, 96, 456, , 2001

Heterogeneidad ¿Cómo encontrar direcciones que muestren la heterogeneidad?

Heterogeneidad univariante Llamemos = A la variabilidad de una variable (la j) respecto a su media

Kurtosis, para la normal =3 Coef. Kurtosis =12

Coef. Kurtosis= 1.38

Resultado principal Si los datos han sido generados por dos normales multivariantes con la misma matriz de varianzas, la dirección que minimiza la kurtosis es la dirección optima de Fisher para la discriminación cuando sabemos que hay dos poblaciones normales.

Puede demostrarse que si queremos alta separación en la proyeccion de dos distribuciones arbitrarias, medida por

Conclusión Si los datos han sido generados por dos normales multivariantes con la misma matriz de varianzas minimizando la kurtosis obtenemos la dirección optima de Fisher para la discriminación cuando sabemos que hay dos poblaciones normales.

Metodo de Proyeccion (PP)

Exploracion de las direcciones

Ejemplo Ruspini

Comportamiento del procedimiento

Algunas conclusiones Buscar clusters en proyecciones 1.Evita la maldición de la dimensión 2.Es muy eficiente en dimensión alta 3.Es óptimo para mezclas de normales con la misma varianza 4.Asegura alta capacidad de separación lineal para cualquier distribución

Las direcciones mejores de separación son interesantes en si mismas para reducir el número de variables

Conclusiones generales Discriminación y cluster son problemas muy relacionados con la misma solución óptima en casos simples: La mejor direccion de discriminación, en el sentido de Fisher, es la mejor dirección para hacer clusters, en el sentido de minimizar la kurtosis de los datos proyectados