Cluster.

Slides:



Advertisements
Presentaciones similares
ANÁLISIS DE CONGLOMERADOS
Advertisements

Tema 6: Regresión lineal.
Tema 5: Asociación. 1. Introducción. 2. Tablas y gráficas bivariadas.
Cálculo de medias poblacionales con SPSS
U UNIVERSIDAD DE QUINTANA ROO
Lic. Cristian R. Arroyo López
Introducción En toda investigación, y antes de extraer conclusiones acerca de los objetivos e hipótesis planteados, es necesario llevar a cabo un análisis.
Master en Recursos Humanos
Estimación de los Errores de Muestreo Encuestas de Salud Reproductiva   RHS Usando SPSS 19.
4. Análisis de Correspondencias Múltiples
FRANCISCO JAVIER RODRÍGUEZ
CATALINA AGUDELO, HAIDY PAOLA, JULIETH PINO
Tema 3 Revisión de diversos métodos robustos aplicados en algunos problemas fotogramétricos.
ANALISIS DE COMPONENTES PRINCIPALES.
ANALISIS DE CONGLOMERADOS
Clustering (Agrupamiento)
ESTADISTICA PARA RELACIONES LABORALES
Medidas de Dispersión Estadística E.S.O.
Introducción al Análisis Cluster
FUNDAMENTOS DE DATA MINING Y SUS APLICACIONES N. QUEIPO, S. PINTOS COPYRIGHT 2000 CLASIFICACIÓN NO SUPERVISADA.
Tema 2: Métodos de ajuste
Estadística bidimensional
MEDIDAS DE CORRELACIÓN
La lógica de covarianza
Biograma Introducir datos en una matriz. Elegir método para máximos y mínimos. Calcular los máximos y mínimos observados. Límites.
ANALISIS DE DATOS CON EXCEL
Estadística aplicada al análisis financiero
ANÁLISIS DE CONGLOMERADOS
Tema 8: Análisis Multivariante. Conjunto de técnicas aplicables cuando se registran los valores de muchas variables (esencialmente numéricas, pero también.
Mt. Martín Moreyra Navarrete.
ANÁLISIS DE CONGLOMERADOS
Análisis de Conglomerados (Cluster Analysis)
Caso: Situación de las Comunidades Autónomas españolasen cuanto a indicadores de bienestar En el periódico “El País” del día 17 de enero de 2002 se publicó.
Estadística Descriptiva continuación
Carla Rodríguez Francisco Álvarez Métodos Cuantitativos Capitulo 9, SPSS para Windows.
CLASE 155 Medidas de dispersión.
Medidas de Dispersión.
Tema 2: Parámetros Estadísticos
DISTRIBUCION NORMAL Mario Briones L. MV, MSc 2005.
Elaboración de gráficas
FACILITADOR JOSE HERIBERTO CRUZ GARCÍA
Estadística La Estadística tiene por objeto recolectar, organizar, resumir, presentar y analizar datos relativos a un conjunto de objetos, personas, procesos,
Introducción La inferencia estadística es el procedimiento mediante el cual se llega a inferencias acerca de una población con base en los resultados obtenidos.
TABLAS DE FRECUENCIAS Una vez recopilados, tendremos un conjunto de datos que será necesario organizar para extraer información. Lo primero que se hace.
Herramientas básicas.
MEDIDAS DE DISPERSIÓN. La dispersión es la variación en un conjunto de datos que proporciona información adicional y permite juzgar la confiabilidad de.
Analisis exploratorio INGRID TATIANA RODRIGUEZ GUZMAN DIANA COSTANZA BERMUDEZ GORDILLO.
Límites y Continuidad.
RELACIÓN ENTRE VARIABLES
UNIDAD 1.- EVALUACIÓN DE DATOS ANALITICOS
COMPARACION DE MEDIAS Para comparar media utilizando la prueba T hay Ttres opciones diferentes utilizando contrastes de hipotesis sobre : PARA UNA MUESTRA.
coeficientes de correlación de
Estadísticos Asunto de Estado: Estadísticos. Estadísticos Los parámetros estadísticos nos permiten tener una idea global de la población, compararla con.
PARÁMETROS ESTADÍSTICOS
Análisis de los Datos Cuantitativos
Probabilidad y Estadística
CORRELACIÓN Y REGRESIÓN EMPLEANDO EXCEL
TRATAMIENTO DE DATOS CON SPSS MATERIA: INFORMÁTICA APLICADA A LA PSICOLOGÍA ALUMNA: ELMA AZUCENA MONROY AXLE.
Construcción de modelos con regresión y correlación
Medidas de dispersión IIIº Medio 2015.
Unidad 4 Análisis de los Datos.
Estadística descriptiva
Estadística descriptiva
MEDIDAS DE DISPERSIÓN Pedro Godoy Gómez. Miden qué tanto se dispersan las observaciones alrededor de su media. MEDIDAS DE DISPERSIÓN.
Estadística descriptiva
TAMAÑO DE LA MUESTRA. Para definir el tamaño de la muestra se debe tener en cuenta los recursos disponibles y las necesidades del plan de análisis, el.
Medidas de posición y dispersión IV medio
Yuly Vanessa Agudelo Jessy Carolina Buitrago Edwin Salazar Henao.
TEMA 7 ANÁLISIS DE LOS RESULTADOS TEMA 7 ANÁLISIS DE LOS RESULTADOS.
Alvaro Alfredo Bravo Dpto. de Matemáticas y Estadística Universidad de Nariño - Colombia METODOS ALEATORIOS.
Transcripción de la presentación:

Cluster

Ruta Estadísticas Análisis multivariado Análisis de Conglomerado Matriz X

Métodos de agrupación Distintas formas de medir la distancia

Análisis de Cluster con SPSS

Ruta: Analizar Clasificar Conglomerados Jerárquicos Ingrese la Matriz

1) Vamos a “Estadisticos”

Una vez que se realizo la selección Continuar

2) Vamos a “Gráficos”

Una vez que se realizo la selección Continuar

3) Vamos a “Método”

Permite transformar los valores generados por la medida de distancia. Se aplican una vez calculada la medida de distancia. Las opciones disponibles son: Valores absolutos, Cambiar el signo y Cambiar la escala al rango 0-1.

Permite estandarizar los datos, para los casos o las variables, antes de calcular las distancias. Puntuaciones Z: Estandarizados a puntuaciones Z, con media 0 y desviación típica 1. Rango -1 a 1: Cada valor del elemento que se tipifica se divide por el rango de los valores. Rango 0 a 1: Sustrae el valor mínimo de cada elemento que se tipifica y lo divide por el rango. Magnitud máxima de 1: Divide cada valor del elemento que se tipifica por el máximo de los valores. Media 1: Divide cada valor del elemento que se tipifica por la media de los valores. Desviación típica: Divide cada valor de la variable o caso por la desviación típica.

Opciones para Datos Binarios: Distancia euclídea. S e calcula a partir de una tabla 2*2 como SQRT(b+c), donde b y c representan las casillas diagonales correspondientes a los casos presentes en un elemento pero ausentes en el otro. Distancia euclídea al cuadrado. Se calcula como el número de casos discordantes. Su valor mínimo es 0 y no tiene límite superior. Diferencia de tamaño. Se trata de un índice de asimetría. Oscila de 0 a 1. Diferencia de configuración. Medida de disimilaridad para datos binarios que oscila de 0 a 1. Se calcula a partir de una tabla 2*2 como bc/(n**2), donde b y c representan las casillas diagonales correspondientes a los casos presentes en un elemento pero ausentes en el otro y n es el número total de observaciones. Varianza. Se calcula a partir de una tabla 2x2 como (b+c)/4n, donde b y c representan las casillas diagonales correspondientes a los casos presentes en un elemento pero ausentes en el otro y n es el número total de observaciones. Oscila de 0 a 1. Dispersión. Este índice de similaridad tiene un rango de -1 a 1. Forma. Esta medida de distancia tiene un rango entre 0 y 1 y penaliza la asimetría de las discordancias. Concordancia simple. Se trata de la razón de concordancias respecto al número total de valores. Se ofrece una ponderación igual a las concordancias y a las discordancias.

Correlación Phi de 4 puntos Correlación Phi de 4 puntos. Este índice es un análogo binario del coeficiente de correlación de Pearson. Varía entre -1 y 1. Lambda. Este índice es l a lambda de Goodman y Kruskal. Corresponde a la reducción proporcional del error (RPE o PRE) utilizando un elemento para pronosticar el otro (pronosticando en ambas direcciones). Los valores oscilan entre 0 y 1. D de Anderberg. Similar a lambda, este índice corresponde a l a reducción de e rror real utilizando un elemento para predecir el otro (predice en ambas direcciones). Los valores oscilan entre 0 y 1. Dice. Éste es un índice en el que no se toman en cuenta las ausencias conjuntas y donde las concordancias se ponderan doblemente. También se conoce como medida de Czekanowski o Sorensen. Hamann. Este índice es el número de c oncordancias menos el número de discordancias, dividido por el número total de elementos. Oscila de -1 1. Jaccard. Se trata de un índice en el que no se toman en cuenta las ausencias conjuntas. Se ofrece una ponderación igual a l as concordancias y a las discordancias. Se conoce también como razón de similaridad.

“Aceptar”

Método de K- Medias con e SPSS: Permite procesar un numero ilimitado de casos, pero solo permite utilizar un metodo de aglomeracion y requiere que se proponga previamente el numero de conglomerados que se desea obtener. Tambien se puede especificar los centros iniciales de los conglomerados si conoce de antemano dicha información.

Ruta: AnalizarClasificar Conglomerado de K medias

Se Ubican las variables numéricas que se quieran utilizar para la clasificación Permite elegir el numero de conglomerados. Por default esta seleccionado 2 pero se puede modificar a gusto.. Opcionalmente, se puede elegir una variable para identificar los casos en la tabla de resultados y en los gráficos. En “Métodos” tenemos la opcion de indicar si los centros de los conglomerados deben o no ser estimardos iterativamente: 1)Iterar y Clasificar: El método se encarga de estimar los centros iterativamente y de clasificar a los sujetos/casos con arreglo a los centroides estimados. 2) Se clasifica a los sujeto/casos en función de los centroides iniciales.

Las siguientes opciones sólo están disponibles si se selecciona el método ITERAR Y CLASIFICAR en el cuadro de diálogo principal. ITERACIONES MÁXIMAS. Limita el número de iteraciones en el algoritmo k-medias. Se detiene, incluso si no se ha satisfecho el criterio de convergencia. Está entre el 1 y el 999. CRITERIO DE CONVERGENCIA. Determina cuándo cesa la iteración. Debe ser mayor que 0 pero no mayor que 1. La iteración cesará si no mueve ninguno de los centros de los conglomerados en una distancia superior al 2% de la distancia menor entre cualquiera de los centros iniciales. USAR MEDIAS ACTUALIZADAS. Permite solicitar la actualización de los centros de los conglomerados tras la asignación de cada caso. Si no selecciona esta opción, los nuevos centros de los conglomerados se calcularán después de la asignación de todos los casos.