3. Análisis de Correspondencias Simples

Slides:



Advertisements
Presentaciones similares
Análisis de Correspondencia
Advertisements

ANALISIS PARAMÉTRICOS
Tema 5: Asociación. 1. Introducción. 2. Tablas y gráficas bivariadas.
Tema.11. Principales modelos de distribución de probabilidad en Psicología: Variables discretas: binomial y Poisson. Variables continuas: normal, chi.
Tema 22: Análisis de tablas de contingencia Prueba c2 como medida de asociación y como prueba de contraste. Coeficientes derivados de c2. Interpretación.
GRÁFICOS EN SPSS UTILIDADES Y PROCEDIMIENTO DE CREACIÓN
Master en Recursos Humanos
Pronósticos, Series de Tiempo y Regresión
4. Análisis de Correspondencias Múltiples
Contraste de Hipótesis ETSITGC Madrid Unidad Docente de Matemáticas.
ESTRATEGIAS Y DISEÑOS AVANZADOS DE INVESTIGACIÓN
TABLAS DE CONTINGENCIA
Estadística Descriptiva
Regresión y correlación
ANÁLISIS DISCRIMINANTE
Bioestadística Aplicada I
UNIVERSIDAD DE LOS ANDES FACULTAD DE MEDICINA CENTRO DE INVESTIGACIONES PSICOLÓGICAS.
ANÁLISIS DE CORRESPONDENCIAS SIMPLE
Distribuciones de frecuencias bidimensionales
CURSO DE ESTADÍSTICA BÁSICA
1º BACHILLERATO | Matemáticas © Oxford University Press España, S.A Hacer clic en la pantalla para avanzar VARIABLE ESTADÍSTICA UNIDIMENSIONAL Población:
Estadística bidimensional
Análisis no paramétricos
Distribuciones bidimensionales. Tablas de contingencia
DISEÑOS DE COMPOSICION CENTRAL
ANALISIS DE DATOS CON EXCEL
ELEMENTOS DE ESTADÍSTICA BIVARIANTE
Clases 4 Pruebas de Hipótesis
ANALISIS DE DATOS CATEGORICOS
Mt. Martín Moreyra Navarrete.
ANÁLISIS DE CONGLOMERADOS
Caso: Situación de las Comunidades Autónomas españolasen cuanto a indicadores de bienestar En el periódico “El País” del día 17 de enero de 2002 se publicó.
Los datos que se dan a continuación corresponden a los pesos en Kg
Análisis de Datos.
Inferencias con datos categóricos
Departamento de Física
ESTADÍSTICAS DESCRIPTIVA
Métodos de calibración: regresión y correlación
Introducción a la Inferencia Estadística
ESTADÍSTICA BIDIMENSIONAL
Estadística bidimensional
Herramientas básicas.
Análisis de correspondencia canónica (CCA)
Dr. D. Ángel M. Ramos Domínguez Director-Profesor del Curso
Medidas de asociación entre dos variables
ANÁLISIS MULTIVARIANTE
Posicionamiento del mercado gallego de Bebidas Refrescantes: La necesidad de las empresas de adaptarse a las peculiaridades del mercado Alberto García.
Análisis de correspondencia simple SPSS
Regresión lineal múltiple
1 ESTRATEGIAS Y DISEÑOS AVANZADOS DE INVESTIGACIÓN SOCIAL Titular: Agustín Salvia MÓDULO 2 A Análisis de Tablas de Contingencia y Coeficientes de Asociación.
PRUEBAS ESTADISTICAS NO PARAMETRICAS
Análisis de los Datos Cuantitativos
ESTADÍSTICA UNIDIMENSIONAL
Herramientas de Mejora de la Calidad
Estadística Reporte Ejecutivo
CORRELACIÓN Y REGRESIÓN EMPLEANDO EXCEL
CONTRASTES NO PARAMÉTRICOS
Construcción de modelos con regresión y correlación
Ejercicios Dado un conjunto de datos, aplicar el Criterio de Fourier para desechar los posibles valores atípicos.
Por: Agustín Audor Julian Tole
Tema 2: Estadística bidimensional
Capitulo 1 Análisis descriptivo
ESTADISTICA DESCRIPTIVA BIVARIADA MEDIDAS DE RELACIÓN ENTRE VARIABLES CUANTITATIVAS.
Estadística descriptiva
Introducción a la Estadística Inferencial con SPSS Juan José Igartua Perosanz Universidad de Salamanca
PRUEBA DE SIGNIFICANCIA
Medidas de tendencia central
TEMA 7 ANÁLISIS DE LOS RESULTADOS TEMA 7 ANÁLISIS DE LOS RESULTADOS.
PRUEBA DE SIGNIFICANCIA
Evaluando los promedios de grupos distintos UNIDAD 7 1.
Transcripción de la presentación:

3. Análisis de Correspondencias Simples Estudio de tablas de contingencia, para juzgar objetos según un cierto número de criterios. Matriz de datos de orden (n*p):Tabla de doble entrada. Filas: n modalidades de la variable A. Columnas: p modalidades de la variable B. Intersección kij: frecuencia conjunta entre las modalidades i y j. Método: Simétrico con relación a líneas y columnas. Deberá permitir comparar las distribuciones de frecuencias.

Caso: Lugar de residencia de turistas y su edad Estudio sobre la posible asociación entre la zona o lugar de residencia de los turistas en Tenerife y su edad agrupada en intervalos Datos: base turistas curso.sav. Información sobre 796 turistas a los que se ha realizado la encuesta. Se han elegido la edad en intervalos y lugar de residencia de los turistas en Tenerife. Se elaboró una tabla de contingencia. Como algunos pares de modalidades se repetían un número muy pequeño de veces, se agruparon: Los ocho intervalos de edad de la base de datos se redujeron a seis: * < de 24 anos * 24 a 30 años * 31 a 40 años * 41 a 50 años * 51 a 60 años * > 60 años El lugar de residencia se reduce a tres modalidades: * Puerto de la Cruz * Las Américas-Los Cristianos * Resto

Metodología: Análisis de correspondencias simple Objetivo: Conocer el lugar de residencia de los turistas que se asocia con un intervalo de edad en mayor proporción que los demás. Detectar las características que más destacan en cada intervalo de edad y en cada lugar de residencia de los turistas. Reducir nº de caracteres relacionados a dimensiones independientes. Método: Obtener ejes factoriales que reducen la información original mediante nuevas variables estudiando la asociación entre modalidades fila y columna. Se parte de frecuencias relativas para comparar. En el espacio de las columnas: nube de n puntos i con coordenadas kij/ki. para j = 1, 2, .....p En el espacio de las filas: nube de p puntos j con coordenadas kij/k.j para i = 1, 2, ......n

Transformaciones en la matriz de datos Iguales en ambos subespacios, llevando a transformaciones analíticas diferentes. p y n puntos de las nubes, situados en subespacios de p-1 y n-1 dimensiones. Centro de gravedad: media de perfiles de frecuencias afectados por sus masas

Tabla de contingencia Intervalo de edad: Los turistas de < 24 años se alojaron mayoritariamente en Las Américas-Los Cristianos. El menor número de turistas tienen una edad > 60 años y que se alojaron en el Resto de Lugares. La edad más frecuente es [30-40). Lugar de Residencia: Las Américas-los Cristianos alojan los 95 turistas de menos de 24 años, que representan la mayor frecuencia conjunta de la muestra. Los 11 turistas alojados en el Resto de Lugares tienen una edad >60 años los que representan el grupo de menor frecuencia conjunta. En cuanto a la frecuencia marginal, Las Américas-Los Cristianos es la zona más frecuente de residencia.

SPSS: Introducir los datos Poner en las dos primeras columnas los pares de rangos posibles para las columnas (Lugar de residencia: 1 a 3) y las filas (Intervalos de edad: 1 a 6) y, en la tercera, la frecuencia de cada par de rangos. Se puede poner etiquetas al valor de cada rango. Utilizar como variable de ponderación las frecuencias mediante los comandos del menú: Datos, Ponderar casos

Distancia Chi-cuadrado Propiedades: Equivalencia distribucional Permite agregar dos modalidades de idénticas frecuencias de una variable, en una nueva modalidad afectada por la suma de sus masas, sin cambiar nada, ni en las distancias entre modalidades de esta variable o de la otra. Relaciones de transición Ligan gráficamente las dos variables representadas en líneas y columnas.

Obtención de los ejes factoriales Analizar Reducción de datos Análisis de correspondencias Dos transformaciones: en el perfil de líneas y de las columnas. Se toma como columnas la dimensión más pequeña. Maximizar la suma ponderada de los cuadrados de las proyecciones sobre el eje: Matriz a diagonalizar Descartado el valor propio trivial igual a 1 y su vector propio asociado, retenemos los p-1 valores propios no nulos y sus vectores propios asociados. Obtendremos como máximo p-1 ejes factoriales.

Normalización Canónica: Para examinar conjuntamente las diferencias o similitudes entre dos variables. Principal: Examinar las diferencias o similitudes entre categorías de variables, pero por separado. Principal por filas: Averiguar cómo difieren entre sí las distintas categorías de la variable fila. Principal por columnas: Averiguar cómo difieren entre sí las distintas categorías de la variable columna. Las soluciones son equivalentes en términos de ajuste (valores singulares), inercia y contribuciones, pero las puntuaciones por filas y columnas son diferentes.

Estadísticos Dependiendo de la opción elegida en la normalización se podrá demandar el gráfico conjunto o no. Si se ha elegido la normalización canónica: Gráfico conjunto. Si se ha elegido la principal: Gráficos por separado de filas y columnas.

Análisis Valores propios. Inercia total Coordenadas: Proyecciones de los puntos filas en los ejes factoriales Contribuciones a la inercia de puntos a varianza explicada en cada eje Correlaciones: Contribución de dimensiones a la inercia de cada punto

Interpretación de representación simultánea Filas (columnas) con estructura similar, situación próxima en el plano. Cercanía punto fila i y columna j: interpretar si están alejados del origen. Línea con perfil próximo al medio, se encontrará próxima al origen. Buscar los puntos de mayor Contribución absoluta de las inercias. Se separa los que se proyectan del lado positivo de los del lado negativo. Estudiar la calidad de representación (correlación) de los puntos. Correlación pequeña: tiene un papel importante sobre otro eje. Se buscan aquellos puntos i(j) que si bien no contribuyen a la formación del factor, sí se encuentran bien representados (correlación alta).

Resultados AC 1 Perfil fila Proporción de modalidades de la variable fila en cada modalidad de la variable columna. Proporción de edades en cada zona. El 66% de los turistas de < 24 años se alojaron en Las Américas-Los Cristianos, mayoritaria en cada estrato de edad, con un 51,6% de turistas de la muestra alojados en ella.

Resultados AC 2 Perfil columna De 30 a 40 años es la edad más frecuente (23%), repitiéndose esta situación entre los turistas alojados en el Puerto de la Cruz (23.8%) y los alojados en el Resto de Lugares (29%). Sin embargo, entre los turistas alojados en Las Américas-Los Cristianos, el intervalo de edad modal es los jóvenes de menos de 24 años (23.1%).

Resultados AC 3 Valor propio o singular: medida de asociación para cada una de las dimensiones entre las variables fila y columna, donde valores altos indican la existencia de una fuerte relación Inercia: Cuadrado del valor propio. Varianza explicada Inercia global Chi cuadrado: Prueba de independencia. 2 = 796*0,041 = 32,953. Se rechaza la hipótesis de independencia entre las modalidades.

ANÁLISIS Analisis en Rp: Examen de los puntos fila COORDENADAS :Puntos fila Proyecciones de los puntos filas en los ejes factoriales. Mientras más alejados del origen sean los valores, mejor representadas estarán las filas en cada uno de los ejes. CONTRIBUCIÓN A LA INERCIA O ABSOLUTAS: Las de cada uno de los puntos filas a la inercia explicada en cada eje. Se busca conocer los elementos responsables de la construcción de cada eje. CORRELACIÓN O CONTRIBUCIÓN RELATIVA: La contribución de las dimensiones a la inercia de cada punto fila es la correlación existente entre cada uno de los caracteres y los nuevos ejes. Coseno del ángulo entre el eje y el vector uniendo el centro de gravedad de la nube al punto i. Analisis en Rp: Examen de los puntos columna. Igual

Resultados AC 3 Analisis en Rp: Examen de los puntos fila

Resultados AC 4 Analisis en Rn: Examen de los puntos columna

GRÁFICO

Interpretación de resultados Eje 1  Puntuación: Lado positivo: < 24 años, 24-30 años, > 60 años. Américas-Cristianos. Lado negativo: 31 a 40 años, 41 a 50 y 51 a 60. Resto de Lugares y Puerto de la Cruz muy ligeramente. Contribución a la inercia: < 24 años, 31-40 y 41-50 años. Américas-Cristianos y Resto de Lugares. Correlaciones: Todas las edades. Américas-Cristianos y Resto de Lugares. Eje 2 Puntuación: Lado positivo: > de 60 años, 25 a 30 y 31 a 40 años. Puerto de la Cruz. Lado negativo: < 24 años, 41-50 y 51-60 años. Américas-Cristianos y Resto de Lugares. Contribución de puntos a la inercia de la dimensión: 41-50 años y < 24 años. Puerto de la Cruz. Contribución de la dimensión a la inercia del punto: 41-50 años. Puerto de la Cruz.

CONCLUSIONES Existe asociación entre las dos variables, por lo que será posible el hacer corresponder las modalidades de una con las de la otra. Los turistas con una edad mayor de los 60 años se alojan preferentemente en la zona del Puerto de la Cruz, mientras que los menores de 30 años lo hacen en Las Américas-Los Cristianos. Los turistas con una edad entre los 30 y 50 años tienen una tendencia a alojarse en el grupo de zonas etiquetadas con el nombre de Resto de Lugares.