La descarga está en progreso. Por favor, espere

La descarga está en progreso. Por favor, espere

3. Análisis de Correspondencias Simples

Presentaciones similares


Presentación del tema: "3. Análisis de Correspondencias Simples"— Transcripción de la presentación:

1 3. Análisis de Correspondencias Simples
Estudio de tablas de contingencia, para juzgar objetos según un cierto número de criterios. Matriz de datos de orden (n*p):Tabla de doble entrada. Filas: n modalidades de la variable A. Columnas: p modalidades de la variable B. Intersección kij: frecuencia conjunta entre las modalidades i y j. Método: Simétrico con relación a líneas y columnas. Deberá permitir comparar las distribuciones de frecuencias.

2 Caso: Lugar de residencia de turistas y su edad
Estudio sobre la posible asociación entre la zona o lugar de residencia de los turistas en Tenerife y su edad agrupada en intervalos Datos: base turistas curso.sav. Información sobre 796 turistas a los que se ha realizado la encuesta. Se han elegido la edad en intervalos y lugar de residencia de los turistas en Tenerife. Se elaboró una tabla de contingencia. Como algunos pares de modalidades se repetían un número muy pequeño de veces, se agruparon: Los ocho intervalos de edad de la base de datos se redujeron a seis: * < de 24 anos * a 30 años * a 40 años * a 50 años * a 60 años * > 60 años El lugar de residencia se reduce a tres modalidades: * Puerto de la Cruz * Las Américas-Los Cristianos * Resto

3 Metodología: Análisis de correspondencias simple
Objetivo: Conocer el lugar de residencia de los turistas que se asocia con un intervalo de edad en mayor proporción que los demás. Detectar las características que más destacan en cada intervalo de edad y en cada lugar de residencia de los turistas. Reducir nº de caracteres relacionados a dimensiones independientes. Método: Obtener ejes factoriales que reducen la información original mediante nuevas variables estudiando la asociación entre modalidades fila y columna. Se parte de frecuencias relativas para comparar. En el espacio de las columnas: nube de n puntos i con coordenadas kij/ki. para j = 1, 2, .....p En el espacio de las filas: nube de p puntos j con coordenadas kij/k.j para i = 1, 2, n

4 Transformaciones en la matriz de datos
Iguales en ambos subespacios, llevando a transformaciones analíticas diferentes. p y n puntos de las nubes, situados en subespacios de p-1 y n-1 dimensiones. Centro de gravedad: media de perfiles de frecuencias afectados por sus masas

5 Tabla de contingencia Intervalo de edad: Los turistas de < 24 años se alojaron mayoritariamente en Las Américas-Los Cristianos. El menor número de turistas tienen una edad > 60 años y que se alojaron en el Resto de Lugares. La edad más frecuente es [30-40). Lugar de Residencia: Las Américas-los Cristianos alojan los 95 turistas de menos de 24 años, que representan la mayor frecuencia conjunta de la muestra. Los 11 turistas alojados en el Resto de Lugares tienen una edad >60 años los que representan el grupo de menor frecuencia conjunta. En cuanto a la frecuencia marginal, Las Américas-Los Cristianos es la zona más frecuente de residencia.

6 SPSS: Introducir los datos
Poner en las dos primeras columnas los pares de rangos posibles para las columnas (Lugar de residencia: 1 a 3) y las filas (Intervalos de edad: 1 a 6) y, en la tercera, la frecuencia de cada par de rangos. Se puede poner etiquetas al valor de cada rango. Utilizar como variable de ponderación las frecuencias mediante los comandos del menú: Datos, Ponderar casos

7 Distancia Chi-cuadrado
Propiedades: Equivalencia distribucional Permite agregar dos modalidades de idénticas frecuencias de una variable, en una nueva modalidad afectada por la suma de sus masas, sin cambiar nada, ni en las distancias entre modalidades de esta variable o de la otra. Relaciones de transición Ligan gráficamente las dos variables representadas en líneas y columnas.

8 Obtención de los ejes factoriales
Analizar Reducción de datos Análisis de correspondencias Dos transformaciones: en el perfil de líneas y de las columnas. Se toma como columnas la dimensión más pequeña. Maximizar la suma ponderada de los cuadrados de las proyecciones sobre el eje: Matriz a diagonalizar Descartado el valor propio trivial igual a 1 y su vector propio asociado, retenemos los p-1 valores propios no nulos y sus vectores propios asociados. Obtendremos como máximo p-1 ejes factoriales.

9 Normalización Canónica: Para examinar conjuntamente las diferencias o similitudes entre dos variables. Principal: Examinar las diferencias o similitudes entre categorías de variables, pero por separado. Principal por filas: Averiguar cómo difieren entre sí las distintas categorías de la variable fila. Principal por columnas: Averiguar cómo difieren entre sí las distintas categorías de la variable columna. Las soluciones son equivalentes en términos de ajuste (valores singulares), inercia y contribuciones, pero las puntuaciones por filas y columnas son diferentes.

10 Estadísticos Dependiendo de la opción elegida en la normalización se podrá demandar el gráfico conjunto o no. Si se ha elegido la normalización canónica: Gráfico conjunto. Si se ha elegido la principal: Gráficos por separado de filas y columnas.

11 Análisis Valores propios. Inercia total
Coordenadas: Proyecciones de los puntos filas en los ejes factoriales Contribuciones a la inercia de puntos a varianza explicada en cada eje Correlaciones: Contribución de dimensiones a la inercia de cada punto

12 Interpretación de representación simultánea
Filas (columnas) con estructura similar, situación próxima en el plano. Cercanía punto fila i y columna j: interpretar si están alejados del origen. Línea con perfil próximo al medio, se encontrará próxima al origen. Buscar los puntos de mayor Contribución absoluta de las inercias. Se separa los que se proyectan del lado positivo de los del lado negativo. Estudiar la calidad de representación (correlación) de los puntos. Correlación pequeña: tiene un papel importante sobre otro eje. Se buscan aquellos puntos i(j) que si bien no contribuyen a la formación del factor, sí se encuentran bien representados (correlación alta).

13 Resultados AC 1 Perfil fila
Proporción de modalidades de la variable fila en cada modalidad de la variable columna. Proporción de edades en cada zona. El 66% de los turistas de < 24 años se alojaron en Las Américas-Los Cristianos, mayoritaria en cada estrato de edad, con un 51,6% de turistas de la muestra alojados en ella.

14 Resultados AC 2 Perfil columna
De 30 a 40 años es la edad más frecuente (23%), repitiéndose esta situación entre los turistas alojados en el Puerto de la Cruz (23.8%) y los alojados en el Resto de Lugares (29%). Sin embargo, entre los turistas alojados en Las Américas-Los Cristianos, el intervalo de edad modal es los jóvenes de menos de 24 años (23.1%).

15 Resultados AC 3 Valor propio o singular: medida de asociación para cada una de las dimensiones entre las variables fila y columna, donde valores altos indican la existencia de una fuerte relación Inercia: Cuadrado del valor propio. Varianza explicada Inercia global Chi cuadrado: Prueba de independencia. 2 = 796*0,041 = 32,953. Se rechaza la hipótesis de independencia entre las modalidades.

16 ANÁLISIS Analisis en Rp: Examen de los puntos fila
COORDENADAS :Puntos fila Proyecciones de los puntos filas en los ejes factoriales. Mientras más alejados del origen sean los valores, mejor representadas estarán las filas en cada uno de los ejes. CONTRIBUCIÓN A LA INERCIA O ABSOLUTAS: Las de cada uno de los puntos filas a la inercia explicada en cada eje. Se busca conocer los elementos responsables de la construcción de cada eje. CORRELACIÓN O CONTRIBUCIÓN RELATIVA: La contribución de las dimensiones a la inercia de cada punto fila es la correlación existente entre cada uno de los caracteres y los nuevos ejes. Coseno del ángulo entre el eje y el vector uniendo el centro de gravedad de la nube al punto i. Analisis en Rp: Examen de los puntos columna. Igual

17 Resultados AC 3 Analisis en Rp: Examen de los puntos fila

18 Resultados AC 4 Analisis en Rn: Examen de los puntos columna

19 GRÁFICO

20 Interpretación de resultados
Eje 1  Puntuación: Lado positivo: < 24 años, años, > 60 años. Américas-Cristianos. Lado negativo: 31 a 40 años, 41 a 50 y 51 a 60. Resto de Lugares y Puerto de la Cruz muy ligeramente. Contribución a la inercia: < 24 años, y años. Américas-Cristianos y Resto de Lugares. Correlaciones: Todas las edades. Américas-Cristianos y Resto de Lugares. Eje 2 Puntuación: Lado positivo: > de 60 años, 25 a 30 y 31 a 40 años. Puerto de la Cruz. Lado negativo: < 24 años, y años. Américas-Cristianos y Resto de Lugares. Contribución de puntos a la inercia de la dimensión: años y < 24 años. Puerto de la Cruz. Contribución de la dimensión a la inercia del punto: años. Puerto de la Cruz.

21 CONCLUSIONES Existe asociación entre las dos variables, por lo que será posible el hacer corresponder las modalidades de una con las de la otra. Los turistas con una edad mayor de los 60 años se alojan preferentemente en la zona del Puerto de la Cruz, mientras que los menores de 30 años lo hacen en Las Américas-Los Cristianos. Los turistas con una edad entre los 30 y 50 años tienen una tendencia a alojarse en el grupo de zonas etiquetadas con el nombre de Resto de Lugares.


Descargar ppt "3. Análisis de Correspondencias Simples"

Presentaciones similares


Anuncios Google