La descarga está en progreso. Por favor, espere

La descarga está en progreso. Por favor, espere

2. Análisis de Componentes Principales

Presentaciones similares


Presentación del tema: "2. Análisis de Componentes Principales"— Transcripción de la presentación:

1 2. Análisis de Componentes Principales
Objetivo: Transformar un conjunto de variables en un nuevo conjunto, componentes principales, incorrelacionadas entre sí. Se consigue una representación simplificada, más sencilla y fácil de ver. Metodología: Los datos se presentan en una tabla rectangular con n líneas (individuos) y p columnas (variables) (matriz R, nxp). Puede ser disimétrica y con variables heterogéneas. Hay dos espacios: Rp : n individuos con los valores que toman para cada una de las p variables. Rn : p variables para cada individuo. Finalidad: Buscar un subespacio Rq, q<p que contenga la mayor cantidad posible de información de la nube primitiva, y que mejor se ajuste a la nube de puntos y la deforme lo menos posible. El criterio de ajuste es el de mínimos cuadrados. Se obtendrán nuevas variables, combinaciones lineales de las variables originales llamadas factores o componentes.

2 Gráficamente: ui es el vector unitario o propio y zi es la proyección de xi en Fi. Como medida de la cantidad de información incorporada en una componente se utiliza su varianza. Cuanto mayor sea, mayor es la información incorporada a dicha componente. La primera componente será la de mayor varianza. Para obtener los factores o componentes que diferencian al máximo a los individuos entre sí, medidos a través de caracteres métricos, la extracción se realiza sobre variables tipificadas, con matriz X, para evitar problemas de escala. La suma de las varianzas es igual a p, ya que la de cada una de ellas es igual a 1 y habrá tantas componentes como número de variables originales. Mientras más correlacionadas estén las variables originales entre sí, más alta será la variabilidad que se pueda explicar con menos componentes. Si existiera incorrelación, el ACP carecería de sentido, ya que las variables originales y las componentes o nuevas variables coincidirían.

3 Cálculo de medias y desviaciones típicas
MATRIZ DE DATOS Cálculo de medias y desviaciones típicas X: MATRIZ DE DATOS TIPIFICADOS R =X´X MATRIZ DE CORRELACIONES Diagonalización de R, cálculo de valores propios, varianza explicada y correlaciones COMPONENTES PRINCIPALES

4 Resumen Las componentes principales son combinaciones lineales de las variables originales. Los coeficientes de las combinaciones lineales son los elementos de los vectores característicos asociados a la matriz de covarianzas de las variables originales. Por tanto, la obtención de componentes principales es un caso típico de cálculo de raíces y vectores característicos de una matriz simétrica. La primera componente se asocia a la mayor raíz característica a que va asociada. Si se tipifican las variables originales, su proporción de variabilidad total captada por una componente es igual a su raíz característica dividida por el número de variables originales. La correlación entre una componente y una variable original se determina con la raíz característica de la componente y el correspondiente elemento del vector característico asociado, si las variables originales están tipificadas

5 CASO: Posicionamiento de turistas en Tenerife
Objetivo: Posicionamiento del producto turístico de Tenerife según nacionalidades. Metodología: Cuestionario: Fichero base turistas curso.sav. Caso de ACP: Se han elegido noches, nº visitas, nº personas, gasto y edad Se crea una nueva variable: Gasto/persona/noche. Se obtienen las medianas por nacionalidad para las variables.

6 Datos. Medianas Tabla de datos:
Nacionalidad Nº Noches Nº visitas anteriores Gasto noche/persona Edad Sexo Alemana 14,00 ,00 76,6290 42,00 1,00 Austriaca 7,00 35,7452 33,00 Belga 46,2028 35,00 Británica 2,00 37,5633 39,00 Española 85,8589 31,00 Europa exc 41,7811 24,50 1,50 Finlandesa 32,00 50,00 46,9541 73,00 Francesa 75,1265 38,00 Holandesa 18,9410 26,00 Italiana 72,9800 28,00 R. América 29,00 19,1990 22,50 R. Europa 89,0786 34,00 R. mundo 6,00 117,9486 30,00 Sueca 123,5552 Suiza 80,3639 37,00 Total 64,3942 Nacionalidad Nº Noches Nº visitas anteriores Gasto noche/persona Edad Sexo Alemana 14,00 ,00 76,6290 42,00 1,00 Austriaca 7,00 35,7452 33,00 Belga 46,2028 35,00 Británica 2,00 37,5633 39,00 Española 85,8589 31,00 Europa exc 41,7811 24,50 1,50 Finlandesa 32,00 50,00 46,9541 73,00 Francesa 75,1265 38,00 Holandesa 18,9410 26,00 Italiana 72,9800 28,00 R. América 29,00 19,1990 22,50 R. Europa 89,0786 34,00 R. mundo 6,00 117,9486 30,00 Sueca 123,5552 Suiza 80,3639 37,00 Total 64,3942 Datos. Medianas Tabla de datos: Matriz con 15 filas, correspondientes a las nacionalidades, y 4 columnas, correspondientes a las 4 variables. Dentro, medianas

7 SPSS versión 17.0 para windows
Analizar Reducción de Dimensiones Factor

8 Elección del numero de ejes
Criterio de la media aritmética: Se seleccionan las componentes cuya varianza (valor propio) o inercia asociada a cada componente, exceda de la media de las raíces características. Por tanto, se debe verificar que Si las variables originales están tipificadas, , por lo que la media de la inercia es igual a 1. Se retendrán los factores cuya inercia sea mayor que 1.

9 Resultados ACP 1 Estadísticos descriptivos más importantes de las variables utilizadas El perfil promedio de los turistas de la muestra tiene un estancia promedio de 11 o 12 días, han visitado con anterioridad la isla entre 3 y 4 ocasiones, el gasto persona/día de sus vacaciones ha sido de 64,53€, la edad es aproximadamente 35 años. La variable con mayor grado de dispersión relativa es el nº de visitas anteriores (357%).

10 Resultados ACP 2 Matriz de coeficientes de correlación para todos los pares de variables originales. Niveles de significación unilaterales de cada uno de los coeficientes. Para un nivel del 5% de significación, resultaron significativos 4 de los 6 (67%), porcentaje de índices de correlación adecuado para el análisis.

11 Resultados ACP 3 La adecuación de los datos al análisis factorial de componentes principales se contrasta mediante KMO y prueba de Bartlett

12 Resultados ACP 4 KMO: Estadístico de prueba de la hipótesis de que las correlaciones parciales entre las variables son pequeñas. Indica la proporción de varianza de las variables originales que es común, y que podría ser explicada por factores subyacentes. Valores cercanos a 1: un análisis factorial puede ser útil para los datos. Valores menores de 0,5: los resultados probablemente no sean muy útiles. KMO = 0,6: Los datos muestran ser adecuados para el análisis ACP. rij : coeficiente de correlación lineal de Pearson entre las variables i,j aij: coeficiente de correlación parcial entre las variables i,j Prueba de esferidad de Bartlett: Indica si la matriz de correlaciones es una matriz identidad, por lo que que las variables no están relacionadas Hay evidencia suficiente para rechazar que la matriz de correlaciones es una matriz identidad. Existe un cierto nivel de relación entre las variables.

13 Resultados ACP 5 Covarianzas y correlaciones parciales negativas. Índice de las correlaciones no debidas a los factores. Valores pequeños: las variables están relativamente libres de correlaciones no explicadas. La mayoría de los valores fuera de la diagonal principal deberían ser muy pequeños (próximos a cero). En nuestro caso, parece existir una parte importante de las correlaciones entre las variables que los factores extraídos no consiguen explicar. Elementos de la diagonal principal de la matriz de correlación anti-imagen: medida de adecuación muestral para cada variable. Valores inferiores a 0,5: Las variables no se ajustan a la estructura de las otras. Deberíamos eliminarlas del análisis. En nuestro caso todas las variables presentan una medida de adecuación muestral superior a 0,5.

14 Resultados ACP 6 Indican la cantidad de varianza de cada variable que es explicada. En el método de extracción Componentes Principales, las comunalidades iniciales son siempre 1. Las comunalidades de la extracción son estimaciones de la varianza de cada variable que es explicada por los factores incluidos en la solución factorial. Para todas las variables la cantidad de varianza explicada por los factores de la solución factorial es alta. Todas las variables se ajustan bien a la solución factorial.

15 Resultados ACP 7 Las tres primeras columnas se refieren a la solución inicial, y hay tantos valores como componentes o factores posibles. Total: Cantidad de varianza explicada por cada componente en las variables observadas. “% de varianza”: Porcentaje de varianza explicada por las componentes. “% de varianza acumulado”: Porcentaje acumulado de varianza explicada por la componente correspondiente y las anteriores. En nuestro caso los dos primeros factores consiguen explicar prácticamente el 91% de la varianza de las variables originales, lo que indica un buen modelo factorial. También se muestran las cantidades de varianza explicada por cada factor extraído una vez realizada la rotación de los mismos. En ese caso, el factor 1 explica más del 56% de la varianza, mientras que el segundo factor explica el 34.63%.

16 Resultados ACP 8 Matriz de casos
Nacionalidad F1 F2 Alemana 0,142 0,380 Austriaca -0,201 -0,666 Belga -0,167 -0,331 Británica 0,309 -0,619 Española -0,505 0,466 Europa excomunista -0,471 -0,805 Finlandesa 3,374 0,988 Francesa -0,254 0,443 Holandesa -0,026 -1,534 Italiana -0,526 0,058 Resto América 0,524 -2,126 Resto Europa -0,436 0,643 Resto mundo -0,734 1,234 Sueca -0,720 1,335 Suiza -0,308 0,535 Cargas factoriales para cada variable sobre las componentes no rotadas. Cada valor representa la correlación entre la variable y la componente. Pueden ayudar a formular una interpretación de los factores. La mayoría de las variables originales presentan una correlación alta con el primero de los factores, lo que dificulta la interpretación de los mismos.

17 Resultados ACP 9 Correlaciones reproducidas y residuos
Patrón predictivo de las relaciones. Si la solución es correcta, las correlaciones reproducidas están próximas a los valores observados, Los residuos indican la diferencia entre valores reproducidos y observados. La mayoría de estos valores deberán ser pequeños. a. Hay 3 (50,0%) residuales no redundantes con valores absolutos mayores que 0,05. Los valores residuales son pequeños. La bondad del modelo factorial estimado es bastante alta

18 Resultados ACP 10 Valores utilizados para el cálculo de las puntuaciones para cada caso. Para cada nacionalidad, la puntuación factorial se calcula multiplicado los valores de la variable por los coeficientes de la puntuación factorial.

19 Gráfico ACP: Diagrama de dispersión

20 Rotación de los ejes: Procedimientos
Objetivo: Obtener nuevos factores más fáciles de interpretar. Cada variable original tendrá una correlación lo más próxima a 1 con uno de los factores y lo más próximas a 0 con el resto. Cada factor tendrá correlación alta con un grupo de variables y baja con el resto. 1. Rotación ortogonal: Queda preservada la incorrelación entre los factores. VARIMAX. Los ejes de los factores rotados se obtienen maximizando la suma de varianzas de las cargas factoriales al cuadrado dentro de cada factor. Problema: Las variables con mayores comunalidades tienen mayor influencia en la solución final. Para evitarlo: normalización de Kaiser: Cada carga factorial al cuadrado se divide por la comunalidad de la variable correspondiente (VARIMAX normalizado). Ventaja: queda inalterada tanto la varianza total explicada por los factores como la comunalidad de cada una de las variables EQUAMAX y el QUARTIMAX 2. Rotación oblicua: Factores no incorrelacionados. Se compensarse si se consigue una asociación más nítida de cada variable con el factor correspondiente. OBLIMIN: Se utilizan algoritmos para controlar el grado de no ortogonalidad. Tampoco se ve modificada la comunalidad en la rotación oblicua

21 Resultados Rotación VARIMAX 1
Las cargas factoriales quedan más repartidas Para la componente 1 las variables con mayores cargas factoriales son: “nº de visitas anteriores” (+), “edad del turista” (+) y “nº de noches” (+), aunque ésta última, también presenta una alta carga factorial con la componente 2. Con la componente 2 además de el “nº de noches” (-), se da una alta correlación con : “gasto por persona y día” (+). Explicación: Componente 1: Los turistas de más edad son los que más veces han repetido visita a Tenerife, y los que más alargan su estancia durante sus vacaciones. Componente 2: Los que más gastan por persona y día son los que menor tiempo de estancia tienen.

22 MATRIZ DE CASOS ROTADOS
Resultados Rotación VARIMAX 2 MATRIZ DE CASOS ROTADOS Nacionalidad F1 F2 Alemana 0,293 0,280 Austriaca -0,471 -0,512 Belga -0,294 -0,226 Británica 0,008 -0,692 Española -0,252 0,640 Europa excomunista -0,775 -0,520 Finlandesa 3,467 -0,580 Francesa -0,036 0,510 Holandesa -0,691 -1,370 Italiana -0,449 0,281 Resto América -0,454 -2,142 Resto Europa -0,112 0,769 Resto mundo -0,123 1,430 Sueca -0,067 1,515 Suiza -0,044 0,616 Factor 1: Cuadrante positivo: Nacionalidades: Finlandesa, Alemana y Británica. Nº visitas anteriores, edad, nº noches Cuadrante negativo: Nacionalidades: Resto Factor 2: Nacionalidades: Alemana, Española, Francesa, Italiana, Resto de Europa, Resto del Mundo, Sueca y Suirza. Gasto noche persona Nacionalidades: Resto. Nº noches

23 Gráfico ACP rotado: Diagrama de dispersión


Descargar ppt "2. Análisis de Componentes Principales"

Presentaciones similares


Anuncios Google