La descarga está en progreso. Por favor, espere

La descarga está en progreso. Por favor, espere

2. ANÁLISIS DE COMPONENTES PRINCIPALES

Presentaciones similares


Presentación del tema: "2. ANÁLISIS DE COMPONENTES PRINCIPALES"— Transcripción de la presentación:

1 2. ANÁLISIS DE COMPONENTES PRINCIPALES
Objetivo: Transformar un conjunto de variables en un nuevo conjunto, componentes principales, incorrelacionadas entre sí. Se consigue una representación simplificada, más sencilla y fácil de ver. Metodología: Los datos se presentan en una tabla rectangular con n líneas (individuos) y p columnas (variables) (matriz R, nxp). Puede ser disimétrica y con variables heterogéneas. Hay dos espacios: Rp : n individuos con los valores que toman para cada una de las p variables. Rn : p variables para cada individuo. Finalidad: Buscar un subespacio Rq, q<p que contenga la mayor cantidad posible de información de la nube primitiva, y que mejor se ajuste a la nube de puntos y la deforme lo menos posible. El criterio de ajuste es el de mínimos cuadrados. Se obtendrán nuevas variables, combinaciones lineales de las variables originales llamadas factores o componentes.

2 Gráficamente: ui es el vector unitario o propio y zi es la proyección de xi en Fi. Como medida de la cantidad de información incorporada en una componente se utiliza su varianza. Cuanto mayor sea, mayor es la información incorporada a dicha componente. La primera componente será la de mayor varianza. Para obtener los factores o componentes que diferencian al máximo a los individuos entre sí, medidos a través de caracteres métricos, la extracción se realiza sobre variables tipificadas, con matriz X, para evitar problemas de escala. La suma de las varianzas es igual a p, ya que la de cada una de ellas es igual a 1 y habrá tantas componentes como número de variables originales. Mientras más correlacionadas estén las variables originales entre sí, más alta será la variabilidad que se pueda explicar con menos componentes. Si existiera incorrelación, el ACP carecería de sentido, ya que las variables originales y las componentes o nuevas variables coincidirían.

3 Cálculo de medias y desviaciones típicas
MATRIZ DE DATOS Cálculo de medias y desviaciones típicas X: MATRIZ DE DATOS TIPIFICADOS R =X´X MATRIZ DE CORRELACIONES Diagonalización de R, cálculo de valores propios, varianza explicada y correlaciones COMPONENTES PRINCIPALES

4 Resumen Las componentes principales son combinaciones lineales de las variables originales. Los coeficientes de las combinaciones lineales son los elementos de los vectores característicos asociados a la matriz de covarianzas de las variables originales. Por tanto, la obtención de componentes principales es un caso típico de cálculo de raíces y vectores característicos de una matriz simétrica. La primera componente se asocia a la mayor raíz característica a que va asociada. Si se tipifican las variables originales, su proporción de variabilidad total captada por una componente es igual a su raíz característica dividida por el número de variables originales. La correlación entre una componente y una variable original se determina con la raíz característica de la componente y el correspondiente elemento del vector característico asociado, si las variables originales están tipificadas

5 SPSS versión 10.0 para windows
Coeficientes: Matriz de los coeficientes de correlación entre todas las variables analizadas. Niveles de significación: Unilaterales para cada uno de los coeficientes de correlación. Determinante: muestra el determinante de la matriz que recoge los coeficientes de correlación. KMO y prueba de esfericidad de Bartlett: Calcula la medida de la adecuación muestral de Kaiser-Meyer-Olkin que es el estadístico de contraste de la hipótesis de que las correlaciones parciales entre las variables son pequeñas. Inversa: muestra la inversa de la matriz de correlaciones. Reproducida: Matriz de correlaciones obtenida a partir del modelo factorial estimado. Muestra las correlaciones residuales como medida del nivel de error de estas estimaciones, es decir, las diferencias entre las correlaciones observadas de las variables originales y las estimadas. Anti-imagen: Matriz con los negativos de los coeficientes de correlación parcial. Para que el modelo factorial sea considerado bueno la mayoría de los elementos fuera de la diagonal principal deben ser pequeños, mientras que en la diagonal principal se muestran los valores de la adecuación muestral para cada una de las variables consideradas individualmente.

6 aij: coeficiente de correlación parcial entre las variables i,j
Como mínimo habrá que pedir la media y la desviación típica y los coeficientes de la matriz de correlaciones lineal de Pearson entre las variables dos a dos. En general, se debería usar alguna de las otras opciones, como son: Los niveles de significación, obtenidos en un test de hipótesis de los coeficientes de correlación lineal. El índice KMO (Kaiser-Meyer-Olkin) Se obtendrá mediante la siguiente ecuación: donde: rij : coeficiente de correlación lineal de Pearson entre las variables i,j aij: coeficiente de correlación parcial entre las variables i,j Índice KMO alto, implica que el nivel de correlación entre las variables analizadas es alto y por tanto tiene sentido el Análisis de Componentes Principales, puesto que se podrá reducir la dimensionalidad del problema agrupando variables con una alta correlación entre ellas. La prueba de esferidad de Bartlett se utiliza para verificar si la matriz de correlaciones es una matriz de identidad o no. Indica la inadecuación del modelo factorial propuesto.

7 Elección del numero de ejes
Criterio de la media aritmética: Se seleccionan las componentes cuya varianza (valor propio) o inercia asociada a cada componente, exceda de la media de las raíces características. Por tanto, se debe verificar que Si las variables originales están tipificadas, , por lo que la media de la inercia es igual a 1. Se retendrán los factores cuya inercia sea mayor que 1.

8 Comando Extracción SPSS
Método factorial: Análisis de Componentes Principales Matriz de correlaciones. Entre las variables. Punto muy importante Solución factorial sin rotar: Definir cada una de las componentes retenidas. Gráfico de sedimentación de los autovalores: Ayuda a en la elección del número de factores. Según el cambio de pendiente del gráfico, confirmará a partir de qué factor la cantidad de varianza explicada disminuye drásticamente. Extraer: Elección del número de componentes. Por defecto, las componentes con autovalores mayores que 1, siguiendo el criterio de la media aritmética.

9 Obtención de las puntuaciones factoriales
Guardar las puntuaciones factoriales de cada individuo como variables añadidas al fichero de datos inicial. Método: El más usual es el de Regresión

10 Posicionamiento de países de la U E frente al cumplimiento de las condiciones de Maastricht
Encargo: Una asociación de empresarios dedicados a la exportación de productos a Europa, encarga un estudio del entorno económico europeo. Objetivo:  Conocer la situación de cada país de la UE en cuanto a las previsiones de entrada en el MUE y la similitud o disimilitud entre ellos. Fase cualitativa Se consideraron las cuatro variables para el cumplimiento de las condiciones de Maastricht: Inflación, deuda, déficit y crecimiento.

11 Datos Fuente: Informe Previsiones Económicas de primavera del año Club Mediterranée

12 Resultados

13 Valores propios y % de variación explicada

14 Correlaciones de las variables con los factores y coordenadas de países con los factores

15 Rotación de los ejes: Procedimientos
Objetivo: Obtener nuevos factores más fáciles de interpretar. Cada variable original tendrá una correlación lo más próxima a 1 con uno de los factores y lo más próximas a 0 con el resto. Cada factor tendrá correlación alta con un grupo de variables y baja con el resto. 1. Rotación ortogonal: Queda preservada la incorrelación entre los factores. VARIMAX. Los ejes de los factores rotados se obtienen maximizando la suma de varianzas de las cargas factoriales al cuadrado dentro de cada factor. Problema: Las variables con mayores comunalidades tienen mayor influencia en la solución final. Para evitarlo: normalización de Kaiser: Cada carga factorial al cuadrado se divide por la comunalidad de la variable correspondiente (VARIMAX normalizado). Ventaja: queda inalterada tanto la varianza total explicada por los factores como la comunalidad de cada una de las variables EQUAMAX y el QUARTIMAX 2. Rotación oblicua: Factores no incorrelacionados. Se compensarse si se consigue una asociación más nítida de cada variable con el factor correspondiente. OBLIMIN: Se utilizan algoritmos para controlar el grado de no ortogonalidad. Tampoco se ve modificada la comunalidad en la rotación oblicua

16 Interpretación simultanea: Rotación VARIMAX

17


Descargar ppt "2. ANÁLISIS DE COMPONENTES PRINCIPALES"

Presentaciones similares


Anuncios Google