Análisis de componentes principales El análisis de componentes principales es un procedimiento matemático que transforma un conjunto de variables posiblemente correlacionadas en un conjunto menor de variables no correlacionadas llamadas componentes principales. Dadas n observaciones de p variables, el objetivo del análisis de componentes principales es determinar r nuevas variables no correlacionadas llamadas componentes principales que representen la mayor variabilidad posible de las variables originales. El uso de esta técnica es principalmente exploratoria y en general como un paso intermedio para análisis posteriores.
Objetivos del ACP Objetivos del ACP Reducir la dimensión de un conjunto de datos, 2) Interpretar un conjunto de datos. CARACTERÍSTICAS: Las nuevas variables (componentes principales) son creadas de tal manera que: 1) No estén correlacionadas. 2) La 1a componente principal explique la mayor variabilidad posible de los datos. 3) Cada componente subsecuente explique la mayor variabilidad posible restante no explicada por las componentes anteriores.
Actividades del ACP Analizar la información de una tabla de datos «individuos x variables cuantitativas». Evaluar la semejanza entre los individuos a través de los atributos considerados ¿Existen grupos de individuos semejantes...? ¿Se observa una tipología de individuos...? Evaluar la relación existente entre las características consideradas ¿Existen grupos de variables correlacionadas entre ellas...? ¿Se observa una tipología de variables...?
Analizar la información de una tabla de datos «individuos x variables cuantitativas». Calcular en Excel
Crear la matriz varianza covarianza teniendo en cuenta la base de datos en Excel
Calcular en Excel
Evaluar la semejanza entre los individuos a través de los atributos La comparación de dos individuos i y j es evaluada con la distancia euclidiana clásica entre i y j. Realizar la comparación de Departamento según clasificación por población, en Excel
Relación entre las variables de la Tabla de Datos Las variables k y p es evaluada con el coeficiente de correlación Realizar correlación entre variable. % N.B.I. & Industria, Comercio, Servicios, Otras Act. Económicas, Unidades Auxiliares Tipo Gerencia, Unidades Auxiliares Diferentes de Gerencia, Desocupada, en Excel
Transformación de la Matriz de Datos Matriz X Matriz Z Crear matriz Z en Excel
Calcular los Componentes principales de la base del comportamiento económico de Colombia según departamento, utilizando SPSS.
Estadísticos descriptivos Media Desviación típica N del análisis % N.B.I. 51.12 19.82 33 Industria 4846.36 7540.36 Comercio 22739.39 31657.66 Servicios 14873.03 24574.26 Otras Act. Económicas 3109.21 4653.53 Unidades Auxiliares Tipo Gerencia 27.36 58.68 Unidades Auxiliares Diferentes de Gerencia 708.06 1338.45 Desocupada 752.73 2701.96 Regiones 3.24 1.60
Matriz de correlación 1 -0.5835 -0.6042 0.9817 -0.5545 0.9797 0.9789 % N.B.I. Industria Comercio Servicios Otras Act. Económicas Unidades con Gerencia Unidades sin Gerencia Desocupada Regiones 1 -0.5835 -0.6042 0.9817 -0.5545 0.9797 0.9789 -0.5464 0.9885 0.9830 0.9869 Unidades Con Gerencia -0.5210 0.8721 0.9113 0.9045 0.8769 -0.5553 0.8648 0.9166 0.8665 0.8595 0.9332 -0.3127 0.3054 0.4323 0.3481 0.3052 0.5872 0.7156 -0.6090 0.7146 0.7537 0.6734 0.7157 0.6016 0.6785 0.4032 Matriz de correlación
Método de extracción: Análisis de Componentes principales. Varianza total explicada Varianza total explicada Componente Autovalores iniciales Sumas de las saturaciones al cuadrado de la extracción Total % de la varianza % acumulado 1 6.8384 75.9819 2 0.9667 10.7409 86.7228 3 0.7001 7.7793 94.5021 4 0.3727 4.1411 98.6432 5 0.0695 0.7726 99.4158 6 0.0327 0.3628 99.7786 7 0.0092 0.1020 99.8806 8 0.0068 0.0751 99.9557 9 0.0040 0.0443 100.0000
Matriz de componentes(a) Componente 1 2 3 % N.B.I. -0.6625 0.0211 0.6750 Industria 0.9590 -0.2457 0.0895 Comercio 0.9871 -0.1134 0.0710 Servicios 0.9588 -0.2009 0.1515 Otras Act. Económicas 0.9566 -0.2476 0.1275 Unidades Auxiliares Tipo Gerencia 0.9345 0.1226 0.2063 Unidades Auxiliares Diferentes de Gerencia 0.9488 0.2553 0.1159 Desocupada 0.5304 0.8431 0.0200 Regiones 0.7850 -0.0165 -0.3687 Método de extracción: Análisis de componentes principales. a 3 componentes extraídos