2. ANÁLISIS DE COMPONENTES PRINCIPALES

Slides:



Advertisements
Presentaciones similares
¿ COMO REALIZAR UNA INVESTIGACIÓN ?
Advertisements

Valores y vectores propios
Lectura Tabla Distribución Normal
TÉCNICAS DE REPRESENTACIÓN DE LA INFORMACIÓN
Transporte reactive multisoluto
4. Análisis de Correspondencias Múltiples
ESCRIBA EN ESTE ESPACIO SUS AUTORES E INDIQUE A CONTINUACIÓN SUS CORRESPONDIENTES ORGANIZACIONES O PUESTOS DE TRABAJO Escriba aquí el título de su comunicación.
Las estructuras de arreglos fueron usadas en las primeras computadoras digitales, cuando la programación se hacía todavía en lenguaje máquina, para tablas.
TRANSFORMACIONES GEOMÉTRICAS
Análisis de componentes principales María José Nueda Dpto. Estadística e Investigación Operativa Homenaje a Marco A. López. Febrero 2010.
ESTRATEGIAS Y DISEÑOS AVANZADOS DE INVESTIGACIÓN
Análisis de Datos en Psicología Análisis de Datos en Psicología * Estadística bivariada Área de Metodología.
Componentes Principales
Taller 2. Medición de distancia entre variables y sujetos
Proyecto de Investigación y Vinculación Salado Barra
2. Análisis de Componentes Principales
La función BUSCAR devuelve un valor de un rango de una fila o una columna o de una matriz. Forma matricial: Buscar el valor especificado en la primera.
Metodología de Cargas de Trabajo
ANÁLISIS DE CORRESPONDENCIAS SIMPLE

Análisis no paramétricos
Unidad temática 3 Análisis de esfuerzos en un punto
DETERMINANTES Autora: Mª Soledad Vega Fernández
INIVERSIDAD AUTÓNOMA DE GUADALAJARA
ELEMENTOS DE ESTADÍSTICA BIVARIANTE
Sesión 1 Introducción a Excel.
TABLAS Definición. El tipo tabla permite definir objetos formados por un conjunto de elementos del mismo tipo. Ejemplos. El tipo tabla se utiliza para.
Hoja electrónica de calculo
Representaciones gráficas
MÉTODO DE SIMPLIFICACIÓN DE QUINE-McCLUSKEY
Procesamiento de Imágenes digitales
3. Análisis de Correspondencias Simples
A NALISIS F ACTORIAL Capitulo 15 spss para windows.
ANÁLISIS DE LA INFORMACIÓN Descripción de los datos
Programación IMC José Andrés Vázquez Flores. Introducción Existen también arreglos multidimensionales, los cuales tienen más de una dimensión y, en consecuencia.
ANÁLISIS DE LA INFORMACIÓN Descripción de los datos
Determinación del Producto
Análisis de componentes principales
GESTIÓN ADMINISTRATIVA Secretariado Ejecutivo Computacional
TABLA DE DATOS WILLIAM ZAPATIER EVELYN JAZMÍN VILLAFUERTE GIMMY CAICEDO.
CONCEPTOS BASICOS DE USO DE CONTENEDORES
Sustancias puras y mezclas y separación de mezclas
SEMINARIO DE INVESTIGACION Titular: Agustín Salvia
Sergio Cubero Introducción a las Páginas Web. Sesión 3 12:00-12:30: 12:30-13:00: 13:00-13:30: 12:00-13:30: 13:30-14:00: 14:00-14:30: Tablas Formularios.
Son datos en tablas relacionadas por el contenido de ciertas columnas.
PRESENTADO POR: GUSTAVO VASQUEZ JEISON MORENO JHON FREDY PENAGOS.
SIETE HERRAMIENTAS DEL CONTROL DE CALIDAD
METODOS NUMERICOS VER2013 INTEGRANTE: JUAN CARLOS ROJAS PEREZ.
Universidad de Los Andes Facultad de Ingeniería Escuela de Ingeniería Eléctrica Maestría en Ingeniería Biomédica GIBULA Máquinas de Soporte Vectorial.
Matriz inversa Método Gauss Jordan.
MATRICES.
Biograma Inicio Elegir una metodología para los máximos y mínimos. Escoger la dimensión de la matriz a utilizar. Si desea utilizar más de una.
Búsquedas Filtradas Consiste en buscar en una tabla de la base de datos, según un criterio. Para esto se pueden utilizar muchos tipos de sentencias en.
Matrices Pág. 1. Matrices Pág. 2 Se llama matriz traspuesta de A, y se representa por A t a la matriz que resulta de intercambiar las filas y las columnas.
Ángel Berihuete Francisco Álvarez
EL PROTOCOLO DE TRABAJO
oRepresenta los datos en una manera sencilla permitiendo el entendimiento de estos mismos por los inexpertos.
UNIVERSIDAD INTERAMERICANA DE PUERTO RICO
Dibujo con la técnica de la grilla o el cuadriculado
Curso de Análisis Estadístico de Datos Composicionales ICP-Piedecuesta, Santander Marzo-2007 Introducción a la Descomposición en Valores Principales R.
BIMESTRE III - UNIDAD 05 Cómputo Chanel - Manual de Usuario.
Opinión Pública. República Bolivariana de Venezuela
CAPÍTULO IV.   ENFOQUE DE LA INVESTIGACIÓN  METODOLOGÍA DE LA INVESTIGACIÓN  MÉTODO DE LA INVESTIGACIÓN  DISEÑO DE LA INVESTIGACIÓN  ALCANCE DE.
ALGEBRA CON VECTORES Y MATRICES Uso de MatLab.
Para cada uno de los atributos, indicaremos su campo de descripción. Cuando un campo no dispone de este (como el.
Sistema Numérico Binario Prof. Carlos Ortiz Muñoz.
* Tabla de características.
COMPONENTE ACADEMICO. GRACIAS.
Espacio para el texto.
Introducción al uso del Matlab. 1. Componentes Ventana de comandos Carpeta actual Espacio de trabajo Historial Editor.
Transcripción de la presentación:

2. ANÁLISIS DE COMPONENTES PRINCIPALES Objetivo: Transformar un conjunto de variables en un nuevo conjunto, componentes principales, incorrelacionadas entre sí. Se consigue una representación simplificada, más sencilla y fácil de ver. Metodología: Los datos se presentan en una tabla rectangular con n líneas (individuos) y p columnas (variables) (matriz R, nxp). Puede ser disimétrica y con variables heterogéneas. Hay dos espacios: Rp : n individuos con los valores que toman para cada una de las p variables. Rn : p variables para cada individuo. Finalidad: Buscar un subespacio Rq, q<p que contenga la mayor cantidad posible de información de la nube primitiva, y que mejor se ajuste a la nube de puntos y la deforme lo menos posible. El criterio de ajuste es el de mínimos cuadrados. Se obtendrán nuevas variables, combinaciones lineales de las variables originales llamadas factores o componentes.

Gráficamente: ui es el vector unitario o propio y zi es la proyección de xi en Fi. Como medida de la cantidad de información incorporada en una componente se utiliza su varianza. Cuanto mayor sea, mayor es la información incorporada a dicha componente. La primera componente será la de mayor varianza. Para obtener los factores o componentes que diferencian al máximo a los individuos entre sí, medidos a través de caracteres métricos, la extracción se realiza sobre variables tipificadas, con matriz X, para evitar problemas de escala. La suma de las varianzas es igual a p, ya que la de cada una de ellas es igual a 1 y habrá tantas componentes como número de variables originales.   Mientras más correlacionadas estén las variables originales entre sí, más alta será la variabilidad que se pueda explicar con menos componentes. Si existiera incorrelación, el ACP carecería de sentido, ya que las variables originales y las componentes o nuevas variables coincidirían.

Cálculo de medias y desviaciones típicas MATRIZ DE DATOS Cálculo de medias y desviaciones típicas X: MATRIZ DE DATOS TIPIFICADOS R =X´X MATRIZ DE CORRELACIONES Diagonalización de R, cálculo de valores propios, varianza explicada y correlaciones COMPONENTES PRINCIPALES

Resumen Las componentes principales son combinaciones lineales de las variables originales. Los coeficientes de las combinaciones lineales son los elementos de los vectores característicos asociados a la matriz de covarianzas de las variables originales. Por tanto, la obtención de componentes principales es un caso típico de cálculo de raíces y vectores característicos de una matriz simétrica. La primera componente se asocia a la mayor raíz característica a que va asociada. Si se tipifican las variables originales, su proporción de variabilidad total captada por una componente es igual a su raíz característica dividida por el número de variables originales. La correlación entre una componente y una variable original se determina con la raíz característica de la componente y el correspondiente elemento del vector característico asociado, si las variables originales están tipificadas

SPSS versión 10.0 para windows Coeficientes: Matriz de los coeficientes de correlación entre todas las variables analizadas. Niveles de significación: Unilaterales para cada uno de los coeficientes de correlación. Determinante: muestra el determinante de la matriz que recoge los coeficientes de correlación. KMO y prueba de esfericidad de Bartlett: Calcula la medida de la adecuación muestral de Kaiser-Meyer-Olkin que es el estadístico de contraste de la hipótesis de que las correlaciones parciales entre las variables son pequeñas. Inversa: muestra la inversa de la matriz de correlaciones. Reproducida: Matriz de correlaciones obtenida a partir del modelo factorial estimado. Muestra las correlaciones residuales como medida del nivel de error de estas estimaciones, es decir, las diferencias entre las correlaciones observadas de las variables originales y las estimadas. Anti-imagen: Matriz con los negativos de los coeficientes de correlación parcial. Para que el modelo factorial sea considerado bueno la mayoría de los elementos fuera de la diagonal principal deben ser pequeños, mientras que en la diagonal principal se muestran los valores de la adecuación muestral para cada una de las variables consideradas individualmente.

aij: coeficiente de correlación parcial entre las variables i,j Como mínimo habrá que pedir la media y la desviación típica y los coeficientes de la matriz de correlaciones lineal de Pearson entre las variables dos a dos. En general, se debería usar alguna de las otras opciones, como son: Los niveles de significación, obtenidos en un test de hipótesis de los coeficientes de correlación lineal. El índice KMO (Kaiser-Meyer-Olkin) Se obtendrá mediante la siguiente ecuación:   donde: rij : coeficiente de correlación lineal de Pearson entre las variables i,j aij: coeficiente de correlación parcial entre las variables i,j Índice KMO alto, implica que el nivel de correlación entre las variables analizadas es alto y por tanto tiene sentido el Análisis de Componentes Principales, puesto que se podrá reducir la dimensionalidad del problema agrupando variables con una alta correlación entre ellas. La prueba de esferidad de Bartlett se utiliza para verificar si la matriz de correlaciones es una matriz de identidad o no. Indica la inadecuación del modelo factorial propuesto.

Elección del numero de ejes Criterio de la media aritmética: Se seleccionan las componentes cuya varianza (valor propio) o inercia asociada a cada componente, exceda de la media de las raíces características. Por tanto, se debe verificar que Si las variables originales están tipificadas, , por lo que la media de la inercia es igual a 1. Se retendrán los factores cuya inercia sea mayor que 1.

Comando Extracción SPSS Método factorial: Análisis de Componentes Principales Matriz de correlaciones. Entre las variables. Punto muy importante Solución factorial sin rotar: Definir cada una de las componentes retenidas. Gráfico de sedimentación de los autovalores: Ayuda a en la elección del número de factores. Según el cambio de pendiente del gráfico, confirmará a partir de qué factor la cantidad de varianza explicada disminuye drásticamente. Extraer: Elección del número de componentes. Por defecto, las componentes con autovalores mayores que 1, siguiendo el criterio de la media aritmética.

Obtención de las puntuaciones factoriales Guardar las puntuaciones factoriales de cada individuo como variables añadidas al fichero de datos inicial. Método: El más usual es el de Regresión

Posicionamiento de países de la U E frente al cumplimiento de las condiciones de Maastricht Encargo: Una asociación de empresarios dedicados a la exportación de productos a Europa, encarga un estudio del entorno económico europeo. Objetivo:  Conocer la situación de cada país de la UE en cuanto a las previsiones de entrada en el MUE y la similitud o disimilitud entre ellos. Fase cualitativa Se consideraron las cuatro variables para el cumplimiento de las condiciones de Maastricht: Inflación, deuda, déficit y crecimiento.

Datos Fuente: Informe Previsiones Económicas de primavera del año 1997. Club Mediterranée

Resultados

Valores propios y % de variación explicada

Correlaciones de las variables con los factores y coordenadas de países con los factores

Rotación de los ejes: Procedimientos Objetivo: Obtener nuevos factores más fáciles de interpretar. Cada variable original tendrá una correlación lo más próxima a 1 con uno de los factores y lo más próximas a 0 con el resto. Cada factor tendrá correlación alta con un grupo de variables y baja con el resto. 1. Rotación ortogonal: Queda preservada la incorrelación entre los factores. VARIMAX. Los ejes de los factores rotados se obtienen maximizando la suma de varianzas de las cargas factoriales al cuadrado dentro de cada factor. Problema: Las variables con mayores comunalidades tienen mayor influencia en la solución final. Para evitarlo: normalización de Kaiser: Cada carga factorial al cuadrado se divide por la comunalidad de la variable correspondiente (VARIMAX normalizado). Ventaja: queda inalterada tanto la varianza total explicada por los factores como la comunalidad de cada una de las variables EQUAMAX y el QUARTIMAX 2. Rotación oblicua: Factores no incorrelacionados. Se compensarse si se consigue una asociación más nítida de cada variable con el factor correspondiente. OBLIMIN: Se utilizan algoritmos para controlar el grado de no ortogonalidad. Tampoco se ve modificada la comunalidad en la rotación oblicua

Interpretación simultanea: Rotación VARIMAX