ANÁLISIS DE COMPONENTES PRINCIPALES. Introducción Partiendo de un conjunto de variables, y mediante transformaciones lineales, queremos llegar a otro.

Slides:



Advertisements
Presentaciones similares
Tema 4: Medidas de posición individual.
Advertisements

Tema 6: Regresión lineal.
Análisis de Datos en Economía
4. ANÁLISIS FACTORIAL Introducción Modelo factorial ortogonal
Instructor: Lic. Cristian R. Arroyo L.
Introducción En toda investigación, y antes de extraer conclusiones acerca de los objetivos e hipótesis planteados, es necesario llevar a cabo un análisis.
Pronósticos, Series de Tiempo y Regresión
ANALISIS DE COMPONENTES PRINCIPALES.
ESTRATEGIAS Y DISEÑOS AVANZADOS DE INVESTIGACIÓN
MANUAL DE LABORATORIO DE CÓMPUTO ECONOMETRÍA I MULTICOLINEALIDAD
Capitulo 10: La metodología Box-Jenkins
Regresión y correlación
Introducción a Funciones de una variable
CONTRASTE Y VALIDACIÓN DE UN MODELO
Estadística Descriptiva: 4. Correlación y Regresión Lineal
Análisis Estadístico de Datos Climáticos Facultad de Ciencias – Facultad de Ingeniería 2009 M. Barreiro – M. Bidegain – A. Díaz Análisis de correlación.
Estadística Descriptiva: 4. Correlación y Regresión Lineal Ricardo Ñanculef Alegría Universidad Técnica Federico Santa María.
1º BACHILLERATO | Matemáticas © Oxford University Press España, S.A Hacer clic en la pantalla para avanzar VARIABLE ESTADÍSTICA UNIDIMENSIONAL Población:
Tema 2: Métodos de ajuste
MEDIDAS DE DISPERSIÓN:
Análisis de Correlación y de Regresión lineal simple
Facultad: Turismo Y Hotelería
Técnicas estadísticas paramétricas univariantes: regresión
ANALISIS DE DATOS CON EXCEL
Resolución de Problemas Método Simplex
Estadística aplicada al análisis financiero
Tema 8: Análisis Multivariante. Conjunto de técnicas aplicables cuando se registran los valores de muchas variables (esencialmente numéricas, pero también.
ESTADÍSTICA DESCRIPTIVA
Ecuaciones de segundo grado
Estadística Descriptiva continuación
Guías Modulares de Estudio Matemáticas IV – Parte B
Departamento de Física
Medidas de Dispersión.
La Física La Física es la ciencia que estudia la naturaleza en su aspecto más amplio. Se consideran fenómenos físicos aquellos que están asociados a los.
GRÁFICOS ESTADÍSTICOS
ESTADÍSTICA COMERCIO PESO KGS F.A HOSPITAL TRABAJO.
Introducción a la Inferencia Estadística
Inferencia Estadística
RESOLVER LA ECUACIÓN:. Para resolver la ecuación en este caso, ambos miembros de la ecuación las transformaremos a coseno, sabiendo que Multiplicamos.
LA RECTA DE REGRESIÓN CONTENIDOS:
TABLAS DE FRECUENCIAS Una vez recopilados, tendremos un conjunto de datos que será necesario organizar para extraer información. Lo primero que se hace.
Primerasdefiniciones y conceptos de la regresión El análisis de la regresión es una técnica estadística que se utiliza para estudiar la relación entre.
Medidas de dispersión.
Unidad II: Variables Aleatorias Concepto Discreta y Continua Fun. de densidad Fun. de probabilidad F. de distribución Esperanza y Varianza Propiedades.
Variables estadísticas bidimensionales
ANÁLISIS MULTIVARIANTE
Capítulo 1. Conceptos básicos de la Estadística
 Introducción  Modelo factorial ortogonal  Construcción del modelo factorial: método de componentes principales  Construcción del modelo factorial:
3. COMPONENTES PRINCIPALES
5. CORRELACIONES CANÓNICAS
Análisis de componentes principales
SEMINARIO DE INVESTIGACION Titular: Agustín Salvia
Estadística II Regresión Lineal.
Análisis de los Datos Cuantitativos
Regresión Lineal Simple
Aplicaciones Estadísticas a las Finanzas Clase 1
VECTORES RECTAS.
Variables estadísticas bidimensionales
RIESGO, RENDIMIENTO Y VALOR
Distribución de frecuencias y gráficos
Ejercicios Dado un conjunto de datos, aplicar el Criterio de Fourier para desechar los posibles valores atípicos.
Regresión lineal simple Nazira Calleja
Medidas de dispersión IIIº Medio 2015.
Unidad 4 Análisis de los Datos.
OPTIMIZACION DEL DESEMPEÑO DE ERROR
Álgebra, ecuaciones y sistemas
MEDIDAS DE DISPERSIÓN Pedro Godoy Gómez. Miden qué tanto se dispersan las observaciones alrededor de su media. MEDIDAS DE DISPERSIÓN.
Estadística descriptiva
Introducción a la Estadística Inferencial con SPSS Juan José Igartua Perosanz Universidad de Salamanca
REGRESIÓN LINEAL SIMPLE TEMA INTRODUCCIÓN Determinar la ecuación de regresión sirve para: – Describir de manera concisa la relación entre variables.
Transcripción de la presentación:

ANÁLISIS DE COMPONENTES PRINCIPALES

Introducción Partiendo de un conjunto de variables, y mediante transformaciones lineales, queremos llegar a otro conjunto de variables, sustancialmente menor, de manera que éste conserve la máxima información del conjunto original. A este segundo y reducido grupo de variables se le denomina componentes principales.

provincias vege_pr edzonaconatos incendio s Safectad a Sarbolada_ afect precipitacion media julio agosto humedad relativa media tempma x Alicante1centro ,78690,23,66333,6 Ávila1centro ,671311,957,056233,8 Baleares2centro ,911237,016,66634,8 Castellón2centro ,53613,699,26634 Cuenca1centro ,14133,719,16036,35 Guadalajara1centro ,05314,9323,456535,3 Madrid1centro ,05660, ,25 Salamanca1centro ,322687,086,26535,8 Segovia2centro ,07179,2312,76035,6 Teruel1centro ,7472,5823,156736,7 Valencia1centro ,19653,478,36633,65 Valladolid1centro ,3720,0141,467 Zamora1centro ,1412,36536,2 Soria2norte ,81107,7134,46335,1 Álava2norte361985,0668,3166,87835,35 Asturias1norte ,3826, Barcelona1norte ,6384,057,25 Burgos1norte ,91655,1742,257135,4 Cantabria1norte ,683340,4817,057527,6 Gerona1norte ,22198,3824,5 33,2 Siete variables cuantitativas….

Dificultades: Cuando se trabaja con muchas variables, “los árboles no dejan ver el bosque”. Muchas de las variables que registramos están relacio- nadas entre sí. Queremos: Resumir lo que nos dicen los datos, en un número menor de variables. Que sean incorreladas. Sin perder demasiada información.

Cantidad de información proporcionada por los datos = Variabilidad

Cuando tenemos datos multivariantes, la variabilidad conjunta ó varianza conjunta puede definirse como la suma de las varianzas de cada una de las variables: V(X 1 ) + V(X 2 ) + … + V(X n ) La idea va a ser pasar de unas variables originales a otras (que vamos a crear artificialmente), manteniendo un porcentaje de varianza (= información) que sea significativo.

X1X1 X2X2 Estos datos vienen descritos por (X 1,X 2 )…

X1X1 X2X2 Pero en realidad se pueden describir muy bien mediante UNA sóla variable Y Y

Técnica de Componentes Principales (ACP): X 1, X 2, …, X n Y 1, Y 2, …, Y n Variables iniciales (cuantitativas) Componentes principales 1.- Número elevado de variables. 2.- Existen correlaciones entre ellas (información redundante) 3.- Tienen significación “clara” Y j =a 1,j X 1 + a 2,j X 2 + … + a n,j X n pesos 1.- Mismo número de variables, pero ordenadas según % de varianza retenido. 2.- Incorreladas. 3.- En principio, son artificiales; se intenta interpretarlas (subjetivo). 4.- La relación entre ellas y las variables iniciales es lineal:

Los pesos Cuando los datos están estandarizados, cuanto más se acerque a 1 o -1 el peso, mayor influencia tendrá la variable original a la que corresponde, en el componente. Matemáticamente los pesos de cada componente son el resultado de calcular el autovector del autovalor correspondiente de la matriz de correlaciones y de imponer que la suma de cuadrados de todos ellos sea 1.

En la práctica, nos quedamos con unas cuántas componentes principales, no con todas; distintas reglas para seleccionar el número de componentes: 1.- Seleccionar componentes hasta cubrir un porcentaje determinado de varianza (70%, 80%, etc.) 2.- Excluir los componentes asociados a autovalores pequeños y aproximadamente del mismo tamaño.

Para interpretar las componentes principales, nos guiamos por los coeficientes más grandes (en valor absoluto), y por las variables cuyos coeficientes tienen el mismo signo.

Estandarización de los datos: Salvo que la variabilidad de alguna de las variables originales tenga una importancia especial, las componentes principales se calculan a partir de las variables originales estandarizadas. En particular, si en los datos tenemos diferentes unidades de medida, debemos estandarizar.

Las componentes principales son combinación lineal de las variables originales: Cada coeficiente es el peso correspondiente y es el valor estandarizado

Gráficos e interpretación: 1.- Gráfico de pesos: 2D

3D

Variables vectores. El coseno del ángulo entre dos vectores es aproximadamente el coeficiente de correlación entre las variables. Por tanto, vectores con ángulos agudos o casi obtusos, sugieren correlaciones elevadas. Permite evaluar las relaciones entre las variables de forma global.

2.- Gráfico de dispersión: Muestra cada observación según los valores de las componentes principales. 2D

2.- Gráfico de dispersión: Permite detectar atípicos…

2.- Gráfico de dispersión: Caracterizar grupos de comportamiento… Zona=norte

Y también en 3D…

3.- Biplot: Incorpora los dos gráficos anteriores 2D

3D

Obtención de las cargas. Interpretación ¿Qué porcentaje de cada variable es explicado por los componentes principales seleccionados? Para contestar hay que considerar el concepto de carga. En datos estandarizados, los pesos son proporcionales a las correlaciones, de tal forma que se cumple A estas correlaciones se les denomina cargas.

Se puede comprobar que la suma de los cuadrados de todas las cargas de cada componente es el autovalor, es decir Si consideramos una reformulación de las ecuaciones de los componentes en función de las variables originales, de manera que queden despejadas cada una de estas variables, se tendrá las expresiones:

Obteniendo la varianza de cada miembro, se tiene que:

Si nos quedamos con los m primeros componentes el porcentaje de varianza explicada será y el resto será porcentaje de no explicada.