Análisis de Datos Atmosféricos Regresión lineal 1 Francisco Estrada Porrúa.

Slides:



Advertisements
Presentaciones similares
Regresión mínimo cuadrada (II)
Advertisements

1. MODELO DE REGRESIÓN SIMPLE
Regresión mínimo cuadrada (I)
REGRESION LINEAL SIMPLE
Modelos de Variable Dependiente Binaria -Logit y Probit-
Capitulo 9: Modelos unívariados de series temporales
ESTUDIO DE MERCADO. MÉTODOS DE PROYECCIÓN
Pronósticos, Series de Tiempo y Regresión
Pruebas de Estacionariedad
MANUAL DE LABORATORIO DE CÓMPUTO ECONOMETRÍA I HETEROSCEDASTICIDAD
KRIGING.
Pruebas de Especificación en el Modelo de Regresión Múltiple
PROPIEDADES ESTADÍSTICAS DE LOS ESTIMADORES
FACULTAD DE ECONOMÍA UNAM Maestría en Economía
MODELO DE REGRESIÓN MÚLTIPLE
MANUAL DE LABORATORIO DE CÓMPUTO ECONOMETRÍA I MULTICOLINEALIDAD
ESTRATEGIAS Y DISEÑOS AVANZADOS DE INVESTIGACIÓN SOCIAL
Econometria 2. Modelo de Regresión Lineal Simple
Modelo básico de regresión Lineal (MBRL)
Modelo básico de regresión Lineal
TOPICOS DE ECONOMETRIA APLICADA Series de Tiempo Introducción
INTRODUCCIÓN A LAS SERIES DE TIEMPO
Capitulo 10: La metodología Box-Jenkins
Estadística 2010 Clase 5 Maestría en Finanzas Universidad del CEMA
Regresión y correlación
CONTRASTE Y VALIDACIÓN DE UN MODELO
Estadística Descriptiva: 4. Correlación y Regresión Lineal
Estadística Descriptiva: 4. Correlación y Regresión Lineal Ricardo Ñanculef Alegría Universidad Técnica Federico Santa María.
Regresión lineal Es un modelo matemático para predecir el efecto de una variable sobre otra, ambas cuantitativas. Una variable es la dependiente y otra.
9 Regresión Lineal Simple
División de Estudios Políticos, CIDE
Estadística 2010 Maestría en Finanzas Universidad del CEMA Profesor: Alberto Landro Asistente: Julián R. Siri.
PROBLEMAS ECONOMETRICOS
CONTRASTE Y VALIDACIÓN DE UN MODELO
TIPOS DE MODELOS DE REGRESIÓN Y SUPUESTOS PARA EL MODELO A
Pronósticos, Series de Tiempo y Regresión
Pronósticos, Series de Tiempo y Regresión
Departamento de Informática Universidad Técnica Federico Santa María EconometríaEconometría Modelos Pronósticos Prof. Dr. Héctor Allende.
Tema 7: Regresión Simple y Múltiple. EJEMPLO: Aproxima bien el número de préstamos que efectúa una biblioteca a lo largo de su primer año de vida. Nos.
Modelo de regresión con dos variables: Estimación
Unidad V: Estimación de
Introducción La inferencia estadística es el procedimiento mediante el cual se llega a inferencias acerca de una población con base en los resultados obtenidos.
Departamento de Informática Universidad Técnica Federico Santa María
Titular: Agustín Salvia
Introducción a la Inferencia Estadística
Inferencia Estadística
Análisis de regresión MCO MELI.
Estimador de Efectos Fijos
Regresión lineal simple
Índice: Introducción Conceptos básicos Procesos elementales
Regresión lineal múltiple
SERIES CRONOLOGICAS O DE TIEMPO
Definición del Modelo de Regresión Simple Estimaciones por MCO Método de MCO Valores Esperados y Varianzas por MCO.
ANÁLISIS DE REGRESIÓN SIMPLE
1 Y MODELO DE REGRESIÓN SIMPLE Suponemos que una variable Y es una función lineal de otra variable X, con parámetros desconocidos  1 y  2 que queremos.
Maestría en Transporte Regresamos... (el problema de la regresión lineal) Clase 5.
Método de mínimos cuadrados
MANUAL DE LABORATORIO DE CÓMPUTO ECONOMETRÍA I MODELO DE REGRESIÓN GENERAL 1 Profesor: Barland A. Huamán Bravo 2011 UNIVERSIDAD NACIONAL AGRARIA DE LA.
MODELOS DE PRONOSTICOS Primer semestre 2010 Modelo de Regresión con dos variables.
Unidad 4 Análisis de los Datos.
TEMA : ANALISIS DE REGRESION
Análisis de Datos Atmosféricos Regresión lineal 1
INFERENCIA ESTADÍSTICA
ECONOMETRIA 2. MODELO LINEAL SIMPLE Hernán Delgadillo Dorado
REGRESIÓN LINEAL SIMPLE
REGRESIÓN LINEAL SIMPLE. Temas Introducción Análisis de regresión (Ejemplo aplicado) La ecuación de una recta Modelo estadístico y suposiciones Estimación.
ESTADISTICA DESCRIPTIVA BIVARIADA MEDIDAS DE RELACIÓN ENTRE VARIABLES CUANTITATIVAS.
REGRESIÓN LINEAL SIMPLE TEMA INTRODUCCIÓN Determinar la ecuación de regresión sirve para: – Describir de manera concisa la relación entre variables.
1 REGRESIÓN CON VARIABLES DICOTÓMICAS TEMA 1 (CONTINUACIÓN)
Free and Quick translation of Prof. Anderson's slides1 Analisis de Regresion Multiple y =  0 +  1 x 1 +  2 x  k x k + u 1. Estimacion.
Transcripción de la presentación:

Análisis de Datos Atmosféricos Regresión lineal 1 Francisco Estrada Porrúa

Contenido 1. ¿Qué es el modelo de regresión y cuál es su propósito? 2. ¿Cómo determinar la confiabilidad/calidad de un modelo estadístico? 3. Pasos en modelación empírica 4. Supuestos de regresión 5. Mínimos cuadrados ordinarios (MCO) 6. Propiedades de los estimadores y supuestos 7. Medidas de bondad de ajuste 8. Evaluación de supuestos 9. Corrección de supuestos

¿Qué es el modelo de regresión y cuál es su propósito? Y t =a+bX t +u t Predecir o estimar la media de Y con respecto a X, cuantificar relación entre variables, aprender sobre el proceso E(Y t | I t )=a+bX t (componente sistemático) en general: E(Y t | I t )≠ E(Y t | H t )≠ E(Y t ) Ejemplos  E(T df,t )=15ºC; E(T df,t | mayo)=18ºC  E(T df,t ) ≠ E(T df,t | ENSO) ≠ E(T df,t | ENSO,…)

a+bXt Línea de regresión

¿Qué representan los coeficientes de regresión?

Es decir, representa los efectos de sobre Y dado lo que ya explicaron el resto de las variables independientes incluidas en el modelo Cadarepresenta el efecto parcial de sobre Y

¿Qué representa u t ? ¿Qué implica u t para el modelo de regresión? El error aleatorio permite que ante mismos valores de las variables explicativas, el efecto sobre Y t sea variado, de pendiendo de la interacción de otros factores. Relación determinística Relación estocástica Modelo probabilístico

Y t =a+bX t +u t  μ t =a+bX t Componente sistemático  u t Componente aleatorio (no sistemático) I t debe ser tal que u t no tiene información sistemática (u t similar a ruido blanco) ¿Cómo sabemos cual I t es el bueno?

I t =(AMO, SOI) I t =(AMO, SOI, SOLAR, VOLCANO) I t =(AMO, SOI, SOLAR, VOLCANO, GHG) I t =(AMO, SOI, TRF,…) Ejemplo: modelos de regresión para T global TtTt μtμt utut

¿Cómo determinar la confiabilidad/calidad de un modelo estadístico? Dos maneras comunes pero inadecuadas 1. Teoría únicamente

¿Cómo determinar la confiabilidad/calidad de un modelo estadístico? Dos maneras comunes pero inadecuadas 2. Reglas de dedo y maximización de R 2

Pasos en modelación empírica Teoría Modelo estimable Recolección de datos Estimación del modelo ¿Es el modelo estadísticamente adecuado? NoSí Reformular el modeloInterpretación del modelo Uso del modelo Análisis, pronóstico, etc. ¿Tiene sentido? Reespecificación

Recomendaciones para la modelación empírica Graficar datos es esencial No olvidar que un modelo estadístico es un conjunto de suposiciones probabilísticas Ningún resultado de inferencia estadística debe ser utilizado para concluir algo a menos de que se haya establecido que el modelo es estadísticamente adecuado Ninguna teoría, por sofisticada que sea, puede arreglar o validar un modelos estadístico inadecuado Un buen modelo empírico debe sintetizar los modelos estadístico y teórico sin que ninguno de los dos quede mal representado

Supuestos del modelo de regresión lineal Correcta especificación Forma funcional Permanencia estructural Normalidad No autocorrelación Homoscedasticidad Exogeneidad E(u t |X i,t )=0; cov(u t |X i,t )=0 No multicolinealidad Varianza de variables (excepto a) es >0 T >k ~ i.i.d

Supuestos del modelo de regresión lineal Correcta especificación  El componente sistemático propuesto es el correcto, no hay variables de más ni de menos.  Variables omitidas  Variables redundantes

Correcta especificación: el caso de variables omitidas Modelo verdadero: Modelo estimado: Entonces donde El coeficiente es insesgado únicamente si y/o son iguales a cero. recoge parcialmente el efecto de Zt sobre yt.

Correcta especificación: el caso de variables redundantes Modelo verdadero: Modelo estimado: es insesgado Pero es mayor. ¿Porqué importa? Es más fácil aceptar la hipótesis nula

Forma funcional Se asume que el modelo de regresión clásico es lineal Ojo: lineal en los parámetros no en las variables

Permanencia estructural Los parámetros de la regresión son estables y válidos para toda la muestra La relación entre las variables es estable durante el periodo de muestra

Normalidad Los errores de la regresión se distribuyen de manera normal  Pruebas de hipótesis (t, chi-sq, F…) requieren normalidad ~ i.i.d ~ t ~ F ~

Homoscedasticidad La varianza de u t es constante (no cambia ni con t ni con los valores de X t ) El coeficiente de regresión sigue siendo insesgado pero no así los errores estándar de los coeficientes. Estadísticos de prueba ya nos son válidos

No autocorrelación Los errores u t son independientes Autocorrelación de primer orden Autocorrelación de orden k El coeficiente de regresión sigue siendo insesgado. Los errores estándar y estadísticos de prueba ya nos son válidos

Exogeneidad u t y X t son independientes. Implica que x t y u t tienen una influencia separada y aditiva sobre y t. Si x t y u t están correlacionadas no es posible determinar sus efectos individuales sobre y t. Si no se cumple, las estimaciones no son validas. Los residuales son ortogonales a las variables explicativas y al los valores ajustados de yt (¿por qué?)

¿Por qué no habría exogeneidad? donde Ut contiene los efectos de un montón de variables que afectan a yt (pero se supone que no de manera sistemática). En este caso zt si afecta de forma sistemática. Para resolver este problema se necesita el método de variables instrumentales (no lo vamos a ver)

Multicolinealidad Los regresores no están correlacionados: x t y z t tienen una influencia separada y aditiva sobre y t. Si x t y z t están correlacionadas no es posible determinar sus efectos individuales sobre yt.  Multicolinealidad perfecta Alguna de las variables incluidas en el modelo es una combinación lineal de otras variables. No se puede estimar la regresión (X’X no es invertible)  Multicolinealidad imperfecta Las variables explicativas están altamente correlacionadas. X’X es cercana a no ser invertible: problemas numéricos. El modelo sí se puede estimar pero los errores estándar están inflados y pequeños cambios en la regresión modifican mucho los valores de los coeficientes estimados.

Repaso: Supuestos del modelo de regresión lineal Correcta especificación Forma funcional Permanencia estructural Normalidad No autocorrelación Homoscedasticidad Exogeneidad E(u t |X i,t )=0; cov(u t |X i,t )=0 No multicolinealidad Varianza de variables (excepto a) es >0 T >k ~ i.i.d

Estimación por Mínimos Cuadrados Ordinarios (MCO o LS)

Mínimos Cuadrados Ordinarios (MCO o LS) Así como para estimar la media y la varianza (por ejemplo) encontramos estimadores con propiedades deseables, lo mismo vamos a hacer para los coeficientes de regresión. A los estimadores de los coeficientes de regresión les vamos a pedir que sean:  1) Insesgados  2) Mínima varianza  3) Consistentes

1) Insesgado Las estimaciones que se hagan del parámetro pueden estar muy lejos parámetro real o poblacional pero en promedio obtendremos el valor verdadero Insesgado Sesgado

2) Mínima varianza (eficiente) Entre todos los estimadores insesgados se va a escoger el de mínima varianza

Consistencia Un estimador es consistente si según el tamaño de la muestra aumente, más me voy a acercar al verdadero valor del parámetro

Teorema de Gauss-Markov Dados los supuestos anteriores los estimadores de MCO son de mínima varianza dentro de la clase de estimadores lineales insesgados.  MELI (BLUE): Mejores estimadores lineales insesgados (también son consistentes) Lineal, insesgado y de mínima varianza (eficiente)

Mínimos cuadrados ordinarios Y x (u i ) 2 uiui Minimizar los errores al cuadrado: 1)No se cancelan positivos y negativos (E(ui)=0) 2)Función de pérdida: MCO penaliza más por errores más grandes que por errores más pequeños

MCO regresión simple Derivar parcialmente con respecto a los parámetros, obtener las condiciones de primer orden y resolver (TAREA) Estimadores de Mínimos Cuadrados Ordinarios

Regresión múltiple donde

Estimador de MCO

¿Es realmente un estimador insesgado?

¿Es un estimador insesgado?

¿ Es realmente de mínima varianza?

Supuesto de normalidad

Normalidad y pruebas de hipótesis

Resumen MCO Normalidad es necesaria para realizar pruebas de hipótesis

Medidas de bondad de ajuste

Problemas de la R 2 Si aumento el número de variables explicativas forzosamente la R 2 va a aumentar  R 2 (ajustada)=1-(1- R 2 )(T-1)/(T-k) penaliza al incluir más variables explicativas Si regreso dos variables con tendencia la R 2 va a ser muy alta y probablemente la relación sea espuria.  Regla de dedo: Desconfiar de regresiones con R 2 muy altas

Problemas de la R 2 El tamaño de la R 2 no es muy importante.  La R 2 por sí sola no da evidencias a favor o en contra de un modelo (se quiere aproximar el proceso generador de datos, no maximizar la R 2 ) La calidad estadística de un modelo y su utilidad para inferencia depende de que se cumplan los supuestos den los que el modelo descansa Una vez que se cumplen los supuestos podemos ver que tan bueno es el ajuste utilizando la R 2 o R 2 la ajustada. Solo así tiene sentido hablar de la R 2

Evaluación de supuestos Principio de adición de variables

Evaluación de supuestos Principio de adición de variables

Evaluación de supuestos

Pruebas para la evaluación de supuestos

Ramsey RESET Es una prueba general para detectar errores de especificación en el modelo Además de detectar una forma funcional incorrecta sirve para detectar:  Errores por variables omitidas  Correlación entre las variables explicativas y el término de error (no exogeneidad)

Ramsey RESET

Correcta especificación

No autocorrelación

No autocorrelación: Durbin-Watson

Autocorrelación: Breusch- Godfrey

Autocorrelación: Ljung-Box

Normalidad: Q-Q plots

Normalidad: histograma y estadísticas descriptivas Normal Asimetría = 0 Curtosis = 3

Normalidad: Jarque-Bera S = Asimetría K = Curtosis

Homoscedasticidad: gráficas Homoscedasticidad Heteroscedasticidad

Homoscedasticidad: White

Homoscedasticidad: ARCH

Permanencia estructural: Chow

Permanencia estructural: Quandt-Andrews

Permanencia estructural: errores recursivos

Permanecia estructural: CUSUM

Permanecia estructural: CUSUMQ

Multicolinealidad

Corrección de supuestos ¿Tiene sentido? Reespecificación Teoría Modelo estimable Recolección de datos Estimación del modelo ¿Es el modelo estadísticamente adecuado? NoSí Reformular el modeloInterpretación del modelo Uso del modelo Análisis, pronóstico, etc.

Soluciones genéricas: MCG

Outliers Efectos sobre normalidad, forma funcional, valores estimados de betas…

Variables dummy Observaciones aberrantes Cambios estructurales Estacionalidad Diferencias en medias Clasificación de observaciones Etc..

Predicción media (intervalos de la media estimada) Predicción: sustituir valores particulares de X en la regresión estimada

Predicción individual (datos fuera de muestra) Predicción: sustituir valores particulares de X en la regresión estimada

Evaluación de la predicción

0<U<1

Modelos de series de tiempo ARMA y VAR

Series de tiempo: descomposición Tendencia Ciclo Estacionalidad Componente irregular Componente aleatorio puro

Procesos estocásticos

Estacionariedad estricta

Estacionariedad débil o de segundo orden

Procesos estocásticos estacionarios

Procesos estacionarios: media móvil

Procesos estocásticos no estacionarios (ejemplo)

Procesos autorregresivos de primer orden

Box-Jenkins: Método para modelos ARMA(p,q) Pasos del método:

Comportamiento de las funciones de autocorrelación y de auto correlación parcial

Criterios para la selección de p y q

Condiciones de estabilidad Ecuación característica inversa Condición de estabilidad

Condiciones de estabilidad Ecuación característica inversa Encontrar las soluciones usando Raíces reales Raíces complejas Condición de estabilidad: Las raíces de la ecuación característica deben caer dentro del circulo unitario

Condiciones de estabilidad Eje horizontal: parte real Eje vertical: parte imaginaria

VAR(1)