La descarga está en progreso. Por favor, espere

La descarga está en progreso. Por favor, espere

Análisis de Datos Atmosféricos Regresión lineal 1

Presentaciones similares


Presentación del tema: "Análisis de Datos Atmosféricos Regresión lineal 1"— Transcripción de la presentación:

1 Análisis de Datos Atmosféricos Regresión lineal 1
Francisco Estrada Porrúa

2 Contenido ¿Qué es el modelo de regresión y cuál es su propósito?
¿Cómo determinar la confiabilidad/calidad de un modelo estadístico? Pasos en modelación empírica Supuestos de regresión Mínimos cuadrados ordinarios (MCO) Propiedades de los estimadores y supuestos Medidas de bondad de ajuste Evaluación de supuestos Corrección de supuestos

3 ¿Qué es el modelo de regresión y cuál es su propósito?
Yt =a+bXt+ut Predecir o estimar la media de Y con respecto a X, cuantificar relación entre variables, aprender sobre el proceso E(Yt | It )=a+bXt (componente sistemático) en general: E(Yt | It )≠ E(Yt | Ht )≠ E(Yt) Ejemplos E(Tdf,t)=15ºC; E(Tdf,t | mayo)=18ºC E(Tdf,t) ≠ E(Tdf,t | ENSO) ≠ E(Tdf,t | ENSO,…) La regresión sirve para estimar la esperanza condicional de variable aleatoria Yt con respecto a un conjunto de información It

4 a+bXt Línea de regresión

5 ¿Qué representan los coeficientes de regresión?

6 ¿Qué representan los coeficientes de regresión?
Cada representa el efecto parcial de sobre Y Es decir, representa los efectos de sobre Y dado lo que ya explicaron el resto de las variables independientes incluidas en el modelo

7 ¿Qué representa ut? ¿Qué implica ut para el modelo de regresión?
Relación determinística Relación estocástica Modelo probabilístico El error aleatorio permite que ante mismos valores de las variables explicativas, el efecto sobre Yt sea variado, de pendiendo de la interacción de otros factores. El error aleatorio permite que ante mismos valores de las variables explicativas, el efecto sobre Yt sea variado, de pendiendo de la interacción de otros factores.

8 ¿Cómo sabemos cual It es el bueno?
Yt =a+bXt+ut μt =a+bXt Componente sistemático ut Componente aleatorio (no sistemático) It debe ser tal que ut no tiene información sistemática (ut similar a ruido blanco)

9 Ejemplo: modelos de regresión para T global
It=(AMO, SOI, SOLAR, VOLCANO) It=(AMO, SOI) Tt μt ut It=(AMO, SOI, TRF,…) It=(AMO, SOI, SOLAR, VOLCANO, GHG)

10 ¿Cómo determinar la confiabilidad/calidad de un modelo estadístico?
Dos maneras comunes pero inadecuadas Teoría únicamente

11 ¿Cómo determinar la confiabilidad/calidad de un modelo estadístico?
Dos maneras comunes pero inadecuadas Reglas de dedo y maximización de R2 No se debe ver como un problema de simplemente minimizar alguna medida de error o maximizar una medida de ajuste.

12 Pasos en modelación empírica
Teoría Modelo estimable Recolección de datos Estimación del modelo ¿Es el modelo estadísticamente adecuado? No Reformular el modelo Interpretación del modelo Uso del modelo Análisis, pronóstico, etc. Reespecificación ¿Tiene sentido?

13 Recomendaciones para la modelación empírica
Graficar datos es esencial No olvidar que un modelo estadístico es un conjunto de suposiciones probabilísticas Ningún resultado de inferencia estadística debe ser utilizado para concluir algo a menos de que se haya establecido que el modelo es estadísticamente adecuado Ninguna teoría, por sofisticada que sea, puede arreglar o validar un modelos estadístico inadecuado Un buen modelo empírico debe sintetizar los modelos estadístico y teórico sin que ninguno de los dos quede mal representado

14 Supuestos del modelo de regresión lineal
~ i.i.d Correcta especificación Forma funcional Permanencia estructural Normalidad No autocorrelación Homoscedasticidad Exogeneidad E(ut|Xi,t)=0; cov(ut|Xi,t)=0 No multicolinealidad Varianza de variables (excepto a) es >0 T >k E(ut|Xt,Zt)=0 equivale a que E(Yt|Xt,Zt)=a+b1Xt+b2Zt es decir que la media de ut no afecta la media de Yt… los valores positivos se cancelan con los negativos

15 Supuestos del modelo de regresión lineal
Correcta especificación El componente sistemático propuesto es el correcto, no hay variables de más ni de menos. Variables omitidas Variables redundantes

16 Correcta especificación: el caso de variables omitidas
Modelo verdadero: Modelo estimado: Entonces donde El coeficiente es insesgado únicamente si y/o son iguales a cero. recoge parcialmente el efecto de Zt sobre yt.

17 Correcta especificación: el caso de variables redundantes
Modelo verdadero: Modelo estimado: es insesgado Pero es mayor. ¿Porqué importa? Es más fácil aceptar la hipótesis nula

18 Forma funcional Se asume que el modelo de regresión clásico es lineal
Ojo: lineal en los parámetros no en las variables

19 Permanencia estructural
Los parámetros de la regresión son estables y válidos para toda la muestra La relación entre las variables es estable durante el periodo de muestra

20 Normalidad Los errores de la regresión se distribuyen de manera normal
~ i.i.d Los errores de la regresión se distribuyen de manera normal Pruebas de hipótesis (t, chi-sq, F…) requieren normalidad ~ F ~ t ~

21 Homoscedasticidad La varianza de ut es constante (no cambia ni con t ni con los valores de Xt) El coeficiente de regresión sigue siendo insesgado pero no así los errores estándar de los coeficientes. Estadísticos de prueba ya nos son válidos

22 No autocorrelación Los errores ut son independientes
Autocorrelación de primer orden Autocorrelación de orden k El coeficiente de regresión sigue siendo insesgado. Los errores estándar y estadísticos de prueba ya nos son válidos

23 Exogeneidad ut y Xt son independientes.
Los residuales son ortogonales a las variables explicativas y al los valores ajustados de yt (¿por qué?) Implica que xt y ut tienen una influencia separada y aditiva sobre yt. Si xt y ut están correlacionadas no es posible determinar sus efectos individuales sobre yt. Si no se cumple, las estimaciones no son validas.

24 ¿Por qué no habría exogeneidad?
donde Ut contiene los efectos de un montón de variables que afectan a yt (pero se supone que no de manera sistemática). En este caso zt si afecta de forma sistemática. Para resolver este problema se necesita el método de variables instrumentales (no lo vamos a ver)

25 Multicolinealidad Los regresores no están correlacionados: xt y zt tienen una influencia separada y aditiva sobre yt . Si xt y zt están correlacionadas no es posible determinar sus efectos individuales sobre yt. Multicolinealidad perfecta Alguna de las variables incluidas en el modelo es una combinación lineal de otras variables. No se puede estimar la regresión (X’X no es invertible) Multicolinealidad imperfecta Las variables explicativas están altamente correlacionadas. X’X es cercana a no ser invertible: problemas numéricos. El modelo sí se puede estimar pero los errores estándar están inflados y pequeños cambios en la regresión modifican mucho los valores de los coeficientes estimados.

26 Repaso: Supuestos del modelo de regresión lineal
~ i.i.d Correcta especificación Forma funcional Permanencia estructural Normalidad No autocorrelación Homoscedasticidad Exogeneidad E(ut|Xi,t)=0; cov(ut|Xi,t)=0 No multicolinealidad Varianza de variables (excepto a) es >0 T >k E(ut|Xt,Zt)=0 equivale a que E(Yt|Xt,Zt)=a+b1Xt+b2Zt es decir que la media de ut no afecta la media de Yt… los valores positivos se cancelan con los negativos

27 Estimación por Mínimos Cuadrados Ordinarios (MCO o LS)

28 Mínimos Cuadrados Ordinarios (MCO o LS)
Así como para estimar la media y la varianza (por ejemplo) encontramos estimadores con propiedades deseables, lo mismo vamos a hacer para los coeficientes de regresión. A los estimadores de los coeficientes de regresión les vamos a pedir que sean: 1) Insesgados 2) Mínima varianza 3) Consistentes

29 1) Insesgado Las estimaciones que se hagan del parámetro pueden estar muy lejos parámetro real o poblacional pero en promedio obtendremos el valor verdadero Sesgado Insesgado

30 2) Mínima varianza (eficiente)
Entre todos los estimadores insesgados se va a escoger el de mínima varianza

31 Consistencia Un estimador es consistente si según el tamaño de la muestra aumente, más me voy a acercar al verdadero valor del parámetro

32 Teorema de Gauss-Markov
Dados los supuestos anteriores los estimadores de MCO son de mínima varianza dentro de la clase de estimadores lineales insesgados. MELI (BLUE): Mejores estimadores lineales insesgados (también son consistentes) Lineal, insesgado y de mínima varianza (eficiente)

33 Mínimos cuadrados ordinarios
Y x (ui)2 ui Minimizar los errores al cuadrado: No se cancelan positivos y negativos (E(ui)=0) Función de pérdida: MCO penaliza más por errores más grandes que por errores más pequeños

34 MCO regresión simple Derivar parcialmente con respecto a los parámetros, obtener las condiciones de primer orden y resolver (TAREA) Estimadores de Mínimos Cuadrados Ordinarios

35 Regresión múltiple donde

36

37 Estimador de MCO

38 ¿Es realmente un estimador insesgado?

39 ¿Es un estimador insesgado?

40 ¿ Es realmente de mínima varianza?

41 ¿ Es realmente de mínima varianza?

42 ¿ Es realmente de mínima varianza?

43 Supuesto de normalidad

44 Normalidad y pruebas de hipótesis

45 Resumen MCO Normalidad es necesaria para realizar pruebas de hipótesis

46 Medidas de bondad de ajuste

47 Medidas de bondad de ajuste

48 Problemas de la R2 Si aumento el número de variables explicativas forzosamente la R2 va a aumentar R2(ajustada)=1-(1- R2)(T-1)/(T-k) penaliza al incluir más variables explicativas Si regreso dos variables con tendencia la R2 va a ser muy alta y probablemente la relación sea espuria. Regla de dedo: Desconfiar de regresiones con R2 muy altas

49 Problemas de la R2 El tamaño de la R2 no es muy importante.
La R2 por sí sola no da evidencias a favor o en contra de un modelo (se quiere aproximar el proceso generador de datos, no maximizar la R2) La calidad estadística de un modelo y su utilidad para inferencia depende de que se cumplan los supuestos den los que el modelo descansa Una vez que se cumplen los supuestos podemos ver que tan bueno es el ajuste utilizando la R2 o R2 la ajustada. Solo así tiene sentido hablar de la R2

50 Evaluación de supuestos
Principio de adición de variables

51 Evaluación de supuestos
Principio de adición de variables

52 Evaluación de supuestos

53 Pruebas para la evaluación de supuestos

54 Ramsey RESET Es una prueba general para detectar errores de especificación en el modelo Además de detectar una forma funcional incorrecta sirve para detectar: Errores por variables omitidas Correlación entre las variables explicativas y el término de error (no exogeneidad)

55 Ramsey RESET

56 Ramsey RESET

57 Ramsey RESET

58 Correcta especificación

59 Correcta especificación

60 Correcta especificación

61 No autocorrelación

62 No autocorrelación: Durbin-Watson

63 No autocorrelación: Durbin-Watson

64 No autocorrelación: Durbin-Watson

65 No autocorrelación: Durbin-Watson

66 Autocorrelación: Breusch-Godfrey

67 Autocorrelación: Ljung-Box

68 Normalidad: Q-Q plots

69 Normalidad: histograma y estadísticas descriptivas
Asimetría = 0 Curtosis = 3

70 Normalidad: Jarque-Bera
S = Asimetría K = Curtosis

71 Homoscedasticidad: gráficas
Heteroscedasticidad Homoscedasticidad Heteroscedasticidad

72 Homoscedasticidad: White

73 Homoscedasticidad: ARCH

74 Homoscedasticidad: ARCH

75 Permanencia estructural: Chow

76 Permanencia estructural: Chow

77 Permanencia estructural: Chow

78 Permanencia estructural: Quandt-Andrews

79 Permanencia estructural: errores recursivos

80 Permanecia estructural: CUSUM

81 Permanecia estructural: CUSUMQ

82 Multicolinealidad


Descargar ppt "Análisis de Datos Atmosféricos Regresión lineal 1"

Presentaciones similares


Anuncios Google