Departamento de Informática Universidad Técnica Federico Santa María

Slides:



Advertisements
Presentaciones similares
DISEÑO DE EXPERIMENTOS EXPERIMENTOS DE COMPARACIÓN SIMPLE
Advertisements

Regresión Lineal Verificación de Supuestos
Tema 6: Regresión lineal.
Regresión mínimo cuadrada (I)
Modelos de Variable Dependiente Binaria -Logit y Probit-
KRIGING CON TENDENCIA.
Pronósticos, Series de Tiempo y Regresión
Bivariadas y Multivariadas
MANUAL DE LABORATORIO DE CÓMPUTO ECONOMETRÍA I HETEROSCEDASTICIDAD
“Construcción de Software para Regresión: El Caso de Selección de Modelos y Pruebas de Homocedasticidad” Previa a la obtención del Título de: INGENIERO.
León Darío Bello Parias
KRIGING.
Covarianza muestral Sean x1, x2, ..., xn e y1, y2, ..., yn dos muestras aleatorias independientes de observaciones de X e Y respectivamente. La covarianza.
Modelado y simulación en Ingeniería Química. Manuel Rodríguez
Pruebas de Especificación en el Modelo de Regresión Múltiple
Estadísticos de Prueba en el Modelo de Regresión Múltiple
PROPIEDADES ESTADÍSTICAS DE LOS ESTIMADORES
MODELO DE REGRESIÓN MÚLTIPLE
MANUAL DE LABORATORIO DE CÓMPUTO ECONOMETRÍA I MULTICOLINEALIDAD
ESTRATEGIAS Y DISEÑOS AVANZADOS DE INVESTIGACIÓN SOCIAL
Econometria 2. Modelo de Regresión Lineal Simple
Capitulo 10: La metodología Box-Jenkins
Estadística 2010 Clase 5 Maestría en Finanzas Universidad del CEMA
Regresión y correlación
CONTRASTE Y VALIDACIÓN DE UN MODELO
Estadística Descriptiva: 4. Correlación y Regresión Lineal
Tema 1- Regresión lineal simple.
Estadística Descriptiva: 4. Correlación y Regresión Lineal Ricardo Ñanculef Alegría Universidad Técnica Federico Santa María.
Regresión Lineal Simple
División de Estudios Políticos, CIDE
Tema 2: Métodos de ajuste
Tests de hipótesis Los tres pasos básicos para testear hipótesis son
Estadística 2010 Maestría en Finanzas Universidad del CEMA Profesor: Alberto Landro Asistente: Julián R. Siri.
Análisis de supervivencia Tema 5 Itziar Aretxaga.
PROBLEMAS ECONOMETRICOS
CONTRASTE Y VALIDACIÓN DE UN MODELO
TIPOS DE MODELOS DE REGRESIÓN Y SUPUESTOS PARA EL MODELO A
MODELOS GENERALIZADOS
Pronósticos, Series de Tiempo y Regresión
Pronósticos, Series de Tiempo y Regresión
3. Funciones discriminantes para la f.d.p normal.
Fundamentos del contraste de hipótesis
Tema 7: Regresión Simple y Múltiple. EJEMPLO: Aproxima bien el número de préstamos que efectúa una biblioteca a lo largo de su primer año de vida. Nos.
ESTIMACIÓN DE COEFICIENTES DE MÁXIMA VEROSIMILITUD
Unidad V: Estimación de
Métodos de calibración: regresión y correlación
Tema 7: Regresión Simple
Introducción La inferencia estadística es el procedimiento mediante el cual se llega a inferencias acerca de una población con base en los resultados obtenidos.
Departamento de Informática Universidad Técnica Federico Santa María
Capítulo 7 Estimación de Parámetros Estadística Computacional
Titular: Agustín Salvia
Introducción a la Inferencia Estadística
Herramientas básicas.
Estimador de Efectos Fijos
Unidad V: Estimación de
Capítulo 1. Conceptos básicos de la Estadística
Regresión lineal simple
Regresión lineal múltiple
Maestría en Transporte Estadística
Titular: Agustín Salvia
Regresión Lineal Simple
MANUAL DE LABORATORIO DE CÓMPUTO ECONOMETRÍA I MODELO DE REGRESIÓN GENERAL 1 Profesor: Barland A. Huamán Bravo 2011 UNIVERSIDAD NACIONAL AGRARIA DE LA.
Ejercicios Dado un conjunto de datos, aplicar el Criterio de Fourier para desechar los posibles valores atípicos.
INFERENCIA ESTADÍSTICA
Departamento de Informática Universidad Técnica Federico Santa María EconometríaEconometría Capitulo II.
(niveles o categorías)
REGRESIÓN LINEAL SIMPLE. Temas Introducción Análisis de regresión (Ejemplo aplicado) La ecuación de una recta Modelo estadístico y suposiciones Estimación.
REGRESIÓN LINEAL SIMPLE TEMA INTRODUCCIÓN Determinar la ecuación de regresión sirve para: – Describir de manera concisa la relación entre variables.
TEMA 7 ANÁLISIS DE LOS RESULTADOS TEMA 7 ANÁLISIS DE LOS RESULTADOS.
ANALISIS DE VARIANZA.
Transcripción de la presentación:

Departamento de Informática Universidad Técnica Federico Santa María Econometría Capitulo III Departamento de Informática Universidad Técnica Federico Santa María

Error de especificación, La distribución de u es normal. Hipótesis Realidad Las variables X toman valores distintos en la muestra. Multicolinealidad: Las variables X toman valores semejantes en la muestra. Error de especificación, La distribución de u es normal. Falta de normalidad: u no es normal. Homocedasticidad. Hetereocedasticidad. u independientes entre si. Autocorrelación: u dependientes. Héctor Allende O. 2

Los estimadores tendrán varianzas muy altas. 2.12 Multicolinealidad. Si las variables explicativas están altamente correlacionadas. Presentan tienen un fuerte grado de mullticolinealidad Esto genera: Los estimadores tendrán varianzas muy altas. Los estimadores serán muy dependientes entre si. Consideremos la matriz de varianzas y covarianzas. Ejemplo. Para 2 variables: Luego, si r1 Héctor Allende O. 3

Identificación. La identificación de las variables colineales se efectúa examinando: La matriz de correlación entre variables explicativas, R y su R-1 [Farrar Glauber, 1967]. Las raíces y vectores de la matriz X’X ó R [Silvey, 1969]. Los valores singulares de la matriz X [Welsh, 1980; Allende 1984]. La presencia de correlaciones altas entre variables es una señal de Multicolinealidad. Es posible que exista una alta correlación entre una variable con el resto y sin embargo sus coeficientes de correlación sean bajos. Medidas de singularidad. Una de medida de singularidad se basa en las raíces características de X’X ( o bien e los valores singulares de la matriz X) Héctor Allende O. 4

Tratamiento. La multicolinealidad es un problema de la muestra, luego no tiene una solución simple ya estamos pidiendo a los datos más información de la que contienen. Las dos únicas soluciones son: Eliminar regresores, reduciendo el número de parámetros. Incluír información externa a los datos. Otros procedimientos. En lugar de eliminar directamente las variables se pueden transformar mediante Componentes Principales y eliminar los componentes menos importantes [Mosteller, Tukey, (1977)]. Otra solución es introducir información externa mediante el enfoque bayesiano [Copas, 1983]. Héctor Allende O. 5

2.13 Análisis de residuos. Una vez construídos los modelos de regresión, se tienen que comprobar las hipótesis de: Normalidad, Homocedasticidad e independencia. Residuos minimo cuadráticos. , donde vii es el término diagonal de V. Definición. Se llaman residuos estandarizados a: Para evitar la dependencia entre numerador y denominador: Se define un residuo estudentizado:  Los tres residuos ei, ri y ti tienen un comportamiento asintótico similar y entregan una información valiosa para detectar deficiencias del modelo. Héctor Allende O. 6 6

Los gráficos más utilizados son: Análisis gráfico de los residuos. Los gráficos más utilizados son: Histograma y gráfico probabilístico normal de Gráficos de los residuos con respecto a las predicciones Gráficos de los residuos con respecto a las variables de control. Gráficos de los residuos parciales. Gráficos de los residuos con respecto a las variables omitidas. Héctor Allende O. 7

8 8 8 2.14 Un test de valores atípicos (outliers). Para contrastar que un residuo es atípico se utilizan residuos estudentizados: , que en la hipótesis de homogeneidad, tiene una distribución t-Student (n-k-2) grados de libertad. Sea Ai: el i-ésimo residuo es atípico Sea  error tipo I de un contraste individual n   T  T: Nivel de significación global. = P(Ai) Test operativo: Fijar T, obtener Encontrar un valor tc (t-Student (n-k-2)g.l.) tal que: Héctor Allende O. 8 8 8

9 9 2.15 Error de especificación. Se cometen errores de especificación cuando: Se omite una variable de control importante. Se introducen variables de control innecesarias. Se supone una relación lineal, cuando no lo es. Consecuencias. Incluír variables irrelevantes genera un aumento en Excluir variables relevantes genera sesgo en los Error en la transformación produce contrastes inválidos. Identificación. Mediante análisis de residuos v/s v/s v/s , etc. Tratamiento. Transformaciones, por ejemplo Transformaciones Box-Cox. Héctor Allende O. 9 9

La falta de normalidad produce: 2.16 Hipótesis de Normalidad.  Test de bondad de ajuste. Gráfica de Probabilidad Normal. Consecuencias. La falta de normalidad produce: Asimetrías Outliers. Tratamiento. Regresión Robusta, Transformaciones regresión logistica, etc Héctor Allende O. 10 10

11 11 2.17 Robustez del modelo y datos influyentes. En teoría clásica existen observaciones que tienen mayor influencia en las propiedades del modelo que otras (observaciones influyentes) Identificación de Puntos Influyentes. Medidas de influencia. Robustez a priori (Robustez de Diseño.) Robustez del modelo Robustez a posteriori (Robustez de Parámetros.) Héctor Allende O. 11 11

El modelo pierde eficiencia y se invalidan todos los contrastes. 2.18 Hetereocedasticidad: Consecuencia. El modelo pierde eficiencia y se invalidan todos los contrastes. Identificación. Análisis de residuos. Tratamiento. Transformaciones. Aplicación de Mínimos Cuadrados Generalizados. Héctor Allende O. 12 12

~ Los efectos de la dependencia pueden ser muy graves: 2.19 Autocorrelación. Los efectos de la dependencia pueden ser muy graves: Los estimadores son insesgados, pero no eficientes. Los contrastes para los parámetros no son válidos. Las predicciones son ineficientes. Identificación: Cuando se dispone de muestras grandes, se calcula: Y el estadistico de Box-Ljung (1978) ~ Donde m es el nº de coeficientes de autocorrelación. k es el nº de parámetros para calcular los residuos. Héctor Allende O. 13

Para muestras pequeñas, se utiliza el Test de Durbin-Watson para r(1) ya que el test asintótico de Box-Ljung es poco potente. Este contraste usa el estadístico: Teniendo en cuenta que Se tiene Donde r(1) es el coeficiente de autocorrelación a un paso. El problema de determinar la distribución del estadístico d cuando (1) es cero l resolvieron Durbin-Watson, tabulando dos cotas dL y dU, en función de k (nº de variables explicativas) y n (nº de observaciones). Inconvenientes del Test de Durbin-Watson, ver Wichern (1973). Héctor Allende O. 14

2.20 Mínimos Cuadrados Generalizados. Tratamiento: Usando series de tiempo es posible resolver el problema. 2.20 Mínimos Cuadrados Generalizados. La autocorrelación y la hetereocedasticidad en la perturbación son casos especiales de la formulación: Donde G es la matriz de varianzas y covarianzas de las perturbaciones, y en general, es cualquier matriz simétrica y semidefinida positiva. Este caso generaliza la hipótesis estándar del modelo de regresión: Si G=diag(12,…, n2 ) tenemos perturbaciones hetereocedásticas. Héctor Allende O. 15

16 Si es del tipo: Tendremos únicamente autocorrelación. Finalmente, si G=[ij] ocurren ambas condiciones simultáneamente. El método de MCG equivale a transformar el problema en otro donde las perturbaciones verifiquen E[UU’]= 2 I. Maximizar L(,2) c/r a es equivalente a minimizar Estimación con el método de MCG: Suponga que G es conocida. Entonces Y~(X, 2G) Héctor Allende O. 16

17 Derivando c/r a  se tiene que EMV  EMCG OBS.: El EMCG equivale a transformar las variables para que verifiquen las hipótesis estándares del modelo de regresión y luego determinar el estimador habitual en las variables transformadas. Aplicaciones para corregir la hetereocedasticidad. La hetereocedasticidad implica G= diag(1, 2) Por lo tanto el EMCG equivale a minimizar una suma cuadrática ponderada de los residuos, siendo el coeficiente de ponderación 1/i. Héctor Allende O. 17

Donde  es una función adecuada, se llama función de scores Regresión Robusta: Los EMC son poco eficientes cuando la distribución de las perturbaciones tiene colas pesadas. En tal caso Huber (1981) propone como estimador a Donde  es una función adecuada, se llama función de scores Dos funciones son: Héctor Allende O. 18

2.21 Construcción de Modelos de Regresión. Los tres procedimientos o estrategias más utilizados son: 1.- Eliminación Progresiva: Regresión de y sobre (x1,...., xk) Cálculo de los estadísticos Rechazar esa variable. El conjunto de variables Potenciales es k-1. Hacer k=k-1. Comparación del menor Valor de t (tmin) con t. tmin > t NO SI FIN DEL PROCESO Héctor Allende O. 19

20 2.- Introducción Progresiva: Héctor Allende O. Calcular coeficientes simples de correlación r(yjxi),  i Introducir la nueva x y calcular la nueva regresión. Regresión entre y y xj siendo xj tal que r(yxj) = sup r(yxi). Seleccionar la x con r mayor Cálculo de los residuos de la regresión (1).. Calcular r entre (1) y (2). Cálculo del estadístico t para la última variable x introducida. Calcular los residuos (2). ¿Es t significativo? Calcular las regresiones entre las variables no introducidas y el conjunto de las ya introducidas. SI NO Rechazar la última x introducida, mantener la regresión anterior. Héctor Allende O. 20

21 3.- Regresión Paso a Paso (Stepwise regression): Héctor Allende O. Fijar el nivel de significación . Calcular el coeficiente de correlación Parcial entre y, y las variables x no Introducidas en el modelo. Seleccionar como variable de entrada La de máximo coeficiente de Correlación parcial. Calcular la regresión. Calcular el estadístico t para la última variable introducida. Calcular estadísticos t para las x introducidas en etapas anteriores t>t*. SI ¿Es algún t<t*.? NO NO Rechazar la última variable Introducida. Fin del Programa. SI Eliminar del modelo esa variable. Héctor Allende O. 21

Criterios de selección de variables. Cuando se dispone de muchas variables explicativas potenciales, las estrategias de regresión anteriores definen normalmente un subconjunto posible de modelos y el problema es seleccionar entre ellos Suponga que se comparan modelos con la misma variable dependiente pero con distintas variables explicativas. (Los criterios que se presentan a continuación no son adecuados para comparar modelos con distinta variable de respuesta, por ejemplo: [y, lny]. La elección de la transformación debe hacerse escogiendo aquella que produzca normalidad, homocedastici-dad e independencia y no un mayor R2, ya que esto puede ser muy engañoso. Coeficiente de determinación. Es un mal criterio: R2 aumenta al introducir nuevas variables sea cual sea su efecto, por lo que siempre se tendría que escoger modelos con muchas variables. Héctor Allende O. 22

El modelo con menor varianza residual es también el que tiene mayor Coeficiente de correlación corregido. Evita el inconveniente principal de R2; puede comprobarse que este coeficiente aumentará al introducir una variable si su estadístico t es mayor que uno (t>1). Por lo tanto, escoger mediante este criterio es equivalente a imponer una regla amplia de entrada de variables. Varianza residual. El modelo con menor varianza residual es también el que tiene mayor Estadístico Cp de Mallows. Para justificar este criterio, suponga elegir aquel modelo que minimice el error cuadrático medio de la predicción para los puntos observados. Héctor Allende O. 23

con distintas variables xp, siendo p el número de parámetros del modelo. Mallows demuestra que esto es equivalente a minimizar Donde es la varianza residual del modelo con todas las k variables, es la varianza residual del modelo con p-1 variables y p parámetros y n es el número total de datos. Héctor Allende O. 24

Donde es el EMV de la varianza y p es el número de parámetros. Criterio de Akaike. Akaike (1973) ha propuesto el criterio AIC, derivado de la Teoría de la Información de Kullback. Donde es el EMV de la varianza y p es el número de parámetros. Otros criterios son: Hannan Quinnn Shibata Bayesiano Etc Héctor Allende O. 25