División de Estudios Políticos, CIDE

Slides:



Advertisements
Presentaciones similares
Tema 2. El modelo de regresión lineal simple
Advertisements

PROPIEDADES DE LOS ESTIMADORES DE MÍNIMOS CUADRADOS ORDINARIOS
Regresión lineal simple
Regresión mínimo cuadrada (I)
CONTENIDOS Teoría del muestreo ¿Cómo seleccionar una muestra?
Modelos de Variable Dependiente Binaria -Logit y Probit-
Pronósticos, Series de Tiempo y Regresión
} LISSET BÁRCENAS MONTERROZA
KRIGING.
GEOESTADISTICA MULTIVARIADA
REGRESION Y CORRELACION LINEALES. REGRESION LINEAL SIMPLE Finalidad Estimar los valores de y (variable dependiente) a partir de los valores de x (variable.
Covarianza muestral Sean x1, x2, ..., xn e y1, y2, ..., yn dos muestras aleatorias independientes de observaciones de X e Y respectivamente. La covarianza.
Pruebas de Especificación en el Modelo de Regresión Múltiple
PROPIEDADES ESTADÍSTICAS DE LOS ESTIMADORES
MODELO DE REGRESIÓN MÚLTIPLE
Análisis de Regresión Lineal
MANUAL DE LABORATORIO DE CÓMPUTO ECONOMETRÍA I MULTICOLINEALIDAD
ESTRATEGIAS Y DISEÑOS AVANZADOS DE INVESTIGACIÓN SOCIAL
Econometria 2. Modelo de Regresión Lineal Simple
Estadística 2010 Clase 5 Maestría en Finanzas Universidad del CEMA
Regresión y correlación
Regresión Lineal Simple yi = b0 + b1xi + ui
Tema 1- Regresión lineal simple.
Regresión Lineal Simple
9 Regresión Lineal Simple
Estadística bidimensional
Tests de hipótesis Los tres pasos básicos para testear hipótesis son
PROBLEMAS ECONOMETRICOS
15 Análisis de Regresión Múltiple
TIPOS DE MODELOS DE REGRESIÓN Y SUPUESTOS PARA EL MODELO A
Pronósticos, Series de Tiempo y Regresión
Pronósticos, Series de Tiempo y Regresión
Modelo de regresión simple: Y =  1 +  2 X + u 1 Hemos visto que los coeficientes de regresión b 1 y b 2 son variables aleatorias. Estos, respectivamente,
Elementos Básicos de Probabilidad y Estadística Javier Aparicio División de Estudios Políticos, CIDE Julio 2009
ESTIMACIÓN DE COEFICIENTES DE MÁXIMA VEROSIMILITUD
Modelo de regresión con dos variables: Estimación
ESTIMACION En varios pasajes de este libro hemos planteado la dificultad que se confronta en las investigaciones, de llegar a conclusiones sobre una población.
Estimación Sea una característica, un parámetro poblacional cuyo valor se desea conocer a partir de una muestra. Sea un estadístico ( función.
Recuento de casillas durante el cómputo distrital: un análisis preliminar Dr. Javier Aparicio División de Estudios Políticos CIDE
Universidad Nacional de Colombia Curso Análisis de Datos Cuantitativos.
Titular: Agustín Salvia
Introducción a la Inferencia Estadística
CORRELACION Y REGRESION LINEAL: Introducción
Estadística para administradores
Análisis de regresión MCO MELI.
Estimador de Efectos Fijos
Definición del Modelo de Regresión Simple Estimaciones por MCO Método de MCO Valores Esperados y Varianzas por MCO.
ANÁLISIS DE REGRESIÓN SIMPLE
Elementos Básicos de Probabilidad y Estadística
Maestría en Transporte Regresamos... (el problema de la regresión lineal) Clase 5.
Estadística II Regresión Lineal.
Regresión Lineal Simple
Construcción de modelos con regresión y correlación
MANUAL DE LABORATORIO DE CÓMPUTO ECONOMETRÍA I MODELO DE REGRESIÓN GENERAL 1 Profesor: Barland A. Huamán Bravo 2011 UNIVERSIDAD NACIONAL AGRARIA DE LA.
Regresión lineal simple Nazira Calleja
REGRESIÓN LINEAL MÚLTIPLE.
ANÁLISIS DE LA INFORMACIÓN La relación entre variables.
Modelos de regresión lineal
Análisis de Datos Atmosféricos Regresión lineal 1
Clase N°11 Métodos de reducción de varianza
INFERENCIA ESTADÍSTICA
ECONOMETRIA 2. MODELO LINEAL SIMPLE Hernán Delgadillo Dorado
REGRESIÓN LINEAL SIMPLE
ESTADISTICA DESCRIPTIVA BIVARIADA MEDIDAS DE RELACIÓN ENTRE VARIABLES CUANTITATIVAS.
Free and Quick Translation of Anderson's slides1 Analisis de Regresion Multiple y =  0 +  1 x 1 +  2 x  k x k + u 4. Mas Aspectos de este Modelo.
Intervalos de Confianza M. C. José Juan Rincón Pasaye UMSNH – FIE Mayo de 2003.
Tarea # 4 PRUEBAS DE HIPÓTESIS ESTADÍSTICAS. PRUEBA DE HIPÓTESIS Hipótesis es una aseveración de una población elaborado con el propósito de poner a prueba,
Estimación estadística
Free and Quick translation of Prof. Anderson's slides1 Analisis de Regresion Multiple y =  0 +  1 x 1 +  2 x  k x k + u 1. Estimacion.
Analisis de Regresion Multiple
Transcripción de la presentación:

División de Estudios Políticos, CIDE Regresión Lineal Múltiple yi = b0 + b1x1i + b2x2i + . . . bkxki + ui A. Estimación Javier Aparicio División de Estudios Políticos, CIDE javier.aparicio@cide.edu Curso de Verano ENCUP http://publiceconomics.wordpress.com/verano2009 Julio 2009

Similitudes con regresión simple b0 es el intercepto b1 a bk son k parámetros de pendiente u es el término de error o residual El supuesto de media condicional cero se mantiene: E(u|x1,x2, …,xk) = 0 Igual que antes, minimizamos la suma de residuales cuadrados, de modo que tenemos k+1 condiciones de primer orden (o k+1 parámetros a estimar)

Interpretación de la regresión múltiple

b interpretada como una “derivada parcial”

…“derivada parcial” La ecuación anterior implica que “regresar y en x1 y x2” tiene el mismo estimador para x1 que regresar y en los residuales de una regresión de x1 en x2 Es decir, al relacionar x1 con y, solamente capturamos la información de xi1 que no está relacionada con xi2. Estimamos el efecto de x1 en y después de controlar o aislar el efecto de x2

Estimación simple vs. múltiple

Suma de cuadrados: Terminología SST es la suma de “desviaciones al cuadrado” de las observaciones de la muestra: es proporcional, más no igual, a VAR(y).

Bondad de ajuste: R2 ¿Cómo saber qué tan bueno es el ajuste entre la regresión y los datos de la muestra? Podemos calcular la proporción de la Suma de cuadrados totales (SST) que es “explicada” por el modelo. Esto es la llamada R-cuadrada de una regresión: R2 = SSE/SST = 1 – SSR/SST

Bondad de ajuste: R2

R-cuadrada: discusión R2 nunca decrecerá conforme incluyamos más variables explicativas a la regresión, y por lo general aumentará (así sea marginalmente). ¿Por qué? Incluir variables adicionales aumenta la SSE aunque no sean significativas. Dado que R2 típicamente aumenta con el número de variables independientes, no es por sí sola un buen criterio para comparar modelos.

b no sesgadas: supuestos Gauss-Markov Modelo poblacional es lineal en sus parámetros: y = b0 + b1x1 + b2x2 +…+ bkxk + u Muestra aleatoria de tamaño n, {(xi1, xi2,…, xik, yi): i=1, 2, …, n}, representativa de la población, de modo que el modelo muestral es: yi = b0 + b1xi1 + b2xi2 +…+ bkxik + ui E(u|x1, x2,… xk) = 0, lo cual implica que todas las variables explicativas son exógenas (no endogeneidad). Ninguna variable x es constante ni tiene una correlación lineal exacta con otra (no multicolinealidad).

Demasiadas vs. pocas variables ¿Si incluimos variables que “no pertenecen al modelo poblacional” en nuestra especificación o modelo? No tiene impacto en el resto de las b estimadas: MCO permanece sin sesgo. ¿Si excluimos variables que “sí pertenecen al modelo”? En general, los estimadores MCO tendrán un sesgo de variable omitida.

Sesgo de variable omitida ...ie, la estimación del “modelo incorrecto”. Comparémoslo con la b del “modelo correcto”

Sesgo de variable omitida (continuación)

Sesgo de variable omitida (continuación)

Sesgo de variable omitida (continuación)

Sesgo positivo o negativo en b1 Corr(x1, x2) > 0 (d1 > 0) Corr(x1, x2) < 0 (d1 < 0) b2 > 0 Sesgo positivo (overestimation) Sesgo negativo b2 < 0 (underestimation)

Sesgo de variable omitida: resumen Dos casos donde el sesgo es igual a cero: b2 = 0, es decir, x2 no pertenecía al modelo poblacional x1 y x2 no están correlacionados en la muestra Si la correlación entre (x2, x1) y entre (x2, y) es del mismo signo, el sesgo es positivo. Si omites una variable x2 que se mueve en el mismo sentido que x1, y ésta afecta positivamente a y, b1 capturará parte de dicho impacto (sobre- estimada). Si la correlación entre (x2, x1) y entre (x2, y) es de signo opuesto, el sesgo es negativo.

El caso más general: sesgo en todas las bi Técnicamente, sólo podemos anticipar el signo de este sesgo cuando el resto de las variables explicativas incluidas no están correlacionadas entre sí ni con la variable omitida Si esto no se cumple, el sesgo afecta a todas las bi estimadas, dependiendo de las covarianzas entre las variables incluidas y con la variable omitida. Aún así, resulta útil calcular el sesgo de variable omitida asumiendo que las otras x no están correlacionadas, aún cuando este supuesto no se cumpla.

Varianza de los estimadores MCO Ya vimos que la “distribución muestral” de los estimadores está centrada en torno a los “verdaderos” parámetros (insesgamiento). ¿Qué tan dispersa será la distribución de los estimadores? Para analizar esto, requerimos el 5º supuesto Gauss-Markov: Var(u|x1, x2,…, xk) = s2 conocido como homoscedasticidad (homoskedasticity): varianza constante.

Varianza de MCO (cont.) Sea x igual al vector de variables (x1, x2,…xk) Suponer que Var(u|x) = s2 también implica que Var(y| x) = s2 Los 4 supuestos requeridos para insesgamiento, más el supuesto de homoscedasticidad son los llamados supuestos Gauss-Markov.

Varianza de MCO (cont.) Es decir, SSTj captura la varianza de xi, mientras que R2j captura la correlación entre xj y las otras x del modelo.

Componentes de la Varianza de MCO Varianza del error: a mayor s2, mayor varianza de los estimadores MCO. Varianza muestral: a mayor SSTj, menor varianza de los estimadores MCO. A mayor tamaño de muestra, mayor SSTj y mayor precisión de los estimadores. Correlación entre las variables explicativas: a mayor Rj2, mayor varianza de los estimadores MCO. Si dos variables x son altamente correlacionadas, sus b serán poco precisas. Mayor varianza de los estimadores equivale a decir menor precisión o menor eficiencia.

Error de especificación y eficiencia de los estimadores MCO Estimar el modelo incorrecto produce una b1 sesgada (por la variable omitida) ¡pero de menor varianza (mayor precisión)! Un modelo con variables omitidas puede ser engañosamente preciso. Este es el llamado trade-off entre sesgo y eficiencia.

Trade-off entre sesgo y eficiencia La varianza del estimador es menor en el modelo “incorrecto” pero, a menos que b2 = 0, este modelo será sesgado. Un modelo con variables omitidas puede ser engañosamente preciso y posiblemente sesgado. Un modelo con demasiadas variables puede ser engañosamente impreciso: pierdes más grados de libertad y enfrentas mayor multicolinearidad. Conforme el tamaño de la muestra aumenta, la varianza de cada estimador disminuye, haciendo que las diferencias en eficiencia sean relativamente menos importantes.

Estimación de la varianza del error No conocemos la varianza del error, s2, porque no observamos los errores de la población, ui Lo que observamos son los residuales (estimados) del modelo muestral: Pero podemos usar los residuales estimados para construir un estimador de la varianza del error.

Varianza del error (cont) gl = n – (k + 1), o bien gl = n – k – 1 gl (i.e. grados de libertad) son el (número de observaciones) – (número de parámetros estimados) A mayores grados de libertad, mayor precisión de los estimadores.

Supuestos Gauss-Markov Modelo poblacional es lineal en sus parámetros: y = b0 + b1x1 + b2x2 +…+ bkxk + u Muestra aleatoria de tamaño n, {(xi1, xi2,…, xik, yi): i=1, 2, …, n}, representativa de la población, de modo que el modelo muestral es: yi = b0 + b1xi1 + b2xi2 +…+ bkxik + ui E(u|x1, x2,… xk) = 0, lo cual implica que todas las variables explicativas son exógenas (no endogeneidad). Ninguna variable x es constante ni tiene una correlación lineal exacta con otra (no multicolinealidad).

Teorema Gauss-Markov Dados los 5 supuestos Gauss-Markov, puede demostrarse que MCO es “MELI” (BLUE): Mejor Estimador Lineal Insesgado Best Linear Unbiased Estimator De modo que, si los supuestos G-M se sostienen, usar MCO es una buena idea. Si, además de estos 5 supuestos, u ~ N(0, s2)  MCO es el mejor estimador (lineal o no lineal) insesgado.