Regresion Multiple Varias variables explicativas Preguntas a responder: ¿qué variables selecionamos como explicativas? ¿estamos omitiendo alguna variable relevante? ¿estamos incluyendo alguna variable irrelevante?
Estimadores de MCO en regresion multiple Y = 1 + 2X2 + 3X3 + u ^ ^ ^ ^ u = Y - 1 - 2X2 - 3X3 ^ MCO minimiza la SCR ( ) min. SCR = min. u2 = min. (Y - 1 - 2X2 - 3X3)2 ^ SCR 1 =2 ( Y - 1- 2X2 - 3X3)(-1) = 0 ^ SCR 2 =2 ( Y - 1- 2X2 - 3X3)(-X2) = 0 ^ SCR 3 =2 ( Y - 1- 2X2 - 3X3)(-X3) = 0 ^
Ordenando las tres ecuaciones: n1 + 2 X2 + 3X3 = Y ^ 1 X2 + 2 X22 + 3 X2X3 = X2Y ^ 1 X3 + 2 X2X3 + 3 X32 = X3Y ^ en forma matricial: n X2 X3 X2 X22 X2X3 X3 X2X3 X32 1 2 3 ^ = Y X2Y X3Y Caso 2-variables Caso 3-variables (X’X) ^ X’Y
Regla de Cramer: n Y X3 X2 X2Y X2X3 X3 X3Y X32 (yx2)(x32) - (yx3)(x2x3) 2 ^ = = n X2 X3 X2 X22 X2X3 X3 X2X3 X32 (x22)(x32) - (x2x3)2 n X2 Y X2 X22 X2Y X3 X2X3 X3Y (yx3)(x22) - (yx3)(x2x3) 3 ^ = = n X2 X3 X2 X22 X2X3 X3 X2X3 X32 (x22)(x32) - (x2x3)2 1 = Y - 2X2 - 3X3 ^ _
or en forma matricial (no entra en este curso): ^ (X’X) X’Y 3x3 3x1 = ==> ^ = (X’X)-1 (X’Y) 3x3 3x1 Var-cov() = u2 (X’X)-1 y u2 = ^ u 2 n-3 Matriz de Varianzas-Covarianzas Var-cov() = ^ Var (1) Cov (1 2) Cov (1 3) Cov (2 1) Var (2) Cov (2 3) Cov (3 1) Cov (3 2) Var (3) = u2(X’X)-1 ^
= u2 ^ -1 n X2 X3 X2 X22 X2X3 X3 X3X2 X32 u2 = ^ u2 n-3 y = n-k u2 ^ k=3 # de variables independientes (incluido el termino constante)
Propiedades de las estimaciones MCO _ _ _ 1. La linea (superficie) de regresion pasa a traves de las medias de Y1, X2, X3 1 = Y - 2X2 - 3X3 ^ _ i.e., Y = 1 + 2X2 + 3X3 _ ^ ==> Y = Y + 2x2 + 3x3 ^ _ 2. y = 2x2 + 3x3 ^ o 3. u=0 ^ t = k - 0 se(k) ^ k = t •se(k) 4. uX2 = uX3 = 0 ^ ^ (uXk=0 ) ^ ^ 5. uY=0 ^
Propiedades de las estimaciones MCO (cont) ^ ^ 6. Cuanto mas relacionadas esten X2 y X3 ==> var(2) y var(3) mas grandes. Ademas sera mas dificil estimar los verdaderos valores de 2 y 3 . 7. Cuanto mayor es la variacion muestral de los valores de X2 o X3, menor es la varianza de 2 y 3 , y las estimaciones son mas precisas. ^ ^ 8. ELIMV. Todos los supuestos para el caso de regresion simple (dos variables) se siguen manteniendo para el caso de regresion multiple. Pero hace falta un supuesto adicional: No existe una relacion lineal exacta entre las variables independientes.
El significado de los coeficientes de regresion parcial: Y = 1 + 2X2 + 3X3 + u (suponed que es el verdadero modelo, PLO(Y|X2, X3)=E(Y|X2, X3)). Y X2 = 2 mide el cambio en el valor medio de Y, por un cambio de una unidad en X2, manteniendo X3 constante. : 2 o El efecto ‘directo’ de un cambio en una unidad en X2 sobre el valor medio de Y, neto de X3. Y X3 = 3 ??????
Y = 1 + 2 X2 + 3 X3 + u Y Y u ^
Tasa de inflacion esperada (%) Y X2 = 2 = -1.3925 Tasa de inflacion actual(%) Y Y X3 = 3= 1.4700 ^ Efecto directo de X2 ^ ^ Y = 1 + 2X2 + u1 Efecto directo de X3 Y = 1 + 3X3 + u3 ^ ^ ^ X2 = b2 + b23X3 + u23 X2 X3 X3 = b31 + b32X2 + u23 Tasa de Paro(%) Tasa de inflacion esperada (%) X3 X2 = b32 = 1.1138 Efecto indirecto via X3
Efecto total de X2: ^ ^ 2 + 3 * b32 = -1.392472 + (1.470032)(1.11385) ‘directo’ + ‘indirecto’ = -1.392472 + 1.637395 = 0.244923 X2 Y Y = 1’ + 2’ X2 + u Y X2 = 2’ ^ = 0.2449
Y = 1 + ’2 X2 + u’ “u’” incluye X3
X3 = b31 + b32 X2 + u’’
Efecto total de X3: ^ ^ 3 + 2 * b23 = 1.470032 + (-1.392472) (0.369953) ‘directo’ + ‘indirecto’ = 1.470032 - 0.515149 = 0.9548828 X3 Y Y = 1’ + 3’ X3 + u Y X3 = 3’ ^ = 0.954883
X2 = b21 + b23 X3 + u’’’
Y = 1 + ’3 X3 + u’’’’ u’”’ incluye X2
Ejemplo: Y = f ( X2 , X3 , u ) Produccion de output input trabajo input capital Y = 1 + 2 X2 + 3 X3 + ui Suponed que se puede controlar el input capital y queremos medir el impacto del input trabajo sobre el output. (X2) Paso I : regresar Y sobre X3 y obtener Y X3 X2 1 2 Y = b1 + b13 X3 + u1 ^
Paso II : regresar X2 sobre X3 y obtener ^ X2 = b2 + b23 X3 + u2 ahora u1 = Y - b1 - b13X13 = Y - Y ^ u2 = X2 - b2 - b23X3 = X2 - X2 ^ y Paso III : regresar u1 sobre u2 y obtener ^ ^ u1 = a0 + a1u2 + v ^ a1 mide el efecto directo del cambio en una unidad de X2 sobre Y. (productividad marginal del trabajo) a1 = ^
Y = b1 + b13 X3 + u1 X2 = b2 + b23 X3 + u2 u1 = a0 + a1u2 + v ^ ^
Contraste de hipotesis en regresion multiple: 1. Hipotesis sobre coeficientes individuales 2. Significatividad global de todos los coeficientes 3. Restriciones sobre variables (añadir o quitar): Xk = 0 ? 4. Hipotesis sobre varios coeficientes 2 + 3 = 1 5. Contrastar la forma funcional del modelo de regresion. 6. Contrastar la estabilidad del modelo de regresion -- en el tiempo -- en diferentes secciones cruzadas
Modelo: PCE = 0 + 1PD1 + 2TIME + u ^ Y = 53.163 + 0.726 X2 + 2.763 X3 se = (13.026) (0.048) (0.848) F2, 12 = 5128.88 n-k y k = 3 t = (4.081) (14,906) (3.224) _ R2 = 0.9986 R2 = 0.9988 =2.53
1. Contraste sobre un coeficiente individual Manteniendo X3 constante: Tiene X2 algun efecto sobre Y en media? Y X2 = 2 = 0? H0 : 2 = 0 ^ H1 : 2 0 t = 2 - 0 ^ Se (2) = 0.726 0.048 = 14.906 Comparar con el valor critico tc0.025, 12 = 2.179 Dado que t > tc ==> rechazar Ho Respuesta : Si, ya que es estadisticamente significativo (diferente de cero).
1. Contraste sobre un coeficiente individual (cont) Manteniendo X2 constante: Tiene X3 algun efecto sobre Y en media? 2 Y X3 = 3 = 0? H0 : 3 = 0 ^ H1 : 3 0 t = 3 - 0 ^ Se (3) = 2.736-0 0.848 = 3.226 Valor critico: tc0.025, 12 = 2.179 Dado que | t | > | tc | ==> rechazar Ho Respuesta: Si, es estadisticamente significativo.
2. Contrastar la significatividad global de ß2 y ß3 en la regression Y = 1 + 2X2 + 3X3 + u H0 : 2 = 0, 3 = 0, H1 : 2 0 o 3 0 1. Calcular y obtener el estadistico F 2. Buscar el valor critico Fc (F c , k-1, n-k) 3. Comparar F y Fc , y si F > Fc ==> rechazar H0 SCRr= suma de cuadrados de los residuos del modelo restringido SCRnr=suma de cuadrados de los residuos del modelo no-restringido q=grados de libertad del numerador=glr-glnr n-k=grados de libertad del denominador=glnr
2. Contrastar la significatividad global de ß2 y ß3 en la regression y = 2x2 + 3x3 + u ^ ^ Paso I: recordad ^ y2 = 2 x2 y + 3 x3 y + u2 ^ ^ ^ SCT = SCE + SCR = 32982.55/ 6.430 = 5128.870
Buscar el valor critico en Paso II: Y = 1 + 2 X2 + 3 X3 + u H0 : 2 = 0, 3 = 0, H1 : 2 0 ; 3 0 Buscar el valor critico en la tabla de la F Fc0.01, 2, 12 = 6.93 Fc0.05, 2, 12 = 3.89 Paso III: Regla de decision: Dado que F* > Fc ==> rechazar Ho Respuesta : Las variables X2 y X3 no son irrelevantes.
Relacion importante entre R2 y F SCE/ k-1 SCR/ n-k = SCE (n-k) SCR (k-1) = SCT-SCE SCE n-k k-1 Caso de tres variables : F = R2 / 2 (1-R2) / n-3 = SCE/SCT SCE 1 - n-k k-1 SCT = R2 1 - R2 n-k k-1 R2 = (k-1)F + (n-k) (k-1) F = R2 / (k-1) (1-R2) / n-k F Reverso :
R2 y el R2 ( ) ajustado R2 R2 0 < R2 < 1 R2 = SCE SCT = 1 - SCR u2 y2 ^ u2 / (n-k) y2 / (n-1) R2 = 1 - _ ^ k : # de variables independientes mas el termino constante R2 = 1 - _ 2 ^ SY2 n : # de observaciones R2 = 1 - _ u2 y2 ^ (n-1) (n-k) R2 = 1 - (1-R2) _ n-k n-1 R2 R2 _ 0 < R2 < 1
Significatividad global: H0 : 2 = 3 = 4 = 0 H1 : al menos un coef no es cero. 2 0 , or 3 0 , or 4 0 = R2 / k-1 (1-R2) / n- k 0.9710 / 3 (1-0.9710) /16 F* = F* = 179.13 Fc(0.05, 4-1, 20-4) = 3.24 k-1 n-k Como F* > Fc ==> rechazar H0.
3. Contrastar la adicion de una variable al modelo de regresion Modelo viejo : Y = 1 + 2 X2 + u1 Calcula R2v o SCEv Ahora considerad una nueva variable X3, ¿ es relevante o no? Modelo nuevo : Y = 1 + 2 X2 + 3 X3 + u2 Calcula R2n or SCRn y SCRn H0 : 3 = 0, X3 no es relevante H1 : 3 0, X3 es relevante
F* tambien puede ser calculado por Pasos del test para ver si X3 es relevante o no en el modelo 1. Calcular el estadistico F (m = 1) F* = (SCEn - SCEv) / # de variables adicionales SCRn / gl del modelo nuevo (n-3) 2. Comparad F* y Fc(, 1, n-3) 3. Regla de decision: Si F* > Fc ==> rechazar H0 : 3 = 0 es decir, X3 es una variable relevante para añadir al modelo. F* tambien puede ser calculado por # de nuevos regresores (R2n - R2v) / gl (añadir o eliminar) F = (1 - R2n) / gl n-k (en el modelo nuevo)
Añadir una variable X3 relevante Modelo viejo 65898.23 11.080 F* =
Modelo nuevo H0 : añadir X4 no es conveniente 4 = 0 Fc0.05, 1, 12 = 4.75 (añadir o quitar) (R2n - R2v) / gl # de nuevos regresores F* = (1 - R2n) / gl n-k ( ) en modelo nuevo = (0.9988 - 0.9978) / 1 (1 - 0.9988) / 12 = 10.397
Añadir una variable irelevante X4 Modelo viejo Y = 1 + 2 X2 + 3 X3 + u Siguiente: Modelo nuevo: Y = 1 + 2 X2 + 3 X3 + 4 X4 + u’ H0 : añadir X4 (TIME) no es conveniente, 4 = 0
Añadir una variable irelevante X4(TIME): Modelo nuevo (R2n - R2v) / gl 0.8890 - 0.8811 / 1 = 0.0079 0.01009 = 0.782 F* = = (1 - R2n) / gl (1 - 0.8890) / 13 - 4 Como F* < Fc ==> no se rechaza H0. Fc(0.05, 1, 11) = 4.84
4. Contrastes de hipotesis con varios coeficientes: Produccion Cobb-Douglas Y = 1 X22 X3 3 eu Minimos Cuadrados restringidos: Rendimientos constantes a escala 2 = 1 - 3 2 + 3 = 1 3 = 1 - 2 Modelo sin restringir ln Y = 1 + 2 ln X2 + 3 ln X3 + u ln Y = 1 + ( 1 - 3 ) ln X2 + 3 ln X3 + u => ln Y = 1 + ln X2 + 3 ( ln X3 - lnX2 ) + u => (ln Y - ln X2) = 1 + 3 ( ln X3 - lnX2 ) + u => Y x3 Modelo restringido => ln( ) = 1 + 3 ln ( ) + u X2 X2 Y* = ’1 + ’3 X* + u
ln(Y/X2) = ’1+ ’3ln(X3/X2) Modelo sin restringir lnY = 1+ 2lnX2+3lnX3 + u Modelo restringido ln(Y/X2) = ’1+ ’3ln(X3/X2) SCRNR = 0.067158 SCRR = 0.091475 H0 : 2 + 3 = 1 # de restriciones en modelo restringido (SCRR - SCRNR) / m F = 4.345 F = # de variables en modelo sin restringir (SCRNR) / n - k Fc(, m, n-k) = ?