Descargar la presentación
La descarga está en progreso. Por favor, espere
Publicada porConsuelo Segura Ramírez Modificado hace 10 años
1
¿qué pasa si las regresoras están correlacionadas?
Multicolinealidad: ¿qué pasa si las regresoras están correlacionadas? No hay una expresión más errónea, tanto en los libros de texto de econometría como en la bibliografía aplicada, que la de “problema de multicolinealidad”. Es un hecho que muchas variables explicativas presentan un alto grado de colinealidad; asimismo, resulta muy claro que existen diseños experi- mentales XtX (es decir, matriz de datos) que serían mucho más convenientes que los diseños que proporciona la experimentación natural (es decir, la muestra disponible). No obstante, no es nada constructivo quejarse de la aparente malevolencia de la naturaleza, y los remedios ad hoc para un mal diseño —como una regresión por pasos o una regresión en cadena— pueden ser desastrosamente inapropiados. Es mejor aceptar de plano que los datos que no se recopilaron mediante experimentos diseñados a veces no proporcionan mucha información sobre los parámetros de interés.1 El supuesto 8 del modelo clásico de regresión lineal (MCRL) plantea que no existe multico- linealidad entre las regresoras incluidas en el modelo de regresión. En este capítulo considera- mos en forma crítica el supuesto de no multicolinealidad en busca de respuestas a las siguientes preguntas: ¿Cuál es la naturaleza de la multicolinealidad? ¿Es la multicolinealidad realmente un problema? ¿Cuáles son sus consecuencias prácticas? ¿Cómo se detecta? ¿Qué medidas pueden tomarse para aliviar el problema de multicolinealidad? En este capítulo también analizaremos el supuesto 6 del MCRL, a saber, que el número de observaciones en la muestra debe ser mayor que el de regresoras, así como el supuesto 7, que requiere una variabilidad suficiente en los valores de las regresoras, en vista de que ambos
2
.1 Naturaleza de la multicolinealidad
están estrechamente relacionados con el supuesto de la multicolinealidad. Arthur Goldberger denominó al supuesto 6 el problema de la micronumerosidad,2 lo cual simplemente significa un tamaño pequeño de muestra. .1 Naturaleza de la multicolinealidad El término multicolinealidad se atribuye a Ragnar Frisch.3 Originalmente, designaba una rela- ción lineal “perfecta” o exacta entre algunas o todas las variables explicativas de un modelo de regresión.4 Para la regresión con k variables que incluye las variables explicativas X1, X2, , Xk (donde X1 = 1 para todas las observaciones de forma que den cabida al término del intercepto), se dice que existe una relación lineal exacta si se satisface la siguiente condición: λ1 X1 + λ2 X2 +· · · + λk Xk = 0 (10.1.1) donde λ1, λ2,. . . , λk, son constantes tales que no todas son simultáneamente iguales a cero.5 Hoy en día, sin embargo, el término multicolinealidad incluye el caso de multicolinealidad perfecta, como lo indica (10.1.1) y también el caso en el cual hay X variables intercorrelacionadas pero no en forma perfecta, de la siguiente manera:6 λ1 X1 + λ2 X2 +· · · + λ2 Xk + vi = 0 donde vi es un término de error estocástico. Para apreciar la diferencia entre multicolinealidad perfecta y multicolinealidad menos que perfecta suponga, por ejemplo, que λ2 /= 0. Entonces, (10.1.1) se escribe como (10.1.2) λ1 λ3 λk X2i = − λ X1i − λ X3i − ··· − λ Xki (10.1.3) 2 2 2 que muestra la forma como X2 está exactamente relacionada de manera lineal con otras variables, o cómo se deriva de una combinación lineal de otras variables X. En esta situación, el coeficiente de correlación entre la variable X2 y la combinación lineal del lado derecho de (10.1.3) está obli- gado a ser igual a uno. En forma similar, si λ2 /= 0, la ecuación (10.1.2) se escribe como X2i = − λ X1i − λ X3i −· · · − λ Xki − λ vi λ1 λ3 λk 1 (10.1.4) lo cual muestra que X2 no es una combinación lineal exacta de otras X porque está determinada también por el término de error estocástico vi.
3
Como ejemplo numérico, considere la siguiente información hipotética:
X2 10 X3 50 X *3 52 15 75 18 90 97 24 120 129 30 150 152 Es evidente que X3i = 5X2i. Por consiguiente, hay colinealidad perfecta entre X2 y X3, pues el coeficiente de correlación r23 es la unidad. La variable X3* se creó de X3 agregándole simplemente los siguientes números, tomados de una tabla de números aleatorios: 2, 0, 7, 9, 2. Ahora ya no hay multicolinealidad perfecta entre X2 y X3*. Sin embargo, las dos variables están muy correlaciona- das, pues los cálculos indicarán que el coeficiente de correlación entre ellas es El método algebraico anterior para el problema de la multicolinealidad se expresa concisa- mente mediante un diagrama de Ballentine (recuerde la figura 3.8 que se reproduce en la figura 10.1). En esta figura los círculos Y, X2 y X3 representan las variaciones en Y (la variable depen- diente) y en X2 y X3 (las variables explicativas). El grado de colinealidad se mide por la magnitud de la intersección (área sombreada) de los círculos X2 y X3. En la figura 10.1a) no hay intersec- ción entre X2 y X3, y, por tanto, no hay colinealidad. En las figuras 10.1b) a 10.1e), el grado de colinealidad va de “bajo” a “alto”: entre mayor sea la intersección entre X2 y X3 (es decir, entre FIGURA 10.1 Gráfico de Ballentine de multicolinealidad. Y Y X3 X2 X2 X3 a) No existe colinealidad b) Colinealidad baja Y Y Y X3 X2 X3 X2 X3 X2 c) Colinealidad moderada d) Colinealidad alta e) Colinealidad muy alta
4
mayor sea el área sombreada), mayor será el grado de colinealidad
mayor sea el área sombreada), mayor será el grado de colinealidad. En el extremo, si X2 y X3 es- tuvieran superpuestos completamente (o si X2 estuviera por completo dentro de X3, o viceversa), la colinealidad sería perfecta. A propósito, observe que la multicolinealidad, como la definimos, se refiere sólo a relaciones lineales entre las variables X. Este concepto no aplica a las relaciones no lineales entre ellas. Por ejemplo, considere el siguiente modelo de regresión: Yi = β0 + β1 Xi + β2 X 2 + β3 X 3 + ui i i (10.1.5) donde, digamos, Y = costo total de producción y X = producción. Las variables X 2 (producción i i pero la relación es no lineal. De manera estricta, por consiguiente, modelos como (10.1.5) no violan el supuesto de no multicolinealidad. Sin embargo, en aplicaciones concretas, el coeficiente al cuadrado) y X 3 (producción al cubo) por supuesto están funcionalmente relacionadas con Xi, de correlación medido de forma convencional demostrará que Xi, X 2 y X 3 están altamente corre- lacionadas, lo cual, como mostraremos, dificultará estimar los parámetros de (10.1.5) con mayor precisión (es decir, con errores estándar pequeños). ¿Por qué supone el modelo clásico de regresión lineal que no hay multicolinealidad entre las X? El razonamiento es el siguiente: Si la multicolinealidad es perfecta en el sentido de (10.1.1), los coeficientes de regresión de las variables X son indeterminados, y sus errores estándar, infinitos. Si la multicolinealidad es menos que perfecta, como sucede en (10.1.2), los coeficientes de regresión, aunque sean determinados, poseen grandes errores estándar (en relación con los coeficientes mismos), lo cual significa que los coeficientes no pueden ser estimados con gran precisión o exactitud. Las pruebas de estas afirmaciones se presentan en las siguientes secciones. Existen diversas fuentes de multicolinealidad. Como afirman Montgomery y Peck, la multico- linealidad puede deberse a los siguientes factores:7 El método de recolección de información. Por ejemplo, la obtención de muestras en un intervalo limitado de valores tomados por las regresoras en la población. Restricciones en el modelo o en la población objeto de muestreo. Por ejemplo, en la regre- sión del consumo de electricidad sobre el ingreso (X2) y el tamaño de las viviendas (X3) hay una restricción física en la población, pues las familias con ingresos más altos suelen habitar vivien- das más grandes que las familias con ingresos más bajos. Especificación del modelo. Por ejemplo, la adición de términos polinomiales a un modelo de regresión, en especial cuando el rango de la variable X es pequeño. Un modelo sobredeterminado. Esto sucede cuando el modelo tiene más variables expli- cativas que el número de observaciones. Esto puede suceder en investigación médica, donde en ocasiones hay un número reducido de pacientes sobre quienes se reúne información respecto de un gran número de variables. Otra razón para la multicolinealidad, sobre todo en los datos de series de tiempo, puede ser que las regresoras del modelo compartan una tendencia común; es decir, que todas aumenten o disminuyan a lo largo del tiempo. Por tanto, en la regresión del gasto de consumo sobre el in- greso, la riqueza y la población, las regresoras ingreso, riqueza y población tal vez todas crezcan con el tiempo a una tasa aproximadamente igual, con lo cual se presentaría la colinealidad entre dichas variables. i i 7 Douglas Montgomery y Elizabeth Peck, Introduction to Linear Regression Analysis, John Wiley & Sons, Nueva York, 1982, pp Véase también R.L. Mason, R.F. Gunst y J.T. Webster, “Regression Analysis and Problems of Multicollinearity,” Communications in Statistics A, vol. 4, núm. 3, 1975, pp ; R. F. Gunst y R.L. Mason, “Advantages of Examining Multicollinearities in Regression Analysis”, Biometrics, vol. 33, 1977, pp
5
2 Estimación en presencia de multicolinealidad perfecta
Ya establecimos que, en el caso de multicolinealidad perfecta, los coeficientes de regresión per- manecen indeterminados y sus errores estándar son infinitos. Esto se demuestra fácilmente en términos del modelo de regresión con tres variables. Con la forma de desviación, en la cual todas las variables se expresan como desviaciones de sus medias muestrales, se escribe el modelo de regresión con tres variables como yi = βˆ2 x2i + βˆ3 x3i + uˆi (10.2.1) Ahora, del capítulo 7, obtenemos yi x2i x2 − βˆ2 = 3i yi x3i x2i x3i x2 (7.4.7) x3i 2 − x2i x3i 2 2i yi x3i x2 βˆ3 = 2i − yi x2i x2i x3i x2 (7.4.8) 2i x3i 2 − x2i x3i 2 Suponga que X3i = λX2i, donde λ es una constante diferente de cero (por ejemplo, 2, 4, 1.8, etc.). Si sustituimos esto en (7.4.7) obtenemos βˆ2 = yi x2i λ2 x2 2i — λ yi x2i λ x2 2i x2i 2 — λ2 x2i 2 2 x2 λ2 2i (10.2.2) = 0 que es una expresión indeterminada. El lector puede verificar que βˆ3 también es indetermi- nada.8 ¿Por qué obtenemos el resultado que aparece en (10.2.2)? Recuerde el significado de βˆ2: da la tasa de cambio en el valor promedio de Y a medida que X2 cambia en una unidad, manteniendo X3 constante. Pero si X3 y X2 son perfectamente colineales, no hay forma de que X3 se mantenga constante: a medida que X2 cambia, también lo hace X3 por el factor λ. Esto significa, entonces, que no hay forma de desenredar las influencias separadas de X2 y X3 de la muestra dada: para fines prácticos, X2 y X3 son indistinguibles. En la econometría aplicada, este problema ocasiona mucho daño, pues la idea consiste en separar los efectos parciales de cada X sobre la variable dependiente. Para ver esto de otra forma, sustituya X3i = λX2i en (10.2.1) y obtendrá lo siguiente [véase también (7.1.12)]: yi = βˆ2 x2i + βˆ3(λx2i) + uˆi = (βˆ2 + λβˆ3)x2i + uˆi = αˆ x2i + uˆi (10.2.3) donde αˆ = (βˆ2 + λβˆ3) (10.2.4)
6
10.3 Estimación en presencia de multicolinealidad “alta”
Al aplicar la conocida fórmula de MCO a (10.2.3) obtenemos αˆ = (βˆ2 + λβˆ3) = x2i yi x2 (10.2.5) 2i Por consiguiente, aunque se puede estimar α en forma única, no hay forma de estimar β2 y β3 en forma igualmente única; matemáticamente, αˆ = βˆ2 + λβˆ3 (10.2.6) nos proporciona una sola ecuación con dos incógnitas (observe que λ está dada) y existen in- finidad de soluciones para (10.2.6) con valores dados de αˆ y λ. Para expresar esto en términos concretos, sea αˆ = 0.8 y λ = 2. Entonces: 0.8 = βˆ2 + 2βˆ3 (10.2.7) o βˆ2 = 0.8 − 2βˆ3 (10.2.8) Ahora seleccione un valor de βˆ3 arbitrariamente y tendrá una solución para βˆ2. Seleccione otro valor para βˆ3 y tendrá otra solución para βˆ2. No importa cuánto lo intente, no existe un valor único para βˆ2. La conclusión del análisis anterior es que, en el caso de multicolinealidad perfecta, no puede obtenerse una solución única para los coeficientes de regresión individual. Pero observe que se puede obtener una solución única para combinaciones lineales de estos coeficientes. La combi- nación lineal (β2 + λβ3) se estima en forma única con α, dado el valor de λ.9 Asimismo, observe que en el caso de multicolinealidad perfecta, las varianzas y los errores estándar de βˆ2 y βˆ3 individualmente son infinitos. (Véase el ejercicio ) 10.3 Estimación en presencia de multicolinealidad “alta” pero “imperfecta” La situación de multicolinealidad perfecta es un extremo patológico. Por lo general no existe una relación lineal exacta entre las variables X, en especial en información económica relacionada con series de tiempo. Por tanto, de regreso al modelo de tres variables en forma de desviación dado en (10.2.1), en lugar de multicolinealidad exacta podemos tener x3i = λx2i + vi (10.3.1) donde λ /= 0 y donde vi es un término de error estocástico tal que x2i vi = 0. (¿Por qué?) A propósito, los diagramas de Ballentine que aparecen en la figura 10.1b) a 10.1e) representan casos de colinealidad imperfecta. En este caso, sería posible la estimación de los coeficientes de regresión β2 y β3. Por ejemplo, al sustituir (10.3.1) en (7.4.7) obtenemos ( yi x2i ) λ2 x2 + v2 − λ 2i i βˆ2 = yi x2i + yi vi λ x2 2i x2 x2 2 2i + vi − λ (10.3.2) 2i λ2 x2i 2 2 donde se aprovecha que x2i vi = 0. Se deriva una expresión similar para βˆ3.
7
10.4 Multicolinealidad: ¿tanto para nada?
Ahora, a diferencia de (10.2.2), no hay razón a priori para pensar que (10.3.2) no pueda esti- marse. Desde luego, si vi es lo bastante pequeño, es decir, muy cercano a cero, (10.3.1) indicará colinealidad casi perfecta, y regresaremos al caso indeterminado de (10.2.2). 10.4 Multicolinealidad: ¿tanto para nada? Consecuencias teóricas de la multicolinealidad Recuerde que si se satisfacen los supuestos del modelo clásico, los estimadores de MCO de los coeficientes de regresión son MELI (o MEI, si se añade el supuesto de normalidad). Ahora puede demostrarse que, aunque la multicolinealidad sea muy alta, como en el caso de casi multicoli- nealidad, los estimadores de MCO conservarán la propiedad MELI.10 Entonces, ¿cuáles son los inconvenientes de la multicolinealidad? Christopher Achen comenta al respecto (tenga en cuenta también la cita de Leamer del principio de este capítulo): Los novatos en el estudio de la metodología en ocasiones se preocupan porque sus variables inde- pendientes estén correlacionadas: el llamado problema de multicolinealidad. Sin embargo, la multi- colinealidad no viola los supuestos básicos de la regresión. Se presentarán estimaciones consistentes e insesgadas y sus errores estándar se estimarán en la forma correcta. El único efecto de la multico- linealidad tiene que ver con la dificultad de obtener los coeficientes estimados con errores estándar pequeños. Sin embargo, se presenta el mismo problema al contar con un número reducido de obser- vaciones o al tener variables independientes con varianzas pequeñas. (De hecho, en el nivel teórico, los conceptos de multicolinealidad, número reducido de observaciones y varianzas pequeñas en las variables independientes forman parte esencial del mismo problema.) Por tanto, la pregunta “¿qué debe hacerse entonces con la multicolinealidad?” es similar a “¿qué debe hacerse si no se tienen muchas observaciones?” Al respecto no hay una respuesta estadística.11 Para referirse a la importancia del tamaño de la muestra, Goldberger acuñó el término micro- numerosidad, como contraparte del exótico nombre polisílabo de multicolinealidad. De acuer- do con Goldberger, la micronumerosidad exacta (la contraparte de multicolinealidad exacta) surge cuando n, el tamaño de la muestra, es cero, en cuyo caso es imposible cualquier clase de estimación. La casi micronumerosidad, igual que la casi multicolinealidad, surge cuando el nú- mero de observaciones escasamente excede al número de parámetros que se va a estimar. Leamer, Achen y Goldberger están en lo correcto al lamentar la falta de atención al problema del tamaño de la muestra, lo mismo que al problema de multicolinealidad. Por desgracia, en el trabajo aplicado que comprende información secundaria (es decir, información recopilada por alguna institución, como la información del PNB recopilada por el gobierno), es posible que un investigador por sí solo no pueda hacer gran cosa sobre el tamaño de la información muestral, y quizá deba enfrentar “la estimación de problemas lo bastante importantes para justificar su tratamiento [por ejemplo, la multicolinealidad] como una violación del modelo CRL [clásico de regresión lineal]”.12 Primero, es cierto que aun en el caso de casi multicolinealidad los estimadores de MCO son insesgados. Pero el insesgamiento es una propiedad multimuestral o de muestreo repetido. Esto significa que, si mantenemos fijos los valores de X, si obtenemos muestras repetidas y calculamos los estimadores de MCO para cada una de esas muestras, el promedio de los valores muestrales se aproximará a los verdaderos valores poblacionales de los estimadores a medida que aumenta el número de las muestras. Pero esto nada dice sobre las propiedades de los estimadores en una muestra dada.
8
Consecuencias prácticas de la multicolinealidad
Segundo, también es cierto que la colinealidad no destruye la propiedad de varianza mínima: en la clase de los estimadores lineales insesgados, los estimadores de MCO tienen varianza mí- nima; es decir, son eficientes. Pero esto no significa que la varianza de un estimador de MCO necesariamente sea pequeña (en relación con el valor del estimador) en cualquier muestra dada, como demostraremos en breve. Tercero, la multicolinealidad es en esencia un fenómeno (de regresión) muestral en el sentido en que, aunque las variables X no estén linealmente relacionadas en la población, pueden estarlo en la muestra particular disponible: cuando se postula la función de regresión teórica o pobla- cional (FRP), se considera que todas las variables X incluidas del modelo ejercen una influencia separada o independiente sobre la variable dependiente Y. Pero puede suceder que en cualquier muestra dada con que se pruebe la FRP, alguna o todas las variables X sean tan colineales que no sea posible aislar su influencia individual sobre Y. Es decir, la muestra falla aunque la teoría es- tablezca que todas las X son importantes. En resumen, la muestra puede no ser lo bastante “rica” para acomodar todas las variables X en el análisis. A manera de ilustración, reconsidere el ejemplo consumo-ingreso del capítulo 3. Los econo- mistas teorizan que, además del ingreso, la riqueza del consumidor es también un determinante importante del gasto de consumo. Así, podemos escribir Consumoi = β1 + β2 Ingresoi + β3 Riquezai + ui Ahora, puede suceder que cuando se obtiene información sobre el ingreso y la riqueza, las dos variables pueden estar muy correlacionadas, aunque no en forma perfecta: la gente con mayor riqueza por lo general tiende a percibir mayores ingresos. Así, aunque, en teoría, el ingreso y la riqueza son candidatos lógicos para explicar el comportamiento del gasto de consumo, en la práctica (es decir, en la muestra) puede ser difícil distinguir las influencias separadas del ingreso y de la riqueza sobre el gasto de consumo. Lo ideal para evaluar los efectos individuales de la riqueza y del ingreso sobre el gasto de consumo es un número suficiente de observaciones muestrales de individuos con riqueza pero con ingresos bajos, e individuos de altos ingresos con escasa riqueza (recuerde el supuesto 7). Aun- que esto puede ser posible en los estudios de corte transversal (al incrementar el tamaño de la muestra), es muy difícil en el trabajo de series de tiempo agregadas. Por todas estas razones, el hecho de que los estimadores de MCO sean MELI a pesar de la presencia de multicolinealidad es poco consuelo en la práctica. Se debe ver lo que sucede o puede suceder en una muestra dada, tema analizado en la siguiente sección. Consecuencias prácticas de la multicolinealidad En los casos de casi o alta multicolinealidad es probable que se presenten las siguientes conse- cuencias: Aunque los estimadores de MCO son MELI, presentan varianzas y covarianzas grandes que dificultan la estimación precisa. Debido a la consecuencia 1, los intervalos de confianza tienden a ser mucho más amplios, lo cual propicia una aceptación más fácil de la “hipótesis nula cero” (es decir, que el verdadero coeficiente poblacional es cero). También debido a la consecuencia 1, la razón t de uno o más coeficientes tiende a ser estadís- ticamente no significativa. Aunque la razón t de uno o más coeficientes sea estadísticamente no significativa, R2, la me- dida global de bondad de ajuste, puede ser muy alta. Los estimadores de MCO y sus errores estándar son sensibles a pequeños cambios en los datos. Las consecuencias anteriores se demuestran de la siguiente manera.
9
Estimadores de MCO con varianzas y covarianzas grandes
Para ver varianzas y covarianzas grandes, recuerde que, para el modelo (10.2.1), las varianzas y covarianzas de βˆ2 y βˆ3 están dadas por o 2 var (βˆ2) = x2 (7.4.12) 2i 1 − r23 o 2 2 var (βˆ3) = x2 (7.4.15) 3i 1 − r23 r23σ 2 2 − cov (βˆ2, βˆ3) = (7.4.17) 1 − r 2 x2 x2 2i 3i 23 donde r23 es el coeficiente de correlación entre X2 y X3. De (7.4.12) y (7.4.15) se desprende que, a medida que r2 3 tiende a 1, es decir, a medida que aumenta la colinealidad, también lo hacen las varianzas de los dos estimadores y, en el límite, cuando r2 3 = 1, son infinitas. Es igualmente claro de (7.4.17) que, a medida que r2 3 aumenta hacia 1, la covarianza de los dos estimadores también aumenta en valor absoluto. [Nota: cov (βˆ2, βˆ3) ≡ cov (βˆ3, βˆ2).] La velocidad con que se incrementan las varianzas y covarianzas se ve con el factor inflacio- nario de la varianza (FIV), que se define como 1 FIV = (10.5.1) 1 r 2 − 23 El FIV muestra la forma como la varianza de un estimador se infla por la presencia de la multi- 23 el grado de colinealidad aumenta, la varianza de un estimador también y, en el límite, se vuelve infinita. Como se aprecia, si no hay colinealidad entre X2 y X3, el FIV será 1. Con esta definición, (7.4.12) y (7.4.15) se expresan como colinealidad. A medida que r 2 se acerca a 1, el FIV se acerca a infinito. Es decir, a medida que o 2 var (βˆ2) = x2 FIV (10.5.2) 2i o 2 var (βˆ3) = x2 FIV (10.5.3) 3i lo cual muestra que las varianzas de βˆ2 y βˆ3 son directamente proporcionales al FIV. Para dar alguna idea de la rapidez con que aumentan estas varianzas y covarianzas a medida que lo hace r2 3, considere la tabla 10.1, que da estas varianzas y covarianzas para valores selec- cionados de r2 3. Como lo indica esta tabla, los aumentos en r23 tienen un efecto drástico sobre las varianzas y covarianzas estimadas de los estimadores de MCO. Cuando r2 3 = 0.50, la var (βˆ2) es 1.33 veces la varianza cuando r2 3 es cero, pero, para cuando r2 3 alcance 0.95, será alrededor de 10 veces más alta que cuando no hay colinealidad. Observe bien que un incremento de r2 3 de 0.95 a hace que la varianza estimada sea 100 veces la obtenida cuando la colinealidad es cero. Se observa el mismo efecto espectacular sobre la covarianza estimada. Todo esto se ve en la figura 10.2. Los resultados recién analizados se extienden fácilmente al modelo con k variables. En un modelo así, la varianza del k-ésimo coeficiente, como vimos en (7.5.6), se expresa como: (7.5.6) o 2 1 var (βˆj ) = x2 R2 j 1 − j
10
TABLA .1 Efecto de incrementar var (βˆ2)( r 23 r2 3 sobre la var (βˆ2) y la Valor de r2 3 FIV var (βˆ2) var (βˆ2)( r 23 0) cov (βˆ2, βˆ3) (1) (2) (3)* (4) (5) o 2 0.00 1.00 = A — 0 x 2 2i 0.50 1.33 1.33 × A 0.67 × B 0.70 1.96 1.96 × A 1.37 × B 0.80 2.78 2.78 × A 2.22 × B 0.90 5.76 5.26 × A 5.26 4.73 × B 0.95 10.26 10.26 × A 9.74 × B 0.97 16.92 16.92 × A 16.41 × B 0.99 50.25 50.25 × A 49.75 × B 0.995 100.00 × A 99.50 × B 0.999 500.00 × A × B o 2 Nota: A = x 2 2i − o 2 B = x 2 2i x 3i 3 × = multiplicación *Para calcular el efecto de incrementar r23 sobre var ( βˆ3), observe que A = σ 2/ x 2 cuando r = 0; no obstante, los factores magnificadores de la varianza y covarianza permanecen iguales. 3i 23 FIGURA 10.2 Comportamiento de la var (βˆ2) como función de r2 3. var ( β2) A = σ 2 Σ x 2 2i 5.26A 1.33A A r 0.5 2 3 donde βˆj = coeficiente parcial (estimado) de la regresora Xj j = R en la regresión de Xj sobre las regresiones restantes (k − 2) [Nota: Existen R2 2 (k − 1) regresoras en el modelo de regresión de k variables.] x2 j = ( X j − X¯ j ) 2 (7.5.6) también se expresa como o 2 var (βˆj ) = x2 FIVj (10.5.4) j Como puede observar en esta expresión, var (βˆj) es proporcional a σ 2 y a FIV, pero inversamente proporcional a x 2. En consecuencia, el que var (βˆj) sea grande o pequeña depende de tres j
11
√10.26, o alrededor de 3. o 2 x 2 o 2 x 2 o 2 x 2 o 2 x 2 o 2 x 2
TABLA 2 Efecto de incrementar la colinealidad sobre el intervalo de confianza a 95% para β2: βˆ ee (βˆ2) Valor de r23 Intervalo de confianza a 95% para β2 o 2 0.00 βˆ2 ± 1.96 x 2 βˆ2 ± 1.96√(1.33) βˆ2 ± 1.96√(10.26) βˆ2 ± 1.96√(100) βˆ2 ± 1.96√(500) 2i o 2 0.50 x 2 2i o 2 0.95 x 2 2i o 2 0.995 x 2 2i o 2 0.999 x 2 2i Nota: Se usa la distribución normal porque suponemos que se conoce σ 2 por conveniencia. De ahí que utilicemos 1.96, el factor de confianza de 95% para la distribución normal. Los errores estándar que corresponden a los diversos valores de r2 3 se obtienen de la tabla 10.1. ingredientes: 1) σ 2, 2) FIV y 3) x 2. Este último ingrediente, que se vincula al supuesto 8 del modelo clásico, establece que mientras más grande sea la variabilidad en una regresora, más pequeña será la varianza del coeficiente de esa regresora, si suponemos que los otros dos ingre- dientes son constantes; por tanto, será mayor la precisión para estimar dicho coeficiente. Antes de seguir adelante, cabe observar que el inverso del FIV se conoce como tolerancia (TOL). Es decir, j 1 TOLj = FIV = 1 − R j 2 (10.5.5) j Cuando R2 = 1 (es decir, colinealidad perfecta), TOLj = 0, y cuando R2 = 0 (es decir, no existe ninguna colinealidad), TOLj es 1. Debido a la estrecha conexión entre el FIV y la TOL pueden utilizarse de manera indistinta. j j Intervalos de confianza más amplios Debido a los errores estándar grandes, los intervalos de confianza para los parámetros pobla- cionales relevantes tienden a ser mayores, como se ve en la tabla Por ejemplo, cuando r2 3 = 0.95, el intervalo de confianza para β2 es más grande que cuando r23 = 0 por un factor de √10.26, o alrededor de 3. Por consiguiente, en casos de alta multicolinealidad, los datos muestrales pueden ser compa- tibles con un diverso conjunto de hipótesis. De ahí que aumente la probabilidad de aceptar una hipótesis falsa (es decir, un error tipo II). Razones t “no significativas” Recuerde que para probar la hipótesis nula de que, por ejemplo, β2 = 0, utilizamos la razón t, es decir, βˆ2/ee (βˆ2) y comparamos el valor t estimado con el valor t crítico de la tabla t. Pero, como vimos, en casos de alta colinealidad los errores estándar estimados aumentan drásticamente, lo que disminuye los valores t. Por consiguiente, en tales casos se acepta cada vez con mayor facili- dad la hipótesis nula de que el verdadero valor poblacional relevante es cero.13 .
12
Una R 2 alta pero pocas razones t significativas
Considere el modelo de regresión lineal con k variables: Yi = β1 + β2 X2i + β3 X3i +· · · + βk Xki + ui En casos de alta colinealidad es posible encontrar, como acabamos de mencionar, que uno o más coeficientes parciales de pendiente son, de manera individual, no significativos estadísticamen- te con base en la prueba t. Aun así, R2 en tales situaciones puede ser tan alto, digamos, superior a 0.9, que, con base en la prueba F, es posible rechazar convincentemente la hipótesis de que β2 = β3 = = βk = 0. En realidad, ésta es una de las señales de multicolinealidad: valores t no significativos pero un R2 global alto (y un valor F significativo). Demostraremos lo anterior en la siguiente sección, pero este resultado no debe sorprender si tomamos en cuenta el análisis de las pruebas individuales comparadas con las pruebas conjuntas del capítulo 8. Como recordará, el problema real aquí consiste en que las covarianzas entre los estimadores, como indica la fórmula (7.4.17), están relacionadas con las correlaciones entre las regresoras. Sensibilidad de los estimadores de MCO y sus errores estándar ante cambios pequeños en los datos Siempre que la multicolinealidad no sea perfecta, es posible la estimación de los coeficientes de regresión; sin embargo, las estimaciones y sus errores estándar se tornan muy sensibles aun al más ligero cambio de los datos. Para ver esto considere la tabla Con base en estos datos obtenemos la siguiente regresión múltiple: Yˆi = X2i X3i (0.7737) (0.1848) t = (1.5431) (2.4151) (0.0851) (0.0358) (10.5.6) R2 = r23 = cov (βˆ2, βˆ3) = − gl = 2 La regresión (10.5.6) muestra que ninguno de los coeficientes de regresión es individualmente significativo en los niveles de significancia convencionales de 1 o de 5%, a pesar de que βˆ2 sea significativo en el nivel de 10% con base en la prueba t de una cola. Ahora considere la tabla La única diferencia entre las tablas 10.3 y 10.4 es que se intercam- biaron el tercer y el cuarto valores de X3. Con la información de la tabla 10.4 ahora obtenemos Yˆi = X2i X3i (0.7480) (0.2721) t = (1.6187) (1.4752) (0.1252) (0.2158) (10.5.7) R2 = r23 = cov (βˆ2, βˆ3) = − gl = 2 Como resultado de un ligero cambio en los datos vemos que βˆ2, antes estadísticamente signifi- cativo en un nivel de significancia de 10%, deja ahora de serlo aun en ese nivel. Observe también que en (10.5.6) la cov (βˆ2, βˆ3) = − mientras que en (10.5.7) es −0.0282, un aumento superior a tres veces su valor inicial. Todos estos cambios pueden atribuirse a un aumento de la multicolinealidad: en (10.5.6), r2 3 = , mientras que en (10.5.7) este coeficiente es
13
10.6 Ejemplo ilustrativo Consecuencias de la micronumerosidad
TABLA 10.3 Datos hipotéticos de Y, X2 y X3 TABLA 10.4 Datos hipotéticos de Y, X2 y X3 Y 1 2 3 4 5 X2 2 4 6 8 X3 4 2 12 16 Y 1 2 3 4 5 X2 2 4 6 8 X3 4 2 12 16 de En forma similar, los errores estándar de βˆ2 y βˆ3 aumentan entre las dos regresiones, síntoma característico de la colinealidad. Ya mencionamos que, en presencia de una alta colinealidad, no se pueden estimar los coefi- cientes de regresión individuales en forma precisa, pero que las combinaciones lineales de estos coeficientes se estiman con mayor exactitud. Esto se confirma con las regresiones (10.5.6) y (10.5.7). En la primera regresión, la suma de los dos coeficientes parciales de las pendientes es , en tanto que en la segunda regresión dicha suma es , prácticamente la misma. No sólo eso: sus errores estándar son prácticamente los mismos, frente a Observe, sin embargo, que el coeficiente de X3 cambió en forma notoria, de a Consecuencias de la micronumerosidad En una parodia de las consecuencias de multicolinealidad y de manera informal, Goldberger cita consecuencias exactamente iguales del análisis basado en muestras pequeñas, es decir, de la mi- cronumerosidad.15 Se aconseja al lector consultar el análisis de Goldberger para ver la razón por la cual da la misma importancia a la micronumerosidad que a la multicolinealidad. 10.6 Ejemplo ilustrativo EJEMPLO 10.1 Gasto de consumo en relación con el ingreso y la riqueza Para ilustrar los puntos mencionados hasta ahora, reconsideremos el ejemplo consumo-ingreso de la introducción. La tabla 10.5 contiene datos hipotéticos sobre consumo, ingreso y riqueza. Si suponemos que el gasto de consumo se relaciona linealmente con el ingreso y la riqueza, en- tonces, con base en la tabla 10.5, obtenemos la siguiente regresión: Yˆi = X2i − X3i (6.7525) t = (3.6690) (0.8229) (1.1442) (0.0807) (−0.5261) (10.6.1) R 2 = R¯ 2 = gl = 7
14
TABLA 10.5 Datos hipotéticos de gasto de consumo Y, ingreso X2 y riqueza X3 Y, $ 70 X2, $ 80 X3, $ 810 65 100 1 009 90 120 1 273 95 140 1 425 110 160 1 633 115 180 1 876 200 2 052 220 2 201 155 240 2 435 150 260 2 686 TABLA 10.6 Tabla ANOVA para el ejemplo de consumo, ingreso y riqueza Origen de la variación SC gl Debido a la regresión 2 Debido a residuos 7 SPC La regresión (10.6.1) muestra que el ingreso y la riqueza explican en conjunto alrededor de 96% de la variación en los gastos de consumo. A pesar de esto, ningún coeficiente de las pendientes es estadísticamente significativo de manera individual. Además, no sólo la variable riqueza es estadísticamente no significativa, sino que también tiene el signo incorrecto. A priori, se esperaría una relación positiva entre el consumo y la riqueza. A pesar de que βˆ2 y βˆ3 no son significativos individualmente en términos estadísticos, si se prueba la hipótesis de que β2 = β3 = 0 simultáneamente, esta hipótesis puede rechazarse, como lo demuestra la tabla Según el supuesto usual obtenemos F = = (10.6.2) Como es obvio, este valor F es muy significativo. Es interesante observar este resultado desde un punto de vista geométrico. (Véase la figura 10.3.) Con base en la regresión (10.6.1) se establecieron intervalos de confianza individuales a 95% de confianza para β2 y β3 según el procedimiento usual del capítulo 8. Como muestran estos intervalos, cada uno de ellos, en forma individual, incluye el valor de cero. Por tanto, in- dividualmente podemos aceptar la hipótesis de que las dos pendientes parciales son cero. Pero cuando establecemos el intervalo de confianza conjunto para probar la hipótesis de que β2 = β3 = 0, esa hipótesis no puede aceptarse, pues el intervalo de confianza conjunto, en realidad una elipse, no incluye el origen.16 Como ya señalamos, cuando la colinealidad es alta, no son confiables las pruebas sobre las regresoras individuales; en tales casos, la prueba F global es la que mostrará si Y está relacionada con las diversas regresoras. El ejemplo muestra en forma muy evidente lo que hace la multicolinealidad. El hecho de que la prueba F sea significativa pero los valores t de X2 y X3 no sean significativos individualmente implica que las dos variables están tan correlacionadas que es imposible aislar el impacto indi- (continúa)
15
EJEMPLO 10.1 (continuación) FIGURA 10.3 Intervalos de confianza individuales para β2 y β3 e intervalo de confianza conjunto (elipse) para β2 y β3. β3 0.1484 Intervalo de confianza conjunto a 95% para β2 y β3 Intervalo de confianza a 95% para β3 β2 –1.004 2.887 Intervalo de confianza a 95% para β2 – vidual del ingreso o de la riqueza sobre el consumo. De hecho, si efectuamos la regresión de X3 sobre X2, obtenemos Xˆ 3i = X2i ( ) (0.1643) t = (0.2560) ( ) (10.6.3) R2 = lo cual muestra una colinealidad casi perfecta entre X3 y X2. Ahora veamos lo que sucede si sólo efectuamos la regresión de Y sobre X2: Yˆi = X2i (6.4138) (0.0357) t = (3.8128) ( ) (10.6.4) R2 = En (10.6.1), la variable ingreso no era estadísticamente significativa, mientras que ahora es muy significativa. Si en lugar de efectuar la regresión de Y sobre X2 lo hacemos sobre X3, obtene- mos Yˆi = X3i (6.874) (0.0037) t = (3.551) (13.29) (10.6.5) R2 = Se observa que la riqueza tiene ahora un impacto significativo sobre el gasto de consumo, mien- tras que en (10.6.1) no tenía ninguno. Las regresiones (10.6.4) y (10.6.5) muestran con toda claridad que, en situaciones de ex- trema multicolinealidad, eliminar la variable altamente colineal con frecuencia provoca que la otra variable X se torne estadísticamente significativa. Este resultado sugiere que una forma de evadir la colinealidad extrema es eliminar la variable colineal, tema que veremos con mayor detalle en la sección 10.8.
Presentaciones similares
© 2025 SlidePlayer.es Inc.
All rights reserved.