La descarga está en progreso. Por favor, espere

La descarga está en progreso. Por favor, espere

Modelos de regresión con variables dicótomas

Presentaciones similares


Presentación del tema: "Modelos de regresión con variables dicótomas"— Transcripción de la presentación:

1

2 Modelos de regresión con variables dicótomas
En el capítulo 1 analizamos brevemente los cuatro tipos de variables que por lo general se en- cuentran en el análisis empírico: escala de razón, escala de intervalo, escala ordinal y escala nominal. Los tipos de variables de los capítulos anteriores fueron en esencia en escala de razón. Pero esto no debe dar la impresión de que los modelos de regresión sólo tratan con variables en escala de razón. Los modelos de regresión también trabajan con los demás tipos de variables que acabamos de mencionar. En este capítulo consideraremos modelos que tal vez no sólo tengan va- riables en escala de razón, sino también variables en escala nominal. Estas variables también se conocen como variables indicadoras, variables categóricas, variables cualitativas o variables dicótomas.1 Naturaleza de las variables dicótomas En el análisis de regresión, la variable dependiente o regresada a menudo acusa influencia no sólo de variables en escala de razón (por ejemplo: ingreso, producción, precios, costos y estatura), sino también de variables cualitativas por naturaleza, o de escala nominal (como sexo, raza, color, religión, nacionalidad, región geográfica, cambios políticos y afiliación partidista). Por ejemplo, con los demás factores constantes, se ha visto que las trabajadoras ganan menos que sus pares masculinos, y que las personas de color ganan menos que las blancas.2 Este patrón puede resultar de la discriminación sexual o racial, pero cualquiera que sea la razón, las variables cua- litativas, como sexo y raza, sí influyen en la variable dependiente y es claro que deben incluirse en las explicativas, o regresoras. Como tales variables suelen indicar la presencia o ausencia de una “cualidad” o atributo, como femenino o masculino, negro o blanco, católico o no católico, demócrata o republicano, son va- riables en escala nominal esencialmente. Una manera de “cuantificar” tales atributos es mediante variables artificiales que toman los valores 0 o 1, donde 1 indica la presencia (o posesión) de ese atributo y 0 su ausencia. Por ejemplo, 1 puede indicar que una persona es de sexo femenino y 0 que es de sexo masculino; o 1 puede indicar que una persona se graduó en la universidad y 0 que no lo ha hecho, y así en cada caso. Las variables que adquieren tales valores 0 y 1 se llaman Analizaremos las variables en escala ordinal en el capítulo 15. Hay una revisión de la demostración de este tema en Bruce E. Kaufman y Julie L. Hotchkiss, The Economics of Labor Market, 5a. ed., Dryden Press, Nueva York, 2000.

3 9.2 Modelos ANOVA 278 Parte Uno Modelos de regresión uniecuacionales
variables dicótomas.3 Tales variables son, por tanto, en esencia, un recurso para clasificar datos en categorías mutuamente excluyentes, como masculino o femenino. Las variables dicótomas pueden utilizarse en los modelos de regresión en forma tan fácil como las variables cuantitativas. De hecho, un modelo de regresión puede contener variables ex- plicativas exclusivamente dicótomas o cualitativas, por naturaleza. Tales modelos se denominan modelos de análisis de varianza (ANOVA).4 9.2 Modelos ANOVA Para ilustrar los modelos ANOVA, considere el siguiente ejemplo. EJEMPLO 9.1 Salarios de maes- tros de escuelas públicas por región geográfica La tabla 9.1 proporciona datos sobre salarios (en dólares) de los maestros de escuelas públicas en 50 estados y el Distrito de Columbia para los años Las 51 áreas se clasifican en tres regiones geográficas: 1) Noreste y Norte-centro (21 estados en total); 2) Sur (17 estados en total), y 3) Oeste (13 estados en total). Por el momento, no se preocupe por el formato de la tabla ni de los demás datos suministrados. Suponga que deseamos averiguar si el salario promedio anual (SPA) de los maestros de es- cuelas públicas difiere en las tres áreas geográficas de Estados Unidos. Si tomamos el promedio aritmético simple de los salarios promedio de los maestros de las tres regiones, obtenemos los siguientes promedios para las tres regiones: $ (Noreste y Norte-centro), $ (Sur) y $ (Oeste). Esos números difieren entre sí, pero, ¿son estadísticamente distin- tos? Existen varias técnicas estadísticas para comparar dos o más valores medios, lo cual por lo general se conoce como análisis de varianza.5 Pero se logra lo mismo con el análisis de regresión. Para ver lo anterior, considere el siguiente modelo: Yi = β1 + β2D2i + β3iD3i + ui donde Yi = salario (promedio) de los maestros de escuelas públicas en el estado i D2i = 1 si el estado se encuentra en el Noreste o Norte-centro = 0 para otra región del país D3i = 1 si el estado es del Sur (9.2.1) Observe que (9.2.1) es como cualquier modelo de regresión múltiple que se haya estudiado antes, excepto que en vez de regresoras cuantitativas, se tienen sólo variables cualitativas o di- cótomas, las cuales toman el valor de 1 si la observación pertenece a una categoría particular, y No es absolutamente esencial que las variables dicótomas adquieran los valores 0 y 1. El par (0,1) puede transformarse en cualquier otro par mediante una función lineal tal que Z = a + bD (b /= 0), donde a y b son constantes y donde D = 1 o 0. Cuando D = 1 se tiene Z = a + b, y cuando D = 0, se tiene Z = a. Así, el par (0,1) se convierte en (a, a + b). Por ejemplo, si a = 1 y b = 2, las variables dicótomas serán (1, 3). Esta expresión muestra que las variables cualitativas o dicótomas no tienen una escala natural de medición. Esto se debe a que se describen como variables en escala nominal. Los modelos ANOVA se utilizan para evaluar la significancia estadística de la relación entre una regresada cuantitativa y regresoras cualitativas o dicótomas. A menudo se emplean para comparar las diferencias entre los valores medios de dos o más grupos o categorías y, por tanto, son más generales que la prueba t, con la cual se comparan las medias de sólo dos grupos o categorías. Para un tratamiento de las aplicaciones, véase John Fox, Applied Regression Analysis, Linear Models, and Re- lated Methods, Sage Publications, 1997, cap. 8.

4 Capítulo 9 Modelos de regresión con variables dicótomas 279
TABLA 9.1 Salario promedio de maestros de escuelas públicas, por estado, Salario Gasto D2 D3 Connecticut 60 822 12 436 1 Georgia 49 905 8 534 Illinois 58 246 9 275 Kentucky 43 646 8 300 Indiana 47 831 8 935 Louisiana 42 816 8 519 Iowa 43 130 7 807 Maryland 56 927 9 771 Kansas 43 334 8 373 Mississippi 40 182 7 215 Maine 41 596 11 285 North Carolina 46 410 7 675 Massachusetts 58 624 12 596 Oklahoma 42 379 6 944 Michigan 54 895 9 880 South Carolina 44 133 8 377 Minnesota 49 634 9 675 Tennessee 43 816 6 979 Missouri 41 839 7 840 Texas 44 897 7 547 Nebraska 42 044 7 900 Virginia 44 727 New Hampshire 46 527 10 206 West Virginia 40 531 9 886 Nueva Jersey 59 920 13 781 Alaska 54 658 10 171 Nueva York 58 537 13 551 Arizona 45 941 5 585 Dakota del Norte 38 822 California 63 640 8 486 Ohio 51 937 10 034 Colorado 45 833 8 861 Pennsylvania 54 970 10 711 Hawaii 51 922 9 879 Rhode Island 55 956 11 089 Idaho 42 798 7 042 Dakota del Sur 35 378 7 911 Montana 41 225 8 361 Vermont 48 370 12 475 Nevada 45 342 6 755 Wisconsin 47 901 9 965 New Mexico 42 780 8 622 Alabama 43 389 7 706 Oregon 50 911 8 649 Arkansas 44 245 8 402 Utah 40 566 5 347 Delaware 54 680 12 036 Washington D.C. 47 882 7 958 Distrito de 59 000 15 508 Wyoming 50 692 11 596 Columbia Florida 45 308 7 762 Nota: D2 = 1 para estados del Noreste y Norte-centro; 0 para otra región. D3 = 1 para estados del Sur; 0 para otra región. Fuente: National Education Association como se informó en 2007. 0 si no pertenece a esa categoría o grupo. De aquí en adelante, designaremos todas las variables dicótomas con la letra D. La tabla 9.1 muestra las variables dicótomas así definidas. ¿Qué expresa el modelo (9.2.1)? Si consideramos que el término de error satisface las suposi- ciones usuales de MCO, al calcular la esperanza de (9.2.1) en ambos lados, obtenemos: Salario medio de los maestros de escuelas públicas en la región Noreste y Norte-centro: E (Yi | D2i = 1, D3i = 0) = β1 + β2 (9.2.2) Salario medio de los maestros de escuelas públicas en el Sur: E (Yi | D2i = 0, D3i = 1) = β1 + β3 (9.2.3) Quizá se pregunte cómo calcular el salario promedio de los maestros de escuelas públicas en el Oeste. Si sospecha que la respuesta es β1, está en lo correcto, pues: El salario medio de los maestros de escuelas públicas en el Oeste: E (Yi | D2i = 0, D3i = 0) = β1 (9.2.4) (continúa)

5 280 Parte Uno Modelos de regresión uniecuacionales
EJEMPLO 9.1 (continuación) En otras palabras, el salario medio de los maestros de escuelas públicas en el Oeste está dado por el intercepto, β1, en la regresión múltiple (9.2.1); además, los coeficientes de la “pendiente” β2 y β3 indican la cantidad por la que los salarios promedio de los maestros del Noreste y Norte- centro, así como los del Sur, difieren respecto de los salarios medios de los profesores del Oeste. Pero, ¿cómo saber si estas diferencias son estadísticamente significativas? Antes de responder, veamos los resultados basados en la regresión (9.2.1). Con los datos de la tabla 9.1 obtenemos los siguientes resultados: Yˆi = D2i − D3i ee = ( ) ( ) ( ) (9.2.5) t = (25.853) (0.645) (−0.698) (0.0000)* (0.5220)* (0.4888)* R2 = donde * indica los valores p. Como muestran los resultados de esta regresión, el salario medio de los profesores del Oeste es de casi $48 015, el de los maestros del Noreste y del Norte-centro es mayor por cerca de $1 524, y respecto de los del Sur, es menor por cerca de $ Los salarios medios reales en las últimas dos regiones se obtienen con facilidad si sumamos estos salarios diferenciales al sa- lario medio de los maestros del Oeste, como se ve en las ecuaciones (9.2.3) y (9.2.4). Al hacer esto, tendremos que los salarios medios de las dos últimas regiones son cercanos a $ y $ Pero, ¿cómo sabemos que estos salarios medios son estadísticamente diferentes del salario medio de los profesores del Oeste, que es la categoría con la que se comparan? Es muy fácil. Todo lo que hay que hacer es averiguar si cada coeficiente de “pendiente” en (9.2.5) es estadís- ticamente significativo. Como se observa en esta regresión, el coeficiente estimado de la pen- diente para la región Noreste y Norte-centro no es estadísticamente significativo, pues su valor p es 52%; tampoco el del Sur es estadísticamente significativo, pues el valor p es más o menos de 49%. En consecuencia, la conclusión general es que, estadísticamente, los salarios medios de los profesores de escuelas públicas del Oeste, Noreste y Norte-centro, y Sur son casi iguales. La situación se ilustra en el diagrama de la figura 9.1. Hay que tener cuidado al interpretar estas diferencias. Las variables dicótomas simplemente señalan las diferencias, si existen, pero no indican las razones por las que se presentan. Las di- ferencias en los niveles educativos, los índices del costo de vida, el sexo y la raza quizá ejerzan algún efecto sobre las diferencias observadas. Por tanto, a menos que se tomen en cuenta todas las demás variables que puedan afectar el salario de un maestro, no se podrán aclarar las causas de las diferencias. Del análisis anterior, resulta claro que lo único que hay que hacer es observar si los coeficien- tes relacionados con las diferentes variables dicótomas son estadísticamente significativos en lo individual. Este ejemplo también muestra lo fácil que es incorporar regresoras cualitativas, o dicótomas, a los modelos de regresión. FIGURA 9.1 Salario promedio (en dólares) de los maestros de escuelas públicas de tres regiones. β1 = $49 539 $ (β1 + β2) $ (β1 + β3) Noreste y Norte-centro Oeste Sur

6 Precaución con las variables dicótomas
Capítulo 9 Modelos de regresión con variables dicótomas Precaución con las variables dicótomas Aunque es fácil añadirlas a los modelos de regresión, las variables dicótomas se deben utilizar con cuidado. En particular, considere los siguientes aspectos: 1. En el ejemplo 9.1, para diferenciar las tres regiones utilizamos sólo dos variables dicóto- mas, D2 y D3. ¿Por qué no empleamos tres variables dicótomas para distinguir las tres regiones? Suponga que hacemos precisamente eso y escribimos el modelo (9.2.1) como: Yi = α + β1 D1i + β2 D2i + β3 D3i + ui (9.2.6) donde D1i toma el valor de 1 para los estados del Oeste y 0 para los de otras regiones. Por tanto, ahora tenemos una variable dicótoma para cada una de las tres regiones geográficas. Con los datos de la tabla 9.1, si fuese a hacer la regresión de (9.2.6), la computadora “se negaría” (intén- telo).6 ¿Por qué? La razón estriba en que cuando se definió (9.2.6), donde se tiene una variable dicótoma para cada categoría o grupo, así como un intercepto, se presenta un caso de colineali- dad perfecta; es decir, existe una relación lineal exacta entre las variables. ¿Por qué? Consulte la tabla 9.1. Imagine que ahora añadimos la columna D1, que toma el valor de 1 siempre que un estado sea del Oeste y 0 en cualquier otro caso. Ahora bien, si sumamos las tres columnas D ho- rizontalmente, obtendremos una columna con 51 números 1. Pero, como el valor del intercepto α es (implícitamente) 1 para cada observación, habrá una columna también con 51 números 1. En otras palabras, la suma de las tres columnas D sólo reproducirá la columna del intercepto, lo cual provoca colinealidad perfecta. En este caso es imposible la estimación del modelo (9.2.6). El mensajes es: si una variable cualitativa tiene m categorías, sólo hay que agregar (m − 1) variables dicótomas. En el ejemplo anterior, como la variable cualitativa “región” tiene tres cate- gorías, se introducen sólo dos variables dicótomas. Si no se respeta esta regla se provocará lo que se conoce como trampa de la variable dicótoma; es decir, se tendrá una situación de perfecta colinealidad o perfecta multicolinealidad, si hay más de una relación exacta entre las variables. Esta regla también vale si se tiene más de una variable cualitativa en el modelo, sobre lo cual ve- remos un ejemplo más adelante. Así, se tiene que enunciar de nuevo la regla anterior como: para cada regresora cualitativa, el número de variables dicótomas introducidas debe ser una menos que las categorías de esa variable. Entonces, si en el ejemplo 9.1 hubiésemos contado con información sobre el género de los profesores, habríamos utilizado una variable dicótoma adicional (pero no dos) que tomara el valor de 1 para mujer y de 0 para hombre, o viceversa. La categoría a la cual no se asigna variable dicótoma se conoce como categoría base, de comparación, de control, de referencia u omitida. Además, todas las comparaciones se hacen respecto de la categoría de comparación. El valor del intercepto (β1) representa el valor medio de la categoría de comparación. En el ejemplo 9.1, dicha categoría es la región Oeste. En consecuencia, para la regresión (9.2.5), el valor del intercepto, de alrededor de , representa el salario medio de los maestros para los estados del Oeste. Los coeficientes asociados a las variables dicótomas en (9.2.1) se conocen como coeficien- tes de intercepto diferencial, debido a que indican la medida en que el valor de la categoría que recibe el valor de 1 difiere del coeficiente de intercepto correspondiente a la categoría de com- paración. Por ejemplo, en (9.2.5), el valor aproximado de señala que el salario promedio de los maestros de la región Noreste y Norte-centro es mayor por aproximadamente $1 524 que el salario medio de casi $ perteneciente a la categoría de comparación, en este caso, el Oeste. 6 En realidad, obtendría el mensaje de que la matriz es singular.

7 β1 = salario medio de los maestros en el Oeste
Parte Uno Modelos de regresión uniecuacionales Si una variable cualitativa tiene más de una categoría, como en el ejemplo ilustrativo, la elección de la categoría de comparación se deja al criterio estricto del investigador. A veces dicha elección la determina el problema particular que se trabaja. Para el ejemplo ilustrativo se pudo elegir el Sur como categoría de comparación. En ese caso cambian los resultados de la re- gresión dados en (9.2.5), pues ahora las comparaciones se hacen respecto del Sur. Por supuesto, lo anterior no cambia la conclusión general del ejemplo (¿por qué?). En este caso, el valor del intercepto será cercano a $46 294, el salario medio de los maestros del Sur. Advertimos sobre la trampa de la variable dicótoma. Existe una forma de eludirla al in- troducir tantas variables dicótomas como números de categorías tenga dicha variable, siempre y cuando no se introduzca el intercepto en dicho modelo. Así, si eliminamos el término del inter- cepto de (9.2.6) y consideramos el siguiente modelo Yi = β1 D1i + β2 D2i + β3 D3i + ui (9.2.7) no caeremos en la trampa de la variable dicótoma, pues no existe colinealidad perfecta. Pero se debe asegurar de que, cuando haga esa regresión, utilice la opción “no intercepto” en el paque- te de software. ¿Cómo interpretamos la regresión (9.2.7)? Si toma la esperanza de (9.2.7), tendrá que: β1 = salario medio de los maestros en el Oeste β2 = salario medio de los maestros en el Noreste y Norte-centro β3 = salario medio de los maestros en el Sur En otras palabras, con el intercepto eliminado y al permitir una variable dicótoma para cada categoría, obtenemos de manera directa los valores medios de las distintas categorías. Los re- sultados de (9.2.7) para el ejemplo ilustrativo son los siguientes: Yˆi = D1i D2i D3i ( ) (33.902)* ( ) (28.505)* R2 = 0.044 ee = ( ) t = (25.853)* (9.2.8) donde* indica que los valores p de estas razones t son muy pequeños. Como se observa, los coeficientes de las variables dicótomas proporcionan de manera directa los valores medios (de los salarios) para las tres regiones: Oeste, Noreste y Norte-centro, y Sur. 7. ¿Cuál de los siguientes métodos es el mejor para introducir una variable dicótoma: 1) agregar una variable dicótoma para cada categoría y omitir el término del intercepto o 2) incluir el término del intercepto y añadir sólo (m − 1) variables, donde m es el número de categorías de la variable dicótoma? Como señala Kennedy: La mayoría de los investigadores piensan que es más conveniente la ecuación con intercepto porque les permite enfrentar de manera más sencilla las interrogantes que a menudo les interesan más; a saber, si la categorización genera una diferencia o no; y si lo hace, en qué medida. Si la categoriza- ción genera una diferencia, el grado de esta diferencia se mide directamente por las estimaciones de los coeficientes de las variables dicótomas. Probar si la categorización es o no es relevante se lleva a cabo mediante la prueba t del coeficiente de una variable dicótoma, respecto de cero (o, de forma más general, una prueba F sobre el conjunto apropiado de los coeficientes estimados de las variables dicótomas).7 7 Peter Kennedy, A Guide to Econometrics, 4a. ed., MIT Press, Cambridge, Massachusetts, 1998, p. 223.

8 9.3 Modelos ANOVA con dos variables cualitativas
Capítulo 9 Modelos de regresión con variables dicótomas 9.3 Modelos ANOVA con dos variables cualitativas En la sección anterior estudiamos un modelo ANOVA con una variable cualitativa de tres cate- gorías. En esta sección analizaremos otro modelo ANOVA, pero con dos variables cualitativas, además de destacar otros aspectos sobre este tipo de variables. EJEMPLO 9.2 Salarios por hora en relación con el estado civil y la re- gión de residencia De una muestra de 528 personas tomada en mayo de 1985 se obtuvieron los siguientes resul- tados de regresión:8 Yˆi = ee = (0.4015) t = ( ) (0.0000)* D2i − D3i (0.4642) (2.3688) (0.0182)* (0.4854) (−3.4462) (0.0006)* R 2 = (9.3.1) donde Y = salario por hora ($) D2 = estado civil; 1 si es casado, 0 en otro caso D3 = región de residencia; 1 si es del Sur, 0 en otro caso y * denota los valores p. En este ejemplo tenemos dos regresoras cualitativas, cada una con dos categorías. Por tanto, asignamos una variable dicótoma para cada categoría. ¿Cuál es la categoría de comparación en este caso? Obvio, son los no casados y con residen- cia fuera del Sur. En otras palabras, las personas no casadas y que no viven en el Sur forman la categoría omitida. Por consiguiente, todas las comparaciones se establecen respecto de este grupo. El salario medio por hora en esta categoría base es de casi $8.81. Respecto de ésta, el salario promedio por hora de los que están casados es mayor por casi $1.10, lo cual da un salario promedio real de $9.91 (= ). En contraste, para los que viven en el Sur, su sala- rio promedio por hora es menor por cerca de $1.67, lo cual da un salario promedio por hora de $7.14. ¿Los salarios promedio por hora anteriores son estadísticamente distintos en comparación con la categoría base? Sí lo son, pues todos los interceptos diferenciales son estadísticamente significativos: sus valores p son muy bajos. El punto que debe notarse en este ejemplo es el siguiente: una vez que se va más allá de una variable cualitativa, se tiene que poner mucha atención a la categoría considerada como base, porque todas las comparaciones se llevan a cabo respecto de dicha categoría. Esto es especialmente importante cuando se tienen varias regresoras cualitativas y cada una de ellas presenta diversas categorías. A estas alturas, el mecanismo de introducción de diversas variables cualitativas debe ser claro para el lector. 9.4 Regresión con una mezcla de regresoras cualitativas y cuantitativas: los modelos ANCOVA Los modelos ANOVA del tipo que vimos en las dos secciones anteriores, aunque son comunes en áreas como sociología, psicología, educación e investigación de mercados, no son tan frecuentes en la economía. Por lo general, en la mayor parte de la investigación económica, un modelo de 8 Los datos se tomaron del disco de datos de Arthur S. Goldberger, Introductory Econometrics, Harvard Uni- versity Press, Cambridge, Massachusetts, Ya se tomaron en cuenta esos datos en el capítulo 2.

9 284 Parte Uno Modelos de regresión uniecuacionales
regresión contiene diversas variables explicativas cuantitativas y otras cualitativas. Los modelos de regresión que muestran una mezcla de variables cuantitativas y cualitativas se llaman mode- los de análisis de covarianza (ANCOVA). Tales modelos representan una generalización de los modelos ANOVA en el sentido de que proporcionan un método para controlar estadísticamente los efectos de las regresoras cuantitativas (llamadas covariantes o variables de control) en un modelo con regresoras cuantitativas y cualitativas (o dicótomas). A continuación se ilustran los modelos ANCOVA. EJEMPLO 9.3 Salario de los maes- tros en relación con la región y el gasto en escuelas públicas por alumno Para motivar el análisis regresemos al ejemplo 9.1 afirmando que el salario promedio de los maestros de escuelas públicas no variará en las tres regiones si se toma en cuenta cualquier va- riable que no pueda estandarizarse en las tres regiones. Por ejemplo, piense en la variable gasto en escuelas públicas erogado por las autoridades locales, en vista de que la educación primaria es una cuestión sobre todo de carácter local y estatal. Para ver si éste es el caso, desarrollamos el siguiente modelo: Yi = β1 + β2 D2i + β3 D3i + β4 Xi + ui (9.4.1) donde Yi = salario promedio anual de los maestros de escuelas públicas en el estado ($) Xi = gasto en escuelas públicas por alumno ($) D2i = 1 si el estado es del Noreste o Norte-centro; 0 en otro caso D3i = 1 si el estado es del Sur; 0 en otro caso Los datos para X se proporcionan en la tabla 9.1. Tenga presente que se considera al Oeste como la categoría de comparación. Asimismo, note que, además de las dos regresoras cualitativas, se tiene una variable cuantitativa, X, que en el contexto de los modelos ANCOVA se conoce como covariante, como dijimos antes. De los datos mostrados en la tabla 9.1, los resultados del modelo (9.4.1) son los siguientes: Yˆi = ee = ( ) − D2i − D3i + ( ) ( ) (−1.586)** (−1.710)** 2.3404Xi (0.3592) (6.515)* R 2 = (9.4.2) t = (8.795)* donde * indica valores p menores que 5% y ** indica valores p mayores que 5%. Como los resultados indican, ceteris paribus: conforme el gasto público aumenta un dólar, en promedio, el salario de los maestros de escuela pública se incrementa más o menos $2.34. Si controlamos el gasto en educación, ahora se observa que el coeficiente de intercepto diferencial no es significativo para la región Noreste y Norte-centro ni para el Sur. Estos resultados difieren de los de (9.2.5). Pero no debe sorprender, pues en (9.2.5) no tuvimos en cuenta la covariante, que son las diferencias del gasto público en educación por alumno. La situación se ilustra de manera gráfica en la figura 9.2. Note que, si bien se mostraron tres líneas de regresión para las tres regiones, estadística- mente las líneas de regresión son las mismas para las tres regiones. También observe que las tres líneas de regresión son paralelas. (¿Por qué?)

10 9.5 La variable dicótoma alternativa a la prueba de Chow9
Capítulo 9 Modelos de regresión con variables dicótomas FIGURA 9.2 Salario de los maestros de escuelas públicas (Y ) en relación con el gasto en educación por alumno (X ). Y Oeste Noreste y 2.34 Norte-centro 1 2.34 Sur 2.34 28 695 1 25 741 25 583 X 9.5 La variable dicótoma alternativa a la prueba de Chow9 En la sección 8.7 analizamos la prueba de Chow para examinar la estabilidad estructural del modelo de regresión. El ejemplo ahí tuvo que ver con la relación entre ahorro e ingreso en Es- tados Unidos de 1970 a Dividimos el periodo muestra en dos: y ; asimismo, se mostró, con base en la prueba de Chow, que existía una diferencia en la regresión del ahorro sobre el ingreso para los dos periodos. No obstante, no pudimos determinar si dicha diferencia en las dos regresiones se debía a las diferencias en los términos del intercepto o en los coeficientes de la pendiente, o a ambas situa- ciones. Con mucha frecuencia, saber esto por sí mismo resulta muy útil. Al ver las ecuaciones (8.7.1) y (8.7.2) se observa que hay cuatro posibilidades, las cuales se ilustran en la figura 9.3: El intercepto y los coeficientes de las pendientes son iguales en ambas regresiones. Esta situa- ción, el caso de regresiones coincidentes, se muestra en la figura 9.3a. Sólo los interceptos en ambas regresiones son diferentes, pero las pendientes son las mismas. Este caso, de regresiones paralelas, se presenta en la figura 9.3b. Los interceptos en las dos regresiones son las mismas, pero las pendientes son distintas. Esta situación se conoce como regresiones concurrentes y se muestra en la figura 9.3c. Ambos interceptos y pendientes en las dos regresiones son distintos. Este caso es el de regre- siones disímbolas, lo cual se muestra en la figura 9.3d. Como ya mencionamos, la prueba de Chow de múltiples pasos, analizada en la sección 8.7, indica sólo si dos (o más) regresiones son distintas, pero no el origen de la diferencia. Dicha 9 El material de esta sección se basa en los artículos del autor “Use of Dummy Variables in Testing for Equa- lity between Sets of Coefficients in Two Linear Regressions: A Note” y “Use of Dummy Variables. . . A Gene- ralization”, ambos publicados en American Statistician, vol. 24, núms. 1 y 5, 1970, pp y

11 E (Yt | Dt = 1, Xt ) = (α1 + α2) + (β1 + β2) Xt
Parte Uno Modelos de regresión uniecuacionales FIGURA 9.3 Regresiones plausibles de ahorro-ingreso. Ahorro Ahorro γ 2 = λ 2 1 γ 2 = λ 2 γ 2 = λ 2 1 γ 1 1 γ1 = λ1 λ1 Ingreso Ingreso a) Regresiones coincidentes b) Regresiones paralelas Ahorro Ahorro γ2 1 λ2 γ 2 1 1 λ2 λ1 γ1 = λ 1 γ1 Ingreso Ingreso c) Regresiones concurrentes d ) Regresiones disímbolas causa, si hay alguna, sale a la luz al agrupar todas las observaciones (26 en total) y llevar a cabo sólo una regresión múltiple, como se muestra en seguida:10 Yt = α1 + α2 Dt + β1 Xt + β2(Dt Xt ) + ut (9.5.1) donde Y = ahorro X = ingreso t = tiempo D = 1 para las observaciones de = 0 en otro caso (es decir, para las observaciones de ) La tabla 9.2 muestra la estructura de la matriz de datos. Para ver las implicaciones de (9.5.1), y si suponemos que, como siempre, E(ui) = 0, obtene- mos: Función de ahorros medios para : E (Yt | Dt = 0, Xt ) = α1 + β1 Xt Función de ahorros medios para : E (Yt | Dt = 1, Xt ) = (α1 + α2) + (β1 + β2) Xt (9.5.2) (9.5.3) El lector notará que se trata de las mismas funciones que (8.7.1) y (8.7.2), con λ1 = α1, λ2 = β1, γ1 = (α1 + α2) y γ2 = (β1 + β2). Por tanto la estimación de (9.5.1) equivale a estimar las dos funciones de ahorro individuales (8.7.1) y (8.7.2). 10 Como en la prueba de Chow, la técnica de agrupamiento supone la homoscedasticidad; es decir, σ 2 = o 2 2 2 = σ . 1

12 Capítulo 9 Modelos de regresión con variables dicótomas TABLA 9.2 Datos sobre ahorro e ingreso, Estados Unidos, Fuente: Economic Report of the President, 1997, tabla B-28, p. 332. Observación 1970 Ahorro 61 Ingreso 727.1 Variable dicótoma 1971 68.6 790.2 1972 63.6 855.3 1973 89.6 965 1974 97.6 1975 104.4 1976 96.4 1 273 1977 92.5 1978 112.6 1979 130.1 1980 161.8 1981 199.1 1982 205.5 1 1983 167 1984 235.7 2 810 1985 206.2 3 002 1986 196.5 1987 168.4 1988 189.1 1989 187.8 1990 208.7 1991 246.4 1992 272.6 1993 214.4 1994 189.4 1995 249.3 Nota: Variable dicótoma = 1 para observaciones a partir de 1982; 0 en otro caso. Las cifras de ahorro e ingreso se expresan en miles de millones de dólares. En (9.5.1), α2 es el intercepto diferencial, como antes; y β2 es el coeficiente de la pendiente diferencial (también llamado alterador de pendiente), el cual indica cuánto difiere el coefi- ciente de la pendiente de la función ahorro del segundo periodo (la categoría que recibe el valor dicótomo de 1) respecto del primer periodo. Observe que la introducción de la variable dicótoma D en la forma interactiva, o multiplicativa (D multiplicada por X ), permite diferenciar entre los coeficientes de las pendientes de los dos periodos, del mismo modo que la introducción de la variable dicótoma en forma aditiva permite distinguir entre los interceptos de los dos periodos. EJEMPLO 9.4 Diferencias estruc- turales en la regre- sión ahorro-ingreso para Estados Uni- dos: método de la variable dicótoma Antes de proseguir, veamos los resultados de la regresión del modelo (9.5.1) aplicada a los datos de ahorro-ingreso de Estados Unidos. Yˆt = Dt Xt − (DtXt) ee = ( ) ( ) (0.0144) (0.0159) (4.6090)* (9.5.4) t = (0.0504)** (5.5413)* (−4.0963)* R 2 = donde * indica valores p menores que 5%, y ** indica valores p mayores que 5%. (continúa)

13 9.6 Efectos de interacción al utilizar variables dicótomas
Parte Uno Modelos de regresión uniecuacionales EJEMPLO 9.4 (continuación) Como muestran los resultados de esta regresión, el intercepto diferencial y el coeficiente de la pendiente son estadísticamente significativos, lo cual indica enérgicamente que las regresiones ahorro-ingreso para los dos periodos son diferentes, como en la figura 9.3d. De (9.5.4) derivamos las ecuaciones (9.5.2) y (9.5.3), las cuales son: Regresión ahorro-ingreso para : Yˆt = Xt Regresión ahorro-ingreso para : (9.5.5) Yˆt = ( ) + ( − )Xt = Xt (9.5.6) Éstos son precisamente los resultados obtenidos en (8.7.1a) y (8.7.2a), lo cual no debe sorpren- der. Tales regresiones ya se mostraron en la figura 8.3. Ahora se ven de inmediato las ventajas de la técnica de la variable dicótoma [es decir, la estimación de (9.5.1)], sobre la prueba de Chow [es decir, la estimación de las tres regresiones: (8.7.1), (8.7.2) y (8.7.3)]: Sólo fue necesaria una regresión, pues las regresiones individuales pueden derivarse con faci- lidad a partir de ella, del modo indicado por las ecuaciones (9.5.2) y (9.5.3). Con la regresión (9.5.1) se prueban diversas hipótesis. Por tanto, si el coeficiente del inter- cepto diferencial α2 es estadísticamente insignificante, se puede aceptar la hipótesis de que las dos regresiones tienen el mismo intercepto; es decir, ambas regresiones son concurrentes (compare con la figura 9.3c). De modo semejante, si el coeficiente de la pendiente diferencial β2 es estadísticamente insignificante pero α2 es significativo, tal vez no se rechace la hipótesis de que las dos regresiones tienen la misma pendiente; es decir, las dos líneas de regresión son paralelas (véase la figura 9.3b). La prueba de la estabilidad de toda la regresión (es decir, α2 = β2 = 0, de manera simultánea) se lleva a cabo mediante la prueba F usual (recuerde la prueba F de los mínimos cuadrados restringidos). Si no se rechaza la hipótesis, las líneas de regresión serán coincidentes, como se aprecia en la figura 9.3a. La prueba de Chow no establece de manera explícita cuál coeficiente, intercepto o pendiente es distinto, ni si ambos son diferentes en los dos periodos (como en el ejemplo anterior). Es decir, se puede tener una prueba de Chow significativa debido a que sólo la pendiente es diferente o a que sólo el intercepto es distinto, o porque ambos lo son. En otras palabras, no se puede saber, mediante la prueba de Chow, cuál de las cuatro posibilidades esquema- tizadas en la figura 9.3 es la que se tiene en una determinada instancia. Al respecto, el mé- todo de la variable dicótoma tiene una clara ventaja, pues no sólo indica si los dos periodos son distintos, sino que también destaca la(s) causa(s) de la diferencia: si se debe al intercepto, a la pendiente o a las dos. En la práctica, saber si dos regresiones difieren en uno u otro coeficiente resulta tan importante, si no más, que sólo saber que son distintas. Por último, en vista de que el agrupamiento (es decir, incluir todas las observaciones en una sola regresión) aumenta los grados de libertad, tal vez mejore la precisión relativa de los parámetros estimados. Por supuesto, tenga en cuenta que cada inclusión de una variable dicótoma consumirá un grado de libertad. 9.6 Efectos de interacción al utilizar variables dicótomas Las variables dicótomas son una herramienta flexible para varios problemas interesantes. Obser- vemos lo anterior con el siguiente modelo: Yi = α1 + α2 D2i + α3 D3i + β Xi + ui (9.6.1)

14 donde Y = salario por hora en dólares
Capítulo 9 Modelos de regresión con variables dicótomas donde Y = salario por hora en dólares X = educación (años de escolaridad) D2 = 1 si es mujer; 0 en otro caso D3 = 1 si no es blanco y no hispano; 0 en otro caso En este modelo, el sexo y la raza son regresoras cualitativas y la escolaridad es cuantitativa.11 Está implícito en este modelo el supuesto de que el efecto diferencial de la variable dicótoma sexo, D2, es constante en las dos categorías de raza, y el efecto diferencial de la variable dicó- toma raza, D3, también es constante en ambos sexos. Es decir, si el salario medio es mayor para los hombres que para las mujeres, esto ocurre independientemente de que sean no blancos/no hispanos o no. De igual forma, si por ejemplo los no blancos/no hispanos tienen salarios medios menores, esto ocurre independientemente de que sean hombres o mujeres. En muchas aplicaciones dicho supuesto puede ser insostenible. Una mujer no blanca ni his- pana tal vez gane menor salario que un hombre de esa misma categoría. En otras palabras, quizá haya interacción entre las dos variables cualitativas D2 y D3. Por tanto, su efecto sobre la media Y quizá no sea simplemente aditivo, como en (9.6.1), sino también multiplicativo, como en el siguiente modelo: Yi = α1 + α2 D2i + α3 D3i + α4(D2i D3i ) + β Xi + ui donde las variables están definidas como en el modelo (9.6.1). De (9.6.2) obtenemos E(Yi | D2i = 1, D3i = 1, Xi ) = (α1 + α2 + α3 + α4) + β Xi (9.6.2) (9.6.3) que es la función salario medio por hora para las trabajadoras no blancas ni hispanas. Observe que α2 = efecto diferencial de ser mujer α3 = efecto diferencial de ser no blanco ni hispano α4 = efecto diferencial de ser mujer no blanca ni hispana lo cual muestra que el salario medio por hora de las mujeres no blancas ni hispanas es diferente (en una cantidad igual a α4) del salario medio por hora de las mujeres blancas o hispanas. Si por ejemplo los tres coeficientes de las variables dicótomas son negativos, se implica que las traba- jadoras no blancas ni hispanas ganan un salario medio por hora mucho más bajo que las trabaja- doras blancas o hispanas, en comparación con la categoría base, la cual en el ejemplo presente es la de hombres blancos o hispanos. Ahora el lector puede observar la forma en que la variable dicótoma de interacción (es decir, el producto de dos variables cualitativas o dicótomas) modifica el efecto de los dos atributos con- siderados de manera individual (es decir, en forma aditiva). EJEMPLO 9.5 Ingreso promedio por hora en compa- ración con la esco- laridad, sexo y raza Veamos primero los resultados de la regresión basados en el modelo (9.6.1). Con los datos con que se estimó la regresión (9.3.1) obtuvimos lo siguiente: Yˆi = − − D2i − D3i Xi t = (−0.2357)** (−5.4873)* (−2.1803)* (9.9094)* (9.6.4) R 2 = n = 528 donde * indica valores p menores que 5% y ** indica valores p mayores que 5%. (continúa) 11 Si definiéramos la variable escolaridad como menos que educación media superior, educación media su- perior y más que educación media superior, podríamos utilizar entonces dos variables dicótomas para repre- sentar las tres clases.

15 9.7 Uso de las variables dicótomas en el análisis estacional
Parte Uno Modelos de regresión uniecuacionales EJEMPLO 9.5 (continuación) El lector puede verificar que los coeficientes de intercepto diferenciales son estadísticamente significativos, que tienen los signos que se esperaban (¿por qué?) y que la escolaridad tiene un gran efecto positivo sobre el salario por hora, lo cual no causa sorpresa alguna. Como lo muestra (9.6.4), ceteris paribus, el ingreso promedio por hora de las mujeres es in- ferior por cerca de $2.36; además, el ingreso promedio por hora de los trabajadores no blancos ni hispanos también es menor por aproximadamente $1.73. Ahora consideremos los resultados del modelo (9.6.2), que incluyen la variable dicótoma de interacción. Yˆi = − − D2i − D3i D2iD3i Xi t = (−0.2357)** (−5.4873)* (−2.1803)* (1.7420)** R 2 = (9.9095)** (9.6.5) n = 528 donde * indica valores p menores que 5% y ** indica valores p mayores que 5%. Como se nota, las dos variables dicótomas aditivas son aún estadísticamente significativas, pero la variable dicótoma interactiva no está al nivel convencional de 5%; el valor p real de la variable de interacción es de un nivel de casi 8%. Si consideramos que esto es una probabilidad lo bastante baja, interpretamos los resultados de (9.6.5) de la siguiente manera: si se mantiene constante el nivel de educación y se suman los tres coeficientes de las variables dicótomas, obtendremos −1.964 (= − − ), lo cual significa que los salarios medios por hora de las trabajadoras no blancas ni hispanas es menor por casi $1.96, valor que está entre − (diferencia debido sólo al sexo) y − (diferencia debida sólo a la raza). El ejemplo anterior revela con claridad la interacción de las variables dicótomas cuando se incluyen en el modelo dos o más regresoras cualitativas. Es importante observar que en el modelo (9.6.5) se supone que la tasa de crecimiento de los ingresos por hora respecto de la escolaridad (de cerca de 80 centavos por año adicional de escolaridad) sigue constante en cuanto al sexo y la raza. Pero esto tal vez no sea así. Si desea probar lo anterior deberá introducir coeficientes de pendiente diferenciales (véase el ejercicio 9.25). 9.7 Uso de las variables dicótomas en el análisis estacional Muchas series de tiempo económicas que se basan en datos mensuales o trimestrales presentan pautas estacionales (movimiento oscilatorio regular); por ejemplo, las ventas de las tiendas de departamentos en la época de Navidad y otras festividades importantes, la demanda de dinero (saldos de efectivo) por parte de las familias en épocas de vacaciones, la demanda de helado y bebidas gaseosas durante el verano y los precios de los cultivos justo después de la época de cosecha, la demanda de viajes en avión, etc. A menudo es útil eliminar el factor o componente estacional de las series de tiempo con el fin de concentrarse en los demás componentes, como la tendencia.12 El proceso de eliminar el componente estacional de una serie de tiempo se conoce como desestacionalización o ajuste estacional, y la serie de tiempo así obtenida se denomina serie de tiempo desestacionalizada o ajustada por estacionalidad. Las series de tiempo econó- micas importantes, como el índice de precios al consumidor (IPC), el índice de precios del pro- ductor (IPP) y el índice de producción industrial, suelen publicarse ajustadas por estacionalidad. 12 Una serie de tiempo puede tener cuatro componentes: (1) estacional, (2) cíclico, (3) tendencia y (4) estrictamente aleatorio.

16 Yt = α1 D1t + α2 D2t + α3t D3t + α4 D4t + ut
Capítulo 9 Modelos de regresión con variables dicótomas TABLA 9.3 Datos trimestrales sobre ventas de aparatos elec- trodomésticos (en miles) y gasto en bienes dura- deros (del primer tri- mestre de 1978 al cuarto de 1985) Fuente: Business Statistics and Survey of Current Business, De- partment of Commerce (varios números). LAVLZ 841 TRIT 798 REFR 1 317 LAVD 1 271 BIDU 252.6 480 706 943 1 036 247.7 957 837 1 615 1 295 272.4 530 582 1 175 1 019 249.1 999 821 1 662 1 313 270.9 557 659 1 269 1 047 251.8 960 858 1 150 273.9 602 973 918 262 894 1 289 268.9 658 867 1 102 1 137 263.3 851 838 1 555 1 245 262.9 749 860 1 344 1 167 280 863 832 1 639 1 270 827 1 641 1 230 288.5 878 818 1 238 1 103 263.4 1 017 1 225 1 081 300.5 792 868 1 277 1 273 260.6 808 1 063 1 429 1 326 312.6 589 623 1 258 1 031 231.9 840 955 1 699 1 228 322.5 657 662 1 417 1 143 242.7 893 1 749 1 297 324.3 699 822 1 185 1 101 248.6 950 1 096 1 117 1 198 333.1 675 871 1 196 1 181 258.7 1 086 1 242 1 292 344.8 652 791 1 410 1 116 248.4 884 990 1 684 1 342 350.3 628 759 1 190 255.5 905 1 028 1 764 1 323 369.1 529 734 919 1 125 240.4 909 1 003 1 328 1 274 356.4 Nota: LAVLZ = lavalozas; TRIT = trituradores de basura; REFR = refrigeradores; LAVD = lavadoras; BIDU = gasto en bienes dura- deros, miles de millones de dólares de 1982. Hay diversos métodos para desestacionalizar una serie de tiempo, pero consideraremos sólo uno: el método de las variables dicótomas.13 Para ilustrar la forma de desestacionalizar con las variables dicótomas, considere los datos de la tabla 9.3. Se trata de datos trimestrales de 1978 a 1995 respecto de las ventas de cuatro aparatos principales: lavalozas, trituradores de basura, refrigeradores y lavadoras, en miles de unidades. La tabla también suministra datos sobre el gasto en bienes duraderos en 1982, en miles de millones de dólares. A fin de ilustrar la técnica de la variable dicótoma consideraremos sólo las ventas de los re- frigeradores en el periodo de muestra. Pero primero observe los datos de la figura 9.4. Esa figura indica que tal vez exista un modelo estacional en los datos asociados con los diversos trimestres. Para verificarlo, vea el siguiente modelo: Yt = α1 D1t + α2 D2t + α3t D3t + α4 D4t + ut (9.7.1) donde Yt = ventas de refrigeradores (en miles) y las D son las variables dicótomas, las cuales toman un valor de 1 en el trimestre relevante, y 0 en otro caso. Observe que para evitar la trampa de la variable dicótoma asignamos una variable dicótoma a cada trimestre del año, pero omi- timos el término del intercepto. Si hubiera algún efecto estacional en un determinado trimestre se señalaría mediante un valor t estadísticamente significativo del coeficiente de la variable dicó- toma para dicho trimestre.14 Observe que en (9.7.1) se hace la regresión de Y efectivamente sobre un intercepto, salvo que se permite un intercepto distinto para cada temporada (es decir, trimestre). Como resultado, el coeficiente de la variable dicótoma de cada trimestre proporcionará la media de las ventas de refrigeradores de cada trimestre o temporada (¿por qué?). Para los diversos métodos de ajuste estacional, véase por ejemplo Francis X. Diebold, Elements of Forecas- ting, 2a. ed., South-Western Publishers, 2001, capítulo 5. Considere un aspecto técnico. Este método de asignar una variable dicótoma a cada trimestre supone que el factor estacional, si está presente, es determinista y no estocástico. Volveremos a este tema cuando anali- cemos la econometría de las series de tiempo, en la parte V de este libro.


Descargar ppt "Modelos de regresión con variables dicótomas"

Presentaciones similares


Anuncios Google