Variables dummy Una variable dummy toma valores entre 1 y 0 Ejemplo: hombre (= 1 si es hombre, 0 en caso contrario) sur (= 1 si está en el sur, 0 en caso contrario) A las variables dummy también se les conoce como variables binarias por razones obvias
Por ejemplo Precio = β1+ β2 SQFT + e D = 1 Si la propiedad tiene las características deseadas D = 0 en caso contrario
La ecuación a estimar sería Para analizar el impacto en la ecuación de la inclusión de la dummy es conveniente ver la ecuación en término de E(Precio) Es decir al incluir una variable dummy la ecuación se traslada de manera paralela por una cantidad ∂ como se muestra en la gráfica
Cambio en la pendiente Se puede también considerar un término de interacción una variable dummy d, con una variable continua x El modelo se puede escribir Se puede interpretar como
En este caso la pendiente cambia de acuerdo con como se ve en la gráfica
Crear una dummy en Stata Utilizar la base utown.dta Dummy para las casas grandes gen large=( sqft>25) Dummy para las medianas gen midprice= (price>215)
gen sqft_utown= sqft * utown reg price utown sqft sqft_utown pool fplace test utown pool fplace
Dummies para multiples categorías Podemos utilizar las variables dummy para controlar múltiples categorías Por ejemplo considerar categorías entre hombres y mujeres: hombres casados o soleteros y mujeres casadas o solteras Se requiere hacer combinaciones de dummys
Ejemplo Hacer la siguiente regresión (cps_small) gen black_fem=black*female reg wage educ black female black_fem Analizar el significado de las dummys
Probar la significancia de las dummys test female black black_fem Otra manera de hacerlos es calcular una prueba F con el modelo restringido (sin dummys) regress wage educ
La prueba F del modelo sería Ho son iguales a cero scalar pruebaf=invFtail(3,995,.05) display pruebaf Como la calculada es mayor a la de tablas se rechaza Ho por tanto las dummys son distintas de cero
Comparar dos regresiones Probar si la regresión de los salarios es válida para la región sur del país Lo que se requiere es crear las variables para el sur para estimar la siguiente regresión
Lo que significa
Análisis Hacer una prueba F para las dumys del sur y probar gen educ_south=educ* south gen black_south = black * south gen female_south= female * south gen black_female_south= black * female * south reg wage educ black female black_fem south educ_south black_south female_south black_female_south
test south educ_south black_south female_south black_female_south
Estimar dos regresiones y hacer la prueba que se conoce con el nombre de Chow Consiste en hacer una regresión cuando el Sur es igual a uno y la otra cuando es igual a cero Además de la regresión completa Es decir, tenemos tres regresiones Esta prueba no la hace STATA
reg wage educ black female black_fem if south==1
Se puede calcular una F adecuada sin necesidad de estimar el modelo no restringido con todas las dummys e interacciones Se puede estimar el modelo restringido para el sur y obtenemos SSR1, y para los que no están en el su obtenemos SSR2 Estimar para los dos grupos se obtiene SSR Ho No hay diferencias entre los grupos
scalar fprueba1= invFtail(5,990,0.05) di fprueba1 (2.23) Calcular la F haciendo que la suma de todo es modelo es la suma de SSE de las dos regresiones separadas 29912.7 scalar fprueba1= invFtail(5,990,0.05) di fprueba1 (2.23) Nuevamente no se rechaza Ho al 0.05 scalar probf= Fden(5,990,2.013) display probf scalar probf= Fden(5,990,2.013) display probf
Probamos al 0.10 scalar fprueba1= invFtail(5,990,0.10) di fprueba1 =1.83 Como la calculada es mayor a la de tablas se rechaza Ho por tanto hay diferencias entre el sur y el resto del país al 10%
Modelos log lineal Cuando la variable dependiente está en logaritmos el coeficiente de la dummy expresa un porcentaje
gen lwage=log(wage) reg lwage educ female Lo que quiere decir que las mujeres ganan menos que los hombres en la cantidad display 100* ((exp(-0.2526) -1 ) Porque es una relación no lineal
Dumys relacionadas con el tiempo Estacionales Anuales Mensuales Para periodos
Interacciones entre variables continuas En el ejemplo el consumo de Pizzas no sólo depende del ingreso también de la edad reg pizza age income
Como hay un efecto combinado entre la edad y el ingreso se puede estimar gen age_income= age * income reg pizza age income age_income
Tarea Con los datos del modelo de los baseball (MLB1.DTA) estimar Con la base del baseball estimar Log salary = years gamesyr,bavg,hrunsyr,rbisyr,runsyr,fldperc,allstar Probar que en el salario no influyen las razas Haciendo una prueba F con dos regresiones a)black- white b) hispano vs el resto