MODELOS DE ELECCIÓN BINARIA: MODELO DE PROBABILIDAD LINEAL

Slides:



Advertisements
Presentaciones similares
Curso: Seminario de estadística Aplicada a la investigación Educacional UNIVERSIDAD NACIONAL DE EDUCACIÓN ENRIQUE GUZMÁN Y VALLE Alma Máter del Magisterio.
Advertisements

Intervalos de Confianza para la Media de la Población
1. MODELO DE REGRESIÓN SIMPLE
DISEÑO DE EXPERIMENTOS
ESTIMACION DE PARAMETRO
Conocimiento, Uso y Evaluación de Medicamentos Genéricos
SATISFACCIÓN DE CLIENTES Comparativa Convocatorias Finalizadas en 2011.
Tema 13. Inferencia estadística Principales conceptos. Muestreo
MODELO DE REGRESIÓN LINEAL SIMPLE
SIMULACIÓN DE MONTECARLO
CAPÍTULO 2 Elaboración y utilización de gráficas
DISEÑO DE EXPERIMENTOS
REGRESION Y CORRELACION
Regresión mínimo cuadrada (I)
CONTENIDOS Teoría del muestreo ¿Cómo seleccionar una muestra?
Descripción de los datos: medidas de ubicación
Error Estándar de la Media
Ejemplo Grafico.
Ejemplo A continuación aparecen las tasas de retorno de dos fondos de inversión durante los últimos 10 años. 1. ¿Cuál es más riesgoso? 2. ¿En cuál invertiría.
Unidad de competencia II Estadística descriptiva:
Objetivos: Al terminar este capítulo podrá:
Capítulo 3 Descripción de datos, medidas de tendencia central
Modelos de Variable Dependiente Binaria -Logit y Probit-
ERROR ESTÁNDAR CONSISTENTE BAJO HETEROSCEDASTICIDAD
Estadística Administrativa I
Generación de Números Seudo-Aleatorios
Estimación de parámetros poblacionales
1 Conversatorio con Consumidores que compran en Supermercados de la ciudad de Barranquilla Análisis Estadístico Desarrollado por: Andrés Muñoz 2006.
Estadística Administrativa I
Parte 3. Descripción del código de una función 1.
Inferencia Estadística
FUNCIONES DE UNA VARIABLE REAL
} LISSET BÁRCENAS MONTERROZA
Bloques aleatorizados, cuadrados latinos y diseños relacionados
Ingeniería Industrial II CicloEducativo 2011
¡Primero mira fijo a la bruja!
La ley de los grandes números
puede o no ser verdadero, relativo a una o más poblaciones.
Estimación por intervalos de confianza.
JORNADA 1 DEL 24 DE MARZO AL 30 DE MARZO EQUIPO 01 VS EQUIPO 02 EQUIPO 03 VS EQUIPO 06 EQUIPO 05 VS EQUIPO 10 EQUIPO 07 DESCANSA EQUIPO 08 VS EQUIPO 13.
ESTRATEGIAS Y DISEÑOS AVANZADOS DE INVESTIGACIÓN SOCIAL
DISTINTOS TIPOS DE FRECUENCIAS
Estimación por Intervalos de confianza
ESTADÍSTICA INFERENCIAL I
Introducción Media y varianza poblacional Sea
Estadística Administrativa I
Estadística Administrativa II
Regresión lineal Es un modelo matemático para predecir el efecto de una variable sobre otra, ambas cuantitativas. Una variable es la dependiente y otra.
9 Regresión Lineal Simple
REGRESION LINEAL En la búsqueda de mejoras o en la solución de problemas es necesario, frecuentemente, investigar la relación entre factores (o variables).
MODELOS DE ELECCIÓN BINARIA: ANÁLISIS LOGIT
TIPOS DE MODELOS DE REGRESIÓN Y SUPUESTOS PARA EL MODELO A
MODELOS DE ELECCIÓN BINARIA : ANÁLISIS PROBIT
Pronósticos, Series de Tiempo y Regresión
1 INTERPRETACIÓN DE UNA ECUACIÓN DE REGRESIÓN El diagrama muestra el ingreso por hora en 2002 graficado contra los años de educación, definido como el.
Modelo de regresión simple: Y =  1 +  2 X + u 1 Hemos visto que los coeficientes de regresión b 1 y b 2 son variables aleatorias. Estos, respectivamente,
Modelo de regresión simple: Y =  1 +  2 X + u Ahora, demostraremos que el estimador ordinario de mínimos cuadrados (OLS) del coeficiente de la pendiente.
DERIVADO DE LOS COEFICIENTES DE REGRESIÓN LINEAL Y X Esta sequencia muestra cómo los coeficientes de regresión para un modelo de regresión lineal simple.
ESTIMACIÓN DE COEFICIENTES DE MÁXIMA VEROSIMILITUD
LOS COMPONENTES ALEATORIOS DE LOS COEFICIENTES DE REGRESIÓN
Universidad Nacional de Colombia Curso Análisis de Datos Cuantitativos.
Titular: Agustín Salvia
RELACIÓN GRÁFICA EN UN MODELO DE REGRESIÓN MULTIPLE. reg EARNINGS S EXP Source | SS df MS Number of obs =
LA PRUEBA F DE BONDAD DE AJUSTE 2 Vamos a considerar el caso general donde hay k – 1 variables explicativas. Para la prueba F de bondad de ajuste de la.
REGRESIÓN MULTIPLE CON DOS VARIABLES EXPLICATIVAS: EJEMPLO INGRESO EXP S 11 1 INGRESO =  1 +  2 S +  3 EXP + u Esta presentación proporciona una interpretación.
1 Y MODELO DE REGRESIÓN SIMPLE Suponemos que una variable Y es una función lineal de otra variable X, con parámetros desconocidos  1 y  2 que queremos.
Regresión lineal simple Nazira Calleja
TAMAÑO DE LA MUESTRA. Para definir el tamaño de la muestra se debe tener en cuenta los recursos disponibles y las necesidades del plan de análisis, el.
TAMAÑO DE LA MUESTRA Alvaro Alfredo Bravo Dpto. de Matemáticas y Estadística Universidad de Nariño - Colombia.
RELACIÓN GRÁFICA EN UN MODELO DE REGRESIÓN MULTIPLE
Transcripción de la presentación:

MODELOS DE ELECCIÓN BINARIA: MODELO DE PROBABILIDAD LINEAL ¿Por qué algunas personas van a la universidad mientras que otras no? ¿Por qué algunas mujeres entran al mercado laboral mientras que otras no lo hacen? ¿Por qué unas persona compran casas mientras que otras rentan? ¿Por qué algunas emigran mientras que otras permanecen en su lugar de origen? Los economistas están interesados frecuentemente en los factores detrás el proceso de toma de decisiones de los individuos o empresas. Los ejemplos se muestran arriba. 1

MODELOS DE ELECCIÓN BINARIA: MODELO DE PROBABILIDAD LINEAL ¿Por qué algunas personas van a la universidad mientras que otras no? ¿Por qué algunas mujeres entran al mercado laboral mientras que otras no lo hacen? ¿Por qué unas persona compran casas mientras que otras rentan? ¿Por qué algunas emigran mientras que otras permanecen en su lugar de origen? Los modelos que se han desarrollado con este fin se conocen como de respuesta cualitativa o modelos de elección binaria, donde el resultado, que denotaremos Y, toma un valor de 1 si ocurre el evento y 0 de otra manera. 2

MODELOS DE ELECCIÓN BINARIA: MODELO DE PROBABILIDAD LINEAL ¿Por qué algunas personas van a la universidad mientras que otras no? ¿Por qué algunas mujeres entran al mercado laboral mientras que otras no lo hacen? ¿Por qué unas persona compran casas mientras que otras rentan? ¿Por qué algunas emigran mientras que otras permanecen en su lugar de origen? Los modelos con más de dos resultados posibles también han sido desarrollados, pero concentraremos nuestra atención en los modelos de elección binaria. 3

El modelo de elección binaria más simple es el modelo lineal de probabilidad donde, como el nombre implica, la probabilidad del evento, p, se asume como una función lineal de un sistema de variables explicativas. 4

y, p 1 b1 +b2Xi b1 Xi X Graficamente, la relación es la que se observa, si sólo hubiera una variable explicativa. 5

Por supuesto, p no es observable Por supuesto, p no es observable. Uno solamente tiene datos sobre el resultado binario, Y. En el modelo lineal de probabilidad se utiliza como una variable binaria o dummy para la variable dependiente. 6

¿Por qué algunas personas se gradúan de la preparatoria mientras que otras la abandonan? Como en la ilustración, tomaremos la pregunta que se muestra arriba. Definiremos una variable GRAD que es igual a 1 si el individuo se graduó de la preparatoria, y 0 si no lo hizo. 7

. generate GRAD = 0 . replace GRAD = 1 if S > 11 (509 real changes made) . reg GRAD ASVABC Source | SS df MS Number of obs = 540 -------------+------------------------------ F( 1, 538) = 49.59 Model | 2.46607893 1 2.46607893 Prob > F = 0.0000 Residual | 26.7542914 538 .049729166 R-squared = 0.0844 -------------+------------------------------ Adj R-squared = 0.0827 Total | 29.2203704 539 .05421219 Root MSE = .223 ------------------------------------------------------------------------------ GRAD | Coef. Std. Err. t P>|t| [95% Conf. Interval] -------------+---------------------------------------------------------------- ASVABC | .0070697 .0010039 7.04 0.000 .0050976 .0090419 _cons | .5794711 .0524502 11.05 0.000 .4764387 .6825035 El resultado de Stata que se muestra arriba describe la creación de la variable GRAD. Primero se fija a 0 para todos los encuestados, y después se reemplaza un 1 para aquellos que tengan más de 11 años de educación. 8

. generate GRAD = 0 . replace GRAD = 1 if S > 11 (509 real changes made) . reg GRAD ASVABC Source | SS df MS Number of obs = 540 -------------+------------------------------ F( 1, 538) = 49.59 Model | 2.46607893 1 2.46607893 Prob > F = 0.0000 Residual | 26.7542914 538 .049729166 R-squared = 0.0844 -------------+------------------------------ Adj R-squared = 0.0827 Total | 29.2203704 539 .05421219 Root MSE = .223 ------------------------------------------------------------------------------ GRAD | Coef. Std. Err. t P>|t| [95% Conf. Interval] -------------+---------------------------------------------------------------- ASVABC | .0070697 .0010039 7.04 0.000 .0050976 .0090419 _cons | .5794711 .0524502 11.05 0.000 .4764387 .6825035 Este es el resultado de una regresión para GRAD con base en ASVABC. El modelo indica que cada punto adicional en el puntaje de ASVABC aumenta la probabilidad de graduarse en 0.007, es decir, 0.7%. 9

. g GRAD = 0 . replace GRAD = 1 if S > 11 (509 real changes made) . reg GRAD ASVABC Source | SS df MS Number of obs = 540 -------------+------------------------------ F( 1, 538) = 49.59 Model | 2.46607893 1 2.46607893 Prob > F = 0.0000 Residual | 26.7542914 538 .049729166 R-squared = 0.0844 -------------+------------------------------ Adj R-squared = 0.0827 Total | 29.2203704 539 .05421219 Root MSE = .223 ------------------------------------------------------------------------------ GRAD | Coef. Std. Err. t P>|t| [95% Conf. Interval] -------------+---------------------------------------------------------------- ASVABC | .0070697 .0010039 7.04 0.000 .0050976 .0090419 _cons | .5794711 .0524502 11.05 0.000 .4764387 .6825035 El intercepto no tiene un significado preciso. Literalmente significaría que un encuestado con un puntaje de 0 en ASVABC tiene 58% de probabilidad de graduarse. Sin embargo, sabemos que con un puntaje de 0 no es posible entrar a la preparatoria. 10

Desafortunadamente, el modelo lineal de probabilidad tiene algunos problemas serios. Primero, existen problemas con el término de error. 11

Como de costumbre, el valor de la variable dependiente Yi en la observación i tiene un componente no-estocástico y un componente aleatorio. El componente no-estocástico depende de Xi y de los parámetros. El componente aleatorio es el término de error. 12

El componente no-estocástico en la observación i es el valor esperado para esa observación. Esto es simple de calcular, porque puede tomar solamente dos valores. Es 1 con la probabilidad pi y 0 con la probabilidad de (1 – pi). El valor esperado en la observación i es, por lo tanto, b1 + b2Xi 13

Esto significa que podemos reescribir el modelo como se muestra. 14

Y, p 1 b1 +b2Xi b1 Xi X La función de probabilidad es, por lo tanto, también el componente no-estocástico de la relación entre Y y X. 15

En la observación i, para que Yi sea 1, ui debe ser (1 – b1 – b2Xi) En la observación i, para que Yi sea 1, ui debe ser (1 – b1 – b2Xi). Para que Yi sea 0, ui debe ser (– b1 – b2Xi). 16

Y, p A 1 1 – b1 – b2Xi b1 +b2Xi b1 b1 + b2Xi B Xi X Xi X Los dos valores posibles, que dan lugar a las observaciones A y B, se ilustran en el diagrama. Puesto que u no tiene una distribución normal, los errores estándar y los estadísticos de prueba son inválidos. Incluso, su distribución no es continua. 17

Y, p A 1 1 – b1 – b2Xi b1 +b2Xi b1 b1 + b2Xi B Xi X Xi X Además, puede demostrarse que la varianza poblacional del término de error para la observación i está dada por (b1 + b2Xi)(1 – b1 – b2Xi). Esto cambia con Xi , así que la distribución es heteroscedástica. 18

Y, p A 1 1 – b1 – b2Xi b1 +b2Xi b1 b1 + b2Xi B Xi X Xi X Otro problema más del modelo lineal de probabilidad es que puede predecir probabilidades mayores a 1, como se muestra aquí. Y también puede predecir probabilidades menores a 0. 19

. g GRAD = 0 . replace GRAD = 1 if S > 11 (509 real changes made) . reg GRAD ASVABC Source | SS df MS Number of obs = 540 -------------+------------------------------ F( 1, 538) = 49.59 Model | 2.46607893 1 2.46607893 Prob > F = 0.0000 Residual | 26.7542914 538 .049729166 R-squared = 0.0844 -------------+------------------------------ Adj R-squared = 0.0827 Total | 29.2203704 539 .05421219 Root MSE = .223 ------------------------------------------------------------------------------ GRAD | Coef. Std. Err. t P>|t| [95% Conf. Interval] -------------+---------------------------------------------------------------- ASVABC | .0070697 .0010039 7.04 0.000 .0050976 .0090419 _cons | .5794711 .0524502 11.05 0.000 .4764387 .6825035 . predict PROB, xb El comando de Stata para guardar los valores estimados de una regresión es predict, seguido por el nombre que deseas darle al valor estimado. Les estamos llamando PROB. 20

. tab PROB if PROB > 1 Fitted | values | Freq. Percent Cum. ------------+----------------------------------- 1.000381 | 6 4.76 4.76 1.002308 | 9 7.14 11.90 1.004236 | 7 5.56 17.46 1.006163 | 3 2.38 19.84 ********************************************* 1.040855 | 11 8.73 93.65 1.042783 | 3 2.38 96.03 1.04471 | 2 1.59 97.62 1.046638 | 3 2.38 100.00 Total | 126 100.00 tabulate es el comando de Stata para tabular los valores de una variable, o para hacer tablas cruzadas de dos variables. Notamos que hay 126 observaciones en las que el valor estimado es mayor a 1 (algunas filas en medio de la tabla han sido omitidas). 21

En este ejemplo no hay ningún valor estimado menor a 0. . tab PROB if PROB > 1 Fitted | values | Freq. Percent Cum. ------------+----------------------------------- 1.000381 | 6 4.76 4.76 1.002308 | 9 7.14 11.90 1.004236 | 7 5.56 17.46 1.006163 | 3 2.38 19.84 ********************************************* 1.040855 | 11 8.73 93.65 1.042783 | 3 2.38 96.03 1.04471 | 2 1.59 97.62 1.046638 | 3 2.38 100.00 Total | 126 100.00 . tab PROB if PROB < 0 no observations En este ejemplo no hay ningún valor estimado menor a 0. 22

. tab PROB if PROB > 1 Fitted | values | Freq. Percent Cum. ------------+----------------------------------- 1.000381 | 6 4.76 4.76 1.002308 | 9 7.14 11.90 1.004236 | 7 5.56 17.46 1.006163 | 3 2.38 19.84 ********************************************* 1.040855 | 11 8.73 93.65 1.042783 | 3 2.38 96.03 1.04471 | 2 1.59 97.62 1.046638 | 3 2.38 100.00 Total | 126 100.00 . tab PROB if PROB < 0 no observations La ventaja principal del modelo lineal de probabilidad sobre el análisis del logit y del probit, que consideraremos en las dos presentaciones siguientes, es que es mucho más fácil de estimar en términos de cómputo. 23

. tab PROB if PROB > 1 Fitted | values | Freq. Percent Cum. ------------+----------------------------------- 1.000381 | 6 4.76 4.76 1.002308 | 9 7.14 11.90 1.004236 | 7 5.56 17.46 1.006163 | 3 2.38 19.84 ********************************************* 1.040855 | 11 8.73 93.65 1.042783 | 3 2.38 96.03 1.04471 | 2 1.59 97.62 1.046638 | 3 2.38 100.00 Total | 126 100.00 . tab PROB if PROB < 0 no observations Sin embargo, esta ya no es una considereación. Ahora las computadoras son tan rápidas y poderosas, que logit y probit son aplicaciones estándar de cualquier de paquete de regresión. 24

Copyright Christopher Dougherty 2000–2006 Copyright Christopher Dougherty 2000–2006. This slideshow may be freely copied for personal use. Traducido por Diego Forcada Gallardo. 21.08.06