Regresión logística
Ejemplos comunes Lanzamiento de una moneda (sol/águila) Resultado de un juego (ganar/ñerder) Estado del tiempo (lluvia/seco) Llegar al trabajo (a tiempo/tarde) Presentar un examen (pasar/reprobar)
Probabilidad y esperanza Para describir la posibilidad de que ocurra un evento se utiliza el término probabilidad y esperanza. Probabilidad (P)= resultados deseados/resultados posibles Para un dado, la probabilidad P(6) = 1/6 Esperanza (O) = resultados deseados / resultados Indeseados Para un dado, la esperanza O(6) = 1/5 = 0.2
Probabilidad Para el caso de dos dados, si el resultado esperado es 7 se tiene P(7) = 6/36 = 1/6 1 2 3 4 5 6 7 8 9 10 11 12
Esperanza Para el caso de dos dados, si el resultado esperado es 7 se tiene O(7) = 6/30 1 2 3 4 5 6 7 8 9 10 11 12
Probabilidad y Esperanza Esperanza (O) = P/(1-P) Probabilidad (P) = O/(O+1) Para el ejemplo de un dado, P = 6/36 = 0.1667 O = 6:30 = 0.2000 P = O/(O+1) = 0.2 / (0.2 + 1) = 0.1667 O = P/(1-P) = 0.1667 / (1 – 0.1667) = 0.2000
Ejemplo: Introducción de un nuevo producto en función del tiempo Año Ventas Total Probabilidad 1 15 0.0667 2 17 0.1176 3 4 21 0.1905 8 27 0.2963 5 22 47 0.4681 6 35 55 0.6364 7 58 76 0.7632 87 100 0.8700 9 105 116 0.9052 10 86 90 0.9556 11 61 63 0.9683
Ejemplo: con Regresión lineal
Regresión lineal Al sustituir valores en X de -5 y +6 da probabilidades ilógicas de -0.051 y 1.118 También los residuos tienen un cierto patrón
Ejemplo: Cálculo de la Esperanza = p / (1-P) y su logaritmo natural e Año Ventas Total Probabilidad(P) Esperanza (O) Ln (O) 1 15 0.0667 0.0714 -2.6391 2 17 0.1176 0.1333 -2.0149 3 4 21 0.1905 0.2353 -1.4469 8 27 0.2963 0.4211 -0.8650 5 22 47 0.4681 0.8800 -0.1278 6 35 55 0.6364 1.7500 0.5596 7 58 76 0.7632 3.2222 1.1701 87 100 0.8700 6.6923 1.9010 9 105 116 0.9052 9.5455 2.2561 10 86 90 0.9556 21.5000 3.0681 11 61 63 0.9683 30.5000 3.4177
Regresión logística Es una herramienta de modelado usado para calcular una ecuación de predicción (o función de transferencia) cuando se tiene Y binaria y X continuas Es decir tiene la función de determinar cuales variables predictoras son significativas y determinar el nivel de influencia para la respuesta
Regresión logística – paso a paso Organizar los datos “y” en resultados binarios (0,1, pasa, no pasa, etc.) Graficar los datos Correr el modelo de regresión logística Buscar: Curva “S” Valores P Tasa de esperanzas Ecuación de predicción o función de transferencia
Regresión logística – Gráfica en “S”
Regresión logística – paso a paso File Open worksheet Exh-Regr Stat > Regression > Binary Logistic Regression. En Response, poner RestingPulse. En Model, poner Smokes Weight. En Factors (optional), poner Smokes. Click Graphs. Sel. Delta chi-square vs probability y Delta chi-square vs leverage. Click OK. Click Results. Choose In addition, list of factor level values, tests for terms with more than 1 degree of freedom, and 2 additional goodness-of- fit tests. Click OK en cada caja de diálogo. Storage seleccionar Event Probability NOTA: El valor 1 o superior representa el valor éxito
High Yes 140 Low No 180 190 145 150 164 142 136 123 155 130 120 131 118 125 135 122 115 102 110 116 108 95 133 Datos RestingPulse Smokes Weight Low No 140 145 Yes 160 190 155 165 High 150 195 138 153 170 175 180 Low No 155 215 Yes 150 145 High 180 160 135 130 148 Low No 135 170 157 130 Yes 185 High 140 120 138 121 125 116 145 150 112 190 155
Regresión logística – paso a paso Logistic Regression Table Odds 95% CI Predictor Coef SE Coef Z P Ratio Lower Upper Constant -1.98717 1.67930 -1.18 0.237 Smokes Yes -1.19297 0.552980 -2.16 0.031 0.30 0.10 0.90 Weight 0.0250226 0.0122551 2.04 0.041 1.03 1.00 1.05 Log-Likelihood = -46.820 Test that all slopes are zero: G = 7.574, DF = 2, P-Value = 0.023 Goodness-of-Fit Tests Method Chi-Square DF P Pearson 40.8477 47 0.724 Deviance 51.2008 47 0.312 Hosmer-Lemeshow 4.7451 8 0.784 Si P value es menor a alfa (.05), se puede decir que no es un buen modelo. Un valor cercano a 1 indica un ajuste excelente. Como regla utilizar el estadístico de Hosmer-Lemeshow.
Regresión logística – paso a paso La tasa de esperanza de Pulso Bajo del peso de (1.03) indica que un incremento en peso de 10 libras, incrementa la esperanza que el pulso bajo se incremente 1.28 veces. Para fumar, con el mismo peso, la tasa de esperanza de Pulso Bajo de los sujetos que fuman es de un 30% de los que no fuman. Un valor de 1.0 indica que no hay efecto en el resultado Logistic Regression Table Odds 95% CI Predictor Coef SE Coef Z P Ratio Lower Upper Constant -1.98717 1.67930 -1.18 0.237 Smokes Yes -1.19297 0.552980 -2.16 0.031 0.30 0.10 0.90 Weight 0.0250226 0.0122551 2.04 0.041 1.03 1.00 1.05
Regresión logística – paso a paso En la prueba de Hosmer Lemeshow, los valores mayores a 3.84 son valores atípicos, desajustan el modelo
Regresión logística – paso a paso En la prueba de Hosmer Lemeshow, los valores mayores a 3.84 son valores atípicos
Regresión logística – paso a paso La ecuación de regresión es: RestingPulse = -1.987 – 1.193*Fuma +0.025*Weight Logistic Regression Table Odds 95% CI Predictor Coef SE Coef Z P Ratio Lower Upper Constant -1.98717 1.67930 -1.18 0.237 Smokes Yes -1.19297 0.552980 -2.16 0.031 0.30 0.10 0.90 Weight 0.0250226 0.0122551 2.04 0.041 1.03 1.00 1.05
Regresión logística – paso a paso BLR calcula el logaritmo natural de la Esperanza (odds) de un evento y Odds = expo (Log odds), y Probabilidad = Odds / (1 + Odds) En nuestro caso, a 150 lbs de peso para SI fuma: Log Odds =-1.987+0.025*Weight = 1.763 Odds = exp(1.763) = 5.83 Probability = 5.83/6.83= 0.853 or a 85.3% de probabilidad de éxito La ecuación de regresión es: RestingPulse = -1.987 – 1.193*Fuma +0.025*Weight
Regresión logística – paso a paso La gráfica de probabilidades vs peso es: La probabilidad de pulso bajo es mayor para los no fumadores vs los fumadores y en ambos aumenta conforme aumenta el peso.