Regresión logística Tema 6c
En la regresión lineal la variable dependiente es continua En regresión logística se utiliza cuando la variable dependiente es categórica binomial, por lo regular se asignan: 1= Si 0=No
Ejemplo: Saber si los empleados serán conductores óptimos El resultado en una prueba es pasa o no pasa. Otra prueba, con la que quieren predecir, es un test de aptitud para el trabajo. ¿Cuánta probabilidad hay de que la persona sea la adecuada?
Se puede usar regresión lineal y se obtienen los siguientes cuadros Una significancia de 0.028
Coeficientes a Modelo Coeficientes no estandarizados Coefic ientes tipific ados tSig. BError típ. Beta 1 (Constante) Puntaje en un test de aptitud hacia el trabajo a. Variable dependiente: Pasar el examen después del entrenamiento
Según lo predicho por mi modelo, mientras más alto salga en puntuación en el examen de actitud puede tener un puntaje más alto pero los valores van del 0.3 al 0.8 y … Sólo existen dos valores: 0 y 1, no hay valores intermedios
No cumple los supuestos de la regresión lineal De normalidad
El dispersigrama no tiene un modelo esperado de distribución
Por ello se utiliza la regresión logística para datos categóricos con dos valores Se pasa a una medida de probabilidades, es decir, cuantas probabilidades tiene de pasar o de no pasar. Para lograrlo se utiliza la transformación logit
Puntaje del examen FallaN75642 P PasaN35468 P N=Número de personas P=Probabilidad Podemos decir que la probabilidad de que pase una persona con un puntaje de 1 es de 0.3. Pero las probabilidades se distribuyen de 0 a 1 y nuestras predicciones pueden estar en otros valores por ello se convierten a odds (momios)
Odds ratio (razón de momios) Odds ratio= Probabilidad del evento/ 1-probabilidad del evento Ejemplo: Que al tirar un dado salga un número diferente a 4; la probabilidad del evento es 5/6= Que al tirar un dado salga el número 4; la probabilidad del evento es El odds para que salga un número diferente a 4 es: (probabilidad del evento) / (1-probabilidad del evento)= 5 Es decir hay 5 veces más de posibilidades que salga un número diferente a 4 al tirar un dado
Puntaje del examen FallaN75642 P PasaN35468 P Odds Interpretación: Un puntaje en 1 quiere decir que puede 2.3 más probabilidades en fallar. Ya tenemos valores mayores a uno, que se pueden prolongar hasta el infinito, pero no podemos tener valores menores a 0, por lo cual se realiza otra transformación llamada logit
Para obtener el número logit de la probabilidad se utiliza la siguiente formula Para obtener el número logaritmo de los odds se utiliza la siguiente formula Nota: El logaritmo es el número de exponente, que hay que elevar la base para dar un determinado número. Por ejemplo si la base es de 10, y se quiere conocer el 1000 el logaritmo es el tres.
Puntaje del examen FallaN75642 P PasaN35468 P odds Logit Mediante el logit se presentan valores positivos y negativos. Este dato se utiliza para probar un modelo
Para probar el modelo En regresión lineal se utiliza la suma mínima de cuadrados. Estos se ajustan a una línea con datos conocidos, pero en regresión logística no se manejan parámetros conocidos, por lo cual en lugar de la suma mínima de cuadrados se ocupa la máxima verosimilitud (ML máximum likelihood). ML trabaja iterativamente (repetitivo hasta alcanzar una meta). Propone un parámetro y calcula que tan bien el parámetro estimado se ajusta a los datos.