Regresión logística binomial

Slides:



Advertisements
Presentaciones similares
Regresión mínimo cuadrada (II)
Advertisements

ANALISIS PARAMÉTRICOS
Regresión mínimo cuadrada (I)
Técnicas para el análisis de datos en el enfoque cuantitativo
Error Estándar de la Media
Modelos de Variable Dependiente Binaria -Logit y Probit-
MÉTODOS DE MEDICIÓN DE COSTOS.
Pronósticos, Series de Tiempo y Regresión
León Darío Bello Parias
Análisis de Regresión Lineal
ESTRATEGIAS Y DISEÑOS AVANZADOS DE INVESTIGACIÓN SOCIAL
Capitulo 10: La metodología Box-Jenkins
Regresión y correlación
Bioestadística Aplicada I
Estadística Descriptiva: 4. Correlación y Regresión Lineal
بسم الله الرحمن الرحيم.
Tema 1- Regresión lineal simple.
Estadística Descriptiva: 4. Correlación y Regresión Lineal Ricardo Ñanculef Alegría Universidad Técnica Federico Santa María.
Regresión lineal Es un modelo matemático para predecir el efecto de una variable sobre otra, ambas cuantitativas. Una variable es la dependiente y otra.
Regresión Lineal Simple
Técnicas estadísticas paramétricas univariantes: regresión
MODELOS DE ELECCIÓN BINARIA: ANÁLISIS LOGIT
TIPOS DE MODELOS DE REGRESIÓN Y SUPUESTOS PARA EL MODELO A
MODELOS GENERALIZADOS
Este procedimiento mide la relación entre la intensidad de un estímulo y la proporción de casos que presentan una cierta respuesta a dicho estímulo. Es.
Análisis de datos El diseño estadístico.
Pronósticos, Series de Tiempo y Regresión
Pronósticos, Series de Tiempo y Regresión
VARIABLE ALEATORIA Y DISTRIBUCION DE PROBABILIDAD
ESTRATEGIAS Y DISEÑOS AVANZADOS DE INVESTIGACIÓN SOCIAL
ESTADÍSTICA BÁSICA EN ECOLOGÍA EVOLUTIVA Juan J. Soler Cruz Estación Experimental de Zonas Áridas Almería.
Regresión logística.
Titular: Agustín Salvia
Introducción a la Inferencia Estadística
Regresión No- lineal y Múltiple
Clase 4a Significancia Estadística y Prueba Z
Herramientas básicas.
VARIABLE DEPENDIENTE DICOTOMICA. Hemos estudiados casos donde las variables dicotómicas actuaban como regresores, variables independientes o que explican.
Regresión lineal múltiple
Eva Medina Moral Profesora Economía Aplicada (UAM) Febrero 2007
SEMINARIO DE INVESTIGACION Titular: Agustín Salvia
PRUEBAS ESTADISTICAS NO PARAMETRICAS
Análisis de los Datos Cuantitativos
Regresión Lineal Simple
ESTIMACIÓN DE PARÁMETROS
CORRELACIÓN Y REGRESIÓN EMPLEANDO EXCEL
BASES PARA LA SELECCIÓN DE UNA PRUEBA ESTADÍSTICA DRA. MA
Construcción de modelos con regresión y correlación
Ejercicios Dado un conjunto de datos, aplicar el Criterio de Fourier para desechar los posibles valores atípicos.
Regresión lineal simple Nazira Calleja
Diferencias individuales y correlaciones
Unidad 4 Análisis de los Datos.
REGRESIÓN LINEAL MÚLTIPLE.
TEMA : ANALISIS DE REGRESION
Supuestos en el análisis de regresión
Supuestos en el análisis de regresión Miles, J. & Shervin, M. (2011). Applyng regression & correlation. A guide for students and researchers. London: Sage.
Elementos del Diseño de Investigación Defina el Problema Revise la literatura Formule una hipótesis Planee investigar y probar su hipótesis Planee necesidades.
Germán Fromm R. 1. Objetivo Entender los diseños metodológicos predictivos 2.
ECONOMETRIA 2. MODELO LINEAL SIMPLE Hernán Delgadillo Dorado
REGRESIÓN LINEAL SIMPLE
RELACIÓN ENTRE UNA VARIABLE DEPENDIENTE Y UNA O MAS INDEPENDIENTES.
ESTADISTICA DESCRIPTIVA BIVARIADA MEDIDAS DE RELACIÓN ENTRE VARIABLES CUANTITATIVAS.
Introducción a la Estadística Inferencial con SPSS Juan José Igartua Perosanz Universidad de Salamanca
REGRESIÓN LINEAL SIMPLE TEMA INTRODUCCIÓN Determinar la ecuación de regresión sirve para: – Describir de manera concisa la relación entre variables.
Catalina Canals Cifuentes 02/10/2015 Modelos Logit y Probit Facultad de Ciencias Sociales Departamento de Sociología Estadística III.
1 REGRESIÓN CON VARIABLES DICOTÓMICAS TEMA 1 (CONTINUACIÓN)
TEMA 7 ANÁLISIS DE LOS RESULTADOS TEMA 7 ANÁLISIS DE LOS RESULTADOS.
Regresión logística Tema 6c. En la regresión lineal la variable dependiente es continua En regresión logística se utiliza cuando la variable dependiente.
7.2 P ROCEDIMIENTOS PARAMÉTRICOS PARA DATOS CUANTITATIVOS Dos muestras Intervalos de confianza.
Transcripción de la presentación:

Regresión logística binomial Nazira Calleja

REGRESIÓN LOGÍSTICA BINOMIAL Predictoras Una o más variables independientes cuantitativas y/o cualitativas (dicotómicas o polítomas) Una variable dependiente cualitativa dicotómica Y Xs

REGRESIÓN LOGÍSTICA BINOMIAL Variable dependiente dicotómica Codificación: 1: el hecho de interés ocurre 0: el hecho de interés no ocurre Sólo hay dos resultados probables: Probabilidad de que ocurra: p Probabilidad de que no ocurra: 1 - p Binomial

REGRESIÓN LOGÍSTICA BINOMIAL PROBABILIDADES (p) Y POSIBILIDADES (Odds) Por cada enfermo hay uno sano Por cada enfermo hay dos sanos Sano Enfermo Sano Enfermo Sano Probabilidad de estar enfermo: 1 de 2 pE = 50% Probabilidad de estar enfermo: 1 de 3 pE = 33% Posibilidad de estar enfermo: 1 a 1 oddsE = 1/1 Posibilidad de estar enfermo: 1 a 2 oddsE = 1/2 Por cada enfermo hay cuatro sanos Sano Sano pE = 20% Probabilidad de estar enfermo: 1 de 5 Enfermo Sano oddsE = 1/4 Posibilidad de estar enfermo: 1 a 4 Sano

REGRESIÓN LOGÍSTICA BINOMIAL Razón (proporción o cociente) de posibilidades Odds Ratio - OR Razón de momios OR = 1/4 = 0.25 OR = 2/1 = 2.00

REGRESIÓN LOGÍSTICA BINOMIAL Entre los vegetarianos, hay 1 hipertenso por cada 4 sanos Entre los fumadores, hay 4 hipertensos por cada 2 sanos Sano Hipertenso Sano Sano Hipertenso Hipertenso Sano Sano Hipertenso Sano Hipertenso ORH = 1/4 = .25 ORH = 4/2 = 2 Ser vegetariano disminuye a la cuarta parte la posibilidad (protege) de ser hipertenso Fumar duplica la posibilidad (el riesgo) de ser hipertenso Factor que favorece la VD (o de riesgo, en caso de un evento negativo): OR > 1 Factor que obstaculiza la VD (de protección , en caso de un evento negativo): OR < 1

REGRESIÓN LOGÍSTICA BINOMIAL Entre los psicólogos, hay 1 hipertenso por cada sano Hipertenso Sano oddsH = 1/1 = 1 Ser psicólogo no afecta la posibilidad de ser hipertenso OR = 1 No hay efecto de la VI sobre la VD Deja las cosas como están OR = 3 La variable X aumenta 3 veces la posibilidad de Y (Multiplica por 3; triplica el riesgo) OR = .10 La variable X disminuye 10 veces la posibilidad de Y (Divide entre 10 el riesgo; protege 10 veces) Regresión logística: Da a conocer qué factor protege y cuál es de riesgo.

REGRESIÓN LOGÍSTICA BINOMIAL Predictor cuantitativo Ejemplo: Edad en años 15 16 17 18 19 20 21… OR = 0.03 Cada año de edad reduce en 3% el riesgo de Y OR = 1.08 Cada año de edad aumenta en 8% el riesgo de Y

REGRESIÓN LOGÍSTICA BINOMIAL Predictor dicotómico Codificación del predictor: 1: lo que se pretende saber. 0: grupo de referencia. ¡¡Muy importante para la interpretación!! Ejemplo: 1: Hombre 0: Mujer OR = 0.50 Ser hombre protege; reduce a la mitad el riesgo de Y. OR = 1.25 Ser hombre es un riego para Y; multiplica por .25 la posibilidad de Y; aumenta en 25% la posibilidad de Y.

REGRESIÓN LOGÍSTICA REGRESIÓN LINEAL • Resultado numérico • Modelo aditivo • Coeficiente 0 no tiene efecto • β en puntajes brutos • Ecuación: Y = α + β • X • Modelo de fórmula cerrada (resuelve el problema con operaciones elegidas de un conjunto limitado). • Modelo OLS: Mínimos cuadrados ordinarios • Maximiza el valor de R2 (al minimizar la suma de residuales cuadrados). • Resultado dicotómico: 0 y 1 • Modelo multiplicativo • Coeficiente 1 no tiene efecto • β en logaritmos; Exp(B) = OR • Ecuación: Y* = In [p/(1-p)] • Ajuste del modelo a los datos con iteraciones sucesivas hasta su convergencia. • Estimador ML: Máxima verosimilitud • -2LL: Maximiza el valor de la función logarítmica de verosimilitud Exp: Exponencial In: Logaritmo ML: Maximum Likelihood LL: Log Likelihood

REGRESIÓN LOGÍSTICA BINOMIAL La distribución de una variable dicotómica viola el supuesto de la distribución normal porque sólo admite valores 0 y 1. Así que no se puede confiar en los parámetros estimados o en los errores estándar. Por tanto, es necesario efectuar transformaciones de la variable dicotómica. 1º Datos Número de personas que pasan y número de personas que no pasan un examen. 2º Convertir los datos dicotómicos en probabilidades Probabilidad de pasar (p) y no pasar (no p). Pero: Los valores no pueden extenderse por debajo de cero ni por arriba de 1. 3º Convertir las probabilidades en odds ratio (razón de posibilidades) OR = p / 1 – p. Los valores de OR pueden extenderse por arriba de 1, pero no por debajo de cero. 4º Convertir los odds ratio en logaritmos Función logit. Los valores pueden ir de - ∞ a + ∞

REGRESIÓN LOGÍSTICA BINOMIAL EJEMPLO CON SPSS Una compañía de autobuses está  interesada en probar la eficacia de sus procedimientos de selección de sus choferes, a fin de evitar invertir una gran cantidad de tiempo y dinero en entrenar a quienes no serían exitosos en  sus funciones laborales. Para ello, aplica un test de aptitudes a 50 solicitantes y les pregunta el tiempo que han tenido de experiencia como choferes. Entrena a todos ellos y finalmente les realiza la prueba de manejo. ¿El puntaje obtenido en el test de aptitud y la experiencia pueden predecir quienes pasarán la prueba de manejo?

REGRESIÓN LOGÍSTICA BINOMIAL EJEMPLO CON SPSS X1 Puntaje obtenido en el test de aptitudes [cuantitativa] Y Pasar (o no pasar) la prueba de manejo (dicotómica) X2 Experiencia (en meses) como choferes [cuantitativa] Estadísticos Puntaje: M = 3, DS = 1.42, rango: 1-5. Experiencia (en meses): M = 13.56, DS = 6.58, rango 2- 26. Pasar: Sí pasaron (1): 48%; No pasaron (2): 52%. n = 50

REGRESIÓN LOGÍSTICA BINOMIAL Con SPSS Analizar  Regresión  Logística binaria  Opciones Covariables = Predictores

REGRESIÓN LOGÍSTICA BINOMIAL Analizar  Regresión  Logística binaria  Categórica Permite especificar las variables independientes o de control (co-variables) como categóricas.  Seleccionar las variables que cumplen con el criterio de medición. Especificar: • Método de Contraste (Indicador, por default) • Categoría de referencia (la Última, por default).

REGRESIÓN LOGÍSTICA BINOMIAL RESULTADOS n Codificación de VD Continuar con Bloque 1: Bloque 0 es sólo referencia

REGRESIÓN LOGÍSTICA BINOMIAL -2LL e iteraciones Método -2LL final o M (con las variables del modelo) -2LL inicial o 0 o nulo (línea base) Número de iteraciones

-2LL REGRESIÓN LOGÍSTICA Equivale a la R múltiple o a F en la evaluación total del modelo. Ventajas de multiplicar por -2 la función log de verosimilitud (LL: log likelihood): La LL, que es negativa, se vuelve positiva. La LL llega a tener una distribución similar a χ2, con lo cual es posible evaluar su significancia. Valores bajos de -2LL significan un mejor ajuste. Predicción perfecta: -2LL = 0. La -2LL inicial: línea base para evaluar los modelos subsecuentes.

REGRESIÓN LOGÍSTICA BINOMIAL Prueba del modelo Paso: Cuando se usan modelos stepwise gl = VIs en el modelo 0 – VIs en el modelo que se está probando Bloque: Cuando se usan modelos jerárquicos para las variables que entraron en ese bloque. χ2 que prueba si el modelo completo (en el que han entrado todas las variables) predice la VD. Su función es la misma que la de la F de Anova en la regresión lineal. χ2 = (-2LL0) – (-2LLM) χ2 = 69.235 – 59.066 χ2 = 10.169

REGRESIÓN LOGÍSTICA BINOMIAL Valores similares a R2 de acuerdo con Cox-Snell y con Nagelkerke - 2 LL final

REGRESIÓN LOGÍSTICA BINOMIAL Bondad del ajuste del modelo La prueba de Hosmer-Lemeshow evalúa la bondad del ajuste del modelo. Calcula las probabilidades de la variable dependiente predichas por el modelo, y las compara con las observadas. Si el modelo ajusta bien, la p deberá ser >.05.

REGRESIÓN LOGÍSTICA BINOMIAL Tabla de clasificación Proporciona información sobre si los valores predichos o pronosticados por el modelo son iguales a los valores reales u observados de la variable dependiente. Porcentaje total de valores pronosticados correctamente por el modelo. Tasa de éxito en la predicción n 24 26 50 Total De las 24 personas que no pasaron el examen, el modelo pronosticó correctamente a 16, es decir al 66.7%. De las 24 personas que sí pasaron el examen, el modelo pronosticó correctamente a 20, es decir al 76.9%. Errores en la predicción

REGRESIÓN LOGÍSTICA BINOMIAL Gráfico de clasificación Erróneamente clasificados Correctamente clasificados En este histograma de los valores reales y de los valores pronosticados por el modelo para la VD se observan los casos cuyo valor pronosticado ha sobrepasado el punto de corte (por default : 0.5), es decir, quienes poseerían el valor 1 de la VD, mientras que aquellos con valores pronosticados menores que el punto de corte tendrían el valor 0. Grupo clasificado con 0 Grupo clasificado con 1

REGRESIÓN LOGÍSTICA BINOMIAL Coeficientes Exp (B) = OR B = Cantidad del cambio en la VD asociada con el cambio de una unidad en esa VI. No está dada en valores absolutos, sino en logaritmos. Si los intervalos de confianza excluyen el cero, son significativos. Prueba la significancia del parámetro. Se distribuye como χ2 Habrá que hacer las transformaciones a la inversa LogitVD = α +β x VI Logit OR OR = exp (logitVD) OR Probabilidades p = odds/(1 + odds) Se puede efectuar en Excel

REGRESIÓN LOGÍSTICA BINOMIAL Reporte de resultados Se realizó un análisis de regresión logística (método Introducir) con la variable pasar la prueba de manejo (0=No, 1=Sí) como variable dependiente; las variables predictoras fueron el puntaje (calificación obtenida en un test de aptitudes) y la experiencia (número de meses de experiencia previa como choferes). Se analizaron 50 casos. El modelo resultó significativamente confiable (χ2=10.169, gl=2, p=0.006) y la prueba de Hosmer y Lemeshow indicó que se ajusta adecuadamente a los datos (χ2=6.608, gl=8, p=.579 ). El modelo explicó entre 18.4%Cox & Snell y 24.5% Negelkerke de la varianza de la variable pasar la prueba de manejo. El total de la predicción correcta fue de 72.00%; 76.9% de quienes pasaron fueron predichos correctamente y 66.7% de quienes no lo hicieron.

REGRESIÓN LOGÍSTICA BINOMIAL Reporte de resultados Tanto el puntaje obtenido en el test de aptitud como la experiencia resultaron predictores confiables del hecho de pasar la prueba de manejo (véase tabla 1). Tabla 1. Coeficientes de las variables evaluadas en la Regresión Logística B S.E. Wald df Sig. Exp(B) 95.0% C.I.for EXP(B) Alto Bajo Puntaje .549 .235 5.473 1 .019 1.731 1.093 2.741 Experiencia .111 .052 4.577 .032 1.118 1.009 1.238 Constante -3.050 1.146 7.086 .008 .047 Los valores de los coeficientes muestran que el incremento de una unidad en el puntaje obtenido en el test de aptitud está asociado con un aumento de 73.1% en la posibilidad pasar el examen (OR=1.731, IC95%: 1.093-2.741) y cada mes de experiencia representa un aumento de 11.8% (OR=1.118, IC95%: 1.009-1.238).

REGRESIÓN LOGÍSTICA BINOMIAL Reporte de resultados Los valores de los coeficientes muestran que el incremento de una unidad en el puntaje obtenido en el test de aptitud está asociado con un aumento de 73.1% en la posibilidad pasar el examen (OR=1.731, IC95%: 1.093-2.741) y cada mes de experiencia representa un aumento de 11.8% (OR=1.118, IC95%: 1.009-1.238).

REGRESIÓN LOGÍSTICA BINOMIAL Predicciones específicas ¿Qué OR y p corresponden a una persona que obtuvo un puntaje de 4 en el test de aptitudes y tiene 18 meses de experiencia? α = -3.05 β1= 0.549 β1= 0.111 Y* = -3.05 + 0.549 (4) + 0.111 (18) Y* = 1.144

REGRESIÓN LOGÍSTICA BINOMIAL 1º Datos Número de personas que pasan y que no pasan. 2º Convertir los datos dicotómicos en probabilidades 3º Convertir las probabilidades en odds ratio (razón de posibilidades) OR = p / 1 – p. 4º Convertir los odds ratio en logaritmos Función logit. Habrá que efectuar las transformaciones a la inversa Convertir los logaritmos en odds ratio OR = exp Y* Convertir los odds ratio en probabilidades p = OR / (1 + 0R) Y* OR p

REGRESIÓN LOGÍSTICA BINOMIAL Predicciones específicas Habrá que efectuar las transformaciones a la inversa Logit exp Y* OR p OR = exp Y* OR = 3.140 p = OR / (1 + 0R) p = 0.758

REGRESIÓN LOGÍSTICA BINOMIAL Valores predichos con Excel

REGRESIÓN LOGÍSTICA BINOMIAL Valores predichos con SPSS