ESTRATEGIAS Y DISEÑOS AVANZADOS DE INVESTIGACIÓN SOCIAL Titular: Agustín Salvia MÓDULO 3 D ANÁLISIS DE MODELOS DE REGRESION LOGISTICA SEMINARIO DE POSGRADO.

Slides:



Advertisements
Presentaciones similares
ANALISIS PARAMÉTRICOS
Advertisements

Estimación del riesgo relativo en presencia de variables de confusión
ESTADISTICA INFERENCIAL
Modelos de Variable Dependiente Binaria -Logit y Probit-
ESTRATEGIAS Y DISEÑOS AVANZADOS DE INVESTIGACIÓN SOCIAL
León Darío Bello Parias
KRIGING.
MANUAL DE LABORATORIO DE CÓMPUTO ECONOMETRÍA I MULTICOLINEALIDAD
ESTRATEGIAS Y DISEÑOS AVANZADOS DE INVESTIGACIÓN SOCIAL
METODOLOGÍA DE INVESTIGACIÓN Titular: Agustín Salvia
Modelo básico de regresión Lineal
Regresión y correlación
Bioestadística Aplicada I
ESTRATEGIAS Y DISEÑOS AVANZADOS DE INVESTIGACIÓN SOCIAL
METODOLOGÍA DE INVESTIGACIÓN
Pruebas de hipótesis Walter Valdivia Miranda
COEFICIENTE DE CORRELACIÓN PRODUCTO-MOMENTO DE PEARSON
CURSO DE ESTADÍSTICA BÁSICA
Regresión lineal Es un modelo matemático para predecir el efecto de una variable sobre otra, ambas cuantitativas. Una variable es la dependiente y otra.
Regresión Lineal Simple
1º BACHILLERATO | Matemáticas © Oxford University Press España, S.A Hacer clic en la pantalla para avanzar VARIABLE ESTADÍSTICA UNIDIMENSIONAL Población:
9 Regresión Lineal Simple
Tema 2: Métodos de ajuste
Sesión 2: Métodos Probabilísticos Básicos
Técnicas estadísticas paramétricas univariantes: regresión
Clases 4 Pruebas de Hipótesis
Población y Muestra.
MODELOS DE ELECCIÓN BINARIA: ANÁLISIS LOGIT
ANALISIS DE DATOS CATEGORICOS
Pronósticos, Series de Tiempo y Regresión
Pronósticos, Series de Tiempo y Regresión
ESTRATEGIAS Y DISEÑOS AVANZADOS DE INVESTIGACIÓN SOCIAL
Unidad V: Estimación de
2. DISTRIBUCIÓN BINOMIAL Y DISTRIBUCIÓN NORMAL
Regresión logística.
Métodos de calibración: regresión y correlación
Titular: Agustín Salvia
Normalidad, Variabilidad y estimación del Modelo de Regresión
Regresión No- lineal y Múltiple
Clase 4a Significancia Estadística y Prueba Z
ESTRATEGIAS Y DISEÑOS AVANZADOS DE INVESTIGACIÓN SOCIAL
Regresión lineal múltiple
1 ESTRATEGIAS Y DISEÑOS AVANZADOS DE INVESTIGACIÓN SOCIAL Titular: Agustín Salvia MÓDULO 2 A Análisis de Tablas de Contingencia y Coeficientes de Asociación.
Eva Medina Moral Profesora Economía Aplicada (UAM) Febrero 2007
CO-2124 Análisis de Varianza con Un Criterio de Clasificación En clases anteriores se deseaba determinar si existían diferencias entre las medias de dos.
SEMINARIO DE INVESTIGACION
SEMINARIO DE INVESTIGACION Titular: Agustín Salvia
Pruebas de hipótesis.
PRUEBAS ESTADISTICAS NO PARAMETRICAS
SEMINARIO DE INVESTIGACION Titular: Agustín Salvia
Taller 2 Reflexiones sobre Metodología Cuantitativa: Potencial de la comparación de muestras Germán Fromm R.
Regresión Lineal Simple
ESTIMACIÓN DE PARÁMETROS
Alumno: Hebert Rangel Gutierrez Matricula: Tutor: Leonardo Olmedo Asignatura: Estadistica Descriptiva Licenciatura en Tecnologías de la Información.
Ejercicios Dado un conjunto de datos, aplicar el Criterio de Fourier para desechar los posibles valores atípicos.
Distribuciones de Probabilidad
REGRESIÓN LINEAL MÚLTIPLE.
ESTADÍSTICA DESCRIPTIVA
Germán Fromm R. 1. Objetivo Entender los diseños metodológicos predictivos 2.
Pruebas paramétricas y no paramétricas
Clase 17 Introducción a la Estadística Universidad de la República Centro Universitario Regional del Este Pablo Inchausti Licenciatura en Gestión Ambiental.
ESTADISTICA DESCRIPTIVA BIVARIADA MEDIDAS DE RELACIÓN ENTRE VARIABLES CUANTITATIVAS.
Introducción a la Estadística Inferencial con SPSS Juan José Igartua Perosanz Universidad de Salamanca
REGRESIÓN LINEAL SIMPLE TEMA INTRODUCCIÓN Determinar la ecuación de regresión sirve para: – Describir de manera concisa la relación entre variables.
Intervalos de Confianza M. C. José Juan Rincón Pasaye UMSNH – FIE Mayo de 2003.
1 REGRESIÓN CON VARIABLES DICOTÓMICAS TEMA 1 (CONTINUACIÓN)
4. Métodos psicofísicos de medida en clínica
GRÁFICAS Y FUNCIONES MATEMÁTICAS Bernardo Nieto Castellanos.
Regresión logística binomial
Regresión logística Tema 6c. En la regresión lineal la variable dependiente es continua En regresión logística se utiliza cuando la variable dependiente.
Transcripción de la presentación:

ESTRATEGIAS Y DISEÑOS AVANZADOS DE INVESTIGACIÓN SOCIAL Titular: Agustín Salvia MÓDULO 3 D ANÁLISIS DE MODELOS DE REGRESION LOGISTICA SEMINARIO DE POSGRADO

La regresión logística El objetivo primordial que resuelve la regresión logística es modelar cómo influye en la probabilidad de aparición de un suceso, por lo general dicotómico, la presencia o no de diversos factores y el valor o nivel de los mismos.

Los modelos de regresión logística son modelos de regresión que permiten estudiar si una variable binomial depende, o no, de otra u otras variables (no necesariamente binomiales): Si una variable binomial de parámetro p es independiente de otra variable X, se cumple p=p|X, por consiguiente, un modelo de regresión es una función de p en X que a través del coeficiente de X permite investigar la relación anterior. La regresión logística

Se dice que un proceso es binomial cuando sólo tiene dos posibles resultados: "éxito" y "fracaso“. Un proceso binomial está caracterizado por la probabilidad de éxito, representada por p, la probabilidad de fracaso se representa por q y, evidentemente, ambas probabilidades están relacionadas por p+q=1. En ocasiones, se usa el cociente p/q, denominado "odds“ (RIESGO RELATIVO) y que indica cuánto más probable es el éxito que el fracaso, como parámetro característico de la distribución binomial. La regresión logística Nota Metodológica 1

El odds asociado a un suceso es el cociente entre la probabilidad de que ocurra frente a la probabilidad de que no ocurra: Una de las características que hace tan interesante la regresión logística es la relación que este modelo guarda con un parámetro de cuantificación de riesgo conocido como "odds ratio" (razón de momios). La regresión logística

Si utilizamos cómo variable dependiente la probabilidad p de que ocurra un determinado suceso y construimos la siguiente función: tenemos una variable que puede tomar cualquier valor a través de una ecuación bajo la forma: donde ln significa logaritmo neperiano, a0 y a1 son constantes y X es una variable que puede ser aleatoria o no, continua o discreta. La regresión logística

Nota Metodológica 2 Si clasificamos el valor de la variable respuesta como 0 cuando no se presenta un suceso y con 1 cuando sí está presente, y buscamos cuantificar la posible relación entre ese suceso y alguna variable independiente, podríamos caer en error de utilizar una regresión lineal: y = a + bx, y estimar, a partir de nuestros datos y por el procedimiento de mínimos cuadrados, los coeficientes a y b de la ecuación. Sin embargo, y aunque esto es posible matemáticamente, nos conduce a la obtención de resultados absurdos, ya que cuando se calcule la función obtenida para diferentes valores de la variable X se obtendrá resultados que, en general, serán diferentes de 0 y 1, ya que esa restricción no se impone en la regresión lineal, en la que la respuesta puede tomar cualquier valor.

Función logística El modelo de regresión logística modeliza la probabilidad de un proceso binomial como la función logística de una combinación lineal de la(s) variable(s) independiente(s).

Hay otras formas equivalentes de poner el modelo, que para ciertas aplicaciones son más cómodas de usar: Estas dos últimas expresiones permiten calcular directamente la probabilidad del proceso binomial para los distintos valores de la variable X. La regresión logística

Análisis de regresión logística  La regresión logística es un caso particular de regresión en donde la variable dependiente es categórica. La técnica no impone restricciones tan fuertes sobre la distribución de los errores.  La estimación de los coeficientes de regresión se hace a partir de los datos, pero no se aplica el método de mínimos cuadrados sino de máxima verosimilitud.  A igual que la regresión lineal, la regresión logística a) Evalúa Modelos Explicativos; b) Estima fuerza y sentido de factores; y c) Predice probabilidades de que un determinado evento ocurra.

 Permite generar y evaluar un MODELO EXPLICATIVO a partir de una o varias variables independientes y una variable dicotómica o categórica ordinal o no ordinal con más de dos categorías.  Ejemplos: En qué medida ciertas características socio-demográficas influyen en que una población vote a determinado partido, o venda su fuerza de trabajo en el mercado, o no sienta depresión psicológica? Análisis de regresión logística

REQUISITOS Y ETAPAS  Recodificación de las variables independientes categóricas u ordinales en variables “dummy” y de la variable dependientes en 0 y 1.  Evaluar efectos de confusión y de interacción del modelo explicativo.  Evaluación de la bondad de ajuste de los modelos a través de los Seudo R2 y la tabla de clasificación de casos.  Análisis de la fuerza, sentido y significancia de los coeficientes, sus exponenciales y estadísticos de prueba (Wald). Análisis de regresión logística

La interacción y la confusión son dos conceptos importantes cuando se usa la técnica de regresión con el objetivo de generar modelos explicativos, que tienen que ver con la interferencia que una o varias variables pueden realizar en la asociación entre otras. Existe confusión cuando la asociación entre dos variables difiere significativamente según que se considere, o no, otra variable. Existe interacción cuando la asociación entre dos variables varía según los diferentes niveles de otra u otras variables. Análisis de regresión logística

El modelo más sencillo que hace explícita la interacción entre dos variables X1 y X2 es: ln(p/q) = a0 + a1 X1 + a2 X2 + a3 X1 X2 Contrastar la existencia de interacción entre X1 y X2 es contrastar si el coeficiente a3 es cero (no hay interacción), o distinto de cero (existe interacción). Nótese que para poder interpretar así este contraste es necesario que en el modelo figuren las variables X1, X2 y X1X2. Análisis de regresión logística

Contrastar la existencia de confusión requiere comparar los coeficientes de regresión obtenidos en dos modelos diferentes y si hay diferencia, existe la confusión. Para dicha comparación no se precisa realizar un contraste de hipótesis estadístico ya que aunque la diferencia encontrada sea debida al azar, representa una distorsión que la estimación ajustada corrige. Será el investigador quién establezca el criterio para decidir cuando hay diferencia. Lo habitual es considerar que existe confusión cuando la exponencial del coeficiente (Exp (B)) cambia en más del 10%. Análisis de regresión logística

Modelos de Regresión Logística ANÁLISIS DE UN EJEMPLO “La participación en el mercado de trabajo está condicionada por diversos factores económicos, sociales y culturales. […] La definición de los roles masculinos y femeninos ubica a los varones como principales responsables del sostén económico de los hogares y […] directamente asociados al mundo laboral […] Las mujeres […] como principales responsables de las tareas de reproducción social en el ámbito doméstico”.

Modelos de Regresión Logística ANÁLISIS DE UN EJEMPLO Total number of cases: (Unweighted) Number of selected cases: Number of unselected cases: 0 Number of selected cases: Number rejected because of missing data: 1467 Number of cases included in the analysis: 15347

Modelos de Regresión Logística ANÁLISIS DE UN EJEMPLO Dependent Variable Encoding: Original Internal Value Value 1,00 0 (INACTIVOS) 2,00 1 (ACTIVOS) Parameter Value Freq Coding (1) H13 Varón ,000 Mujer ,000 XMEN5 Sin menores de 5 años, ,000 al menos un menor 1, ,000 Interactions: INT_1 H13(1) by XMEN5(1)

Modelos de Regresión Logística ANÁLISIS DE UN EJEMPLO Dependent Variable.. XCDEA Condición de Actividad Beginning Block Number 0. Initial Log Likelihood Function -2 Log Likelihood 16339,972 Beginning Block Number 1. Method: Enter Variable(s) Entered on Step Number 1. XMEN5 Presencia de menores de 5 años o menos H13 Sexo Estimation terminated at iteration number 4 because Log Likelihood decreased by less than,01 percent. -2 Log Likelihood 14057,404 Goodness of Fit 15645,491 Cox & Snell - R^2,138 Nagelkerke - R^2,211

Modelos de Regresión Logística ANÁLISIS DE UN EJEMPLO Classification Table for XCDEA The Cut Value is,78 Observed Predicted InactivoActivoPercent Correct IA Inactivo I ,70% Activo A ,91% Overall63,59% Variable BS.E.WaldDfSigRExp(B) H13(1)-2,1547, ,211,0000-,3147,1159 XMEN5(1-,2425,042432,71291,0000-,0434,7847 Constant 2,7914, ,261,0000

Modelos de Regresión Logística ANÁLISIS DE UN EJEMPLO Variable BS.E.WaldDfSigRExp(B) H13(1)-1,7112, ,1651,0000-,2301,1806 XMEN5,8638,117054,46471,0000,06112,3722 INT_1-1,3302, ,1851,0000-,0881,2644 Constant 2,4388, ,891,0000 Beginning Block Number 2. Method: Enter Variable(s) Entered on Step Number 1.. H13 * XMEN5

Modelos de Regresión Logística ANÁLISIS DE UN EJEMPLO Beginning Block Number 3. Method: Enter Variable(s) Entered on Step Number 1.. XQUINTIL Quintiles de ingreso familair per cápita XH12 Edad XEDAD2 Edad AL CUADRADO Estimation terminated at iteration number 5 because Log Likelihood decreased by less than,01 percent. -2 Log Likelihood 13507,734 (14057,404) Goodness of Fit 15080,288 (15645,491) Cox & Snell - R^2,169 (,138) Nagelkerke - R^2,257 (,211)

Modelos de Regresión Logística ANÁLISIS DE UN EJEMPLO Observed Predicted InactivoActivoPercent Correct IA InactivoI ,99% ActivoA ,48% Overall67,64% Variable BS.E.WaldDfSigRExp(B) H13(1)1,7161, ,3501,0000,22905,5626 XMEN5-1,0891,118284,88891,0000-,0771,3365 INT_11,3462, ,3461,0000,08903,8428 XQUINTI-,3088, ,4161,0000-,1556,7343 XH12-,2411,045128,56081,0000-,0437,7858 XEDAD2,0031,000623,16551,0000,03901,0031 Constant 2,8649,765614,00341,0002

Modelos de Regresión Logística ANÁLISIS DE UN EJEMPLO / INVERSA Dependent Variable Encoding: Original Internal Value Value 0,00 0 (ACTIVOS) 1,00 1 (INACTIVOS) Parameter Value Freq Coding (1) H13 Varón ,000 Mujer ,000 XMEN5 Sin menores de 5 años, ,000 al menos un menor 1, ,000 Interactions: INT_1 H13(1) by XMEN5(1)

Modelos de Regresión Logística ANÁLISIS DE UN EJEMPLO Dependent Variable.. XCDEA Condición de Actividad Beginning Block Number 0. Initial Log Likelihood Function -2 Log Likelihood 16339,972 Beginning Block Number 1. Method: Enter Variable(s) Entered on Step Number 1. XMEN5 Presencia de menores de 5 años o menos H13 Sexo Estimation terminated at iteration number 4 because Log Likelihood decreased by less than,01 percent. -2 Log Likelihood 14057,404 Goodness of Fit 15645,491 Cox & Snell - R^2,138 Nagelkerke - R^2,211

Modelos de Regresión Logística ANÁLISIS DE UN EJEMPLO Classification Table for XCDEA The Cut Value is,78 Observed Predicted ActivoInactivoPercent Correct AI Activo A ,91% Inactivo I ,70% Overall63,59% Variable BS.E.WaldDfSigRExp(B) H13(1)2,1547, ,211,0000,31478,6251 XMEN5(1,2425,042432,71291,0000,04341,2744 Constant -2,7914, ,261,0000

Modelos de Regresión Logística ANÁLISIS DE UN EJEMPLO Variable BS.E.WaldDfSigRExp(B) H13(1)1,7112, ,1651,0000,23015,5357 XMEN5-,8638,117054,46471,0000-,0611,4216 INT_11,3302, ,1851,0000,08813,7818 Constant -2,4388, ,891,0000 Beginning Block Number 2. Method: Enter Variable(s) Entered on Step Number 1.. H13 * XMEN5

Modelos de Regresión Logística ANÁLISIS DE UN EJEMPLO Beginning Block Number 3. Method: Enter Variable(s) Entered on Step Number 1.. XQUINTIL Quintiles de ingreso familair per cápita XH12 Edad XEDAD2 Edad AL CUADRADO Estimation terminated at iteration number 5 because Log Likelihood decreased by less than,01 percent. -2 Log Likelihood 13507,734 (14057,404) Goodness of Fit 15080,288 (15645,491) Cox & Snell - R^2,169 (,138) Nagelkerke - R^2,257 (,211)

Modelos de Regresión Logística ANÁLISIS DE UN EJEMPLO Observed Predicted ActivoInactivoPercent Correct AI ActivoA ,48% InactivoI ,99% Overall67,64% Variable BS.E.WaldDfSigRExp(B) H13(1)-1,7161, ,3501,0000-,2290,1798 XMEN51,0891,118284,88891,0000,07712,9716 INT_1-1,3462, ,3461,0000-,0890,2602 XQUINTI,3088, ,4161,0000,15561,3618 XH12,2411,045128,56081,0000,04371,2726 XEDAD2-,0031,000623,16551,0000-,0390,9969 Constant -2,8649,765614,00341,0002