Modelos Lineales Generalizados Aplicados a las Ciencias Biológicas Modelos para Datos Binarios y Regresión Logística MLGAplicados 2009 MPDíaz
Modelos de Regresión Logística (enfoque generalizado) MLGAplicados 2009 MPDíaz
Planificación del Tema Modelos lineales generalizados para datos binarios ( distinto) Interpretación de parámetros (’s, ’s) Modelos específicos: dosis-respuesta Inferencia y Diagnóstico Regresión logistica múltiple MLGAplicados 2009 MPDíaz
Introducción Datos binarios patrón de datos más común dentro de Variables categóricas Regresión Logística (MRL) modelo más usado para datos binarios Yij con f.d.p. B(m,i) E(Yij) = i para todo i=1,2 ; j=1,...,6 y su funcioón de distribución de probab. Naturaleza dicotómica de la respuesta. MLGAplicados 2009 MPDíaz
Interpretación del MRL Supongamos Y v.a. (binaria), X covariable cuantitativa. (x) prob de éxito cuando X=x Modelo de regresión logística (más simple) (x) se incrementa o decrece con una función S de x.(Fig) Cómo lo vemos en la escala de probabilidad? MLGAplicados 2009 MPDíaz
MLGAplicados 2009 MPDíaz
Interpretación de Coeficientes [1] determina la tasa de incremento o decrecimiento de la S-curva. Sig() indica si la curva “asciende”o “desciende”. | | crece la tasa de cambio crece. =0 relación constante en x (la prob es la misma x Y es “indenpendiente” de X. MLGAplicados 2009 MPDíaz
La pte. 0 a medida que la prob 1 ó 0. Interpretación La función [1] implica que la tasa de cambio en (x) varía por unidad de cambio de x (la tg a lo largo de la S-curva varía). Tasa de variación, tg, (x)(1-(x)), Ejemplo: -si (x)=0.5, la recta tg tiene pendiente (0.5)(0.5)=0.25 -si (x)=0.9, la recta tg tiene pendiente (0.9)(0.1)=0.09 La pte. 0 a medida que la prob 1 ó 0. MLGAplicados 2009 MPDíaz
Y=1 si tiene al menos un satélite. Tarea Leer el item 5.1.2 sobre aplicación en Cangrejos hembras (herradura), Ethology (1996), sobre la presencia de “satélites” (otros machos residiendo con ella) en función a diferentes factores del individuo: color, tamaño (peso), condición del espinazo y ancho del caparazón (ver fig). Y=0 si no tiene satélite, Y=1 si tiene al menos un satélite. X1=ancho, continua (x) denota la prob que un cangrejo hembra de ancho x tenga satélite. MLGAplicados 2009 MPDíaz
Tarea Lo más simple modelo lineal para la probabilidad como f(x) Cuando x=33.5, la (x)=1.3!!!! No respeta el rango posible de valores de la función MLGAplicados 2009 MPDíaz
Ejemplo de cangrejos… Estimando por MV al MRL Nota: estimado es >0 la prob estimada crece cuando x crece Para un ancho mínimo, x=21.0 la prob estimada es 0.129. Para un ancho máximo, x=33.5 la prob estimada es 0.987. (otros…x=promedio?, con prob de ½ de tener?) MLGAplicados 2009 MPDíaz
Ejemplo de cangrejos… la tasa incremental de cambio en la prob ajustada, para el punto medio de tamaño del individuo (x=26.3cm) es la estimación de (x)(1-(x)), 0.11. Hembras con tamaño aproximadamente medio la prob estimada de tener satélite se incrementa a un tasa del 0.11 por incremento del ancho, en cm. Si modifico la probabilidad? Por ej. 0.5? La tasa de incremento es del 0.12 y asi… MLGAplicados 2009 MPDíaz
Interpretación de Coeficientes Odds Ratio: cociente de odds de respuesta 1 (“éxito”)Concepto, Ejemplo Qué dice? El odds crece de manera multiplicativa en exp() a medida que crece x en una unidad O, el odds al nivel x+1=odds al nivel x multiplicado por exp(). MLGAplicados 2009 MPDíaz
Interpretación de Coeficientes Ejemplo: odds de tener satélite es 1.64=exp(0.497) por cada cm que se incrementa en ancho, O, existe un 64% de incremento. Caso 1) Tamaño medio, x=26.3, con (xest)=0.674 y odds est. 0.674/0.326=2.07; Caso 2) Tamaño x=27.3=26.3+1, con (xest)=0.773 y odds est. 0.773/0.227=3.40, que es el 64% de incremento en el odds anterior (3.40=2.07(1.64)). El log del odds tiene una relación lineal con la covariable. MLGAplicados 2009 MPDíaz
Ensayos de tipo Dosis-Respuesta MLGAplicados 2009 MPDíaz
Introducción (su diseño) Un conjunto de individuos m1, m2, ..., mk se les suministra una drogra determinada, en d1, d2, ..., dk dosis diferentes, obteniéndose como respuesta, después de un cierto período de tiempo, r1, r2, ..., rk individuos que cambian de estado. ASIGNACIÓN ALEATORIA Naturaleza de la Respuesta: Un individuo puede o no responder a la droga dicotómica sólo dos resultados complementarios MLGAplicados 2009 MPDíaz
estudios de efectividad de productos Introducción Control de Plagas y Enfermedades: estudios de efectividad de productos Grupos de insectos se le aplica un insecticida, observando muerte (éxito) o la sobrevida (fracaso) Dosis: log de la concentración del ingrediente activo (tal que d cuando la concentración 0. MLGAplicados 2009 MPDíaz
aplicación individuo estímulo R (respuesta) Introducción Dos componentes: la intensidad del estímulo (dosis de droga, de veneno, de medicamento, de insecticida) el individuo (planta, insecto, paciente, semilla, etc.) aplicación individuo estímulo R (respuesta) MLGAplicados 2009 MPDíaz
Nivel de Intensidad: Tolerancia Introducción Respuesta binaria: cuya ocurrencia dependerá de la intensidad del estímulo aplicado. (para cada sujeto existe un nivel de intensidad por debajo del cual no se produce la respuesta y por encima de la cual ocurre) Nivel de Intensidad: Tolerancia MLGAplicados 2009 MPDíaz
Determinar dosis específicas, Introducción Existe una Distribución de Tolerancias f(z) (gracias a la asignación aleatoria...!) Objetivo General: Determinar dosis específicas, LD50, dosis letal (dosis que mata el 50% de los insectos, e.g.; LD90, dosis para la cual sólo sobrevive el 10% de los individuos. MLGAplicados 2009 MPDíaz
Ejemplos clásicos dosis en g log2(dosis) Collett (1991). Experimento de toxicidad realizado en individuos de Heliothis virescens bajo dosis de piretroide. Conjuntos (extraídos de manera aleatoria) de 20 individuos de cada sexo fueron expuestos durante 3 días al piretroide y cuantificado el número de muertos o con síntomas de knock. D O S I S SEXO 1 2 4 8 16 32 Macho 1 4 9 13 18 20 Hembra 0 2 6 10 12 16 dosis en g log2(dosis) MLGAplicados 2009 MPDíaz
Tendencia Diagrama de dispersión: no insectos vs dosis del producto por sexo Número de machos “supera” número de hembras? MLGAplicados 2009 MPDíaz
Ejemplos clásicos Martin (1942). Ensayo para evaluar toxicidad de Rotenone en Macrosiphoniella sanborni (pulgón plaga). Seis dosis del producto aplicadas a grupos de 50 individuos (aprox.). Luego de un período de tiempo se registró el número de insectos muertos para cada dosis. ASIGNACIÓN ALEATORIA MLGAplicados 2009 MPDíaz
Ejemplos clásicos MLGAplicados 2009 MPDíaz
E(Yij) = i para todo i=1,2 ; j=1,...,6 Modelación Collett (1991) Yij v.a. que representa al número de insectos muertos o con síntomas de sexo i-ésimo a los que se le aplicó la dosis j-ésima de piretroide Yij con f.d.p. B(m,i) , donde la parametrización satisface que E(Yij) = i para todo i=1,2 ; j=1,...,6 Es decir, la función de densidad de probabilidad es tal que: MLGAplicados 2009 MPDíaz
Modelo Dosis - Respuesta ....Modelación Objetivo: estimar un modelo para el valor esperado Modelo Dosis - Respuesta ligan la parte sistemática (e.g. incluyendo efecto de dosis y sexo) del modelo con una función del valor esperado. Las funciones? Existen varias: Logística Probit funciones Complemento log-log no lineales MLGAplicados 2009 MPDíaz
....Modelación Otras..... MLGAplicados 2009 MPDíaz
Decisión: basada en el conocimiento del material (biológico, etc). ....Modelación Decisión: basada en el conocimiento del material (biológico, etc). Por qué? Función de Tolerancia Si una población de individuos se les suministra la dosis di se obtiene una función de densidad f(z) para la distribución de tolerancia de los mismos. MLGAplicados 2009 MPDíaz
....Modelación función creciente La probabilidad de que una respuesta (éxito) ocurra será nula para valores pequeño de dosis y aprox. uno para valores grandes función creciente MLGAplicados 2009 MPDíaz
Modelo logístico función de tolerancia es distribución Logística, ....Modelación Modelo logístico función de tolerancia es distribución Logística, Modelo Probit función de tolerancia es distribución Normal con y 2, Modelo Complemento log-log función de tolerancia Valor Extremo. etc ......... MLGAplicados 2009 MPDíaz
Estimación Luego, para p=0.50 Modelos Lineales Generalizados Métodos MCIP Procesos de Estimación e Inferencia conocidos: Collett (1991). Para Machos: Sexo=0 Luego, para p=0.50 MLGAplicados 2009 MPDíaz
LD50 = 2 2.232 = 4.698 ....Modelación Esto es, 0 = - 2.375 + 1.064 log(LD50) log(LD50)=2.375/1.064 LD50 = 2 2.232 = 4.698 MLGAplicados 2009 MPDíaz
LD50 = 2 3.267 = 9.626 ....Modelación Para Hembras: Sexo=1 0 = - 3.476 + 1.064 log(LD50) log(LD50)=3.476/1.064 LD50 = 2 3.267 = 9.626 Las hembras resultan más resistentes a la acción del piretroide, ya que para knockear al 50% se necesita más del doble de la dosis de machos. MLGAplicados 2009 MPDíaz
LD50 = -a/b (modelo simétrico) ....Modelación LD50 = -a/b (modelo simétrico) Nota: Dosis 0 usada para estimar MORTALIDAD NATURAL Puede usarse para predecir el número de muertos para una dosis determinada (no extrapolar!) Cambia el modelo de tolerancia, cambia la estimación de la dosis letal, o del valor esperado MLGAplicados 2009 MPDíaz
p = 0.599 ------> 60% de insectos muertos (Fig.). ....Modelación Martin (1942) Rotenone.....pulgón Luego, LD50 = -a/b = 3.226/0.605 = 5.33 Por ej.: para dosis de 6 unidades, se tiene que p = 0.599 ------> 60% de insectos muertos (Fig.). MLGAplicados 2009 MPDíaz
....Modelación P=0.50 LD50 MLGAplicados 2009 MPDíaz
Inferencia en MRL MRL son casos particulares de MLG Cuáles son esos estadísticos? Estadísticos de Bondad de Ajuste Estadísticos de para Ho: =0 MLGAplicados 2009 MPDíaz
Inferencia en MRL IC (muestras grandes), para logit[(x)]=+x, es LI y LS para exp() son los exponenciales de éstos límites asintóticos. Para ejemplo de cangrejos….(ver pág. 109) MLGAplicados 2009 MPDíaz
Inferencia en MRL Prueba de Hipótesis: Ho: =0 (prob. de éxito es independiente de X): n sufi grande 2) El estadístico de Wald es sigue, bajo Ho, una N(0,1) sigue una dist. Chi-cuadrado con gl=1. MLGAplicados 2009 MPDíaz
Inferencia en MRL Recomendaciones: Test de Wald es óptimo para tamaños (n) grandes muestras, Test cociente de verosimilitud es más poderoso y confiable para n usuales, compara verosimilitudes en espacios con y sin restricción paramétrica, -2(Lo-L1). Ejemplo: z=0497/0.102=4.09 (**) z2=23.9, Lo=-112.88, L1=-97.23, -2(Lo-L1)=31.3 (**) (gl=1) MLGAplicados 2009 MPDíaz
Distribución de Estimadores La prob estimada para Y=1, x fijo es: Cómo construyo un IC para la estimación de la prob? usando la matriz de var-cov de las estimaciones de los parámetros en escala logit (ej.pag 110) MLGAplicados 2009 MPDíaz
Distribución de Estimadores Otra manera: estimaciones de proporciones: Ignora el modelo, fija un valor de x y estima la prop de éxito. Basándose en la binomial, construye un IC para . Resultado: menos precisión! Ejemplo: bajo modelo logit, [0.61, 0.77]95% bajo binomial, [0.22, 0.96]95% Por qué? MLGAplicados 2009 MPDíaz
El modelo usa la información de todas las n observaciones, a lo largo de todos los x’s, y no sólo de aquellas que corresponde al x fijo para el cual se calcula la proporción, bajo modelo binomial pp. dicho. Desde el modelo, se usan todas la observaciones para estimar SÓLO DOS parámetros y de ahí se calculan los IC para los parámetros (funciones de éstos). Resumiendo: MRL describe (bastante) bien la dependencia verdadera de (x) en x, y las estimaciones de son útiles MLGAplicados 2009 MPDíaz
Diagnóstico Criterios de bondad de ajuste (Pearson, G2, deviance, para datos agrupados en x). Análisis de hipótesis jerárquicas mediante estadísticos de bondad de ajustes (tests, G2(Mo|M1)=-2(Lo-L1)=-2(Lo-Ls)-[-2(L1-Ls)] = G2(Mo)- G2(M1).) Residuos para modelos logit (ei de Pearson). Medidas de influencia (DfBeta, residuos por delection, cambios de X2 o G2 cuando se omite una yi) MLGAplicados 2009 MPDíaz
Modelos logit para Covariables Cualitativas MRL es extendido (asemejándose a regresión múltiple normal) para incorporar múltiples predictores covariables cualitativas (modelo logit) Cómo? Definiendo variables tipo dummy (factores). Se trata como un MLG con predictor lineal, , correspondiendo a un modelo de ANOVA (análisis de la varianza). Ej: .Y binaria, X, Z predictores binarios (niveles 0, 1) tabla de contingencia 2 x 2 x 2, modelo para de éxito (Y=1) es MLGAplicados 2009 MPDíaz
Exp(1) describe OR condicional entre X e Y. Tiene efectos principales (separados) sin interacción (el efecto de un factor siendo el mismo en cada nivel del otro factor). X y Z son variables dummies. A un nivel fijo de Z, el efecto (en escala logit) de pasar de X=0 a X=1 es Diferencia entre dos logit es diferencia de log de odds log del OR entre X e Y, controlando por Z! Exp(1) describe OR condicional entre X e Y. MLGAplicados 2009 MPDíaz
Independencia condicional entre Y y X sii 1= 0, i.e Validez? Sólo si NO existe interacción entre X y Z valor común de OR para tablas parciales en los dos niveles de Z (modelo de asociación homogénea) Independencia condicional entre Y y X sii 1= 0, i.e (Ver ejem 5.4.2) MLGAplicados 2009 MPDíaz
Modelos logit o Regresión logística múltiple Si las variables son cuantitativas, el modelo es el de regresión logística múltiple. Sean X1, X2, …, Xk covariables, Y respuesta binaria i efecto de Xi en el log odds de Y=1, controlando por las otras Xj’s. O sea, exp(i) es el efecto multiplicativo en el odds por un incremento en Xi fijando los otros nivels de las X’s MLGAplicados 2009 MPDíaz
Modelo de Regresión Múltiple. Las X’s pueden ser variables regresoras o variables de Clasificación MLGAplicados 2009 MPDíaz
Las Variables Cualitativas en RL Pero….la estimación del modelo logístico usa variables cuantitativas. Si son categóricas? asignación de un número a cada categoría? NO. La solución: crear tantas variables dicotómicas como número de respuestas − 1 Variables "dummy", (variables internas, indicadoras, o variables diseño). Cómo resulta la matriz de las variables indicadoras? Ver ejemplos… MLGAplicados 2009 MPDíaz
Construiremos dos variables dummy. Ejemplo: tabaquismo Nunca fumó, Ex−fumador, Actualmente fuma menos de 10 cigarrillos diarios, Actualmente fuma 10 o más cigarrillos diarios, 4 posibles respuestas construiremos 3 variables internas dicotómicas (valores 0,1), Dieta Dietas A, B y C. Construiremos dos variables dummy. MLGAplicados 2009 MPDíaz
Las variables cualitativas en el modelo logístico Referencia (baseline) Variables Indicadoras MLGAplicados 2009 MPDíaz
Las variables cualitativas en el modelo logístico ? MLGAplicados 2009 MPDíaz
Volvemos al ejemplo…. MLGAplicados 2009 MPDíaz
Ejemplo: Objetivo: Estudiar la posible asociación entre la presencia de cáncer de vejiga y tanto, el consumo de café como el ambiente de residencia del sujeto. Se eligen, aleatoriamente, 50 pacientes con cáncer (casos) y 50 individuos sin la enfermedad (controles) y se definen tres variables: CANCER con los valores 0 (no cáncer) y 1 (cáncer), (respuesta) CAFE con los valores 0 (sin consumo de café) y 1 (consumo de café), MEDIO con los valores 0 (medio rural) y 1 (medio urbano). MLGAplicados 2009 MPDíaz
Sub-tablas? Qué indican? Ejemplo Café No Café Urbano Rural Cáncer 32 1 15 2 No Cáncer 10 Sub-tablas? Qué indican? MLGAplicados 2009 MPDíaz
Ejemplo: a) Sólo la presencia del evento y el medio de residencia, Rural Urbano Cáncer 3 47 No Cáncer 20 30 b) Sólo la presencia del evento y el café? MLGAplicados 2009 MPDíaz
Ejemplo: Modelo Cuál es el modelo de RL? MLGAplicados 2009 MPDíaz
Ejemplo: resultados Estimación del Modelo OR de las variables MLGAplicados 2009 MPDíaz
Ejemplo: Resultados Factores de confusión? Existe interacción? 0 no significa nada, 1 es el aumento del logaritmo del odds por consumir café en un ambiente rural, 2 es el aumento del logaritmo del odds por vivir en un ambiente urbano, con respecto al rural, sin considerar café y 3 modeliza la posible interacción o el "sobreaumento" por ambas cosas (consumir café en un medio urbano). El primer contraste a realizar es sobre la interacción!!, es decir, H0: 3 =0. MLGAplicados 2009 MPDíaz
Ejemplo: Resultados Conclusiones Interpretación! MLGAplicados 2009 MPDíaz
Conceptos…. Odds: indica cuánto más probable es el éxito que el fracaso, como parámetro característico de la distribución binomial aunque, ambas representaciones son totalmente equivalentes.cont.. MLGAplicados 2009 MPDíaz