Modelos Lineales Generalizados Aplicados a las Ciencias Biológicas Modelos para Datos Binarios y Regresión Logística MLGAplicados 2009 MPDíaz.

Slides:



Advertisements
Presentaciones similares
DISEÑOS DE ESTUDIO EN EPIDEMIOLOGIA
Advertisements

DISEÑO DE EXPERIMENTOS EXPERIMENTOS DE COMPARACIÓN SIMPLE
Estudios de Cohorte Dra. Pilar Jiménez M..
CONTENIDOS Teoría del muestreo ¿Cómo seleccionar una muestra?
ESTADISTICA INFERENCIAL
Modelos de Variable Dependiente Binaria -Logit y Probit-
Selección del modelo adecuado
León Darío Bello Parias
Universidad de Chile Facultad de Ciencias Químicas y Farmacéuticas
MODELO DE REGRESIÓN MÚLTIPLE
ESTRATEGIAS Y DISEÑOS AVANZADOS DE INVESTIGACIÓN SOCIAL
Modelo básico de regresión Lineal
Tests de permutaciones y tests de aleatorización
Estadística Descriptiva Tema I. Conceptos Básicos
Pruebas de hipótesis Walter Valdivia Miranda
Tema 1- Regresión lineal simple.
CURSO DE ESTADÍSTICA BÁSICA
Regresión lineal Es un modelo matemático para predecir el efecto de una variable sobre otra, ambas cuantitativas. Una variable es la dependiente y otra.
1º BACHILLERATO | Matemáticas © Oxford University Press España, S.A Hacer clic en la pantalla para avanzar VARIABLE ESTADÍSTICA UNIDIMENSIONAL Población:
9 Regresión Lineal Simple
COMPORTAMIENTO DE LAS DISTRIBUCIONES DE
Clases 4 Pruebas de Hipótesis
Curso Práctico de Bioestadística Con Herramientas De Excel Fabrizio Marcillo Morla MBA (593-9)
Población y Muestra.
Unidad V: Estimación de
Este procedimiento mide la relación entre la intensidad de un estímulo y la proporción de casos que presentan una cierta respuesta a dicho estímulo. Es.
Análisis de datos El diseño estadístico.
Pronósticos, Series de Tiempo y Regresión
Tema 7: Regresión Simple y Múltiple. EJEMPLO: Aproxima bien el número de préstamos que efectúa una biblioteca a lo largo de su primer año de vida. Nos.
DISTRIBUCIONES DE MUESTREO
Unidad V: Estimación de
Estimación Sea una característica, un parámetro poblacional cuyo valor se desea conocer a partir de una muestra. Sea un estadístico ( función.
Regresión logística.
Capítulo 7 Estimación de Parámetros Estadística Computacional
SEMINARIO DE INVESTIGACIÓN IV Y TRABAJO DE GRADO
Titular: Agustín Salvia
Introducción a la Inferencia Estadística
Inferencia Estadística
Análisis de la Varianza
Herramientas básicas.
Unidad V: Estimación de
Eva Medina Moral Profesora Economía Aplicada (UAM) Febrero 2007
PRUEBAS ESTADISTICAS NO PARAMETRICAS
SEMINARIO DE INVESTIGACION Titular: Agustín Salvia
Estadística II Regresión Lineal.
Análisis de los Datos Cuantitativos
Regresión Lineal Simple
Aplicaciones Estadísticas a las Finanzas Clase 1
ESTIMACIÓN DE PARÁMETROS
Ejercicios Dado un conjunto de datos, aplicar el Criterio de Fourier para desechar los posibles valores atípicos.
Variables estadísticas bidimensionales
Distribuciones de Probabilidad
Regresión lineal simple Nazira Calleja
MODELOS DE PRONOSTICOS Primer semestre 2010 Modelo de Regresión con dos variables.
Unidad 4 Análisis de los Datos.
ANÁLISIS DE LA INFORMACIÓN La relación entre variables.
INFERENCIA ESTADÍSTICA
Germán Fromm R. 1. Objetivo Entender los diseños metodológicos predictivos 2.
Aplicaciones Estadísticas a las Finanzas Clase 1
INTRODUCCIÓN AL ANÁLISIS DE DATOS CATEGÓRICOS. Temas Carácterísticas de la distribución Chi-cuadrada Prueba de bondad de ajustes Prueba de homogeneidad.
ESTADISTICA DESCRIPTIVA BIVARIADA MEDIDAS DE RELACIÓN ENTRE VARIABLES CUANTITATIVAS.
REGRESIÓN LINEAL SIMPLE TEMA INTRODUCCIÓN Determinar la ecuación de regresión sirve para: – Describir de manera concisa la relación entre variables.
Licenciatura en Psicopedagogía: Métodos, Diseños y Técnicas de Investigación Psicológica Tema 9 Fiabilidad de las puntuaciones.
Bioestadística Inferencia estadística y tamaño de muestra
Estimación estadística
1 REGRESIÓN CON VARIABLES DICOTÓMICAS TEMA 1 (CONTINUACIÓN)
Metodología de Ajuste y Análisis de Diagnóstico en Modelos Lineales Generalizados Diciembre 2009 MPDíaz.
Free and Quick translation of Prof. Anderson's slides1 Analisis de Regresion Multiple y =  0 +  1 x 1 +  2 x  k x k + u 1. Estimacion.
4. Métodos psicofísicos de medida en clínica
Regresión logística binomial
Transcripción de la presentación:

Modelos Lineales Generalizados Aplicados a las Ciencias Biológicas Modelos para Datos Binarios y Regresión Logística MLGAplicados 2009 MPDíaz

Modelos de Regresión Logística (enfoque generalizado) MLGAplicados 2009 MPDíaz

Planificación del Tema Modelos lineales generalizados para datos binarios ( distinto) Interpretación de parámetros (’s, ’s) Modelos específicos: dosis-respuesta Inferencia y Diagnóstico Regresión logistica múltiple MLGAplicados 2009 MPDíaz

Introducción Datos binarios  patrón de datos más común dentro de Variables categóricas Regresión Logística (MRL)  modelo más usado para datos binarios Yij con f.d.p. B(m,i) E(Yij) = i para todo i=1,2 ; j=1,...,6 y su funcioón de distribución de probab. Naturaleza dicotómica de la respuesta. MLGAplicados 2009 MPDíaz

Interpretación del MRL Supongamos Y v.a. (binaria), X covariable cuantitativa. (x) prob de éxito cuando X=x Modelo de regresión logística (más simple) (x) se incrementa o decrece con una función S de x.(Fig) Cómo lo vemos en la escala de probabilidad? MLGAplicados 2009 MPDíaz

MLGAplicados 2009 MPDíaz

Interpretación de Coeficientes [1]  determina la tasa de incremento o decrecimiento de la S-curva. Sig() indica si la curva “asciende”o “desciende”. | | crece  la tasa de cambio crece. =0  relación constante en x (la prob es la misma x Y es “indenpendiente” de X. MLGAplicados 2009 MPDíaz

La pte.  0 a medida que la prob  1 ó 0. Interpretación La función [1] implica que la tasa de cambio en (x) varía por unidad de cambio de x (la tg a lo largo de la S-curva varía). Tasa de variación, tg, (x)(1-(x)), Ejemplo: -si (x)=0.5, la recta tg tiene pendiente (0.5)(0.5)=0.25 -si (x)=0.9, la recta tg tiene pendiente (0.9)(0.1)=0.09 La pte.  0 a medida que la prob  1 ó 0. MLGAplicados 2009 MPDíaz

Y=1 si tiene al menos un satélite. Tarea Leer el item 5.1.2 sobre aplicación en Cangrejos hembras (herradura), Ethology (1996), sobre la presencia de “satélites” (otros machos residiendo con ella) en función a diferentes factores del individuo: color, tamaño (peso), condición del espinazo y ancho del caparazón (ver fig). Y=0 si no tiene satélite, Y=1 si tiene al menos un satélite. X1=ancho, continua  (x) denota la prob que un cangrejo hembra de ancho x tenga satélite. MLGAplicados 2009 MPDíaz

Tarea Lo más simple  modelo lineal para la probabilidad como f(x) Cuando x=33.5, la (x)=1.3!!!! No respeta el rango posible de valores de la función MLGAplicados 2009 MPDíaz

Ejemplo de cangrejos… Estimando por MV al MRL Nota:  estimado es >0  la prob estimada crece cuando x crece Para un ancho mínimo, x=21.0  la prob estimada es 0.129. Para un ancho máximo, x=33.5  la prob estimada es 0.987. (otros…x=promedio?, con prob de ½ de tener?) MLGAplicados 2009 MPDíaz

Ejemplo de cangrejos… la tasa incremental de cambio en la prob ajustada, para el punto medio de tamaño del individuo (x=26.3cm) es la estimación de (x)(1-(x)), 0.11. Hembras con tamaño aproximadamente medio la prob estimada de tener satélite se incrementa a un tasa del 0.11 por incremento del ancho, en cm. Si modifico la probabilidad? Por ej. 0.5? La tasa de incremento es del 0.12 y asi… MLGAplicados 2009 MPDíaz

Interpretación de Coeficientes Odds Ratio: cociente de odds de respuesta 1 (“éxito”)Concepto, Ejemplo Qué dice? El odds crece de manera multiplicativa en exp() a medida que crece x en una unidad O, el odds al nivel x+1=odds al nivel x multiplicado por exp(). MLGAplicados 2009 MPDíaz

Interpretación de Coeficientes Ejemplo: odds de tener satélite es 1.64=exp(0.497) por cada cm que se incrementa en ancho, O, existe un 64% de incremento. Caso 1) Tamaño medio, x=26.3, con (xest)=0.674 y odds est. 0.674/0.326=2.07; Caso 2) Tamaño x=27.3=26.3+1, con (xest)=0.773 y odds est. 0.773/0.227=3.40, que es el 64% de incremento en el odds anterior (3.40=2.07(1.64)). El log del odds tiene una relación lineal con la covariable. MLGAplicados 2009 MPDíaz

Ensayos de tipo Dosis-Respuesta MLGAplicados 2009 MPDíaz

Introducción (su diseño) Un conjunto de individuos m1, m2, ..., mk se les suministra una drogra determinada, en d1, d2, ..., dk dosis diferentes, obteniéndose como respuesta, después de un cierto período de tiempo, r1, r2, ..., rk individuos que cambian de estado. ASIGNACIÓN ALEATORIA Naturaleza de la Respuesta: Un individuo puede o no responder a la droga dicotómica sólo dos resultados complementarios MLGAplicados 2009 MPDíaz

estudios de efectividad de productos Introducción Control de Plagas y Enfermedades: estudios de efectividad de productos Grupos de insectos se le aplica un insecticida, observando muerte (éxito) o la sobrevida (fracaso) Dosis: log de la concentración del ingrediente activo (tal que d  cuando la concentración 0. MLGAplicados 2009 MPDíaz

aplicación individuo estímulo R (respuesta) Introducción Dos componentes: la intensidad del estímulo (dosis de droga, de veneno, de medicamento, de insecticida) el individuo (planta, insecto, paciente, semilla, etc.) aplicación individuo estímulo R (respuesta) MLGAplicados 2009 MPDíaz

Nivel de Intensidad: Tolerancia Introducción Respuesta binaria: cuya ocurrencia dependerá de la intensidad del estímulo aplicado. (para cada sujeto existe un nivel de intensidad por debajo del cual no se produce la respuesta y por encima de la cual ocurre) Nivel de Intensidad: Tolerancia MLGAplicados 2009 MPDíaz

Determinar dosis específicas, Introducción Existe una Distribución de Tolerancias f(z) (gracias a la asignación aleatoria...!) Objetivo General: Determinar dosis específicas, LD50, dosis letal (dosis que mata el 50% de los insectos, e.g.; LD90, dosis para la cual sólo sobrevive el 10% de los individuos. MLGAplicados 2009 MPDíaz

Ejemplos clásicos dosis en  g log2(dosis) Collett (1991). Experimento de toxicidad realizado en individuos de Heliothis virescens bajo dosis de piretroide. Conjuntos (extraídos de manera aleatoria) de 20 individuos de cada sexo fueron expuestos durante 3 días al piretroide y cuantificado el número de muertos o con síntomas de knock. D O S I S SEXO 1 2 4 8 16 32 Macho 1 4 9 13 18 20 Hembra 0 2 6 10 12 16 dosis en  g log2(dosis) MLGAplicados 2009 MPDíaz

Tendencia Diagrama de dispersión: no insectos vs dosis del producto por sexo Número de machos “supera” número de hembras? MLGAplicados 2009 MPDíaz

Ejemplos clásicos Martin (1942). Ensayo para evaluar toxicidad de Rotenone en Macrosiphoniella sanborni (pulgón plaga). Seis dosis del producto aplicadas a grupos de 50 individuos (aprox.). Luego de un período de tiempo se registró el número de insectos muertos para cada dosis. ASIGNACIÓN ALEATORIA MLGAplicados 2009 MPDíaz

Ejemplos clásicos MLGAplicados 2009 MPDíaz

E(Yij) = i para todo i=1,2 ; j=1,...,6 Modelación Collett (1991) Yij v.a. que representa al número de insectos muertos o con síntomas de sexo i-ésimo a los que se le aplicó la dosis j-ésima de piretroide Yij con f.d.p. B(m,i) , donde la parametrización satisface que E(Yij) = i para todo i=1,2 ; j=1,...,6 Es decir, la función de densidad de probabilidad es tal que: MLGAplicados 2009 MPDíaz

Modelo Dosis - Respuesta ....Modelación Objetivo: estimar un modelo para el valor esperado Modelo Dosis - Respuesta ligan la parte sistemática (e.g. incluyendo efecto de dosis y sexo) del modelo con una función del valor esperado. Las funciones? Existen varias: Logística Probit funciones Complemento log-log no lineales MLGAplicados 2009 MPDíaz

....Modelación Otras..... MLGAplicados 2009 MPDíaz

Decisión: basada en el conocimiento del material (biológico, etc). ....Modelación Decisión: basada en el conocimiento del material (biológico, etc). Por qué? Función de Tolerancia Si una población de individuos se les suministra la dosis di se obtiene una función de densidad f(z) para la distribución de tolerancia de los mismos. MLGAplicados 2009 MPDíaz

....Modelación función creciente La probabilidad de que una respuesta (éxito) ocurra será nula para valores pequeño de dosis y aprox. uno para valores grandes  función creciente MLGAplicados 2009 MPDíaz

Modelo logístico función de tolerancia es distribución Logística, ....Modelación Modelo logístico función de tolerancia es distribución Logística, Modelo Probit función de tolerancia es distribución Normal con  y 2, Modelo Complemento log-log función de tolerancia Valor Extremo. etc ......... MLGAplicados 2009 MPDíaz

Estimación Luego, para p=0.50 Modelos Lineales Generalizados Métodos MCIP Procesos de Estimación e Inferencia conocidos: Collett (1991). Para Machos: Sexo=0 Luego, para p=0.50 MLGAplicados 2009 MPDíaz

LD50 = 2 2.232 = 4.698 ....Modelación Esto es, 0 = - 2.375 + 1.064 log(LD50) log(LD50)=2.375/1.064 LD50 = 2 2.232 = 4.698 MLGAplicados 2009 MPDíaz

LD50 = 2 3.267 = 9.626 ....Modelación Para Hembras: Sexo=1 0 = - 3.476 + 1.064 log(LD50)  log(LD50)=3.476/1.064 LD50 = 2 3.267 = 9.626 Las hembras resultan más resistentes a la acción del piretroide, ya que para knockear al 50% se necesita más del doble de la dosis de machos. MLGAplicados 2009 MPDíaz

LD50 = -a/b (modelo simétrico) ....Modelación LD50 = -a/b (modelo simétrico) Nota: Dosis 0 usada para estimar MORTALIDAD NATURAL Puede usarse para predecir el número de muertos para una dosis determinada (no extrapolar!) Cambia el modelo de tolerancia, cambia la estimación de la dosis letal, o del valor esperado MLGAplicados 2009 MPDíaz

p = 0.599 ------> 60% de insectos muertos (Fig.). ....Modelación Martin (1942) Rotenone.....pulgón Luego, LD50 = -a/b = 3.226/0.605 = 5.33 Por ej.: para dosis de 6 unidades, se tiene que p = 0.599 ------> 60% de insectos muertos (Fig.). MLGAplicados 2009 MPDíaz

....Modelación P=0.50 LD50 MLGAplicados 2009 MPDíaz

Inferencia en MRL MRL son casos particulares de MLG Cuáles son esos estadísticos? Estadísticos de Bondad de Ajuste Estadísticos de para Ho:  =0 MLGAplicados 2009 MPDíaz

Inferencia en MRL IC (muestras grandes), para logit[(x)]=+x, es LI y LS para exp() son los exponenciales de éstos límites asintóticos. Para ejemplo de cangrejos….(ver pág. 109) MLGAplicados 2009 MPDíaz

Inferencia en MRL Prueba de Hipótesis: Ho:  =0 (prob. de éxito es independiente de X): n sufi grande 2) El estadístico de Wald es sigue, bajo Ho, una N(0,1) sigue una dist. Chi-cuadrado con gl=1. MLGAplicados 2009 MPDíaz

Inferencia en MRL Recomendaciones: Test de Wald es óptimo para tamaños (n) grandes muestras, Test cociente de verosimilitud es más poderoso y confiable para n usuales, compara verosimilitudes en espacios con y sin restricción paramétrica, -2(Lo-L1). Ejemplo: z=0497/0.102=4.09 (**) z2=23.9, Lo=-112.88, L1=-97.23, -2(Lo-L1)=31.3 (**) (gl=1) MLGAplicados 2009 MPDíaz

Distribución de Estimadores La prob estimada para Y=1, x fijo es: Cómo construyo un IC para la estimación de la prob? usando la matriz de var-cov de las estimaciones de los parámetros en escala logit (ej.pag 110) MLGAplicados 2009 MPDíaz

Distribución de Estimadores Otra manera: estimaciones de proporciones: Ignora el modelo, fija un valor de x y estima la prop de éxito. Basándose en la binomial, construye un IC para . Resultado: menos precisión! Ejemplo: bajo modelo logit, [0.61, 0.77]95% bajo binomial, [0.22, 0.96]95% Por qué? MLGAplicados 2009 MPDíaz

El modelo usa la información de todas las n observaciones, a lo largo de todos los x’s, y no sólo de aquellas que corresponde al x fijo para el cual se calcula la proporción, bajo modelo binomial pp. dicho. Desde el modelo, se usan todas la observaciones para estimar SÓLO DOS parámetros y de ahí se calculan los IC para los parámetros (funciones de éstos). Resumiendo: MRL describe (bastante) bien la dependencia verdadera de (x) en x, y las estimaciones de  son útiles MLGAplicados 2009 MPDíaz

Diagnóstico Criterios de bondad de ajuste (Pearson, G2, deviance, para datos agrupados en x). Análisis de hipótesis jerárquicas mediante estadísticos de bondad de ajustes (tests, G2(Mo|M1)=-2(Lo-L1)=-2(Lo-Ls)-[-2(L1-Ls)] = G2(Mo)- G2(M1).) Residuos para modelos logit (ei de Pearson). Medidas de influencia (DfBeta, residuos por delection, cambios de X2 o G2 cuando se omite una yi) MLGAplicados 2009 MPDíaz

Modelos logit para Covariables Cualitativas MRL es extendido (asemejándose a regresión múltiple normal) para incorporar múltiples predictores  covariables cualitativas (modelo logit) Cómo? Definiendo variables tipo dummy (factores). Se trata como un MLG con predictor lineal, , correspondiendo a un modelo de ANOVA (análisis de la varianza). Ej: .Y binaria, X, Z predictores binarios (niveles 0, 1)  tabla de contingencia 2 x 2 x 2, modelo para de éxito (Y=1) es MLGAplicados 2009 MPDíaz

Exp(1) describe OR condicional entre X e Y. Tiene efectos principales (separados) sin interacción (el efecto de un factor siendo el mismo en cada nivel del otro factor). X y Z son variables dummies. A un nivel fijo de Z, el efecto (en escala logit) de pasar de X=0 a X=1 es Diferencia entre dos logit es diferencia de log de odds  log del OR entre X e Y, controlando por Z! Exp(1) describe OR condicional entre X e Y. MLGAplicados 2009 MPDíaz

Independencia condicional entre Y y X sii 1= 0, i.e Validez? Sólo si NO existe interacción entre X y Z  valor común de OR para tablas parciales en los dos niveles de Z (modelo de asociación homogénea) Independencia condicional entre Y y X sii 1= 0, i.e (Ver ejem 5.4.2) MLGAplicados 2009 MPDíaz

Modelos logit o Regresión logística múltiple Si las variables son cuantitativas, el modelo es el de regresión logística múltiple. Sean X1, X2, …, Xk covariables, Y respuesta binaria i efecto de Xi en el log odds de Y=1, controlando por las otras Xj’s. O sea, exp(i) es el efecto multiplicativo en el odds por un incremento en Xi fijando los otros nivels de las X’s MLGAplicados 2009 MPDíaz

Modelo de Regresión Múltiple. Las X’s pueden ser variables regresoras o variables de Clasificación MLGAplicados 2009 MPDíaz

Las Variables Cualitativas en RL Pero….la estimación del modelo logístico  usa variables cuantitativas. Si son categóricas? asignación de un número a cada categoría? NO. La solución: crear tantas variables dicotómicas como número de respuestas − 1  Variables "dummy", (variables internas, indicadoras, o variables diseño). Cómo resulta la matriz de las variables indicadoras? Ver ejemplos… MLGAplicados 2009 MPDíaz

Construiremos dos variables dummy. Ejemplo: tabaquismo  Nunca fumó, Ex−fumador, Actualmente fuma menos de 10 cigarrillos diarios, Actualmente fuma 10 o más cigarrillos diarios, 4 posibles respuestas  construiremos 3 variables internas dicotómicas (valores 0,1), Dieta  Dietas A, B y C. Construiremos dos variables dummy. MLGAplicados 2009 MPDíaz

Las variables cualitativas en el modelo logístico Referencia (baseline) Variables Indicadoras MLGAplicados 2009 MPDíaz

Las variables cualitativas en el modelo logístico ? MLGAplicados 2009 MPDíaz

Volvemos al ejemplo…. MLGAplicados 2009 MPDíaz

Ejemplo: Objetivo: Estudiar la posible asociación entre la presencia de cáncer de vejiga y tanto, el consumo de café como el ambiente de residencia del sujeto. Se eligen, aleatoriamente, 50 pacientes con cáncer (casos) y 50 individuos sin la enfermedad (controles) y se definen tres variables: CANCER con los valores 0 (no cáncer) y 1 (cáncer), (respuesta) CAFE con los valores 0 (sin consumo de café) y 1 (consumo de café), MEDIO con los valores 0 (medio rural) y 1 (medio urbano). MLGAplicados 2009 MPDíaz

Sub-tablas? Qué indican? Ejemplo   Café No Café Urbano Rural Cáncer 32 1 15 2 No Cáncer 10 Sub-tablas? Qué indican? MLGAplicados 2009 MPDíaz

Ejemplo: a) Sólo la presencia del evento y el medio de residencia, Rural Urbano Cáncer 3 47 No Cáncer 20 30 b) Sólo la presencia del evento y el café? MLGAplicados 2009 MPDíaz

Ejemplo: Modelo Cuál es el modelo de RL? MLGAplicados 2009 MPDíaz

Ejemplo: resultados Estimación del Modelo OR de las variables MLGAplicados 2009 MPDíaz

Ejemplo: Resultados Factores de confusión? Existe interacción? 0 no significa nada, 1 es el aumento del logaritmo del odds por consumir café en un ambiente rural, 2 es el aumento del logaritmo del odds por vivir en un ambiente urbano, con respecto al rural, sin considerar café y 3 modeliza la posible interacción o el "sobreaumento" por ambas cosas (consumir café en un medio urbano). El primer contraste a realizar es sobre la interacción!!, es decir, H0: 3 =0. MLGAplicados 2009 MPDíaz

Ejemplo: Resultados Conclusiones Interpretación! MLGAplicados 2009 MPDíaz

Conceptos…. Odds: indica cuánto más probable es el éxito que el fracaso, como parámetro característico de la distribución binomial aunque, ambas representaciones son totalmente equivalentes.cont.. MLGAplicados 2009 MPDíaz