La descarga está en progreso. Por favor, espere

La descarga está en progreso. Por favor, espere

Dpto. Medicina Preventiva.Francisco Javier Barón López 1 Estadística multivariada Programa de doctorado: “Calidad de vida, Bienestar Social y Salud Pública”

Presentaciones similares


Presentación del tema: "Dpto. Medicina Preventiva.Francisco Javier Barón López 1 Estadística multivariada Programa de doctorado: “Calidad de vida, Bienestar Social y Salud Pública”"— Transcripción de la presentación:

1 Dpto. Medicina Preventiva.Francisco Javier Barón López 1 Estadística multivariada Programa de doctorado: “Calidad de vida, Bienestar Social y Salud Pública”

2 Francisco Javier Barón López2 Dpto. Medicina Preventiva. Notas previas: Leyendo modelos estadísticos Altura = 170  La altura media en la población es de 170 cm  Cada individuo introduce además un término de error aleatorio 170 + 5 170 – 3 …  Los términos de error tienen algún tipo de distribución conocida Normal, … Igualmente distribuidos en grupos… Independientes Incorrelados temporalmente, …

3 Francisco Javier Barón López3 Dpto. Medicina Preventiva. Modelos con variables dicotómicas Altura = 160 + 10 Sexo  Codificación de los grupos por sexo: 0 mujeres 1 hombres  Interpretación: La altura media en las mujeres es de 160 cm La altura media en los hombres es de 170 cm El sexo influye en la altura. El sexo hombre tiene un efecto no nulo de 10 cm sobre la altura media. Código: 0 Grupo de control, caso base… Código: 1 Grupo de tratamiento, … Promedio del caso base Efecto de sexo = 1 160 + 0 160 + 10

4 Francisco Javier Barón López4 Dpto. Medicina Preventiva. Modelos con variables numéricas Precio casa = 100.000 + 10.000 Habitación  Interpretación: El precio de una casa con cero habitaciones es 100.000  ¡Extraño!  En realidad es mejor interpretarlo como lo que habría que añadir a una casa con un numero medio de habitaciones para que tuviese un precio medio. Las casas aumentan de precio en función del número de habitaciones. El efecto de añadir una habitación es aumentar el precio de la casa en 10.000. Intercepción, Intersección,… Pendiente. Aumento de valor de una casa por cada habitación.

5 Francisco Javier Barón López5 Dpto. Medicina Preventiva. Modelos con variables dicotómicas y numéricas Precio casa = 100.000 + 10.000 Habitación + 30.000 Barrio  Codificación del barrio: 0 Bajo 1 Alto

6 Francisco Javier Barón López6 Dpto. Medicina Preventiva. … y con variables cualitativas en general Precio casa = 100.000 + 10.000 Habitación + 10.000 Barrio1 + 20.000 Barrio2  Codificación del barrio: Barrio1Barrio2 Bajo00 Medio10 Alto01 Grupo de control Tratamiento 1 Tratamiento 2 Variables indicadoras, mudas Nos ayudarán a comprender mejor los efectos, interacciones,… Variable cualitativa inicial

7 Francisco Javier Barón López7 Dpto. Medicina Preventiva. … esperad, aún hay más… Precio casa =  100.000 + 10.000 Habitación  + 10.000 Barrio1 + 20.000 Barrio2  + 6.000 Aparcamiento  Codificación del aparcamiento 0: Sin aparcamiento 1: Con aparcamiento

8 Francisco Javier Barón López8 Dpto. Medicina Preventiva. … y faltan las interacciones. Precio casa =  100.000 + 10.000 Habitación  + 10.000 Barrio1 + 20.000 Barrio2  + 6.000 Aparcamiento  + 2.000 Aparcamiento * Barrio1  + 4.000 Aparcamiento * Barrio2

9 Francisco Javier Barón López9 Dpto. Medicina Preventiva. El modelo no debe quedarse corto ni pasarse Un modelo muy simple no explicará bien la variabilidad presente en los datos.  Precio = 100.000 Un modelo muy complicado será difícil de comprender.  Además podemos encontrarnos sorpresas: correlaciones entre variables explicativas (falta de ortogonalidad), inestabilidad numérica,…  Precio = 100.000 + 10.000 Hab + 30.000 Barrio + 6.000 Aparcamiento + …

10 Francisco Javier Barón López10 Dpto. Medicina Preventiva. Complicar el modelo lo justito Elegir modelo que explique lo observado y que sea tan simple como sea posible.  Precio = 100.000 Bondad de ajuste corregida 1%. Significación = 0,0001 Muy simple. No explica la variabilidad. Compliquémoslo.  Precio = 100.000 + 10.000 Hab. Bondad de ajuste corregida 10%. Significación = 0,01 Mejor. Pero hay mucha variabilidad por explicar. Compliquémoslo.  Precio = 100.000 + 10.000 Hab + 30.000 Barrio Bondad de ajuste corregida 41%. Significación = 0,12 Tal vez no valga la pena complicarlo más.  Precio = 100.000 + 10.000 Hab + 30.000 Barrio + 6.000 Aparcamiento Bondad de ajuste corregida 40%. Significación = 0,15 No ha merecido la pena la complicación. ¡OJO! SPSS sólo enseña directamente la significación del modelo mínimo frente al que nosotros propongamos. Raro será que no sea significativo un modelo tan simple. Un cálculo manual nos permitirá comparar unos modelos con otros.

11 Francisco Javier Barón López11 Dpto. Medicina Preventiva. Dos técnicas para abordar problemas multivariados En función del tipo de la variable respuesta vamos a considerar dos técnicas que son casos particulares del modelo lineal generalizado. Este abarca buena parte de las técnicas estadísticas que se aplican en Medicina:  Modelo lineal generalizado Respuesta numérica: (Regresión lineal)  T-student en 2 muestras  ANOVA de 1 vía  ANOVA de 2 vias con/sin interaccciones  Modelos factoriales… Respuesta dicotómica (Regresión Logística)  Vivo/Muerto  Enfermo/Sano

12 Francisco Javier Barón López12 Dpto. Medicina Preventiva. Marco general Tenemos una serie de variables explicativas, X 1,…,X p  Numéricas  Ordinales  Dicotómicas  Cualitativas codificadas en forma de múltiples dicotómicas  Interacciones,… Tenemos una sola variable explicada (univariante)  Numérica: Modelo lineal de regresión Y = b0 + Σ b i x i  Dicotómica: Regresión logística Ln (Odds) = b0 + Σ b i x i

13 Francisco Javier Barón López13 Dpto. Medicina Preventiva. 1 0

14 Francisco Javier Barón López14 Dpto. Medicina Preventiva. Un contraste de igualdad de medias (t-student) Hipótesis nula:  Es el salario medio inicial igual para hombres y mujeres Salario = b0 Hipótesis alternativa:  El Género tiene un efecto no nulo sobre el salario Salario = b0 + b1 Genero Este problema puede formularse en términos de un análisis de regresión:  Salario = b0 + b1 Genero Valor medio del grupo control GENERO=0 (mujer) Efecto del “tratamiento” GENERO=1 (hombre) La hipótesis nula afirma que es cero. Si signif. pequeña la rechazamos.

15 Francisco Javier Barón López15 Dpto. Medicina Preventiva. Se rechaza el modelo simple Salario promedio del “grupo control” (mujeres) Efecto del genero 1 en el salario medio

16 Francisco Javier Barón López16 Dpto. Medicina Preventiva. Sin embargo el modelo alternativo no es bueno… Sólo un 21% de la variabilidad presente Puede ser explicada por un modelo que contenga Al género como variable explicativa. Debe haber más razones para esa variabilidad Los modelos con muchos parámetros tienden a exagerar la bondad del modelo. Corrección de “honestidad” sobre la bondad. Si al introducir variables vemos que no aumenta o que baja, deberíamos reconsiderar la complejidad del modelo.

17 Francisco Javier Barón López17 Dpto. Medicina Preventiva. ¿Y si consideramos el nivel de estudios? Hipótesis nula:  Es el salario medio inicial igual para hombres y mujeres y para cualquier nivel de estudios ¡Increíblemente simple! Salario = b0 Hipótesis alternativa:  El Género y los años de estudios tienen un efecto no nulo sobre el salario Salario = b0 + b1 Genero + b2 Estudios

18 Francisco Javier Barón López18 Dpto. Medicina Preventiva. La nueva variable aumenta notablemente la variabilidad explicada. ¿Podremos mejorarlo introduciendo otra variable? Por supuesto, seguimos teniendo evidencia contra la hipótesis nula (modelo simple) Desde ahora lo ignoramos. Aparentemente estas variables tienen algo que decir, pero… ¿habrá variables confusoras?

19 Francisco Javier Barón López19 Dpto. Medicina Preventiva. ¿Y si añadimos la categoría laboral? Hipótesis nula:  Es el salario medio inicial igual para hombres y mujeres y para cualquier nivel de estudios y categoría laboral ¡No me lo puedo creer! Salario = b0 Hipótesis alternativa:  El Género, los años de estudios y la categoría laboral directivo tienen un efecto no nulo sobre el salario Salario = b0 + b1 Genero + b2 Estudios + b3 SEGUR +b4 DIRECT SEGURDIRECT. Admin00 Seguridad10 Directivo01

20 Francisco Javier Barón López20 Dpto. Medicina Preventiva. El nuevo modelo mejora claramente al anterior… …pero parece que parte del modelo no era necesario. El término que mide el efecto de ser empleado de seguridad no tiene un efecto muy diferente del caso base.

21 Francisco Javier Barón López21 Dpto. Medicina Preventiva. Simplifiquemos el modelo Hipótesis nula:  Es el salario medio inicial igual para hombres y mujeres y para cualquier nivel de estudios, aunque sea directivo Salario = b0 Hipótesis alternativa:  El Género, los años de estudios y ser directivo tienen un efecto no nulo sobre el salario Salario = b0 + b1 Genero + b2 Estudios + b3 SEGUR + b4 DIRECT El modelo es más simple, pero no disminuye La variabilidad explicada ¡Lo preferimos así!

22 Francisco Javier Barón López22 Dpto. Medicina Preventiva. ¿Habrá interacciones? Hipótesis nula:  Es el salario medio inicial igual para hombres y mujeres y para cualquier nivel de estudios, aunque sea directivo Salario = b0 Hipótesis alternativa:  El género, los años de estudios y ser directivo tienen un efecto no nulo sobre el salario, y también tiene un “premio especial” ser hombre directivo (interacción). Salario = b0 + b1 Genero + b2 Estudios + b3 DIRECT +b4 Genero*DIRECT Coeficiente de la interacción Si positivo: sinérgias Si negativo: efectos antagónicos Si nulo: No hay interacción En SPSS podemos introducir interacciones con otro modelo. Para seguir con el modelo de regresión introducimos otra variable.

23 Francisco Javier Barón López23 Dpto. Medicina Preventiva.

24 Francisco Javier Barón López24 Dpto. Medicina Preventiva. Sube ligeramente la variabilidad explicada. ¿Vale la pena considerarla el efecto de la interacción? Tenemos evidencia en contra de que ninguno de los coeficientes es nulo. ¿Deberíamos considerar más variables? ¿Más interacciones?

25 Francisco Javier Barón López25 Dpto. Medicina Preventiva. Marco general (recordatorio) Tenemos una serie de variables explicativas, X 1,…,X p  Numéricas  Ordinales  Dicotómicas  Cualitativas codificadas en forma de múltiples dicotómicas  Interacciones,… Tenemos una sola variable explicada (univariante)  Numérica: Modelo lineal de regresión Y = b0 + Σ b i x i  Dicotómica: Regresión logística Ln (Odds) = b0 + Σ b i x i

26 Francisco Javier Barón López26 Dpto. Medicina Preventiva. Regresión Logística La variable respuesta (explicada) es dicotómica)  Vivo/Muerto  Sano/Enfermo  … Claramente el modelo lineal tal cual no es adecuado. En epidemiología es frecuente usar modelos multiplicativos en lugar de aditivos:  Fumar multiplica por 10 las “odds” de enfermedad.  Usar el casco disminuye por 20 la “odds” de lesión grave.  …

27 Francisco Javier Barón López27 Dpto. Medicina Preventiva. Es decir, preferimos un modelo del tipo  Odds(fumar,beber,..) = Odds(base) * OR(fumar) * OR(beber)*…

28 Francisco Javier Barón López28 Dpto. Medicina Preventiva. Los individuos de control Ni fuman ni beben Odds=1/12 Factor Riesgo: Fumar Odds Ratio= 4 Factor Riesgo: Beber Odds Ratio= 3 Factor Riesgo: Fumar y Beber Odds Ratio= 3*4=12 Fumadores Odds=1/12 * 4=4/12 Bebedores Odds=1/12 * 3=3/12 Fumadores bebedores Odds=1/12 * 4 * 3=12/12

29 Francisco Javier Barón López29 Dpto. Medicina Preventiva. El modelo de regresion logística es equivalente a: Odds caso base Variación de odds debido a x1 Odds Ratio Variación de odds debido a x2 Odds Ratio

30 Francisco Javier Barón López30 Dpto. Medicina Preventiva. Caso simple: Una variable explicativa dicotómica  X 1 =0: No está presente el factor de riesgo  X 1 =1: Sí hay factor de riesgo Odds Ratio De X 1 Odds del caso base

31 Francisco Javier Barón López31 Dpto. Medicina Preventiva. Si b1 es el coeficiente de la variable x1  Si b1=0 entonces OR=1 No es realmente un factor de riesgo  Si b1>0 entoces OR>1 Aumenta el riesgo  Si b1<0 entonces OR<1 Disminuye el riesgo

32 Francisco Javier Barón López32 Dpto. Medicina Preventiva. Un ejemplo: Condenas a pena de muerte en Florida Variables explicativas:  Raza de la víctima 1=Blanco (factor de riesgo, con perdón)  Raza del acusado 1=Negro (intuitivamente, factor de riesgo, ¡glubs!) Variable explicada  1=Condena a pena de muerte

33 Francisco Javier Barón López33 Dpto. Medicina Preventiva. ¿Será la raza negra del acusado un factor de riesgo? En principio un simple estudio descriptivo parece modtrar que no. Incluso parece que reduce el riesgo.

34 Francisco Javier Barón López34 Dpto. Medicina Preventiva. ¿Será la raza negra del acusado un factor de riesgo? Veamos que dice el modelo de regresión logística:

35 Francisco Javier Barón López35 Dpto. Medicina Preventiva. ¿Será la raza negra del acusado un factor de riesgo? El coeficiente es negativo. Más bien debe reducir el riesgo ser Acusado de raza negra. Para encontrar la Odds Ratio hay que mirar la columna Exp(B) Odds Ratio El intervalo de confianza para Odds Ratio incluye al valor 1 No tenemos evidencia en contra de que la raza no sea factor de riesgo. La prueba es no significativa

36 Francisco Javier Barón López36 Dpto. Medicina Preventiva. ¿Y si incluimos en el modelo la raza de la víctima? Aparentemente, al tener en cuenta la raza de la víctima, parece ser que si la víctima es blanca, la probabilidad de ser condenado a muerte es mayor. Veamos que dice el modelo logístico.

37 Francisco Javier Barón López37 Dpto. Medicina Preventiva.

38 Francisco Javier Barón López38 Dpto. Medicina Preventiva. Ambos coeficientes son positivos. Parecen ser factores de riesgo. Significativos Odds Ratios de cada factor de riesgo Con la confianza habitual 1 no forma parte de ningún intervalo de confianza.


Descargar ppt "Dpto. Medicina Preventiva.Francisco Javier Barón López 1 Estadística multivariada Programa de doctorado: “Calidad de vida, Bienestar Social y Salud Pública”"

Presentaciones similares


Anuncios Google