La descarga está en progreso. Por favor, espere

La descarga está en progreso. Por favor, espere

Curso de Bioestadística Parte 16 Regresión lineal

Presentaciones similares


Presentación del tema: "Curso de Bioestadística Parte 16 Regresión lineal"— Transcripción de la presentación:

1 Curso de Bioestadística Parte 16 Regresión lineal
Dr. en C. Nicolás Padilla Raygoza Departamento de Enfermería y Obstetricia División Ciencias de la Salud e Ingenierías Campus Celaya-Salvatierra Universidad de Guanajuato México

2 Presentación Médico Cirujano por la Universidad Autónoma de Guadalajara. Pediatra por el Consejo Mexicano de Certificación en Pediatría. Diplomado en Epidemiología, Escuela de Higiene y Medicina Tropical de Londres, Universidad de Londres. Master en Ciencias con enfoque en Epidemiología, Atlantic International University. Doctorado en Ciencias con enfoque en Epidemiología, Atlantic International University. Profesor Asociado B, Facultad de Enfermería y Obstetricia de Celaya, Universidad de Guanajuato.

3 Competencias Conocerá como trazar una línea de regresión
Sabrá como probar hipótesis acerca de la línea de regresión Sabrá como realizar un análisis ANOVA

4 Introducción Cuando se piensa que una variable depende de la otra, se debe cuantificar la relación entre ellas. Al hacer esto, podemos estimar el valor de una variable, si conocemos el valor de la otra. Este método se llama regresión. En la parte 15 de curso, vimos correlación, que nos muestra la asociación entre dos variables cuantitativas. Correlación cuantifica la fuerza de asociación entre dos variables cuantitativas. Regresión estudia la relación entre dos variables cuando una depende de la otra.

5 Regresión lineal La gráfica de puntos dispersos muestra la relación entre edad y presión arterial sistólica de 37 mujeres. La presión arterial cambia con la edad. La forma más simple de pensar en regresión lineal es a través de una línea que resume la relación entre los puntos. Es importante hacer notar que la variable independiente va en el eje X y la variable dependiente va en el eje Y.

6 Trazando una línea de regresión
Nuestro objetivo es trazar una línea, que mejor describa la relación entre X y Y. Se puede trazar una línea con una regla, que una los puntos, pero es improbable que obtengamos una misma línea y cada una de ellas, da diferente descripción de la relación entre X y Y. La gráfica muestra las observaciones de edad y nivel de hemoglobina para 10 mujeres, con tres líneas que nos describen la relación entre los valores de las dos variables. La mejor línea es la que une la mayor parte de los puntos. Existen varios métodos para ver cual línea es la mejor. Uno de ellos es el método de la regresión de los cuadrados mínimos, que está basado en las distancias verticales entre los puntos y la línea.

7 Trazando una línea de regresión
Cada distancia vertical es la diferencia entre el valor observado para la variable dependiente (en el eje y) y el valor de la línea trazada para el correspondiente valor del eje x. La distancia vertical entre los valores observados y los trazados es conocida como residual. Llamamos a cada uno de los residuales e1. Los residuales pueden ser positivos y negativos, y cuando los sumamos, unos cancelan a otras. Por lo tanto, el método de los cuadrados mínimos está basado en los cuadrados de los residuales, e12, donde 1 indica el número de observación en la muestra y selecciona la línea por la cual la suma de todos los cuadrados mínimos es más pequeña. Residuales e1

8 Trazando una línea de regresión
La línea que mejor traza los datos se le conoce como línea de regresión. Da una estimación del valor promedio de y por algún valor de x. En general decimos que es una regresión de y sobre x. Se puede pensar en la línea de regresión como una línea que une los valores medios de y por cada valor de x. La gráfica muestra como la línea trazada va a través de la media de las observaciones de y por cada valor de x. En el caso de la hemoglobina y edad, la regresión de hemoglobina sobre edad, da una estimación del promedio de hemoglobina por cada valor de edad.

9 Trazando una línea de regresión
La expresión matemática para la línea de regresión es la ecuación: y= α + βx donde α es la intersección de la línea con el eje y, β es la pendiente de la línea. Regresión de los cuadrados mínimos da una línea de mejor trazo con una intersección y una pendiente determinada.

10 Trazando una línea de regresión
Podemos trabajar sobre la pendiente de la línea tomando dos puntos a lo largo de la línea. Por ejemplo, tomamos los puntos 1 y 2 de la gráfica de abajo. Punto 1 tiene los valores x=4, y= 16 Punto 2 tiene los valores x=8, y=22 La pendiente, b, está dada por el cambio en y, dividido entre el cambio en x. ¿Cuál es el valor de b? Cambio de y, (22-16) = 6 /cambio de x (8-4) = 4 b = 1.5 La intersección, a es el valor donde la línea de regresión cruza el eje y, o sea, donde x = 0. En este ejemplo, a = 8 2 1

11 Trazando una línea de regresión
Esta gráfica corresponde a un valor fijo de a= 10 y un valor de b diferente. Muestra tres líneas que corresponden a un valor fijo de a y un valor diferente de y. Esta gráfica corresponde a un valor fijo de b y un valor diferente de a. 2 1 0.5 20 10 5 a=10

12 Interpretando una línea de regresión
Una vez que se obtiene la línea de regresión, podemos usarla para dar un resumen de la relación entre la variable explicativa y respuesta (independiente, dependiente). Podemos decir: Por una unidad de incremento en x, y se incrementa por un cierto valor (el valor de b). y = a + bx

13 Interpretando una línea de regresión
¿Cuál es el incremento en el nivel de hemoglobina por una año de edad? 0.136gr/lt ¿Cuál es el incremento de hemoglobina de 25 a 35 años de edad? 1.36 gr/lt y = x

14 Inferencias con una línea de regresión
Hasta ahora hemos visto sólo la descripción de la relación entre dos variables con una línea de regresión, donde a (la intersección) y b (la pendiente) son estimadas de los puntos de los datos de la muestra. La ecuación de regresión describiendo la relación entre dos variables en la población se escribe: y = a + bx Así, a es una estimación de α y b es una estimación de β. Población Muestra Intercepción α a Pendiente β b

15 Inferencias con una línea de regresión
La línea de regresión da una estimación de la relación entre las dos variables x y, y en la población. De la misma forma que hemos usado la inferencia para hacer conclusiones acerca de medias y proporciones, usaremos la línea de regresión para llegar a conclusiones acerca de la relación entre dos variables cuantitativas en la población. Si tomamos diferentes muestras de la población, con cada muestra podemos obtener una línea de regresión trazada por el método de los cuadrados mínimos. En la población hay una relación lineal entre dos variables y cada muestra puede ser ligeramente diferente.

16 Inferencias con una línea de regresión
En la muestra y = a + bx. En la población y =α + βx. Hay tres suposiciones subyacentes en el método de regresión lineal: 1. La variable respuesta, y, tiene una distribución Normal en cada x 2. La variabilidad de y deberá ser la misma a través de x 3. La relación entre x y deberá ser lineal.

17 Inferencias con una línea de regresión
La pendiente b es de fundamental interés en el análisis de regresión. Nos da la más importante información acerca de la relación entre x y, esto es, el cambio promedio en y por una unidad de cambio en x. Obteniendo el error estándar de b, podemos calcular el intervalo de confianza y realizar una prueba de hipótesis sobre b.

18 Ejemplo La ecuación de regresión para la relación entre altura y madurez ósea es: Estatura = x edad gestacional al nace La gráfica muestra la relación entre altura y edad gestacional en semanas al nacer de 21 niños a los 5 años de edad. El objetivo es ver si la edad gestacional al nacer está asociado con el crecimiento afectado. La variable respuesta es altura y la variable explicativa es edad gestacional.

19 Ejemplo Cuando esos valores fueron analizados usando un programa de computación los siguientes valores para la intersección, pendiente y sus errores estándar fueron calculados: a = 97.9, b = 0.215, ES(a) = 3.20, ES(b) = Note que cuando edad gestacional fue de 0, la estatura es de 97.9 cm. ¿Es posible esto? Generalmente una línea de regresión no deberá ser extendida fuera del rango de los datos de donde viene la línea y, para datos clínico/biológicos, para valores 0 de x no hay valor significativo de y.

20 Intervalos de confianza para b
La gráfica sugiere una relación lineal razonable entre estatura y edad gestacional al nacer. ¿Pero es debido al valor de b que hemos obtenido en estos 21 niños? Podemos calcular el intervalo de confianza para b para obtener un rango de valores que podemos tener la confianza contiene la verdadera pendiente de β. Un intervalo de confianza al 95% para la pendiente b es calculado usando la distribución t b ± t0.05ES(b) donde t es a n-2 grados de libertad.

21 Intervalos de confianza para b
Para la relación entre altura y edad gestacional: b = 0.215, n - 2 = = 19, t19, = , ES(b) = Entonces el intervalo de confianza al 95% para b es: a 0.378 Esto sugiere que la verdadera inclinación en la población no es cero. Debido a que el límite inferior es mayor que cero podemos estar 95% confiados que la pendiente es de al menos 0.052; o sea, que tenemos 95% de confianza que por cada unidad de incremento en edad gestacional la estatura aumentará al menos cm.

22 Prueba de hipótesis para b
Podemos calcular la prueba de hipótesis acerca de la verdadera pendiente β, la pendiente de la relación lineal entre dos variables en la población. Hipótesis nula La hipótesis nula es que la pendiente en la población es cero. Esto está implícito cuando decimos que no hay relación lineal entre altura y madurez ósea. Ho: b = 0 Hipótesis alternativa La hipótesis alternativa es que la pendiente en la población no es cero. Si esto es verdad, podemos decir que hay una relación lineal entre estatura y madurez ósea. H1: b ≠ 0

23 Prueba de hipótesis para b
Para probar la hipótesis nula dividimos la estimación de b entre su error estándar y comparamos el resultado en la distribución t con n - 2 grados de libertad. En este ejemplo, b = 0.215, ES(b) = Ahora, refiriéndonos a las tablas de la distribución t con (n - 2) = (21 - 2) = 19 grados de libertad, el valor de p es 0.01< P < 0.02. ¿Qué concluimos de este resultado? Rechazamos la hipótesis nula y decimos que hay evidencia de que la pendiente de la relación entre estatura y madurez ósea en la población no es cero.

24 Análisis de varianza (ANOVA)
Evaluación de un análisis de regresión involucra la comparación de la varianza de los residuales y la variación en los datos explicada por la línea de regresión. Esto se puede mostrar en una tabla de análisis de varianza. Este análisis se le llama ANOVA.

25 Análisis de varianza (ANOVA)
Regresión La gráfica muestra la relación entre x y, con cuatro puntos. Se traza la línea de regresión y se analiza las diferentes partes de la variación en la relación entre x y, para evaluar la regresión Ya vimos como calcular la varianza residual, la suma de los cuadrados de los residuales. La suma de los cuadrados de los residuales es 4. El cálculo de la variación total en y está basado en la distancia de cada punto de una línea horizontal que pasa a través de la media. Es la línea de la hipótesis nula. La suma de cuadrados de esas distancias es llamada la suma total de cuadrados. 1 Línea de la hipótesis nula Residuales para suma total de cuadrados 3.5 – 2.5 – 1 1 1

26 Análisis de varianza (ANOVA)
La diferencia entre la suma total de cuadrados y la suma de los cuadrados de los residuales (la variación que permanece después de que es trazada una línea a través de los puntos) es la variación que es explicada por la regresión de y sobre x. En el ejemplo: La suma de los cuadrados de los residuales es 4 La suma total de cuadrados es 49.

27 Análisis de varianza (ANOVA)
¿Qué es la suma de cuadrados de regresión? La línea de regresión trazada explica la proporción de la variabilidad en la variable respuesta mientras que los residuales indican la cantidad de variabilidad sin explicación. Una línea de regresión que describe bien los datos y explica la mayoría de la variación es preferible.

28 Análisis de varianza (ANOVA)
La suma de cuadrados muestran cuanto de la variación es explicada por la línea de regresión y cuánto es explicada por los residuales. Esto se muestra en un análisis de varianza a través de la tabla ANOVA.

29 Análisis de varianza (ANOVA)
Tabla de análisis de varianza (ANOVA) Fuente Suma de cuadrados Grados de libertad Media de suma de cuadrados F Valor de p Regresión Residual Total La tabla ANOVA para los 4 puntos de los datos de la gráfica es mostrada. El enfoque del análisis de varianza es comparar las dos fuentes de variación (regresión y residual) para saber cuál explica mejor la variación en la variable respuesta. Para hacer esto, usamos una prueba que compara la variación en regresión y la variación residual, conocida como la prueba F.

30 Análisis de varianza (ANOVA)
La razón de usar una prueba F es que la razón de dos varianzas tiene una distribución de muestreo conocida como distribución F. La suma de cuadrados debido a la línea de regresión tiene un grado de libertad. La suma de cuadrados debido a la variación residual (inexplicable) tiene n-2 grados de libertad. Para tomar en cuenta los grados de libertad, calculamos la media de la suma de cuadrados, dividiendo la suma de cuadrados entre los grados de libertad. Media de la suma de cuadrados = Suma de cuadrados/grados de libertad De la tabla: Media suma de cuadrados (regresión) = 45/1 = 45 Media suma de cuadrados (residual) = 4/2 = 2

31 Análisis de varianza (ANOVA)
Podemos calcular el valor de F como la razón de la media suma de cuadrados: F = Media de suma de cuadrados de regresión/ media de suma de cuadrados de residuales = 45/2 = 22.5 La prueba F, basada en ANOVA, es una forma alternativa de probar la hipótesis nula, β = 0. Es equivalente al cuadrado de la prueba de t sobre la pendiente b. La prueba F y la prueba t son para probar la hipótesis nula de que x no tiene relación con y. El valor de F es referido a las tablas de la distribución F con 1 y n-2 grados de libertad, para obtener el valor correspondiente de p p = 0.042 Casi siempre el valor de p se da en los programas de computación al calcular la tabla ANOVA.

32 Análisis de varianza (ANOVA)
¿Qué concluimos del valor de p? El valor de p nos dice la probabilidad de observar una relación lineal en la muestra si la hipótesis nula fuera verdad y no hubiera relación lineal en la población. Así, para un valor de p bajo podemos rechazar la hipótesis nula y decir que hay una relación lineal en la población y la línea de regresión traza bien los datos.

33 Análisis de varianza (ANOVA)
Hemos trabajado en casi todos los términos de una tabla ANOVA. Sólo falta calcular el porcentaje de la variación total explicada por la línea de regresión. Es una forma general de evaluar qué bien la línea de regresión traza los datos. ¿Cuánto de la variación total de la variable respuesta puede ser explicada por la línea de regresión? Llamamos a este valor R² y lo calculamos como la razón de la suma de cuadrados de la regresión dividida entre la total suma de cuadrados. R2 = Suma de cuadrados de regresión/Total suma de cuadrados x100 Un valor de R² cercano a 100% sugiere que la línea de regresión explica la mayor parte de la variabilidad en la variable respuesta. Esto es, la variabilidad en y es explicada por la relación con x definida por la ecuación de regresión. De la tabla: R2= 45/49 X100 = 91.8% Sugiere que la mayor parte de la variación en y es explicada por su relación con x, definida por la línea de regresión.

34 ¿Cuándo es válido usar la regresión?
Suposiciones para la regresión Recuerde las suposiciones que están subyacentes al método de regresión lineal: La variable respuesta deberá estar normalmente distribuida La variabilidad de y deberá ser la misma a través de todos los valores de x Deberá haber una relación lineal entre x y.

35 ¿Cuándo es válido usar la regresión?
Precauciones Es posible obtener una línea de regresión de cualquier gráfica de puntos dispersos pero una regresión lineal deberá sólo ser aplicada donde existe una relación lineal. Una asociación lineal entre dos variables no significa que una causa a la otra. Puede ser necesario ajustar para confusores potenciales.

36 Bibliografía 1.- Last JM. A dictionary of epidemiology. New York, 4ª ed. Oxford University Press, 2001:173. 2.- Kirkwood BR. Essentials of medical ststistics. Oxford, Blackwell Science, 1988: 1-4. 3.- Altman DG. Practical statistics for medical research. Boca Ratón, Chapman & Hall/ CRC; 1991: 1-9.


Descargar ppt "Curso de Bioestadística Parte 16 Regresión lineal"

Presentaciones similares


Anuncios Google