Regresión Linear Correlación de Pearson, r Regresión Múltiple Regresión Logística Regresión de Poisson.

Slides:



Advertisements
Presentaciones similares
ANOVA DE UN FACTOR.
Advertisements

Tema 6: Regresión lineal.
REGRESION Y CORRELACION
Regresión lineal simple
REGRESION LINEAL SIMPLE
Error Estándar de la Media
ESTRATEGIAS Y DISEÑOS AVANZADOS DE INVESTIGACIÓN SOCIAL
MÉTODOS DE MEDICIÓN DE COSTOS.
Ingeniería Industrial II CicloEducativo 2011
REGRESION Y CORRELACION LINEALES. REGRESION LINEAL SIMPLE Finalidad Estimar los valores de y (variable dependiente) a partir de los valores de x (variable.
ESTRATEGIAS Y DISEÑOS AVANZADOS DE INVESTIGACIÓN SOCIAL
Regresión y correlación
Correlación 1.
Estadística Descriptiva: 4. Correlación y Regresión Lineal
بسم الله الرحمن الرحيم.
Tema 1- Regresión lineal simple.
Análisis de componentes principales. Algunas técnicas estadísticas.
CURSO DE ESTADÍSTICA BÁSICA
Regresión lineal Es un modelo matemático para predecir el efecto de una variable sobre otra, ambas cuantitativas. Una variable es la dependiente y otra.
Regresión Lineal Simple
9 Regresión Lineal Simple
Regresión y Correlación
MEDIDAS DE DISPERSIÓN:
Análisis de Correlación y de Regresión lineal simple
REGRESION LINEAL En la búsqueda de mejoras o en la solución de problemas es necesario, frecuentemente, investigar la relación entre factores (o variables).
UNIVERSIDAD AUTONOMA DEL PERÚ
Distribuciones bidimensionales. Tablas de contingencia
Técnicas estadísticas paramétricas univariantes: regresión
REGRESION Y CORRELACION
Módulo 5 Análisis de Regresión y Series de Tiempo.
Pronósticos, Series de Tiempo y Regresión
Pronósticos, Series de Tiempo y Regresión
REGRESION LINEAL III Mario Briones L. MV, MSc 2005.
Tema 7: Regresión Simple y Múltiple. EJEMPLO: Aproxima bien el número de préstamos que efectúa una biblioteca a lo largo de su primer año de vida. Nos.
Modelo de regresión con dos variables: Estimación
Métodos de calibración: regresión y correlación
Titular: Agustín Salvia
Normalidad, Variabilidad y estimación del Modelo de Regresión
Introducción a la Inferencia Estadística
CORRELACION Y REGRESION LINEAL: Introducción
Estimación por intervalo en la regresión: Bandas de Confianza
LA RECTA DE REGRESIÓN CONTENIDOS:
RELACIÓN ENTRE VARIABLES
Regresión lineal simple
Regresión lineal múltiple
Estadística Aplicada a las Ciencias Políticas
REGRESION LINEAL II Mario Briones L. MV, MSc
Estadística II Regresión Lineal.
Análisis de los Datos Cuantitativos
Regresión Lineal Simple
CORRELACIÓN Y REGRESIÓN EMPLEANDO EXCEL
Construcción de modelos con regresión y correlación
Ejercicios Dado un conjunto de datos, aplicar el Criterio de Fourier para desechar los posibles valores atípicos.
Regresión lineal simple Nazira Calleja
Unidad 4 Análisis de los Datos.
REGRESIÓN LINEAL SIMPLE
ANÁLISIS DE LA INFORMACIÓN La relación entre variables.
TEMA : ANALISIS DE REGRESION
InfoStat. Software estadístico
26. La Homocedasticidad y la prueba de Levene
Clase 17 Introducción a la Estadística Universidad de la República Centro Universitario Regional del Este Pablo Inchausti Licenciatura en Gestión Ambiental.
REGRESIÓN LINEAL SIMPLE
REGRESIÓN LINEAL SIMPLE. Temas Introducción Análisis de regresión (Ejemplo aplicado) La ecuación de una recta Modelo estadístico y suposiciones Estimación.
ESTADISTICA DESCRIPTIVA BIVARIADA MEDIDAS DE RELACIÓN ENTRE VARIABLES CUANTITATIVAS.
Introducción a la Estadística Inferencial con SPSS Juan José Igartua Perosanz Universidad de Salamanca
REGRESIÓN LINEAL SIMPLE TEMA INTRODUCCIÓN Determinar la ecuación de regresión sirve para: – Describir de manera concisa la relación entre variables.
1 REGRESIÓN CON VARIABLES DICOTÓMICAS TEMA 1 (CONTINUACIÓN)
14 Introducción al Análisis de Correlación y de Regresión Lineal
M.E. ADA PAULINA MORA GONZALEZ. Esta parte describe las técnicas para ajustar curvas en base a datos para estimaciones intermedias. Una manera de hacerlo.
Bioestadistica II 2014 FACULTAD DE CIENCIAS EXACTAS, FÍSICAS Y NATURALES. UNIVERSIDAD NACIONAL DE CÓRDOBA.
Transcripción de la presentación:

Regresión Linear Correlación de Pearson, r Regresión Múltiple Regresión Logística Regresión de Poisson

Propósitos de RL Evaluar si las dos variables están asociadas (r) Predecir en base a una variable, ¿qué se obtiene de la otra? (ARS) Evaluar grado de concordancia entre los valores de las dos variables (ARS)

Supuestos Existencia (para cualquier valor de la variable X, Y es una variable al azar con una cierta probabilidad de distrib teniendo un promedio y varianza finitos) Independencia (los valores de Y son estadísticamente independientes uno de otro). Linearidad (el promedio de Y es una función linear de X)

4. Homocedasticidad (La varianza de Y es la misma para cualquier X) 5. Distribución normal (Para cualquier valor de X, Y tiene distribución normal)

Variables Dependiente: eje Y Independiente: eje X Intervalares Distribución normal Gráfico: PLOT DE DISPERSIÓN Pares de observaciones

Tipo de relaciones

Var dep Pendiente Var indep Regresión linear La línea recta es descrita por ecuación: Y = 2 + 5X Intercepto FPLOT y = x+2 Var dep Pendiente Var indep

Hipótesis nula b=0 pendiente = 0 a=0 intercepto = 0

Relación entre presión sistólica mm/Hg vs. Edad (años) Y a = intercepto b = pendiente X

Systat Residual

Stata 10

Relación fisuras vs. Año (C Holuigue, 2005) Relación fisuras vs. Año (C Holuigue, 2005). Año 2000: inicio del suplemento de ácido fólico en la harina.

ES ESTO UNA RELACIÓN LINEAL? NO !!!

Evolución de peso vs días en niños con fisuras (con y sin tratamiento ortopédico). (N: control: 40; Fisurados con trat ortop: 32; Fisurados sin trat ortop: 20) Jara y Vergara, 2009, UM.

Evolución de peso vs días en niños con fisuras, (con y sin tratamiento ortopédico). Jara y Vergara, 2009, UM.

Evolución de peso vs días en niños con fisuras, (con y sin tratamiento ortopédico). Jara y Vergara, 2009, UM.

Evolución de peso vs días en niños con fisuras, (con y sin tratamiento ortopédico). Jara y Vergara, 2009, UM.

Requisitos Las dos variables deben ser continuas Deben ser independientes una de la otra Deben tener distribución normal

Calcular Y = a + bX Demostrar Ho: b = 0 IC 95% de a; IC 95% de b a = intercepto b = pendiente Demostrar Ho: b = 0 IC 95% de a; IC 95% de b Correlación de Pearson (r)

Edad vs. Presión sistólica en 33 pacientes. ANALISIS DE REGRESIÓN Edad vs. Presión sistólica en 33 pacientes. Edad PS Edad PS Edad PS Edad PS 22 131 33 99 49 133 56 145 23 128 35 121 49 128 57 141 24 116 40 147 50 183 58 153 27 106 41 139 51 130 59 157 28 114 41 171 51 133 63 155 29 123 46 137 51 144 67 176 30 117 47 111 52 128 71 172 32 122 48 115 54 105 77 178 81 217 n = 33 åx = 1542 åy = 4575 åxy = 223 144 åx2 = 79.176 åy2 = 656.481 x = 46,73 y = 138,64

= 79.716 – (1542) 2 / 33 = 7662,6 = 656.481 – (4575) 2 / 33 = 22219,6 = 223144 – (1542)(4575)/33 = 9366,7

Pendiente e intercepto a: intercepto, en mm de Hg b: pendiente, ps aumenta 1,22 mmHg por cada año de edad.

Correlación de Pearson Karl Pearson, 1857-1936 Correlación de Pearson r = 0,71 (Fuerza de la asociación entre las dos variables, puede variar entre -1 y 1, entre más cerca a uno mejor dicha asociación 0,65 a 1 BUENA 0,4 a 0,649 REGULAR < de 0,4 MALA. r2 = 0.51

¿Qué tan bueno es el modelo? r2= Proporción de la variación total en la variable y, dependiente, en este caso de la presión sistólica, que es explicada por la variación en la variable independiente x, o edad en este caso). O sea 51% de la variación en y es explicada por la variable x (edad).

Error estándar de pendiente e intercepto

Error estándar de b y a

Intervalo de Confianza (95%) de la pendiente b ± (t31, 0.05) (SEb) = 1,22 ± (1,96) (0,2129) = 1,22 ± 0,417 Test de significancia para Ho b = 0 b - 0 1,22 t31 = ------------- = ------------- = 5,74 p<0,001 SEb 0,2129

Resultados con systatwg Dep Var: PRESION N: 33 Multiple R: 0.718 Squared multiple R: 0.515 Adjusted squared multiple R: 0.500 Standard error of estimate: 18.639 Effect Coefficient Std Error Std Coef Tolerance t P(2 Tail) CONSTANT 81.517 10.465 0.000 . 7.789 0.000 EDAD 1.222 0.213 0.718 1.000 5.741 0.000 Analysis of Variance Source Sum-of-Squares df Mean-Square F-ratio P Regression 11449.926 1 11449.926 32.958 0.000 Residual 10769.710 31 347.410 ------------------------------------------------------------------------------- SSY - SSE SSY = SSY - SSE: Suma de cuadrados de la reg. Valor de F, en tabla de anova es para determinar si la b (pendiente) es significatvia

Resultados con Systat v. 12 Dependent Variable PS N 33 Multiple R 0.718 Squared Multiple R 0.515 Adjusted Squared Multiple R 0.500 Standard Error of Estimate 18.639 Resultados con Systat v. 12 Regression Coefficients B = (X'X)-1X'Y Effect Coefficient Standard Error Std. Coefficient Tolerance t p-value CONSTANT 81.517 10.465 0.000 . 7.789 EDAD 1.222 0.213 0.718 1.000 5.741 Qué escribir ? Y = 81,52 + 1,22X r = 0,718 r2 = 0,515

250 200 Residual PRESION 150 100 50 20 30 40 50 60 70 80 90 EDAD

Nube ?

Valores observados (PS), Estimados y Residuales Case PS ESTIMATE RESIDUAL 1 131.000 108.410 22.590 2 128.000 109.632 18.368 3 116.000 110.854 5.146 4 106.000 114.522 -8.522 5 114.000 115.744 -1.744 6 123.000 116.966 6.034 7 117.000 118.189 -1.189 8 122.000 120.634 1.366 9 99.000 121.856 -22.856 10 121.000 124.301 -3.301 11 147.000 130.413 16.587 12 139.000 131.635 7.365 13 171.000 39.365 14 137.000 137.747 -0.747 15 111.000 138.970 -27.970 16 115.000 140.192 -25.192 17 133.000 141.415 -8.415 18 -13.415 19 183.000 142.637 40.363 20 130.000 143.859 -13.859 21 -10.859 22 144.000 0.141 23 145.082 -17.082 24 105.000 147.527 -42.527 25 145.000 149.971 -4.971 26 141.000 151.194 -10.194 27 153.000 152.416 0.584 28 157.000 153.639 3.361 29 155.000 158.528 -3.528 30 176.000 163.418 12.582 31 172.000 168.307 3.693 32 178.000 175.642 2.358 33 217.000 180.531 36.469

Cajas de dispersión de PS, Estimada y residual

Estudio de pérdida de PD vs Estudio de pérdida de PD vs. Ingreso y = # de dtes perdidos x = ingreso (en dólares x 1000) y = 3,5 + 0,043x (número de dtes perdidos con 0 ingreso sería en promedio 3,5). Si tiene ingreso de U$10 000, perdida de dtes sería: 3,5 + 0,43 = 3,93 dtes perdidos U$ 50 000 3,5 + 0,043 (50) 3,5 + 2,15 = 5,65 dtes perdidos

Regresión – Características de una relación (Wilkinson, 1996) ¿Existe? ¿Qué fuerza tiene? ¿Qué tamaño? ¿Qué dirección tiene? ¿Qué patrón tiene?

Existencia de la relación. El valor de p en la tabla de análisis de varianza de la regresión nos indica si el modelo es significativamente diferente del azar. Los test t y valores de p asociados con los coeficientes individuales nos indican si existe una relación entre cada variable independiente y la variable dependiente.

Fuerza de la asociación. Uno no está satisfecho con saber si existe una relación además quiere saber que tan fuerte es. Generalmente la vemos con el valor de R múltiple, el R múltiple al cuadrado, el R cuadrado ajustado, y el error estándar de la media. El mejor de todos es R cuadrado ajustado. R múltiple al cuadrado indica la proporción de varianza en la variable dependiente que puede ser explicada por la(s) variable(s) independiente(s).

Tamaño de la asociación A veces uno está interesado en el tamaño de los coeficientes de la regresión más que en demostrar que difieren de 0. Para esto simplemente ver los valores de los coeficientes.

Dirección de la asociación. El signo de los coeficientes nos da esta dirección.

Patrón de la asociación. Los plots y los estadísticos basados en los valores residuales nos dan información acerca del patrón de la relación : Es la relación linear? Presentan los plots algún valor “escapado”, o fuera de lugar (outlier”)? Existe indicación por los valores de Cook, residual estandarizado, o Leverage de algún caso influyente? Están los residuales curvados o por otro lado presentan forma o dirección irregular? En otras palabras deberá agregarse otras variables al modelo? Los residuales están formando una banda horizontal a lo largo de todo el rango de la variable dependiente?, o sea están los residuales homoscedásticos? Tienen los residuales una distribución normal? Homocedasticidad: de -homo (igual) y scedastic: disperso

Análisis de Regresión Linear MODEL CS = CONSTANT+LSMUFC ESTIMATE Dep Var: CS N: 30 Multiple R: 0.626 Squared multiple R: 0.392 Adjusted squared multiple R: 0.370 Standard error of estimate: 6.543 Effect Coefficient Std Error Std Coef Tolerance t P(2 Tail) CONSTANT -19.601 7.712 0.0 . -2.542 0.017 LSMUFC 5.987 1.409 0.626 1.000 4.248 0.000

Regresión Linear, comparación entre dos grupos CASO PA HB_GLI GRUPO$ GRUPO 1 91 9,8 Enalapril 2 104 7,4 3 107 7,9 4 8,3 5 106 6 100 9,0 7 92 9,7 8 8,8 9 105 7,6 10 108 6,9 11 98 9,5 Placebo 12 6,7 13 7,0 14 101 8,6 15 99 8,7 16 87 17 18 19 8,5 20 90 Regresión Linear, comparación entre dos grupos Presión arterial (PA) y Hemoglobina Glicosilada (HB_GLI) en dos Grupos: con Enalapril (1) y Placebo (0)

Donde está la diferencia?

Donde está la diferencia?

Caso PA HB GRUPO 1 91 9,8 Enalapril 2 104 7,4 Enalapril 3 107 7,9 Enalapril 4 107 8,3 Enalapril 5 106 8,3 Enalapril 6 100 9,0 Enalapril 7 92 9,7 Enalapril 8 92 8,8 Enalapril 9 105 7,6 Enalapril 10 108 6,9 Enalapril Promedios: 101,2 8,37 DS: 6,941 0,9615 DS de la línea de regresión (Sres): 0,5485 Caso PA HB GRUPO 98 9,5 Placebo 105 6,7 Placebo 100 7,0 Placebo 14 101 8,6 Placebo 15 99 6,7 Placebo 16 87 9,5 Placebo 17 98 9,0 Placebo 18 104 7,6 Placebo 19 106 8,5 Placebo 20 90 8,6 Placebo Promedios: 98,8 8,17 DS: 6,161 1,0914 DS de la línea de regresión (Sres): 0,9866

Resultado con Systat v. 11 Análisis de regresión de cada grupo, Enalapril y Placebo Dep Var: HB_GLIC N: 10 Multiple R: 0.843 Squared multiple R: 0.711 Adjusted squared multiple R: 0.675 Standard error of estimate: 0.548 Effect Coefficient Std Error Std Coef Tolerance t P(2 Tail) CONSTANT 20.189 2.671 0.000 . 7.558 0.000 PA -0.117 0.026 -0.843 1.000 -4.434 0.002 PLACEBO Dep Var: HB_GLIC N: 10 Multiple R: 0.523 Squared multiple R: 0.274 Adjusted squared multiple R: 0.183 Standard error of estimate: 0.987 Effect Coefficient Std Error Std Coef Tolerance t P(2 Tail) CONSTANT 17.327 5.283 0.000 . 3.280 0.011 PA -0.093 0.053 -0.523 1.000 -1.736 0.121

Resultado con Systat v. 11 Comparando los dos grupos Dep Var: HB_GLIC N: 20 Multiple R: 0.682 Squared multiple R: 0.464 Adjusted squared multiple R: 0.401 Standard error of estimate: 0.779 Effect Coefficient Std Error Std Coef Tolerance t P(2 Tail) CONSTANT 18.659 2.774 0.000 . 6.727 0.000 PA -0.106 0.028 -0.686 0.964 -3.797 0.001 GRUPO1 0.455 0.355 0.232 0.964 1.283 0.217

Hipótesis nula Las pendientes son iguales (bE = bP) Los interceptos son iguales (aE = aP) Las correlaciones son iguales (rE = rP)

Intervalo de confianza para la diferencia de dos pendientes 1. Calcular DS mezclada (pooled) residual según: 2. luego: 3. IC 95% =

Ecuación y correlación para los grupos PLACEBO y ENALAPRIL Grupo PLACEBO: Y=17,33 – 0,093X r = -0,523 Grupo ENALAPRIL: Y=20,189 – 0,117X r = -0,843 Son las pendientes iguales?

Incluye 0 por lo tanto no hay dif significativa entre las pendientes

Análisis de Regresión Múltiple (RM) MODEL CS = CONSTANT+BUFFER+VFS ESTIMATE Dep Var: CS N: 30 Multiple R: 0.033 Squared multiple R: 0.001 Adjusted squared multiple R: 0.0 Standard error of estimate: 8.540 Effect Coefficient Std Error Std Coef Tolerance t P(2 Tail) CONSTANT 12.784 6.368 0.0 . 2.007 0.055 BUFFER 0.177 1.847 0.019 0.980 0.096 0.924 VFS -0.660 5.088 -0.025 0.980 -0.130 0.898 Analysis of Variance Source Sum-of-Squares df Mean-Square F-ratio P Regression 2.201 2 1.100 0.015 0.985 Residual 1969.166 27 72.932 -------------------------------------------------------------------------------

Estudio de pérdida de PD vs Estudio de pérdida de PD vs. Ingreso y = # de dtes perdidos x = ingreso (en dólares x 1000) y = 3,5 + 0,043x (número de dtes perdidos con 0 ingreso sería en promedio 3,5). Si tiene ingreso de U$10 000, perdida de dtes sería: 3,5 + 0,43 = 3,93 dtes perdidos U$ 50 000 3,5 + 0,043 (50) 3,5 + 2,15 = 5,65 dtes perdidos

Estudio de pérdida de PD vs Estudio de pérdida de PD vs. Ingreso y = # de dtes perdidos x1= ingreso (en dólares x 1000) x2 = edad (en años) y = x1 + x2 Variable Modelo 1 Modelo 2 (Intercepto) 3,50 ± 0,89 (<0,001) 1,10 ± 1,10 (0,32) Ingreso 0,043 ± 0,017 (0,01) -0,083 ± 0,041 (0,04) Edad N A 0,158 ± 0,047 (0,001)

RL simple: personas con menos ingreso parece que tienen menos pérdida de pd. RM: dos individuos de la misma edad, con cada U$1000 adicionales de ingreso, disminuye la pérdida de dtes en 0,083.

Coeficiente -0,083 describe asociación entre pérdida de dientes e ingreso, CONTROLANDO EDAD. EXISTEN CAMBIOS CONSIDERABLES CUANDO UN MODELO ES MODIFICADO, COMO POR EJEMPLO AGREGANDO UNA NUEVA VARIABLE, O TRANSFORMÁNDOLA.

Regresión Logística Variable dependiente o de interés en el estudio: binaria (tiene infarto / no tiene inf.) En lugar de utilizar una combinación de variables exploratorias para predecir la variable dependiente como en RM, se predice una transformación de la variable dependiente

Variable binaria (0 / 1) 0 = No (No tuvo infarto) 1 ------- 7/10=0,7 Variable binaria (0 / 1) 0 = No (No tuvo infarto) 1 = Si (Tuvo infarto) El promedio de estos valores en una muestra en estudio es igual a la proporción de individuos con la característica.

Modelo de regresión logística: Predecirá la proporción de sujetos con la característica de interés (o la probabilidad de un individuo de tener la característica) para cualquier combinación de las variables exploratorias en el modelo. Se utiliza una transformación de esta proporción ya que si no es imposible trabajar con valores fuera del rango de 0 a 1

Transformación Se llama logit (p) (p: proporción de individuos con la característica) p: proporción con infarto 1-p: proporción sin infarto Relación (odds): p / (1-p)

Hipertensión, tabaco, obesidad, ronquera (Norton y Dunn, 1985) Fuma Obeso Ronca N Número de hombres con Hipertensión N (%) 60 5 (18) 1 17 2 (11) 8 1 (13) 2 0 (0) 187 35 (19) 85 13 (15) 51 15 (29) 23 8 (35) Total 433 79 (18)

Análisis de RL de los datos de la tabla anterior Parameter Estimates Parameter Estimate Standard Error Z p-value 95 % Confidence Interval Lower Upper 1 CONSTANT -2.378 0.380 -6.254 0.000 -3.123 -1.633 2 FUMA -0.068 0.278 -0.244 0.807 -0.613 0.477 3 OBESIDAD 0.695 0.285 2.439 0.015 0.137 1.254 4 RONCA 0.872 0.398 2.193 0.028 0.093 1.651

Odds Ratio Estimates Parameter Odds Ratio Standard Error 95 % Confidence Interval Lower Upper 2 FUMA 0.934 0.260 0.542 1.612 3 OBESIDAD 2.004 0.571 1.146 3.505 4 RONCA 2.392 0.951 1.097 5.213

Area under ROC Curve : 0.617

Análisis de RL de los datos de la tabla anterior SIN FUMAR Parameter Estimates Parameter Estimate Standard Error Z p-value 95 % Confidence Interval Lower Upper 2 OBESIDAD 0.695 0.285 2.440 0.015 0.137 1.254 3 RONCA 0.865 0.397 2.182 0.029 0.088 1.643 Odds Ratio Estimates Parameter Odds Ratio Standard Error 95 % Confidence Interval Lower Upper 2 OBESIDAD 2.005 0.571 1.146 3.505 3 RONCA 2.376 0.943 1.092 5.170

Area under ROC Curve : 0.609

ROC: Receiver Operating Curve Plot de la sensibilidad vs 1-especificidad para cada posible punto de corte, y unión de ellos. Si el “costo” de un resultado falso negativo es el mismo que del resultado de un falso positivo, la mejor zona de corte es aquella que maximiza la suma de la sensibilidad y especificidad, la cual es el punto más cerca al rincón superior izquierdo

Guía para análisis de regresión Método Dependiente Independiente Propósito Linear Continua Describir extensión, dirección y fuerza de la relación entre dos variables. Múltiple Describir extensión, dirección y fuerza de la relación entre varias variables independientes y una variable dependiente. Logística Dicotómica Mezcla Determinar como una o más variables independientes están relacionadas a la probabilidad de ocurrencia de un posible resultado. Poisson Discreta Determinar como una o más variables independientes están relacionadas con el conteo de un posible resultado Varianza Nominales Describir relación entre una variable continua y una o más variables dependientes

RESUMEN Regresión lineal: x / y: intervalares, independiente / dependiente. Regresión múltiple: una dependiente, varias dependientes (intervalares). Regresión logística: una dependiente (nominal), varias independientes (puede haber nominales, ordinales, intervalares).