Correlación y Regresión Lineal Simple Modelo lineal

Slides:

Advertisements

Presentaciones similares

ANOVA DE UN FACTOR.

Advertisements

Regresión mínimo cuadrada (II)

Análisis de Datos en Economía

Evaluar el efecto de un tratamiento (1)

Objetivo La estimación del riesgo relativo en estudios de casos y controles se ha explicado para tablas 2x2, es decir para el caso de que el factor de.

VARIABLES Una de las etapas fundamentales de toda investigación es la identificación de variables, entendiendo como variable la medida de una característica.

Estudios de Cohorte Dra. Pilar Jiménez M..

Regresión mínimo cuadrada (I)

Técnicas para el análisis de datos en el enfoque cuantitativo

Dr.. Roy Martin Angulo Reyes

Clasificación de las investigaciones y el concepto de variable

Modelos de Variable Dependiente Binaria -Logit y Probit-

ANALISIS DE SUPERVIVENCIA

ANÁLISIS EXPLORATORIO DE DATOS

Bivariadas y Multivariadas

UNIDAD I MODELOS Y TOMA DE DECISIONES

AUTORES: peter b. seddon y min-yenkiew

METODOLOGÍA Y TALLER DE INVESTIGACIÓN

León Darío Bello Parias

ANALISIS DE COMPONENTES PRINCIPALES.

ESTRATEGIAS Y DISEÑOS AVANZADOS DE INVESTIGACIÓN SOCIAL

ALGUNOS CONCEPTOS PREVIOS

Regresión y correlación

ESCUELA PROFERSIONAL DE INGENIERÍA EMPRESARIAL.

Pruebas de hipótesis Walter Valdivia Miranda

Estadística Descriptiva: 4. Correlación y Regresión Lineal

CURSO DE ESTADÍSTICA BÁSICA

Regresión lineal Es un modelo matemático para predecir el efecto de una variable sobre otra, ambas cuantitativas. Una variable es la dependiente y otra.

9 Regresión Lineal Simple

INTRODUCCIÓN GENERAL Causalidad e inferencia causal

Alumna: Joana Rojas Gallardo

Técnicas estadísticas paramétricas univariantes: regresión

PROBLEMAS ECONOMETRICOS

1 Planteamiento del problema ¿Tenemos los humanos la capacidad de percibir si nos miran desde atrás? O, más exactamente: ¿Es defendible que existen otras.

Dpto. Medicina Preventiva.Francisco Javier Barón López 1 Estadística multivariada Programa de doctorado: “Calidad de vida, Bienestar Social y Salud Pública”

Población y Muestra.

CONTRASTE Y VALIDACIÓN DE UN MODELO

Este procedimiento mide la relación entre la intensidad de un estímulo y la proporción de casos que presentan una cierta respuesta a dicho estímulo. Es.

Análisis de datos El diseño estadístico.

Pronósticos, Series de Tiempo y Regresión

Caso: Situación de las Comunidades Autónomas españolasen cuanto a indicadores de bienestar En el periódico “El País” del día 17 de enero de 2002 se publicó.

ESTADÍSTICA BÁSICA EN ECOLOGÍA EVOLUTIVA Juan J. Soler Cruz Estación Experimental de Zonas Áridas Almería.

Regresión logística.

Métodos de calibración: regresión y correlación

Titular: Agustín Salvia

Introducción a la Inferencia Estadística

FORMULACIÓN DE HIPÓTESIS

Eva Medina Moral Profesora Economía Aplicada (UAM) Febrero 2007

INTRODUCCION En esta base de datos, la variable “estrés ” es categórica (tiene estrés / no tiene estrés ) y querríamos saber si está relacionada.

Taller 2 Reflexiones sobre Metodología Cuantitativa: Potencial de la comparación de muestras Germán Fromm R.

Análisis de los Datos Cuantitativos

Regresión Lineal Simple

BASES PARA EL RAZONAMIENTO EN ESTADÍSTICA INFERENCIAL

BASES PARA LA SELECCIÓN DE UNA PRUEBA ESTADÍSTICA DRA. MA

Conceptos Básicos y Estadística Descriptiva

Regresión lineal simple Nazira Calleja

Unidad 4 Análisis de los Datos.

REGRESIÓN LINEAL MÚLTIPLE.

INFERENCIA ESTADÍSTICA

TEMA 8 INVESTIGACIONES EX POST FACTO

EPE MA 148 ESTADÍSTICA INFERENCIAL TEMA:

Germán Fromm R. 1. Objetivo Entender los diseños metodológicos predictivos 2.

ESTADISTICA DESCRIPTIVA BIVARIADA MEDIDAS DE RELACIÓN ENTRE VARIABLES CUANTITATIVAS.

REGRESIÓN LINEAL SIMPLE TEMA INTRODUCCIÓN Determinar la ecuación de regresión sirve para: – Describir de manera concisa la relación entre variables.

Bioestadística Inferencia estadística y tamaño de muestra

1 REGRESIÓN CON VARIABLES DICOTÓMICAS TEMA 1 (CONTINUACIÓN)

4. Métodos psicofísicos de medida en clínica

TEMA 7 ANÁLISIS DE LOS RESULTADOS TEMA 7 ANÁLISIS DE LOS RESULTADOS.

Regresión logística binomial

Transcripción de la presentación:

Correlación y Regresión Lineal Simple Modelo lineal Relación entre variables cuantitativas Variable dependiente e independiente Coeficiente de correlación significativo. “Buen” coeficiente de correlación(r>0,7) Coeficiente de determinación: porcentaje de la varianza que explica el modelo.

La IS esta significativamente relacionada con la CV Correlación y Regresión Lineal Simple Ejemplo : Calidad de vida y nivel de integración social CV = 0.7813 + 0.7637 IS La IS esta significativamente relacionada con la CV Por cada unidad adicional en la escala de IS, la CV aumenta en 0,76 unidades. La IS explica el 55% de la varianza de la CV. El ajuste es aceptable, pero hay otros factores determinantes de la CV que no se han considerado.

Correlación y Regresión Lineal Simple Validación del modelo Siempre hay una diferencia entre el valor real de la variable respuesta y la estimación a partir de la ecuación de regresión: el residuo Validación Los resultados de la regresión sólo son fiables si el modelo cumple ciertas hipótesis sobre los residuos Es preciso realizar una validación del modelo

Introducción a las Técnicas Multivariantes Regresión Lineal Múltiple Regresión Logística Kaplan-Meier y Regresión de Cox

Técnicas Multivariantes Muchas variables pueden explicar mas:  =      (multivariante) BIVARIANTE vs MULTIVARIANTE RLM RLOG RCOX Continua Dicotómica Tiempo hasta B OR HR Variable dependiente: Qué índice explica: Qué hago con los que no están: MODELO PREDICTIVO (rentabilidad) R2 Clasificación -2LL

Regresión Lineal Múltiple Variables Variables implicadas: Respuesta Explicativa (MÚLTIPLES) Cuantitativa Cuantitativas o dicotómicas Tensión arterial Concentración sérica Tamaño de una lesión Porcentaje de absorción Calidad de vida Satisfacción del paciente Nivel de colesterol Peso en kgs. Edad Dosis de un fármaco (mg) Nivel de ansiedad Sexo Ejemplos

Regresión Lineal Múltiple Modelo Variables implicadas: una variable respuesta y varias explicativas. ¿Cómo se expresa la relación entre las variables? varresp = a + b1 varexpl_1 + b2 varexpl_2 + ... + bp varexpl_p ordenada pendiente 1 pendiente p valor de la var. Resp. para un valor nulo de las var. exp aumento de la var. Resp. cuando la var. exp_1 aumenta una unidad aumento de la var. resp cuando la var. exp_p aumenta una unidad

Regresión Lineal Múltiple Calidad del modelo Para determinar hasta que punto las variables explicativas permiten estimar a la variable respuesta seguimos usando el R2 (COEFICIENTE DE DETERMINACIÓN=VARIANZA EXPLICADA). Cuanto más cercano a 1 más adecuado es el modelo Cuanto más cercano a 0 peor resulta el modelo. Es decir, las variables explicativas no se ajustan linealmente a la variable respuesta. R2 aumenta con muchas VI y en muestras pequeñas  R2 ajustado Un R2 bajo no necesariamente indica que las variables seleccionadas no permiten estimar adecuadamente la variable respuesta. Es posible que la relación no sea lineal.

Regresión Lineal Múltiple Contrastes Contrastes de hipótesis: Se puede contrastar si cada pendiente individualmente es significativa o no, es decir, si cada variable explicativa influye realmente sobre la variable respuesta (“t”) Se puede contrastar si globalmente todas las variables explicativas influyen sobre la variable respuesta (“F”). Las siguientes paradojas pueden darse, Individualmente una variable explicativa puede estar significativamente relacionada con la variable respuesta, pero no ser un predictor significativo en el modelo de regresión lineal múltiple Una variable individualmente puede NO estar significativamente relacionada con la variable respuesta, pero en un modelo de regresión lineal múltiple SÍ lo está

Regresión Lineal Múltiple Validación Validación del modelo: Los residuos del modelo debe seguir cumpliendo ciertas hipótesis básicas: Media cero Incorrelación Normalidad Para poder interpretar adecuadamente los coeficientes estimados y hacer uso de la recta de regresión es imprescindible que el modelo sea válido.

Regresión Lineal Múltiple Ejemplo: Calidad de Vida en pacientes de Alzheimer Con los datos correspondientes a 40 sujetos que sufren Alzheimer, intentaremos explicar la Calidad de Vida de este tipo de pacientes a partir de otras variables POSIBLES PREDICTORES: 1. MEMORIA (0-10) 2. CAPACIDAD MOTORA (0-10) 3. INGRESOS ECONÓMICOS 4. INTEGRACIÓN SOCIAL (0-10)

Regresión Lineal Múltiple Ejemplo: Descriptiva y correlaciones La matriz de correlaciones permite identificar qué variables explicativas están relacionadas con la CALIDAD DE VIDA Para medir el efecto de cada variable sobre la CALIDAD DE VIDA se usará una Regresión Lineal Múltiple.

Regresión Lineal Múltiple Ejemplo: Modelo inicial Globalmente, el modelo es estadísticamente significativo, no nulo. La MEMORIA y la INTEGRACIÓN SOCIAL son individualmente significativos. No así, la Capacidad Motora ni los Ingresos. Los predictores consiguen explicar de forma conjunta el 68.44% de la CALIDAD DE VIDA. Siguiente paso: Selección de variables hacia delante, con el objetivo de depurar y reespecificar el modelo.

Regresión Lineal Múltiple Ejemplo: Modelo óptimo El modelo va incorporando variables paso a paso En el paso 1, la variable INTEGRACIÓN SOCIAL entra en el modelo, porque es la que más explica la CALIDAD DE VIDA. En el paso 2, se incorpora la MEMORIA. Las restantes variables no aportan capacidad explicativa al modelo, por lo que se quedan fuera. En cada paso podemos saber cuánto somos capaces de explicar de la CALIDAD DE VIDA.

Regresión Lineal Múltiple Ejemplo: Coeficientes definitivos e IC INTEGRACIÓN SOCIAL: aunque su efecto se ha estimado puntualmente como 0,64, éste puede oscilar entre 0,43 y 0,84. MEMORIA: aunque su efecto se ha estimado puntualmente como 0,36, éste puede oscilar entre 0,16 y 0,56.

Regresión Logística: Esquema y objetivos Variables implicadas: Modelizar la probabilidad de aparición de una enfermedad o patología, por el nivel de diversos factores o características de los pacientes. Respuesta Explicativas Dicotómica Cuantitativa o Dicótómica Hipertensión (si/no) Diabetes (si/no) Ictus (si/no) Suceso (si/no) Colesterol Tabaquismo Edad Zona de residencia (dicotomizada) Obtener una función logística que permita ‘clasificar’ a los individuos en uno de los dos grupos de la variable repuesta. Ejemplos ¡¡¡ LA DIFERENCIA !!! La variable respuesta es dicotómica. Se modeliza la probabilidad de ocurrencia de la variable respuesta.

Regresión Logística Preguntas y objetivos Posibles preguntas : se pretende analizar si padecer una enfermedad o patología, está influido por uno o más factores (variables independientes). Ejemplo: Si la aparición de ECV * se encuentra relacionada con los factores: edad, ser fumador, hábitos de vida, alcohol, dieta, etc. Se obtiene probabilidad de padecer ECV para un determinado sujeto con unas determinadas características Se cuantifica el riesgo (OR) de cada factor Indica que el efecto combinado de varios factores de riesgo sobre el riesgo individual de padecer la enfermedad es mínimo para valores pequeños del factor, para aumentar rápidamente a partir de un determinado umbral. *ECV Enfermedad Cardio Vascular

Regresión Logística Forma funcional 1 Bivariante Prob (Enf./A) = 1+e -(b0 + b1A) 1 Multivariante Prob (Enf./A1, A2, A3) = 1+e -(b0 + b1a1+b2A2+b3A3) B= A1 A2 A3

Regresión Logística Linealización Las probabilidades están limitadas entre 0 y 1 y se transforman a escala de valores de B y a esto se le llama transformación logística Se encuentra directamente relacionada con el concepto de la razón de Odds de la enfermedad: NO DA EL VALOR DIRECTO DE LA RESPUESTA SINO QUE ESTIMA LA p(Enf)

Regresión Logística Interpretación de b1 Con el coeficiente b1 del modelo se puede calcular el OR para esa variable exposición y nos indica que al pasar de un subgrupo a otro de dicha variable, la probabilidad de enfermedad se multiplica en OR veces.

Regresión Logística Calidad del modelo y contrastes Contrastes de hipótesis: Se trata de obtener una combinación lineal que permita estimar las probabilidades de pertenecer a cada uno de los dos grupos establecidos por los valores de la variable dependiente. Efectividad del modelo: Tabla de clasificación 2x2 : da el porcentaje de casos correctamente clasificados sobre la muestra existente. Cuanto mayor sea el porcentaje de aciertos, más efectivo es el modelo.

Regresión Logística Modelo múltiple El modelo múltiple incluye más variables independientes (dicotómicas, ordinales…). Los OR hacen referencia a cada variable independiente incluida en el modelo pero AJUSTADO por el resto de las mismas. NO DA EL VALOR DIRECTO DE LA RESPUESTA SINO QUE ESTIMA LA p(Enf)

Regresión Logística Interpretación de Resultados B = b0 + b1A1 + b2A2 Conclusiones La/s explicativa/s influye/n sobre la respuesta. Su interpretación se realiza mediante OR=eb. Cátegórica: una variable 0/1 nos indica que para la presencia del factor (1), este es el valor que toma B. Estimación Contraste de hipótesis: ¿son significativos? En concreto, ¿es b1 ó b2 significativamente no nulos? Odds Ratio (OR) Mayor de 1: factor de riesgo. Menor de 1: factor de protección.

Regresión Logística Ejemplo Muestra: 70 pacientes víctimas de accidentes de tráfico con daño cerebral. Se desea saber si variables como el tipo de lesión, la atención, el apoyo familiar, o la edad del sujeto influyen en la rehabilitación total del paciente. Variable respuesta dicotómica: REHABILITACIÓN (RHB) 0 (NO SE REHABILITA) 1 (SE REHABILITA) Variables explicativas dicotómicas: APOYO: 0 (SIN APOYO FAMILIAR) 1 (CON APOYO FAMILIAR) LESIÓN: 0 (DIFUSA) 1 (FOCALIZADA) ATENCIÓN 0 (NO INMEDIATA) 1 (INMEDIATA) Variable explicativa cuantitativa EDAD

Regresión Logística Ejemplo. Modelo inicial completo Paso 1: Se analizan inicialmente todos los factores Opciones: Código de Ocurrencia=1 Incluir término Cte. Modelo significativo El modelo muestra variables significativas con respecto a la dependiente y otras que no lo son. Repetimos el análisis sólo con las significativas.

Regresión Logística Ejemplo. Modelo final y Resultados Paso 2: Repetimos el análisis sólo con las significativas. Modelo final: Prob (RHB/B) = 1 1+e - ( 3,95+ 1,77 LESION – 0,15 EDAD) Interpretación OR: el hecho de presentar lesiones focalizadas (no difusas) produce que la probabilidad de rehabilitación sea 5,87 veces mayor.