Regresión Lineal Simple

Slides:



Advertisements
Presentaciones similares
DISEÑO DE EXPERIMENTOS EXPERIMENTOS DE COMPARACIÓN SIMPLE
Advertisements

ANOVA DE UN FACTOR.
Tema 6: Regresión lineal.
Tema 22: Análisis de tablas de contingencia Prueba c2 como medida de asociación y como prueba de contraste. Coeficientes derivados de c2. Interpretación.
Regresión lineal simple
Regresión mínimo cuadrada (I)
REGRESION LINEAL SIMPLE
Modelos de Variable Dependiente Binaria -Logit y Probit-
ESTRATEGIAS Y DISEÑOS AVANZADOS DE INVESTIGACIÓN SOCIAL
ESTRATEGIAS Y DISEÑOS AVANZADOS DE INVESTIGACIÓN SOCIAL
Econometria 2. Modelo de Regresión Lineal Simple
Modelo básico de regresión Lineal
Estadística 2010 Clase 5 Maestría en Finanzas Universidad del CEMA
Regresión y correlación
Estadística Descriptiva: 4. Correlación y Regresión Lineal
Tema 1- Regresión lineal simple.
Estadística Descriptiva: 4. Correlación y Regresión Lineal Ricardo Ñanculef Alegría Universidad Técnica Federico Santa María.
Regresión lineal Es un modelo matemático para predecir el efecto de una variable sobre otra, ambas cuantitativas. Una variable es la dependiente y otra.
Regresión Lineal Simple
Curso de Estadística Básica
9 Regresión Lineal Simple
Regresión Linear Correlación de Pearson, r Regresión Múltiple Regresión Logística Regresión de Poisson.
Análisis de Correlación y de Regresión lineal simple
Distribuciones bidimensionales. Tablas de contingencia
Prueba para la Bondad de ajuste Validación de Modelo
BIOMETRIA II TEMA 2 El Modelo de Regresión.
Módulo 5 Análisis de Regresión y Series de Tiempo.
Pronósticos, Series de Tiempo y Regresión
Pronósticos, Series de Tiempo y Regresión
Modelo de regresión con dos variables: Estimación
Unidad V: Estimación de
Métodos de calibración: regresión y correlación
Titular: Agustín Salvia
Normalidad, Variabilidad y estimación del Modelo de Regresión
Introducción a la Inferencia Estadística
CORRELACION Y REGRESION LINEAL: Introducción
Inferencia Estadística
Diseño Completamente Aleatorizado: ejemplo
Capítulo 1. Conceptos básicos de la Estadística
Regresión lineal simple
Regresión lineal múltiple
Pruebas de hipótesis.
Definición del Modelo de Regresión Simple Estimaciones por MCO Método de MCO Valores Esperados y Varianzas por MCO.
Construcción de la tabla del ANOVA
Estimación Diferencia de dos medias
Análisis de los Datos Cuantitativos
CORRELACIÓN Y REGRESIÓN EMPLEANDO EXCEL
CONTRASTES NO PARAMÉTRICOS
Construcción de modelos con regresión y correlación
Regresión lineal simple Nazira Calleja
Unidad 4 Análisis de los Datos.
REGRESIÓN LINEAL SIMPLE
ANÁLISIS DE LA INFORMACIÓN La relación entre variables.
Modelos de regresión lineal
InfoStat. Software estadístico
Pruebas paramétricas y no paramétricas
Clase 17 Introducción a la Estadística Universidad de la República Centro Universitario Regional del Este Pablo Inchausti Licenciatura en Gestión Ambiental.
DISEÑOS POR BLOQUES ALEATORIZADOS
Departamento de Informática Universidad Técnica Federico Santa María EconometríaEconometría Capitulo II.
REGRESIÓN LINEAL SIMPLE
RELACIÓN ENTRE UNA VARIABLE DEPENDIENTE Y UNA O MAS INDEPENDIENTES.
REGRESIÓN LINEAL SIMPLE. Temas Introducción Análisis de regresión (Ejemplo aplicado) La ecuación de una recta Modelo estadístico y suposiciones Estimación.
ESTADISTICA DESCRIPTIVA BIVARIADA MEDIDAS DE RELACIÓN ENTRE VARIABLES CUANTITATIVAS.
Introducción a la Estadística Inferencial con SPSS Juan José Igartua Perosanz Universidad de Salamanca
TAMAÑO DE LA MUESTRA. Para definir el tamaño de la muestra se debe tener en cuenta los recursos disponibles y las necesidades del plan de análisis, el.
REGRESIÓN LINEAL SIMPLE TEMA INTRODUCCIÓN Determinar la ecuación de regresión sirve para: – Describir de manera concisa la relación entre variables.
1 REGRESIÓN CON VARIABLES DICOTÓMICAS TEMA 1 (CONTINUACIÓN)
M.E. ADA PAULINA MORA GONZALEZ. Esta parte describe las técnicas para ajustar curvas en base a datos para estimaciones intermedias. Una manera de hacerlo.
ANALISIS DE VARIANZA.
Bioestadistica II 2014 FACULTAD DE CIENCIAS EXACTAS, FÍSICAS Y NATURALES. UNIVERSIDAD NACIONAL DE CÓRDOBA.
Transcripción de la presentación:

Regresión Lineal Simple

Regresión lineal simple Etapa exploratoria: gráficos de dispersión Análisis de correlación En algunos casos, de acuerdo a la naturaleza de las variables y la información disponible, puede suponerse una relación funcional entre dos o más variables, que puede expresarse mediante una expresión matemática. Considerando dos variables, si denominamos Y a la variable que se supone dependiente, y X a la variable que se postula independiente, resulta familiar utilizar el concepto de función: “Y es función de X” indica que pueden predecirse los valores que tomará Y de acuerdo a los valores asignados a X. Dicho de otra manera, se puede conocer el comportamiento de Y a través de un modelo que relacione la variación de Y con la variación de X.

Regresión lineal simple Análisis de regresión: Objetivos Identificar un modelo funcional que describa cómo se modifica la variable dependiente Y frente a cambios la variable independiente X Estimar los parámetros del modelo (constantes) a partir de una muestra aleatoria de observaciones en Y y en X Validar el modelo mediante contrastes de hipótesis que pongan a prueba la bondad de ajuste del mismo Predecir el valor esperado de la variable dependiente Y cuando la variable independiente X toma un valor particular

Regresión lineal simple Análisis de regresión: Modelo Ordenada al origen Pendiente Error Observación de la variable dependiente Y bajo el i-ésimo valor de X i-ésimo valor de la variable independiente X β0 es la ordenada al origen; indica el valor de Y cuando xi=0 β1 es la pendiente de la recta; indica cuánto cambia Y por cada incremento unitario en X. β1 ˃ 0  crecimiento de Y por cada incremento unitario en X β1 ˂ 0  disminución de Y por cada incremento unitario en X

Regresión lineal simple yi β1 = Variabilidad no explicada Variabilidad total Variabilidad explicada por el modelo β0 Ordenada al origen Pendiente Error

Ejemplo

Regresión lineal simple Definición de variables En un cultivo de trigo se desea cuantificar la relación que hay entre la disponibilidad de N (cantidad de nitrógeno en el suelo en ppm) y la cantidad de nitrógeno en la planta en ppm, relación que se supone lineal. Biológicamente, se espera que la cantidad de N en las plantas sea explicada, al menos parcialmente, por la cantidad de N en suelo. Es por ello que se define como variable dependiente Y la cantidad de N en la planta y como variable independiente X el contenido de N del suelo. X: Nitrógeno en el suelo (ppm) 4,2 4,5 5 5,5 6,8 6,9 7 7,3 8 9 9,2 9,4 Y: Nitrógeno por planta (ppm) 1,3 1,5 1,6 1,7 1,8 1,9 2 2,1 2,2 2,3 Los datos corresponden a 12 parcelas, en las que se registró el contenido de N en el suelo (X) y los valores promedio de N por planta (Y), este último calculado como promedio sobre todas las plantas de la parcela.

Regresión lineal simple Gráfico de dispersión Una vez identificadas la variable dependiente Y: Nitrógeno por planta (ppm), y la variable independiente X: Nitrógeno en el suelo (ppm), se graficaron los datos obtenidos en un diagrama de dispersión.

Regresión lineal simple Estimación de parámetros Para todo conjunto de observaciones obtenidas sobre dos variables, existen potencialmente una infinidad de modelos que permitirían explicar la relación funcional entre ambas variables. Como ya mencionamos, el análisis de regresión lineal simple permite identificar un modelo -una ecuación de la recta en este caso- que describe cómo varía la variable dependiente Y, frente a cambios en la variable independiente X. Para la construcción de dicho modelo es necesaria la estimación de sus parámetros β0 y β1, utilizando la muestra aleatoria de datos disponibles. Ordenada al origen Pendiente Error

Regresión lineal simple Estimación de parámetros Se denominan coeficientes de regresión muestral a las estimaciones de β0 y β1, denotadas b0 y b1 respectivamente. Si no hubiese errores aleatorios, cualquier par de puntos (x , y) podría usarse para encontrar los valores de b0 y b1 . De este modo todas las estimaciones serían idénticas, independiente del par de valores utilizado. La presencia de errores hace necesaria la aplicación de un método para la estimación, que permita combinar toda la información disponible en la muestra. El método de estimación que aplicaremos utiliza el término de error aleatorio presente en el modelo, y se denomina método de mínimos cuadrados. Recordemos que el error aleatorio εi se define como la distancia del valor observado respecto a la recta, medida sobre el eje de las ordenadas.

Considerando que la sumatoria de los errores aleatorios asociados a los valores originales es cero, este método utiliza la sumatoria de dichos errores elevados al cuadrado. Error aleatorio εi : distancias de los valores observados respecto a la recta, medidas sobre el eje de las ordenadas  La recta de «mejor ajuste» se define como aquella que posibilita que la sumatoria de los cuadrados de los errores sea lo más pequeña posible.

Regresión lineal simple Estimación de parámetros Fórmulas para el cálculo de los coeficientes de regresión muestral Coeficientes de regresión muestral calculados a partir del ejemplo b1 = 0,16 b0 = 0,76

Regresión lineal simple Contrastes de hipótesis sobre los parámetros Se presenta aquí la ecuación de la recta construida con las estimaciones de los parámetros: Y = 0,76 + 0,16 X Los contrastes de hipótesis, tanto para β0 como para β1 se ponen a prueba mediante un test T. A continuación se presentan las hipótesis nulas y alternativas, así como los estadísticos de las pruebas T, para cada uno de los parámetros estimados.

Regresión lineal simple Contrastes de hipótesis sobre los parámetros H0: β0 = 0 H1: β0 ≠ 0 H0: β1 = 0 H1: β1 ≠ 0

Regresión lineal simple Contrastes de hipótesis sobre los parámetros Los estadísticos aquí calculados se distribuyen como una T con n-2 grados de libertad. En ambos casos, los valores obtenidos para el estadístico T se comparan con el valor de tabla, en función de lo cual se determina el rechazo o no de la H0. Tobs ˃ Ttabla → Rechazo H0 → β0 ≠ 0 De acuerdo al contexto del problema, esta prueba de hipótesis podría carecer de sentido biológico. En este caso, el resultado podría interpretarse de la siguiente manera: aún cuando existan concentraciones prácticamente nulas de N en suelo, las plantas obtendrían nitrógeno proveniente de otras fuentes. H0: β0 = 0 H1: β0 ≠ 0 Tobs= 9,35 Ttabla= 1,81 H0: β1 = 0 H1: β1 ≠ 0 Tobs= 13,94 Ttabla= 1,81 Tobs ˃ Ttabla → Rechazo H0 → β1 ≠ 0 Esto indica que el modelo explica una parte significativa de la variación en Y en función de las variaciones en X.

Evaluación de la regresión

Residual (NO explicada) Evaluación de la regresión Para evaluar el valor predictivo del modelo se calcula el coeficiente de determinación, R2. Se analizarán también los residuos obtenidos durante el análisis con el objetivo de corroborar el cumplimiento de los supuestos del modelo. El resultado del análisis de regresión puede expresarse mediante una tabla de ANAVA (Análisis de la Varianza). Se observa que la variación total en Y (SCT) puede descomponerse en la variación de los datos explicada por la regresión (SCβ) más la variación no explicada o residual (SCR). Si la variación explicada es sustancialmente mayor que la variación no explicada, el modelo propuesto será bueno para fines predictivos. Fuente de Variación Suma de Cuadrados Grados de Libertad Cuadrado Medio F Debida a β (explicada) SCβ 1 CMβ CMβ CMR Residual (NO explicada) SCR n-2 CMR   Total SCT n-1

yi F SCβ 1 CMβ SCR n-2 CMR SCT n-1 Variabilidad total Variabilidad explicada por el modelo = Variabilidad no explicada Fuente de Variación Suma de Cuadrados Grados de Libertad Cuadrado Medio F Debida a β (explicada) SCβ 1 CMβ CMβ CMR Residual (NO explicada) SCR n-2 CMR   Total SCT n-1

Fobs ˃ Ftabla → Rechazo H0 → ρ2 ˃ 0 Evaluación de la regresión Coeficiente de determinación R2 Una medida de la capacidad predictiva del modelo es el coeficiente de determinación R2, que relaciona la variación explicada por el modelo (SCβ) con la variación total (SCT). Este coeficiente se calcula entonces como un cociente:  Este coeficiente es a su vez el estimador muestral del parámetro ρ2. El contraste de hipótesis para evaluar la bondad de ajuste del modelo se resuelve mediante un estadístico de distribución F, ya que se trata de un cociente entre dos varianzas (las que a su vez tienen distribución χ2). SCβ: suma de cuadrados de la regresión, representa la variabilidad explicada por el modelo. SCT: suma de cuadrados total, representa la variabilidad total. 𝑹 𝟐 = 𝑺𝑪𝛽 𝑺𝑪𝑻 = 0,95 H0: ρ2 = 0 H1: ρ2 ˃ 0 Fobs ˃ Ftabla → Rechazo H0 → ρ2 ˃ 0 Esto indica que una gran proporción (95%) de la variabilidad total es explicada por el modelo. Fobs= 194,32 Ftabla= 4,84

Evaluación de la regresión Análisis de los residuos Es necesario tener en cuenta que las pruebas de bondad de ajuste sólo son válidas si se cumplen los supuestos del modelo de regresión: La esperanza de la distribución de los errores es cero La varianza de la distribución de los errores es constante Los errores son variables aleatorias normales e independientes Recordemos el modelo Estos supuestos, referidos al término de error εi , pueden resumirse de la siguiente forma: Para comprobarlos es necesario estudiar los residuos obtenidos al realizar el análisis de regresión, una vez ajustada la recta a los datos observados.

Evaluación de la regresión Análisis de los residuos Los supuestos para los errores pueden evaluarse mediante interpretaciones gráficas. Verificar la distribución normal de los errores: Q-Q plot Verificar la homogeneidad de varianzas: residuos vs. predichos Verificar la independencia de los errores: residuos vs. orden de observación de los datos

Volvamos al ejemplo

X: Nitrógeno en el suelo (ppm) Y: Nitrógeno por planta (ppm) Ejemplo de aplicación Se estudió la relación que hay entre la cantidad de nitrógeno en el suelo (X) y la cantidad de nitrógeno en la planta (Y). Se observa la tabla de datos originales, la recta ajustada en el gráfico de dispersión, el valor de R2 y la ecuación con los valores estimados para β0 y β1. X: Nitrógeno en el suelo (ppm) 4,2 4,5 5 5,5 6,8 6,9 7 7,3 8 9 9,2 9,4 Y: Nitrógeno por planta (ppm) 1,3 1,5 1,6 1,7 1,8 1,9 2 2,1 2,2 2,3

Ejemplo de aplicación Ordenada al origen Se realizó el análisis de regresión lineal utilizando el software estadístico Infostat. Se observa a continuación el resultado arrojado por el software. Estos valores de R2 indica que el modelo tiene gran valor predictivo: un 95% de variación en Y puede ser explicada por la variación en X. Ordenada al origen p-valor para las pruebas de hipótesis de los parámetros del modelo Pendiente

Ejemplo de aplicación p-valor para la prueba de hipótesis del parámetro ρ2 Análisis de los residuos Para verificar la distribución normal de los errores se graficaron los residuos vs. los cuantiles de la distribución normal (gráfico Q-Q plot). Se observa que los puntos se alinean sobre la recta, esto indica que la distribución de los errores es normal.

Ejemplo de aplicación Para verificar la homogeneidad de varianzas se graficaron los valores de los residuos vs. los valores predichos. Se comprueba el supuesto: hay aleatoriedad en la distribución de los puntos e igual cantidad de residuos negativos y positivos. Para verificar la independencia de los errores se graficaron los valores de residuos vs. el orden de observación. También se observa aleatoriedad en la nube de puntos, lo que sugiere ausencia de correlación en la información suministrada.

Conclusiones Se realizó un análisis de regresión lineal simple para detectar la relación existente entre la cantidad de N en el suelo y la cantidad de N en plantas de trigo en ppm, en parcelas de cultivo. Se comprobó el cumplimiento de los supuestos relativos a los errores del modelo, analizando los residuos obtenidos. El valor de R2 obtenido indica que el modelo posee alto valor predictivo, donde el 95% de la variación de Y = nitrógeno en planta puede ser explicado por la variación en X = nitrógeno en suelo. Finalmente, para realizar predicciones dentro del sistema estudiado, puede utilizarse la ecuación de la recta obtenida en el presente análisis, considerando que las predicciones sólo serán válidas dentro del rango de valores en estudio.