Regresión y Correlación

Regresión y Correlación

Contenido Introducción Modelo de regresión lineal
Estimación de la regresión Coeficiente de correlación

Objetivos Introducir el concepto de modelos estadísticos
Describir las características y propiedades del modelo de regresión lineal Describir los métodos de estimación y pruebas de hipótesis de la regresión lineal Describir las propiedades y características del coeficiente de correlación

Introducción Entre diferentes características (variables), pueden existir relaciones de tipo matemático. Tal es el caso de la relación entre la estatura y el peso de seres vivos, o del rendimiento y el número de plantas por unidad de área. Estas relaciones no siguen una ecuación matemática exacta, pero se pueden aproximar usando los métodos estadísticos de regresión.

Relaciones entre variables
Una relación se refiere a la correspondencia entre dos o más variables. Los tipos de relaciones entre variables están definidos por dos criterios: La naturaleza de la relación y el patrón (o perfil) de la misma. La naturaleza de la relación: Mientras que todas las relaciones hablan de la correspondencia entre dos variables, hay un tipo especial de relación que expresa que las dos variables no solamente tienen correspondencia, sino que además, una variable causa la otra.

Naturaleza de las relaciones entre variables
Existe una distinción importante entre una relación funcional o percibida y una relación causal. Una relación funcional dice simplemente que dos cosas ocurren de manera sincronizada. Por ejemplo, se puede hablar de una relación funcional entre proteína de un alimento y otros componentes como agua, carbohidratos, grasas o cenizas. Cuando cambia el contenido de proteína, alguno de los otros componentes puede cambiar.

Naturaleza de las relaciones entre variables
Una relación causal es aquella donde el cambio de una variable ocasiona el cambios de otra u otras variables asociadas a la primera. Esta relación puede ser de antecedente-consecuente o de causa-efecto.

Ejercicio Describa algunas variables en su área de conocimientos que estén relacionadas. Defina si la relación es causal o meramente funcional.

Forma de las relaciones entre variables
Patrones de relaciones Existen diversos tipos de patrones que describen una relación entre variables. El primero es la falta de relación entre las variables. Si se conocen los valores en una variable, no se pueden deducir los valores en la otra. Por ejemplo, no se espera encontrar una relación entre la altura de los árboles en la Unison y el promedio de calificaciones de los alumnos de este grupo. Si se conoce el promedio de calificaciones, no se puede predecir la altura de los árboles en cuestión, o viceversa.

En segundo lugar, está la relación positiva. En una relación positiva, los valores altos en una variable se asocian a valores altos en la otra y los valores bajos en una se asocian a valores bajos en la otra. Por otra parte, una relación negativa implica que los valores altos en una variable están asociados a valores bajos en la otra. Esto también a veces se llama una relación inversa.

Años de Escolaridad Salario Ejercicio físico Presión Arterial Relación Positiva Relación Negativa

El patrón de una relación puede ser más complejo. En este ejemplo, el eje horizontal representa la dosis de una medicina para una enfermedad y el eje vertical representa una medición de la severidad de la enfermedad. Mientras que se eleva la dosis, la severidad de la enfermedad baja. Pero en un cierto punto, el paciente comienza a experimentar los efectos secundarios negativos asociados a una dosis demasiado alta, y la severidad de la enfermedad comienza a aumentar otra vez. Dosis Severidad de enfermedad

Introducción En estadística, se llama modelo lineal a una ecuación algebraica que tiene como variable dependiente (Y), la característica observada, la cual es aleatoria; y como variables independientes (V, W, X, etc.), se consideran todas aquellas características que se relacionan con la variable dependiente Y en forma lineal.

Introducción Los modelos lineales se escriben como:

Ejemplo En un estudio de la relación entre tiempo de cocción y textura de carne de res, se obtuvo una muestra de 7 pares de valores de tiempos de cocción y textura, los cuales pueden ser observados en el gráfico de dispersión de la figura. TIEMPO DE COCCION T E X U R A 320 380 440 500 560 620 680 7 8 9 10 11 12

Ejemplo (Cont.) Yi =  + ßX + i
Supongamos que el modelo de relación planteado entre textura de carne y tiempo de cocción es Yi =  + ßX + i Donde Yi = Textura de carne, Xi = Tiempo de Cocción en horas,  es la ordenada en el origen, ß es la pendiente de la recta, y i es el error aleatorio de cada observación de textura de carne (Yi ).

Textura =  + ß*(Tiempo de cocción)
Ejemplo (Cont.) Si la relación fuera perfecta, conociendo  y ß, y estableciendo un tiempo de cocción, se podría calcular la textura de la carne con ls ecuación: Textura =  + ß*(Tiempo de cocción) En la realidad sabemos que esto no es posible, ya que la textura de la carne puede variar con otros factores además del tiempo de cocción.

¿Cuándo se aplica la regresión?
Existen diferentes razones para realizar el análisis de regresión. Las que se mencionan a continuación son las más frecuentes en las ciencias de los alimentos. Cuando se quiere conocer la forma de la relación entre una variable aleatoria (la dependiente, Y) y una variable no aleatoria (la independiente, X). Cuando se quiere predecir Y a través de X. Cuando se quiere examinar el comportamiento de Y en un rango de valores de X.

Modelo de regresion lineal
El modelo de regresión lineal es un caso particular de los modelos estadísticos lineales en el que se presenta la relación de una variable aleatoria con otras variables en forma de ecuación lineal. El modelo de regresión lineal simple se representa por la ecuación: Yi =  + Xi + i, i=1,2,...,n Donde Yi es la variable aleatoria respuesta, Xi es una variable no aleatoria,  y  son los parámetros del modelo, y i es el error aleatorio del modelo, el cual es independiente para cada observación.

Regresión lineal simple
Los métodos de estimación de la regresión lineal simple nos permitirán estimar el modelo que relaciona Y con X, y representar promedialmente ese modelo por medio de una recta. También nos permitirán probar la hipótesis estadística para establecer con un cierto grado de certeza, si la relación supuesta es debida al azar, o es real. Además, estos métodos nos permiten predecir valores de Y de una nueva muestra, cuando conocemos el valor de X.

Una de las formas de examinar la asociación entre la variable respuesta (Y) y la variable independiente (X), es la de obtener un diagrama de dispersión o gráfica de puntos como la que se ve en la figura. La gráfica a la derecha proviene de un estudio para determinar la relación entre edad de infantes (en meses) y su talla (en cm).

El diagrama de dispersión permite visualizar el tipo de relación que pudiera presentarse entre X y Y. En esta gráfica se observa que cambiando la escala del eje de las Y, se puede ver en forma más clara que la tendencia lineal se distorsiona para las edades altas (de 15 meses en adelante)

Suposiciones básicas del modelo de regresión
Las suposiciones básicas que se deben hacer para realizar el análisis de regresión incluyen las siguientes: Hay una relación lineal entre X y Y como la expresada en el modelo: Yi =  + Xi + i Los errores i son aleatorios e independientes con media igual a 0 y varianza 2

Suposiciones básicas del modelo de regresión
Los valores de X son medidos sin error. Para pruebas de hipótesis sobre parámetros del modelo se debe suponer además, que los errores i tienen distribución N (0, s2). Esto último implica que la variable dependiente Y debe de tener una distribución aproximadamente normal.

Estimación de regresión lineal simple
La recta estimada con las observaciones de una muestra al azar de n pares de valores de xi y yi, se representa como: Donde ={XiYi ‑ [(Xi)(Yi)/n]} / [(Xi ‑ X)2] = =SPXY/ SCXX SPXY = XiYi ‑ [(Xi)( Yi)/n] SCXX = Xi2 ‑[(Xi)2/n] y SCYY = Yi2 ‑[(Yi)2 /n]

s2= { SCYY ‑ [ (SPXY)2 / SCXX]} / (n‑2)
Estimación de regresión lineal simple La varianza estimada de las desviaciones del modelo (llamada Varianza del Error) es: O escrito de otro modo: s2= { SCYY ‑ [ (SPXY)2 / SCXX]} / (n‑2)

Con el estimador de la varianza del error de regresión (s2), se pueden obtener intervalos de confianza para la recta de regresión y para los parámetros  y . Además, se pueden hacer pruebas de hipótesis para los parámetros  y .

La prueba de hipótesis Ho: =0 vs. Ha: 0 es una prueba de hipótesis sobre la existencia real de la regresión entre X y Y. Si =0, entonces para cualquier valor de X, el resultado dará 0, y Y será igual a (+i) evidenciando que no tiene relación con X.

El estadístico de prueba para la hipótesis antedicha es: donde La regla de decisión será: Si , se rechaza la hipótesis H0 de que no existe regresión.

Prueba de hipótesis de la regresión lineal
Hipótesis estadística Ho: =0 vs. Ha: 0 Fijar el nivel de significancia de la prueba (α), o usar el valor de p (Probabilidad de que el estadístico sea mayor que el valor calculado) Datos: n (número de observaciones), Estadístico de Prueba: Regla de decisión: Se rechaza la hipótesis nula H0 si:

Coeficiente de determinación (R2)
El valor de R2 es una estimación de la contribución relativa de la regresión de Y con X, a la variación que ocurre en Y. Este valor se calcula como: R2 = {(SPXY)2  SCXX}  SCYY = R2, llamado el coeficiente de determinación, es un número que varía entre 0 y 1. Se dice que la regresión entre X y Y explica el R2100 % de la variación observada en Y. Este valor nos da una idea de cuanto está explicando la variación que hay en la variable dependiente Y, la asociación o regresión con X.

Resumen de estimaciones en regresión lineal simple
Ecuación de la regresión Coeficiente de determinación Varianza del error Desviación estándar del error Gráfico de regresión con: Diagrama de dispersión Recta estimada de la regresión

Cálculos para la estimación de la regresión lineal simple
Para estimar la regresión se forma el siguiente cuadro, el cual permitirá calcular todos los estadísticos necesarios X Y XY X2 Y2 10 500 5000 100 250000 9 550 4950 81 302500 11 425 4675 121 180625 8 4400 64 450 4500 202500 12 350 4200 144 122500 7 625 4375 49 390625 Suma=67 Suma=3450 Suma=32500 Suma=659 Suma=

Estimación de la regresión lineal simple
Los estadísticos de la muestra son: n = 7  Xi = 67  Yi = 3450  Xi2 = 659  Yi2 = 1,751,250  XiYi = 32,100 Las Sumas de Cuadrados para calcular los estimadores y la varianza del error son: SCYY = 1,751,350 – [(3450)2/7]= 50,892.86 SCReg = [( )2]/17.71 = 47,940.75 SCError= 2,

Los estimadores de los parámetros del modelo de regresión son: b(Est) = SPXY/SCXX = [32,100 - (67*3450/7)]/ [659-(672/7)] = /17.71 = a (Est) = 3450/7 - (-52.03*67/7) = Es así, que la recta estimada será: Yi = ‑ 52.02(Xi); donde i=1,2,....7

TIEMPO DE COCCION(HORAS) 300 350 400 450 500 550 600 700 Linea de Regresión Valores Observados Intervalo de Confianza de 95% Textura = – x Tiempo TEXTURA DE CARNE Gráfico de regresión

Uso del Excel para regresión
Los datos presentados son de un estudio sobre el efecto de la temperatura en el consumo de oxígeno de cierta especie animal. Este es un experimento con 8 observaciones realizadas a diferentes temperaturas, y para cada una de ellas se mide el consumo de oxígeno. Muestra Temperatura Oxígeno 1 -18 5.2 2 -15 4.7 3 -10 4.5 4 -5 3.6 5 3.4 6 3.1 7 10 2.7 8 19 1.8

Uso del Excel para regresión lineal simple
En el menú de herramientas, y submenú de Análisis de datos, está la opción de regresión. En la ventana activa debe llenar el rango de la columna de los valores de Y (Oxígeno) y de los valores de X (Temperatura). Además, podrá escoger varias opciones gráficas que aparecen en la ventana y que serán explicadas durante los ejercicios.

Ejercicio Usando el Excel, introduzca los datos del ejemplo anterior y realice el análisis de regresión. Lea e interprete los resultados, resumiendo éstos en un archivo de Word.

Ajuste de regresión usando JMP
Datos en JMP y cálculo de regresión lineal usando el menú “Fit Y by X”

Resultados del ajuste de una regresión lineal simple usando el menú “Fit Y by X”

Linear Fit OXIGENO = TEMPERATURA Summary of Fit Ecuación de la regresión Resumen del modelo: Valores de R2, R2 ajustado, Desviación Estándar del Error, Promedio de los valores de Y, y número de observaciones (n). RSquare RSquare Adj Root Mean Square Error Mean of Response 3.625 Observations (or Sum Wgts) 8 Analysis of Variance ANDEVA: Fuentes, Grados de libertad, Suma de cuadrados, Cuadrados medios y Valores de F con su probabilidad (valor p). Source DF Sum of Squares Mean Square F Ratio Model 1 Error 6 Prob > F C. Total 7 <.0001 Parameter Estimates Parámetro, Estimación, Desv. Estándar, Valor de t y su probabilidad. Term Estimate Std Error t Ratio Prob>|t| Intercept 57.74 <.0001 TEMPERATURA -17.58

Ajuste de otros modelos de regresión usando JMP
Ejemplo del JMP que se verá en clase.

Ejercicio Usando el JMP, introduzca los datos del ejemplo anterior y realice el análisis de regresión. Lea e interprete los resultados, resumiendo éstos en un archivo de Word. Compare los resultados con los obtenidos en Excel.

Uso de Infostat para regresión
Para realizar regresiones en el Infostat se puede importar el archivo de Excel (las columnas deben estar debidamente formateadas, para no tener problemas con los datos). Una vez introducidos los datos se va al menú de análisis estadístico y se escoge “Regresión lineal”. Aparecerá una ventana donde se le pide que escoja la variable dependiente (Y), y el regresor o regresores (X) (variable independiente).

Uso de Infostat para regresión
Al finalizar con la pantalla anterior aparecerá otra donde se ofrecen una gran cantidad de opciones, las cuales se explicarán en el transcurso de los ejercicios. La salida contiene varias pantallas que se pueden guardar en forma independiente.

Evaluación de ajuste del modelo
Para evaluar el ajuste de un modelo de regresión lineal se pueden usar varios criterios: Los resultados de la prueba de F del análisis de varianza de la regresión. La desviación estándar del error de la regresión El gráfico de las desviaciones de los valores estimados de Y con respecto a los valores observados: versus los valores de X. El análisis de la bondad de ajuste del modelo (cuando se tiene más de un valor de Y para cada X).

Evaluación de ajuste del modelo
Un buen ajuste del modelo de regresión producirá un gráfico de las desviaciones como el que se muestra en la figura. Las desviaciones se distribuyen al azar para los valores de X. Recordar que la suma de las desviaciones es igual a 0.

Dispersión de las desviaciones de la regresión lineal (i) con respecto a la variable independiente (X). o Var. Independiente (X) Desviaciones () +1 O -1 Var. Independiente (X=Tiempo) A B C D G F E H

Coeficiente de correlación
El coeficiente de correlación es un número que sirve para medir en forma relativa el grado de asociación lineal entre dos variables (X y Y). El valor del coeficiente de correlación puede variar entre -1 y 1. Cuando el valor del coeficiente de correlación es negativo, esto indica una asociación lineal inversa entre X y Y, esto es, cuando X sube Y baja. Los valores de correlación cercanos a -1 o a 1, indican una fuerte asociación lineal entre X y Y. Los valores de correlación cercanos a 0 indican falta de asociación lineal entre X y Y.

Cuando las variables X y Y tienen distribución aproximadamente normal, y existe una asociación lineal entre ellas, el coeficiente de correlación () es un parámetro de la distribución bivariada normal. Si las variables X o Y no tienen distribución aproximadamente normal, o no hay suficientes observaciones como para suponer que se distribuyen normalmente, lo adecuado será recurrir a la estimación no paramétrica de correlación, como es la correlación de Kendall () y la de Spearman ().

Si se toma una muestra aleatoria de pares de valores (xi,yi), se podrá estimar el parámetro , mediante el coeficiente de correlación de la muestra (r) llamado coeficiente de correlación de Pearson , el cual es:

Ejemplo En este ejemplo nos interesa conocer si los cambios en contenido de trimetilamina en pescado congelado, están de algún modo asociados a los cambios en pH. Para calcular el coeficiente de correlación de estas dos variables aleatorias, se usa un cuadro similar al usado para regresión. n=27  Xi =38.42  Yi =  XiYi =  Xi2 = 87.05  Yi2 =897.85 Con estos datos el coeficiente de correlación entre trimetilamina y pH es r= 0.87.

Consideraciones sobre la correlación
Interesa conocer el valor del coeficiente de correlación cuando: Existe una explicación para la asociación entre X y Y. Por deducción científica, o es una relación funcional (participan en un mismo proceso), o cuando son componentes de un organismo biológico, o se presume una relación por razones científicas publicadas con anterioridad. Los valores de X y Y son ambas variables aleatorias. La relación entre X y Y es lineal.

Un uso incorrecto del coeficiente de correlación ocurre cuando éste se emplea para detectar causas o efectos entre dos variables, cuando éstas causas o efectos no tienen una explicación científica bien definida y aceptada por los especialistas en la materia. Por último se debe tomar en cuenta que el coeficiente de correlación es sensible a la variación que ocurre tanto en Y como en X. Cuando los datos están muy dispersos el coeficiente de correlación baja, aunque la pendiente de la recta de regresión se vea bien definida.

Resumen Modelo de regresión Modelo de regresión lineal
Ecuación de la recta Estimación de la regresión Coeficiente de correlación

Regresión y Correlación

Presentaciones similares

Presentación del tema: "Regresión y Correlación"— Transcripción de la presentación:

Presentaciones similares

Sobre el proyecto

Feedback

Iniciar la sesión

Autorizarse a través de una red social:

Regresión y Correlación

Presentaciones similares

Presentación del tema: "Regresión y Correlación"— Transcripción de la presentación:

Presentaciones similares

Sobre el proyecto

Feedback