Regresión y Correlación

Slides:



Advertisements
Presentaciones similares
DISEÑO DE EXPERIMENTOS EXPERIMENTOS DE COMPARACIÓN SIMPLE
Advertisements

MSP César Eduardo Luna Gurrola
ANALISIS PARAMÉTRICOS
Tema 6: Regresión lineal.
REGRESION Y CORRELACION
Regresión lineal simple
REGRESION LINEAL SIMPLE
ESTADISTICA INFERENCIAL
Modelos de Variable Dependiente Binaria -Logit y Probit-
ESTRATEGIAS Y DISEÑOS AVANZADOS DE INVESTIGACIÓN SOCIAL
Ingeniería Industrial II CicloEducativo 2011
KRIGING.
REGRESION Y CORRELACION LINEALES. REGRESION LINEAL SIMPLE Finalidad Estimar los valores de y (variable dependiente) a partir de los valores de x (variable.
MANUAL DE LABORATORIO DE CÓMPUTO ECONOMETRÍA I MULTICOLINEALIDAD
ESTRATEGIAS Y DISEÑOS AVANZADOS DE INVESTIGACIÓN SOCIAL
Econometria 2. Modelo de Regresión Lineal Simple
Regresión y correlación
Estadística Descriptiva: 4. Correlación y Regresión Lineal
بسم الله الرحمن الرحيم.
Regresión lineal Es un modelo matemático para predecir el efecto de una variable sobre otra, ambas cuantitativas. Una variable es la dependiente y otra.
Regresión Lineal Simple
1º BACHILLERATO | Matemáticas © Oxford University Press España, S.A Hacer clic en la pantalla para avanzar VARIABLE ESTADÍSTICA UNIDIMENSIONAL Población:
9 Regresión Lineal Simple
Regresión Linear Correlación de Pearson, r Regresión Múltiple Regresión Logística Regresión de Poisson.
MEDIDAS DE DISPERSIÓN:
COMPORTAMIENTO DE LAS DISTRIBUCIONES DE
REGRESION Y CORRELACION
TIPOS DE MODELOS DE REGRESIÓN Y SUPUESTOS PARA EL MODELO A
Módulo 5 Análisis de Regresión y Series de Tiempo.
Pronósticos, Series de Tiempo y Regresión
Pronósticos, Series de Tiempo y Regresión
Mt. Martín Moreyra Navarrete.
Unidad V: Estimación de
Métodos de calibración: regresión y correlación
Titular: Agustín Salvia
Introducción a la Inferencia Estadística
Regresión No- lineal y Múltiple
Estadística bidimensional
Clase 4a Significancia Estadística y Prueba Z
Inferencia Estadística
LA RECTA DE REGRESIÓN CONTENIDOS:
Primerasdefiniciones y conceptos de la regresión El análisis de la regresión es una técnica estadística que se utiliza para estudiar la relación entre.
Variables estadísticas bidimensionales
Regresión lineal múltiple
SEMINARIO DE INVESTIGACION Titular: Agustín Salvia
1 Y MODELO DE REGRESIÓN SIMPLE Suponemos que una variable Y es una función lineal de otra variable X, con parámetros desconocidos  1 y  2 que queremos.
Estadística II Regresión Lineal.
Análisis de los Datos Cuantitativos
Regresión Lineal Simple
Aplicaciones Estadísticas a las Finanzas Clase 1
Variables estadísticas bidimensionales
CORRELACIÓN Y REGRESIÓN EMPLEANDO EXCEL
Correlación Decimos que dos variables, X e Y, están correlacionadas cuando hay una relación cuantitativa entre ellas. X suele ser la variable independiente.
Construcción de modelos con regresión y correlación
Ejercicios Dado un conjunto de datos, aplicar el Criterio de Fourier para desechar los posibles valores atípicos.
Variables estadísticas bidimensionales
Distribuciones de Probabilidad
Regresión lineal simple Nazira Calleja
ANÁLISIS DE LA INFORMACIÓN La relación entre variables.
TEMA : ANALISIS DE REGRESION
Germán Fromm R. 1. Objetivo Entender los diseños metodológicos predictivos 2.
Clase 17 Introducción a la Estadística Universidad de la República Centro Universitario Regional del Este Pablo Inchausti Licenciatura en Gestión Ambiental.
REGRESIÓN LINEAL SIMPLE
REGRESIÓN LINEAL SIMPLE. Temas Introducción Análisis de regresión (Ejemplo aplicado) La ecuación de una recta Modelo estadístico y suposiciones Estimación.
ESTADISTICA DESCRIPTIVA BIVARIADA MEDIDAS DE RELACIÓN ENTRE VARIABLES CUANTITATIVAS.
Introducción a la Estadística Inferencial con SPSS Juan José Igartua Perosanz Universidad de Salamanca
REGRESIÓN LINEAL SIMPLE TEMA INTRODUCCIÓN Determinar la ecuación de regresión sirve para: – Describir de manera concisa la relación entre variables.
1 ANÁLISIS DE CORRELACIÓN, REGRESIÓN Y CONTRASTE.
METODO DEL PUNTO ALTO Y DEL PUNTO BAJO
M.E. ADA PAULINA MORA GONZALEZ. Esta parte describe las técnicas para ajustar curvas en base a datos para estimaciones intermedias. Una manera de hacerlo.
Transcripción de la presentación:

Regresión y Correlación

Contenido Introducción Modelo de regresión lineal Estimación de la regresión Coeficiente de correlación

Objetivos Introducir el concepto de modelos estadísticos Describir las características y propiedades del modelo de regresión lineal Describir los métodos de estimación y pruebas de hipótesis de la regresión lineal Describir las propiedades y características del coeficiente de correlación

Introducción Entre diferentes características (variables), pueden existir relaciones de tipo matemático. Tal es el caso de la relación entre la estatura y el peso de seres vivos, o del rendimiento y el número de plantas por unidad de área. Estas relaciones no siguen una ecuación matemática exacta, pero se pueden aproximar usando los métodos estadísticos de regresión.

Relaciones entre variables Una relación se refiere a la correspondencia entre dos o más variables. Los tipos de relaciones entre variables están definidos por dos criterios: La naturaleza de la relación y el patrón (o perfil) de la misma. La naturaleza de la relación: Mientras que todas las relaciones hablan de la correspondencia entre dos variables, hay un tipo especial de relación que expresa que las dos variables no solamente tienen correspondencia, sino que además, una variable causa la otra.

Naturaleza de las relaciones entre variables Existe una distinción importante entre una relación funcional o percibida y una relación causal. Una relación funcional dice simplemente que dos cosas ocurren de manera sincronizada. Por ejemplo, se puede hablar de una relación funcional entre proteína de un alimento y otros componentes como agua, carbohidratos, grasas o cenizas. Cuando cambia el contenido de proteína, alguno de los otros componentes puede cambiar.

Naturaleza de las relaciones entre variables Una relación causal es aquella donde el cambio de una variable ocasiona el cambios de otra u otras variables asociadas a la primera. Esta relación puede ser de antecedente-consecuente o de causa-efecto.

Ejercicio Describa algunas variables en su área de conocimientos que estén relacionadas. Defina si la relación es causal o meramente funcional.

Forma de las relaciones entre variables Patrones de relaciones Existen diversos tipos de patrones que describen una relación entre variables. El primero es la falta de relación entre las variables. Si se conocen los valores en una variable, no se pueden deducir los valores en la otra. Por ejemplo, no se espera encontrar una relación entre la altura de los árboles en la Unison y el promedio de calificaciones de los alumnos de este grupo. Si se conoce el promedio de calificaciones, no se puede predecir la altura de los árboles en cuestión, o viceversa.

Forma de las relaciones entre variables En segundo lugar, está la relación positiva. En una relación positiva, los valores altos en una variable se asocian a valores altos en la otra y los valores bajos en una se asocian a valores bajos en la otra. Por otra parte, una relación negativa implica que los valores altos en una variable están asociados a valores bajos en la otra. Esto también a veces se llama una relación inversa.

Forma de las relaciones entre variables Años de Escolaridad Salario Ejercicio físico Presión Arterial Relación Positiva Relación Negativa

Forma de las relaciones entre variables El patrón de una relación puede ser más complejo. En este ejemplo, el eje horizontal representa la dosis de una medicina para una enfermedad y el eje vertical representa una medición de la severidad de la enfermedad. Mientras que se eleva la dosis, la severidad de la enfermedad baja. Pero en un cierto punto, el paciente comienza a experimentar los efectos secundarios negativos asociados a una dosis demasiado alta, y la severidad de la enfermedad comienza a aumentar otra vez. Dosis Severidad de enfermedad

Introducción En estadística, se llama modelo lineal a una ecuación algebraica que tiene como variable dependiente (Y), la característica observada, la cual es aleatoria; y como variables independientes (V, W, X, etc.), se consideran todas aquellas características que se relacionan con la variable dependiente Y en forma lineal.

Introducción Los modelos lineales se escriben como:

Ejemplo En un estudio de la relación entre tiempo de cocción y textura de carne de res, se obtuvo una muestra de 7 pares de valores de tiempos de cocción y textura, los cuales pueden ser observados en el gráfico de dispersión de la figura. TIEMPO DE COCCION T E X U R A 320 380 440 500 560 620 680 7 8 9 10 11 12

Ejemplo (Cont.) Yi =  + ßX + i Supongamos que el modelo de relación planteado entre textura de carne y tiempo de cocción es Yi =  + ßX + i Donde Yi = Textura de carne, Xi = Tiempo de Cocción en horas,  es la ordenada en el origen, ß es la pendiente de la recta, y i es el error aleatorio de cada observación de textura de carne (Yi ).

Textura =  + ß*(Tiempo de cocción) Ejemplo (Cont.) Si la relación fuera perfecta, conociendo  y ß, y estableciendo un tiempo de cocción, se podría calcular la textura de la carne con ls ecuación: Textura =  + ß*(Tiempo de cocción) En la realidad sabemos que esto no es posible, ya que la textura de la carne puede variar con otros factores además del tiempo de cocción.

¿Cuándo se aplica la regresión? Existen diferentes razones para realizar el análisis de regresión. Las que se mencionan a continuación son las más frecuentes en las ciencias de los alimentos. Cuando se quiere conocer la forma de la relación entre una variable aleatoria (la dependiente, Y) y una variable no aleatoria (la independiente, X). Cuando se quiere predecir Y a través de X. Cuando se quiere examinar el comportamiento de Y en un rango de valores de X.

Modelo de regresion lineal El modelo de regresión lineal es un caso particular de los modelos estadísticos lineales en el que se presenta la relación de una variable aleatoria con otras variables en forma de ecuación lineal. El modelo de regresión lineal simple se representa por la ecuación: Yi =  + Xi + i, i=1,2,...,n Donde Yi es la variable aleatoria respuesta, Xi es una variable no aleatoria,  y  son los parámetros del modelo, y i es el error aleatorio del modelo, el cual es independiente para cada observación.

Regresión lineal simple Los métodos de estimación de la regresión lineal simple nos permitirán estimar el modelo que relaciona Y con X, y representar promedialmente ese modelo por medio de una recta. También nos permitirán probar la hipótesis estadística para establecer con un cierto grado de certeza, si la relación supuesta es debida al azar, o es real. Además, estos métodos nos permiten predecir valores de Y de una nueva muestra, cuando conocemos el valor de X.

Regresión lineal simple Una de las formas de examinar la asociación entre la variable respuesta (Y) y la variable independiente (X), es la de obtener un diagrama de dispersión o gráfica de puntos como la que se ve en la figura. La gráfica a la derecha proviene de un estudio para determinar la relación entre edad de infantes (en meses) y su talla (en cm).

Regresión lineal simple El diagrama de dispersión permite visualizar el tipo de relación que pudiera presentarse entre X y Y. En esta gráfica se observa que cambiando la escala del eje de las Y, se puede ver en forma más clara que la tendencia lineal se distorsiona para las edades altas (de 15 meses en adelante)

Suposiciones básicas del modelo de regresión Las suposiciones básicas que se deben hacer para realizar el análisis de regresión incluyen las siguientes: Hay una relación lineal entre X y Y como la expresada en el modelo: Yi =  + Xi + i Los errores i son aleatorios e independientes con media igual a 0 y varianza 2

Suposiciones básicas del modelo de regresión Los valores de X son medidos sin error. Para pruebas de hipótesis sobre parámetros del modelo se debe suponer además, que los errores i tienen distribución N (0, s2). Esto último implica que la variable dependiente Y debe de tener una distribución aproximadamente normal.

Estimación de regresión lineal simple La recta estimada con las observaciones de una muestra al azar de n pares de valores de xi y yi, se representa como: Donde ={XiYi ‑ [(Xi)(Yi)/n]} / [(Xi ‑ X)2] = =SPXY/ SCXX SPXY = XiYi ‑ [(Xi)( Yi)/n] SCXX = Xi2 ‑[(Xi)2/n] y SCYY = Yi2 ‑[(Yi)2 /n]

s2= { SCYY ‑ [ (SPXY)2 / SCXX]} / (n‑2) Estimación de regresión lineal simple La varianza estimada de las desviaciones del modelo (llamada Varianza del Error) es: O escrito de otro modo: s2= { SCYY ‑ [ (SPXY)2 / SCXX]} / (n‑2)

Estimación de regresión lineal simple Con el estimador de la varianza del error de regresión (s2), se pueden obtener intervalos de confianza para la recta de regresión y para los parámetros  y . Además, se pueden hacer pruebas de hipótesis para los parámetros  y .

Estimación de regresión lineal simple La prueba de hipótesis Ho: =0 vs. Ha: 0 es una prueba de hipótesis sobre la existencia real de la regresión entre X y Y. Si =0, entonces para cualquier valor de X, el resultado dará 0, y Y será igual a (+i) evidenciando que no tiene relación con X.

Estimación de regresión lineal simple El estadístico de prueba para la hipótesis antedicha es: donde La regla de decisión será: Si , se rechaza la hipótesis H0 de que no existe regresión.

Prueba de hipótesis de la regresión lineal Hipótesis estadística Ho: =0 vs. Ha: 0 Fijar el nivel de significancia de la prueba (α), o usar el valor de p (Probabilidad de que el estadístico sea mayor que el valor calculado) Datos: n (número de observaciones), Estadístico de Prueba: Regla de decisión: Se rechaza la hipótesis nula H0 si:

Coeficiente de determinación (R2) El valor de R2 es una estimación de la contribución relativa de la regresión de Y con X, a la variación que ocurre en Y. Este valor se calcula como: R2 = {(SPXY)2  SCXX}  SCYY = R2, llamado el coeficiente de determinación, es un número que varía entre 0 y 1. Se dice que la regresión entre X y Y explica el R2100 % de la variación observada en Y. Este valor nos da una idea de cuanto está explicando la variación que hay en la variable dependiente Y, la asociación o regresión con X.

Resumen de estimaciones en regresión lineal simple Ecuación de la regresión Coeficiente de determinación Varianza del error Desviación estándar del error Gráfico de regresión con: Diagrama de dispersión Recta estimada de la regresión

Cálculos para la estimación de la regresión lineal simple Para estimar la regresión se forma el siguiente cuadro, el cual permitirá calcular todos los estadísticos necesarios X Y XY X2 Y2 10 500 5000 100 250000 9 550 4950 81 302500 11 425 4675 121 180625 8 4400 64 450 4500 202500 12 350 4200 144 122500 7 625 4375 49 390625 Suma=67 Suma=3450 Suma=32500 Suma=659 Suma=1751250

Estimación de la regresión lineal simple Los estadísticos de la muestra son: n = 7  Xi = 67  Yi = 3450  Xi2 = 659  Yi2 = 1,751,250  XiYi = 32,100 Las Sumas de Cuadrados para calcular los estimadores y la varianza del error son: SCYY = 1,751,350 – [(3450)2/7]= 50,892.86 SCReg = [(-921.43)2]/17.71 = 47,940.75 SCError= 2, 952.11

Estimación de la regresión lineal simple Los estimadores de los parámetros del modelo de regresión son: b(Est) = SPXY/SCXX = [32,100 - (67*3450/7)]/ [659-(672/7)] = -921.43/17.71 = -52.03 a (Est) = 3450/7 - (-52.03*67/7) = 990.85 Es así, que la recta estimada será: Yi = 990.85 ‑ 52.02(Xi); donde i=1,2,....7

Estimación de la regresión lineal simple TIEMPO DE COCCION(HORAS) 300 350 400 450 500 550 600 700 Linea de Regresión Valores Observados Intervalo de Confianza de 95% Textura = 990.73 – 52.02 x Tiempo TEXTURA DE CARNE Gráfico de regresión

Uso del Excel para regresión Los datos presentados son de un estudio sobre el efecto de la temperatura en el consumo de oxígeno de cierta especie animal. Este es un experimento con 8 observaciones realizadas a diferentes temperaturas, y para cada una de ellas se mide el consumo de oxígeno. Muestra Temperatura Oxígeno 1 -18 5.2 2 -15 4.7 3 -10 4.5 4 -5 3.6 5 3.4 6 3.1 7 10 2.7 8 19 1.8

Uso del Excel para regresión lineal simple En el menú de herramientas, y submenú de Análisis de datos, está la opción de regresión. En la ventana activa debe llenar el rango de la columna de los valores de Y (Oxígeno) y de los valores de X (Temperatura). Además, podrá escoger varias opciones gráficas que aparecen en la ventana y que serán explicadas durante los ejercicios.

Ejercicio Usando el Excel, introduzca los datos del ejemplo anterior y realice el análisis de regresión. Lea e interprete los resultados, resumiendo éstos en un archivo de Word.

Ajuste de regresión usando JMP Datos en JMP y cálculo de regresión lineal usando el menú “Fit Y by X”

Ajuste de regresión usando JMP Resultados del ajuste de una regresión lineal simple usando el menú “Fit Y by X”

Ajuste de regresión usando JMP Linear Fit OXIGENO = 3.4714223 - 0.0877587 TEMPERATURA Summary of Fit Ecuación de la regresión Resumen del modelo: Valores de R2, R2 ajustado, Desviación Estándar del Error, Promedio de los valores de Y, y número de observaciones (n). RSquare 0.980948 RSquare Adj 0.977773 Root Mean Square Error 0.168249 Mean of Response 3.625 Observations (or Sum Wgts) 8 Analysis of Variance ANDEVA: Fuentes, Grados de libertad, Suma de cuadrados, Cuadrados medios y Valores de F con su probabilidad (valor p). Source DF Sum of Squares Mean Square F Ratio Model 1 8.7451541 8.74515 308.9326 Error 6 0.1698459 0.02831 Prob > F C. Total 7 8.9150000 <.0001 Parameter Estimates Parámetro, Estimación, Desv. Estándar, Valor de t y su probabilidad. Term Estimate Std Error t Ratio Prob>|t| Intercept 3.4714223 0.060123 57.74 <.0001 TEMPERATURA -0.087759 0.004993 -17.58

Ajuste de otros modelos de regresión usando JMP Ejemplo del JMP que se verá en clase.

Ejercicio Usando el JMP, introduzca los datos del ejemplo anterior y realice el análisis de regresión. Lea e interprete los resultados, resumiendo éstos en un archivo de Word. Compare los resultados con los obtenidos en Excel.

Uso de Infostat para regresión Para realizar regresiones en el Infostat se puede importar el archivo de Excel (las columnas deben estar debidamente formateadas, para no tener problemas con los datos). Una vez introducidos los datos se va al menú de análisis estadístico y se escoge “Regresión lineal”. Aparecerá una ventana donde se le pide que escoja la variable dependiente (Y), y el regresor o regresores (X) (variable independiente).

Uso de Infostat para regresión Al finalizar con la pantalla anterior aparecerá otra donde se ofrecen una gran cantidad de opciones, las cuales se explicarán en el transcurso de los ejercicios. La salida contiene varias pantallas que se pueden guardar en forma independiente.

Evaluación de ajuste del modelo Para evaluar el ajuste de un modelo de regresión lineal se pueden usar varios criterios: Los resultados de la prueba de F del análisis de varianza de la regresión. La desviación estándar del error de la regresión El gráfico de las desviaciones de los valores estimados de Y con respecto a los valores observados: versus los valores de X. El análisis de la bondad de ajuste del modelo (cuando se tiene más de un valor de Y para cada X).

Evaluación de ajuste del modelo Un buen ajuste del modelo de regresión producirá un gráfico de las desviaciones como el que se muestra en la figura. Las desviaciones se distribuyen al azar para los valores de X. Recordar que la suma de las desviaciones es igual a 0.

Dispersión de las desviaciones de la regresión lineal (i) con respecto a la variable independiente (X). o Var. Independiente (X) Desviaciones () +1 O -1 Var. Independiente (X=Tiempo) A B C D G F E H

Coeficiente de correlación El coeficiente de correlación es un número que sirve para medir en forma relativa el grado de asociación lineal entre dos variables (X y Y). El valor del coeficiente de correlación puede variar entre -1 y 1. Cuando el valor del coeficiente de correlación es negativo, esto indica una asociación lineal inversa entre X y Y, esto es, cuando X sube Y baja. Los valores de correlación cercanos a -1 o a 1, indican una fuerte asociación lineal entre X y Y. Los valores de correlación cercanos a 0 indican falta de asociación lineal entre X y Y.

Coeficiente de correlación Cuando las variables X y Y tienen distribución aproximadamente normal, y existe una asociación lineal entre ellas, el coeficiente de correlación () es un parámetro de la distribución bivariada normal. Si las variables X o Y no tienen distribución aproximadamente normal, o no hay suficientes observaciones como para suponer que se distribuyen normalmente, lo adecuado será recurrir a la estimación no paramétrica de correlación, como es la correlación de Kendall () y la de Spearman ().

Coeficiente de correlación Si se toma una muestra aleatoria de pares de valores (xi,yi), se podrá estimar el parámetro , mediante el coeficiente de correlación de la muestra (r) llamado coeficiente de correlación de Pearson , el cual es:

Ejemplo En este ejemplo nos interesa conocer si los cambios en contenido de trimetilamina en pescado congelado, están de algún modo asociados a los cambios en pH. Para calcular el coeficiente de correlación de estas dos variables aleatorias, se usa un cuadro similar al usado para regresión. n=27  Xi =38.42  Yi = 108.46  XiYi = 262.68  Xi2 = 87.05  Yi2 =897.85 Con estos datos el coeficiente de correlación entre trimetilamina y pH es r= 0.87.

Coeficiente de correlación

Consideraciones sobre la correlación Interesa conocer el valor del coeficiente de correlación cuando: Existe una explicación para la asociación entre X y Y. Por deducción científica, o es una relación funcional (participan en un mismo proceso), o cuando son componentes de un organismo biológico, o se presume una relación por razones científicas publicadas con anterioridad. Los valores de X y Y son ambas variables aleatorias. La relación entre X y Y es lineal.

Consideraciones sobre la correlación Un uso incorrecto del coeficiente de correlación ocurre cuando éste se emplea para detectar causas o efectos entre dos variables, cuando éstas causas o efectos no tienen una explicación científica bien definida y aceptada por los especialistas en la materia. Por último se debe tomar en cuenta que el coeficiente de correlación es sensible a la variación que ocurre tanto en Y como en X. Cuando los datos están muy dispersos el coeficiente de correlación baja, aunque la pendiente de la recta de regresión se vea bien definida.

Consideraciones sobre la correlación

Resumen Modelo de regresión Modelo de regresión lineal Ecuación de la recta Estimación de la regresión Coeficiente de correlación