CORRELACION Y REGRESION LINEAL: Introducción

Slides:



Advertisements
Presentaciones similares
Regresión lineal simple
Advertisements

REGRESION LINEAL SIMPLE
ESTRATEGIAS Y DISEÑOS AVANZADOS DE INVESTIGACIÓN SOCIAL
DERIVADA DE UNA FUNCION REAL
Ingeniería Industrial II CicloEducativo 2011
KRIGING.
REGRESION Y CORRELACION LINEALES. REGRESION LINEAL SIMPLE Finalidad Estimar los valores de y (variable dependiente) a partir de los valores de x (variable.
Covarianza muestral Sean x1, x2, ..., xn e y1, y2, ..., yn dos muestras aleatorias independientes de observaciones de X e Y respectivamente. La covarianza.
Modelado y simulación en Ingeniería Química. Manuel Rodríguez
MODELO DE REGRESIÓN MÚLTIPLE
REGRESION & CORRELACION
ESTRATEGIAS Y DISEÑOS AVANZADOS DE INVESTIGACIÓN SOCIAL
Econometria 2. Modelo de Regresión Lineal Simple
Regresión y correlación
Estadística Descriptiva: 4. Correlación y Regresión Lineal
Tema 1- Regresión lineal simple.
Estadística Descriptiva: 4. Correlación y Regresión Lineal Ricardo Ñanculef Alegría Universidad Técnica Federico Santa María.
Regresión lineal Es un modelo matemático para predecir el efecto de una variable sobre otra, ambas cuantitativas. Una variable es la dependiente y otra.
Regresión Lineal Simple
1º BACHILLERATO | Matemáticas © Oxford University Press España, S.A Hacer clic en la pantalla para avanzar VARIABLE ESTADÍSTICA UNIDIMENSIONAL Población:
9 Regresión Lineal Simple
División de Estudios Políticos, CIDE
MEDIDAS DE DISPERSIÓN:
COMPORTAMIENTO DE LAS DISTRIBUCIONES DE
Facultad: Turismo Y Hotelería
Tests de hipótesis Los tres pasos básicos para testear hipótesis son
REGRESION Y CORRELACION
Prueba para la Bondad de ajuste Validación de Modelo
CORRELACION Y REGRESION LINEAL: Introducción
Pronósticos, Series de Tiempo y Regresión
REGRESION LINEAL III Mario Briones L. MV, MSc 2005.
Elementos Básicos de Probabilidad y Estadística Javier Aparicio División de Estudios Políticos, CIDE Julio 2009
Modelo de regresión con dos variables: Estimación
Unidad V: Estimación de
ESTIMACION En varios pasajes de este libro hemos planteado la dificultad que se confronta en las investigaciones, de llegar a conclusiones sobre una población.
ANALISIS DE FRECUENCIA EN HIDROLOGIA (2)
DISTRIBUCION NORMAL Mario Briones L. MV, MSc 2005.
Métodos de calibración: regresión y correlación
Introducción La inferencia estadística es el procedimiento mediante el cual se llega a inferencias acerca de una población con base en los resultados obtenidos.
Titular: Agustín Salvia
Introducción a la Inferencia Estadística
Inferencia Estadística
Límites y Continuidad.
RELACIÓN ENTRE VARIABLES
Distribuciones de probabilidad bidimensionales o conjuntas
REGRESION LINEAL II Mario Briones L. MV, MSc
coeficientes de correlación de
SEMINARIO DE INVESTIGACION Titular: Agustín Salvia
COMPROBACION DE HIPOTESIS SOBRE DOS PROMEDIOS Mario Briones L. MV, MSc 2005.
Estimación y contraste de hipótesis
Análisis de los Datos Cuantitativos
Regresión Lineal Simple
Método de mínimos cuadrados
Variables estadísticas bidimensionales
CORRELACIÓN Y REGRESIÓN EMPLEANDO EXCEL
Correlación Decimos que dos variables, X e Y, están correlacionadas cuando hay una relación cuantitativa entre ellas. X suele ser la variable independiente.
Construcción de modelos con regresión y correlación
Ejercicios Dado un conjunto de datos, aplicar el Criterio de Fourier para desechar los posibles valores atípicos.
Regresión lineal simple Nazira Calleja
Unidad 4 Análisis de los Datos.
TEMA : ANALISIS DE REGRESION
INFERENCIA ESTADÍSTICA
ECONOMETRIA 2. MODELO LINEAL SIMPLE Hernán Delgadillo Dorado
REGRESIÓN LINEAL SIMPLE
ESTADISTICA DESCRIPTIVA BIVARIADA MEDIDAS DE RELACIÓN ENTRE VARIABLES CUANTITATIVAS.
Licenciatura en Psicopedagogía: Métodos, Diseños y Técnicas de Investigación Psicológica Tema 9 Fiabilidad de las puntuaciones.
Estimación estadística
14 Introducción al Análisis de Correlación y de Regresión Lineal
M.E. ADA PAULINA MORA GONZALEZ. Esta parte describe las técnicas para ajustar curvas en base a datos para estimaciones intermedias. Una manera de hacerlo.
Viviana Acosta Estadística II. Que es Es una distribución de probabilidad que surge del problema de estimar la media de una población normalmente distribuida.
Transcripción de la presentación:

CORRELACION Y REGRESION LINEAL: Introducción Mario Briones L. MV, MSc

Correlación lineal de Pearson. Medida de la estrechez de la asociación entre dos variables cuantitativas. Asociación: fluctuación en conjunto de dos variables

Correlación lineal de Pearson: Muchas veces en que se dispone de datos en pares, se desea conocer si ambas variables está relacionadas o son independientes

Considere los siguientes datos: Valores de pluviometría para once localidades a diferente altura sobre el nivel del mar:

Gráfico de la asociación Promedio de Y= 530 mts Promedio de X= 959.2 mts

COVARIANZA: Medida de la variación en conjunto de dos variables: CONCEPTO: FORMULA DE CALCULO: Donde n es el número de pares de valores X Y

En el ejemplo: Atención! La función COVAR de Excel divide por n...

Covarianza en el ejemplo: Cov(XY)= 13.079,41 El signo positivo indica que valores por sobre el promedio de X tienden a estar asociados con valores por sobre el promedio de Y Valores negativos indican que valores por sobre el promedio de X tienden a estar asociados con valores por debajo del promedio de Y

Estandarización de la medición Pearson, matemático Inglés, desarrolló un índice, que divide la covarianza por el producto de las desviaciones estándares de X y de Y En la población En la muestra

Correlación lineal de Pearson: El índice r, fluctúa entre –1 y +1 Si la fluctuación en conjunto es estrecha, el valor de r se acerca a –1 o +1. Si la fluctuación en conjunto es baja, el valor de r se acerca a cero.

Coeficiente de correlación de Pearson en el ejemplo:

Es la correlación observada diferente de cero? (H0??) N es la cantidad de pares XY

Es la correlación observada diferente de cero, en el ejemplo? En la tabla de t, con alfa= 0.05 (dos colas) y 10 grados de libertad (n-1), el valor crítico es 2.22 Por lo tanto se puede rechazar H0 respecto del valor poblacional de rho: Hay una asociación significativa entre la altura sobre el nivel del mar y la cantidad de precipitación (P<0.05) (en la población)

Otra opción es comparar el valor de r calculado con el valor de r de la tabla adjunta. Si el valor de r calculado es mayor que el r del número de grados de libertad de la correlación (n-1)=10 valor crítico= 0.632

Transformación de Fisher del coeficiente de correlación Z tiene distribución aproximadamente normal, con media r y error estándar:

Transformación de Fisher en el ejemplo:

Intervalo de confianza del coeficiente de correlación Para obtener el intervalo de confianza en “unidades de correlación” se transforman de modo inverso usando el mismo método de r a z En INTERNET: http://faculty.vassar.edu/lowry/rho.html?

Intervalo de confianza en el ejemplo: Según la página de Internet, el intervalo de confianza de 95% para r=0.856 límite inferior=0.527 límite superior=0.961

Comparación de coeficientes de correlación Se utilizan los coeficientes transformados

Correlación entre las líneas eléctricas y el cáncer Epidemiólogos del Instituto Karolinska de Suecia investigaron durante 25 años a 500.000 personas que vivían a menos de 300 metros de una línea eléctrica de alto voltaje. Observaron que los niños tenían mayor incidencia de leucemia.

Correlación entre las líneas eléctricas y el cáncer Los hallazgos descritos obligaron al gobierno sueco a considerar reglamentos que reducirían la construcción de casas cercanas a las líneas eléctricas de alto voltaje.

Correlación entre las líneas eléctricas y el cáncer En un artículo acerca del estudio, la revista Time informó que “aunque las investigaciones no demuestran una relación de causa y efecto, sí indican una inequívoca correlación entre el grado de exposición y el riesgo de leucemia infantil”.

Errores comunes respecto a la correlación Se debe tener cuidado de evitar concluir que la correlación implica causalidad Variables ocultas No utilizar tasas o promedios Pérdida de variación entre individuos Supuesto de linearidad de la relación

Correlación y regresión lineal: Si existe una conexión biológica (o de otro tipo) entre las variables X e Y, entonces puede formularse un modelo lineal que represente esta asociación. El modelo se basa en la covarianza y en su forma más sencilla es una línea recta (Y= a + bX)

Ejemplo: Rendimiento promedio de plantas de soya (gr/planta) obtenidos en respuesta a los niveles indicados de exposición al ozono en la la fase de crecimiento. X Y ozono (ppm) rendimiento (gr/pl) 0.02 242 0.07 237 0.11 231 0.15 201 SXi= 0.35 SYi= 911 X= 0.0875 Y= 227.75 SX2i= 0.0399 SY2i= 208495 SXiYi= 76.99

MODELO Asumiendo una relación lineal entre el rendimiento y el nivel del ozono, el modelo establece que la media verdadera de la variable dependiente cambia a una tasa constante en la medida que la variable dependiente aumenta o disminuye. La relación funcional entre la media verdadera de Yi, E(Yi) y Xi es la ecuación de la línea recta:

MODELO Donde a= intercepto (valor de E(Y)cuando X es igual a cero b= pendiente de la línea (tasa de cambio de E(Y) ante un cambio unitario en X.

SUPUESTOS Las observaciones de la variable dependiente Yi se asumen como observaciones aleatorias tomadas de poblaciones de variables aleatorias donde la media de cada población está dada por E(Yi). La desviación de una observación Yi desde la media de su población, E(Yi) se considera añadiendo un término de error aleatorio ei para dar el siguiente modelo:

SUPUESTOS El subíndice indica cada unidad de observación en particular, i= 1, 2, …n. Los Xi son las n ésimas observaciones de la variable dependiente, que se supone son tomadas sin error. Es decir, son constantes conocidas; los Yi y los Xi son observaciones pareadas, tomadas en cada unidad observacional.

ESTIMACION DE MINIMOS CUADRADOS Los parámetros en el modelo son b y a, a ser estimados desde los datos (muestra). Si no existiese error aleatorio en Yi, cualquier par de puntos podría ser utilizado para resolver los valores de los parámetros. La variación aleatoria de Y, sin embargo, hace que cada par de valores de resultados diferentes (Todos los estimadores serían idénticos sólo si los datos observados cayeran exactamente sobre una línea recta.)

ESTIMACION DE MINIMOS CUADRADOS Por lo tanto, el método de resolución debe combinar toda la información para dar una sola solución que sea la “mejor” en base a algún criterio. El procedimiento de estimación de mínimos cuadrados utiliza el criterio de que la solución debe dar la suma más pequeña posible para las desviaciones al cuadrado desde los valores observados de Yi hasta sus medias verdaderas dadas por la solución.

ESTIMACION DE MINIMOS CUADRADOS Sean b y a los estimadores numéricos de los parámetros b y a, respectivamente, y sea el promedio estimado de Y para cada Xi, i= 1, 2,…, n. Se debe observar que Yi es obtenida sustituyendo los parámetros en la forma funcional del modelo que relaciona E(Yi) con Xi, dado por la ecuación de la recta.

El principio de los mínimos cuadrados escoge valores de a y b que minimizan la suma de cuadrados de los residuales, SC(Res): Donde es el valor residual observado para la iésima observación. La suma indicada por S es sobre todos los valores del conjunto como lo indican los índices i= 1 hasta n Los estimadores de b y a se obtienen usando cálculo para encontrar los valores que minimizan SC(Res). Las derivadas de SC(Res) con respecto a b y a son definidas iguales a cero.

S(Xi-X)(Yi-Y) Sxiyi b= = S(Xi-X)2 Sx2i a= Y - bX Las ecuaciones normales son: n(a) + (SXi)b= SYi (SXi)a + (SX2i)b= SXiYi Resolviendo las ecuaciones simultáneamente para a y b, da los estimadores para a y b: S(Xi-X)(Yi-Y) Sxiyi b= = S(Xi-X)2 Sx2i a= Y - bX

Para facilidad de cálculo: (SXi)2 Sx2i= SX2i - n (SXi)(SYi) Sxiyi= SXiYi - Lo que da la siguiente fórmula de cálculo para la pendiente:

Cálculo de la pendiente (b) X Y ozono (ppm) rendimiento (gr/pl) 0.02 242 0.07 237 0.11 231 0.15 201

Cálculo de la constante (a) y ecuación: La ecuación de mínimo cuadrado que caracteriza el efecto del ozono sobre el rendimiento promedio de la soya en este estudio, asumiendo que el modelo lineal es correcto es:

Ejemplo Biomasa

Matriz de correlaciones del ejemplo: (obtenida con Herramientas para Análisis de Excel, Correlación) Valor crítico de r para alfa= 0.05 y 43 grados de libertad: 0.3 appx Las celdas en color contienen correlaciones “significativas” P<0.05)

Relación “significativa” (P<0.05) entre pH y Biomasa

Regresión lineal simple entre pH y biomasa

Relación “no significativa” (P0.05) entre salinidad y biomasa.

Relación “significativa” (P<0.05) entre Zn y Biomasa

Análisis de regresión: pH vs Biomasa significancia IC 95% para coeficientes ecuación significancia

Gráfico de línea de regresión e intervalo de confianza de 95% para la relación pH - biomasa Observe que la pendiente no es cero, con un 95% de confianza

Análisis de regresión: salinidad vs biomasa

Gráfico de línea de regresión e intervalo de confianza de 95% para la relación salinidad - biomasa Observe que la pendiente puede ser igual a cero, con un 95% de confianza