La descarga está en progreso. Por favor, espere

La descarga está en progreso. Por favor, espere

CORRELACION Y REGRESION LINEAL: Introducción

Presentaciones similares


Presentación del tema: "CORRELACION Y REGRESION LINEAL: Introducción"— Transcripción de la presentación:

1 CORRELACION Y REGRESION LINEAL: Introducción
Mario Briones L. MV, MSc

2 Correlación lineal de Pearson.
Medida de la estrechez de la asociación entre dos variables cuantitativas. Asociación: fluctuación en conjunto de dos variables

3 Correlación lineal de Pearson:
Muchas veces en que se dispone de datos en pares, se desea conocer si ambas variables está relacionadas o son independientes

4 Considere los siguientes datos:
Valores de pluviometría para once localidades a diferente altura sobre el nivel del mar:

5 Gráfico de la asociación
Promedio de Y= 530 mts Promedio de X= mts

6 COVARIANZA: Medida de la variación en conjunto de dos variables:
CONCEPTO: FORMULA DE CALCULO: Donde n es el número de pares de valores X Y

7 En el ejemplo: Atención! La función COVAR de Excel divide por n...

8 Covarianza en el ejemplo:
Cov(XY)= ,41 El signo positivo indica que valores por sobre el promedio de X tienden a estar asociados con valores por sobre el promedio de Y Valores negativos indican que valores por sobre el promedio de X tienden a estar asociados con valores por debajo del promedio de Y

9 Estandarización de la medición
Pearson, matemático Inglés, desarrolló un índice, que divide la covarianza por el producto de las desviaciones estándares de X y de Y En la población En la muestra

10 Correlación lineal de Pearson:
El índice r, fluctúa entre –1 y +1 Si la fluctuación en conjunto es estrecha, el valor de r se acerca a –1 o +1. Si la fluctuación en conjunto es baja, el valor de r se acerca a cero.

11 Coeficiente de correlación de Pearson en el ejemplo:

12 Es la correlación observada diferente de cero? (H0??)
N es la cantidad de pares XY

13 Es la correlación observada diferente de cero, en el ejemplo?
En la tabla de t, con alfa= 0.05 (dos colas) y 10 grados de libertad (n-1), el valor crítico es 2.22 Por lo tanto se puede rechazar H0 respecto del valor poblacional de rho: Hay una asociación significativa entre la altura sobre el nivel del mar y la cantidad de precipitación (P<0.05) (en la población)

14 Otra opción es comparar
el valor de r calculado con el valor de r de la tabla adjunta. Si el valor de r calculado es mayor que el r del número de grados de libertad de la correlación (n-1)=10 valor crítico= 0.632

15 Transformación de Fisher del coeficiente de correlación
Z tiene distribución aproximadamente normal, con media r y error estándar:

16 Transformación de Fisher en el ejemplo:

17 Intervalo de confianza del coeficiente de correlación
Para obtener el intervalo de confianza en “unidades de correlación” se transforman de modo inverso usando el mismo método de r a z En INTERNET:

18 Intervalo de confianza en el ejemplo:
Según la página de Internet, el intervalo de confianza de 95% para r=0.856 límite inferior=0.527 límite superior=0.961

19 Comparación de coeficientes de correlación
Se utilizan los coeficientes transformados

20 Correlación entre las líneas eléctricas y el cáncer
Epidemiólogos del Instituto Karolinska de Suecia investigaron durante 25 años a personas que vivían a menos de 300 metros de una línea eléctrica de alto voltaje. Observaron que los niños tenían mayor incidencia de leucemia.

21 Correlación entre las líneas eléctricas y el cáncer
Los hallazgos descritos obligaron al gobierno sueco a considerar reglamentos que reducirían la construcción de casas cercanas a las líneas eléctricas de alto voltaje.

22 Correlación entre las líneas eléctricas y el cáncer
En un artículo acerca del estudio, la revista Time informó que “aunque las investigaciones no demuestran una relación de causa y efecto, sí indican una inequívoca correlación entre el grado de exposición y el riesgo de leucemia infantil”.

23 Errores comunes respecto a la correlación
Se debe tener cuidado de evitar concluir que la correlación implica causalidad Variables ocultas No utilizar tasas o promedios Pérdida de variación entre individuos Supuesto de linearidad de la relación

24 Correlación y regresión lineal:
Si existe una conexión biológica (o de otro tipo) entre las variables X e Y, entonces puede formularse un modelo lineal que represente esta asociación. El modelo se basa en la covarianza y en su forma más sencilla es una línea recta (Y= a + bX)

25 Ejemplo: Rendimiento promedio de plantas de soya (gr/planta) obtenidos en respuesta a los niveles indicados de exposición al ozono en la la fase de crecimiento. X Y ozono (ppm) rendimiento (gr/pl) SXi= SYi= 911 X= Y= SX2i= SY2i= SXiYi= 76.99

26 MODELO Asumiendo una relación lineal entre el rendimiento y el nivel del ozono, el modelo establece que la media verdadera de la variable dependiente cambia a una tasa constante en la medida que la variable dependiente aumenta o disminuye. La relación funcional entre la media verdadera de Yi, E(Yi) y Xi es la ecuación de la línea recta:

27 MODELO Donde a= intercepto (valor de E(Y)cuando X es igual a cero
b= pendiente de la línea (tasa de cambio de E(Y) ante un cambio unitario en X.

28 SUPUESTOS Las observaciones de la variable dependiente Yi se asumen como observaciones aleatorias tomadas de poblaciones de variables aleatorias donde la media de cada población está dada por E(Yi). La desviación de una observación Yi desde la media de su población, E(Yi) se considera añadiendo un término de error aleatorio ei para dar el siguiente modelo:

29 SUPUESTOS El subíndice indica cada unidad de observación en particular, i= 1, 2, …n. Los Xi son las n ésimas observaciones de la variable dependiente, que se supone son tomadas sin error. Es decir, son constantes conocidas; los Yi y los Xi son observaciones pareadas, tomadas en cada unidad observacional.

30

31 ESTIMACION DE MINIMOS CUADRADOS
Los parámetros en el modelo son b y a, a ser estimados desde los datos (muestra). Si no existiese error aleatorio en Yi, cualquier par de puntos podría ser utilizado para resolver los valores de los parámetros. La variación aleatoria de Y, sin embargo, hace que cada par de valores de resultados diferentes (Todos los estimadores serían idénticos sólo si los datos observados cayeran exactamente sobre una línea recta.)

32 ESTIMACION DE MINIMOS CUADRADOS
Por lo tanto, el método de resolución debe combinar toda la información para dar una sola solución que sea la “mejor” en base a algún criterio. El procedimiento de estimación de mínimos cuadrados utiliza el criterio de que la solución debe dar la suma más pequeña posible para las desviaciones al cuadrado desde los valores observados de Yi hasta sus medias verdaderas dadas por la solución.

33 ESTIMACION DE MINIMOS CUADRADOS
Sean b y a los estimadores numéricos de los parámetros b y a, respectivamente, y sea el promedio estimado de Y para cada Xi, i= 1, 2,…, n. Se debe observar que Yi es obtenida sustituyendo los parámetros en la forma funcional del modelo que relaciona E(Yi) con Xi, dado por la ecuación de la recta.

34 El principio de los mínimos cuadrados escoge valores de a y b
que minimizan la suma de cuadrados de los residuales, SC(Res): Donde es el valor residual observado para la iésima observación. La suma indicada por S es sobre todos los valores del conjunto como lo indican los índices i= 1 hasta n Los estimadores de b y a se obtienen usando cálculo para encontrar los valores que minimizan SC(Res). Las derivadas de SC(Res) con respecto a b y a son definidas iguales a cero.

35 S(Xi-X)(Yi-Y) Sxiyi b= = S(Xi-X)2 Sx2i a= Y - bX
Las ecuaciones normales son: n(a) + (SXi)b= SYi (SXi)a + (SX2i)b= SXiYi Resolviendo las ecuaciones simultáneamente para a y b, da los estimadores para a y b: S(Xi-X)(Yi-Y) Sxiyi b= = S(Xi-X) Sx2i a= Y - bX

36 Para facilidad de cálculo:
(SXi)2 Sx2i= SX2i - n (SXi)(SYi) Sxiyi= SXiYi - Lo que da la siguiente fórmula de cálculo para la pendiente:

37 Cálculo de la pendiente (b)
X Y ozono (ppm) rendimiento (gr/pl)

38 Cálculo de la constante (a) y ecuación:
La ecuación de mínimo cuadrado que caracteriza el efecto del ozono sobre el rendimiento promedio de la soya en este estudio, asumiendo que el modelo lineal es correcto es:

39 Ejemplo Biomasa

40 Matriz de correlaciones del ejemplo:
(obtenida con Herramientas para Análisis de Excel, Correlación) Valor crítico de r para alfa= 0.05 y 43 grados de libertad: 0.3 appx Las celdas en color contienen correlaciones “significativas” P<0.05)

41 Relación “significativa” (P<0.05) entre pH y Biomasa

42 Regresión lineal simple entre pH y biomasa

43 Relación “no significativa” (P0.05) entre salinidad y biomasa.

44 Relación “significativa” (P<0.05) entre Zn y Biomasa

45 Análisis de regresión: pH vs Biomasa
significancia IC 95% para coeficientes ecuación significancia

46 Gráfico de línea de regresión e intervalo de confianza de 95% para la relación pH - biomasa
Observe que la pendiente no es cero, con un 95% de confianza

47 Análisis de regresión: salinidad vs biomasa

48 Gráfico de línea de regresión e intervalo de confianza de 95% para la relación salinidad - biomasa
Observe que la pendiente puede ser igual a cero, con un 95% de confianza


Descargar ppt "CORRELACION Y REGRESION LINEAL: Introducción"

Presentaciones similares


Anuncios Google