CORRELACION Y REGRESION LINEAL: Introducción

Slides:



Advertisements
Presentaciones similares
ANALISIS PARAMÉTRICOS
Advertisements

Si la estadística no miente...: ¡Cuánto influyes sobre mi!
REGRESION Y CORRELACION
Correlaciones bivariadas y correlaciones parciales
Instructor: Lic. Cristian R. Arroyo L.
Lic. Cristian R. Arroyo López
Correlación ©1997-Sep-06 Pedro Juan Rodríguez Esquerdo Departamento de Matemáticas UPR Río Piedras.
Estadística: -Correlación y regresión
REGRESION Y CORRELACION LINEALES. REGRESION LINEAL SIMPLE Finalidad Estimar los valores de y (variable dependiente) a partir de los valores de x (variable.
Covarianza muestral Sean x1, x2, ..., xn e y1, y2, ..., yn dos muestras aleatorias independientes de observaciones de X e Y respectivamente. La covarianza.
Introducción a la Estadística. Modelos de regresión
Estadística Descriptiva: 4. Correlación y Regresión Lineal
EL COEFICIENTE DE CORRELACION DE RANGOS DE SPEARMAN
Tema 1- Regresión lineal simple.
COEFICIENTE DE CORRELACIÓN PRODUCTO-MOMENTO DE PEARSON
CONFIABILIDAD DEL INSTRUMENTO
Estadística Descriptiva: 4. Correlación y Regresión Lineal Ricardo Ñanculef Alegría Universidad Técnica Federico Santa María.
Elaborado por: Ricardo Alfonso Marcillo Del Castillo Asistente de Gerencia.
Regresión Lineal Simple
1º BACHILLERATO | Matemáticas © Oxford University Press España, S.A Hacer clic en la pantalla para avanzar VARIABLE ESTADÍSTICA UNIDIMENSIONAL Población:
MEDIDAS DE DISPERSIÓN:
COMPORTAMIENTO DE LAS DISTRIBUCIONES DE
Clases 5 Pruebas de Hipótesis
Análisis de Correlación y de Regresión lineal simple
MEDIDAS DE CORRELACIÓN
La lógica de covarianza
Facultad: Turismo Y Hotelería
UNIVERSIDAD AUTONOMA DEL PERÚ
Distribuciones bidimensionales. Tablas de contingencia
Clase 5 Hipótesis de diferencias de grupos
REGRESION Y CORRELACION
REGRESION LINEAL III Mario Briones L. MV, MSc 2005.
Elementos Básicos de Probabilidad y Estadística Javier Aparicio División de Estudios Políticos, CIDE Julio 2009
Modelo de regresión con dos variables: Estimación
DISTRIBUCION NORMAL Mario Briones L. MV, MSc 2005.
FACILITADOR JOSE HERIBERTO CRUZ GARCÍA
Titular: Agustín Salvia
Estadística bidimensional
CORRELACION Y REGRESION LINEAL: Introducción
Variables estadísticas bidimensionales
Medidas de asociación entre dos variables
RELACIÓN ENTRE VARIABLES
Análisis de Datos en Economía
REGRESION LINEAL II Mario Briones L. MV, MSc
Estadística Aplicada a la Gestión Empresarial
coeficientes de correlación de
Medidas de de dispersión
BLOQUE III. ESTADÍSTICA DESCRIPTIVA CON DOS O MÁS VARIABLES. 3. 1
COMPROBACION DE HIPOTESIS SOBRE DOS PROMEDIOS Mario Briones L. MV, MSc 2005.
Varianza y Covarianza.
Análisis de los Datos Cuantitativos
Medidas de posición y de dispersión
Regresión Lineal Simple
Aplicaciones Estadísticas a las Finanzas Clase 1
Variables estadísticas bidimensionales
CORRELACIÓN Y REGRESIÓN EMPLEANDO EXCEL
Correlación Decimos que dos variables, X e Y, están correlacionadas cuando hay una relación cuantitativa entre ellas. X suele ser la variable independiente.
Ejercicios Dado un conjunto de datos, aplicar el Criterio de Fourier para desechar los posibles valores atípicos.
CISO 3155: Capítulo 91 Evaluando los promedios de dos grupos distintos Capítulo 9.
Correlación Capítulo 5 Capítulo 5: Ciso 3155.
Unidad 4 Análisis de los Datos.
Introducción a la Inferencia Estadistica Dept. of Marine Science and Applied Biology Jose Jacobo Zubcoff.
UNIDAD IV Regresión y correlación lineal
Estadística Administrativa II
ECONOMETRIA 2. MODELO LINEAL SIMPLE Hernán Delgadillo Dorado
REGRESIÓN LINEAL SIMPLE. Temas Introducción Análisis de regresión (Ejemplo aplicado) La ecuación de una recta Modelo estadístico y suposiciones Estimación.
ESTADISTICA DESCRIPTIVA BIVARIADA MEDIDAS DE RELACIÓN ENTRE VARIABLES CUANTITATIVAS.
1 ANÁLISIS DE CORRELACIÓN, REGRESIÓN Y CONTRASTE.
14 Introducción al Análisis de Correlación y de Regresión Lineal
TEMA 7 ANÁLISIS DE LOS RESULTADOS TEMA 7 ANÁLISIS DE LOS RESULTADOS.
Transcripción de la presentación:

CORRELACION Y REGRESION LINEAL: Introducción Mario Briones L. MV, MSc

Correlación lineal de Pearson. Medida de la estrechez de la asociación entre dos variables cuantitativas. Asociación: fluctuación en conjunto de dos variables

Correlación lineal de Pearson: Muchas veces en que se dispone de datos en pares, se desea conocer si ambas variables está relacionadas o son independientes

Considere los siguientes datos: Valores de pluviometría para once localidades a diferente altura sobre el nivel del mar:

Gráfico de la asociación Promedio de Y= 530 mts Promedio de X= 959.2 mts

COVARIANZA: Medida de la variación en conjunto de dos variables: CONCEPTO: FORMULA DE CALCULO: Donde n es el número de pares de valores X Y

En el ejemplo: Atención! La función COVAR de Excel divide por n...

Covarianza en el ejemplo: Cov(XY)= 13.079,41 El signo positivo indica que valores por sobre el promedio de X tienden a estar asociados con valores por sobre el promedio de Y Valores negativos indican que valores por sobre el promedio de X tienden a estar asociados con valores por debajo del promedio de Y

Estandarización de la medición Pearson, matemático Inglés, desarrolló un índice, que divide la covarianza por el producto de las desviaciones estándares de X y de Y En la población En la muestra

Correlación lineal de Pearson: El índice r, fluctúa entre –1 y +1 Si la fluctuación en conjunto es estrecha, el valor de r se acerca a –1 o +1. Si la fluctuación en conjunto es baja, el valor de r se acerca a cero.

Coeficiente de correlación de Pearson en el ejemplo:

Es la correlación observada diferente de cero? (H0??) N es la cantidad de pares XY

Es la correlación observada diferente de cero, en el ejemplo? En la tabla de t, con alfa= 0.05 (dos colas) y 10 grados de libertad (n-1), el valor crítico es 2.22 Por lo tanto se puede rechazar H0 respecto del valor poblacional de rho: Hay una asociación significativa entre la altura sobre el nivel del mar y la cantidad de precipitación (P<0.05) (en la población)

Otra opción es comparar el valor de r calculado con el valor de r de la tabla adjunta. Si el valor de r calculado es mayor que el r del número de grados de libertad de la correlación (n-1)=10 valor crítico= 0.632

Transformación de Fisher del coeficiente de correlación Z tiene distribución aproximadamente normal, con media r y error estándar:

Transformación de Fisher en el ejemplo:

Intervalo de confianza del coeficiente de correlación Para obtener el intervalo de confianza en “unidades de correlación” se transforman de modo inverso usando el mismo método de r a z En INTERNET: http://faculty.vassar.edu/lowry/rho.html?

Intervalo de confianza en el ejemplo: Según la página de Internet, el intervalo de confianza de 95% para r=0.856 límite inferior=0.527 límite superior=0.961

Comparación de coeficientes de correlación Se utilizan los coeficientes transformados

Correlación entre las líneas eléctricas y el cáncer Epidemiólogos del Instituto Karolinska de Suecia investigaron durante 25 años a 500.000 personas que vivían a menos de 300 metros de una línea eléctrica de alto voltaje. Observaron que los niños tenían mayor incidencia de leucemia.

Correlación entre las líneas eléctricas y el cáncer Los hallazgos descritos obligaron al gobierno sueco a considerar reglamentos que reducirían la construcción de casas cercanas a las líneas eléctricas de alto voltaje.

Correlación entre las líneas eléctricas y el cáncer En un artículo acerca del estudio, la revista Time informó que “aunque las investigaciones no demuestran una relación de causa y efecto, sí indican una inequívoca correlación entre el grado de exposición y el riesgo de leucemia infantil”.

Errores comunes respecto a la correlación Se debe tener cuidado de evitar concluir que la correlación implica causalidad Variables ocultas No utilizar tasas o promedios Pérdida de variación entre individuos Supuesto de linearidad de la relación

Correlación y regresión lineal: Si existe una conexión biológica (o de otro tipo) entre las variables X e Y, entonces puede formularse un modelo lineal que represente esta asociación. El modelo se basa en la covarianza y en su forma más sencilla es una línea recta (Y= a + bX)

Ejemplo: Rendimiento promedio de plantas de soya (gr/planta) obtenidos en respuesta a los niveles indicados de exposición al ozono en la la fase de crecimiento. X Y ozono (ppm) rendimiento (gr/pl) 0.02 242 0.07 237 0.11 231 0.15 201 SXi= 0.35 SYi= 911 X= 0.0875 Y= 227.75 SX2i= 0.0399 SY2i= 208495 SXiYi= 76.99

MODELO Asumiendo una relación lineal entre el rendimiento y el nivel del ozono, el modelo establece que la media verdadera de la variable dependiente cambia a una tasa constante en la medida que la variable dependiente aumenta o disminuye. La relación funcional entre la media verdadera de Yi, E(Yi) y Xi es la ecuación de la línea recta:

MODELO Donde a= intercepto (valor de E(Y)cuando X es igual a cero b= pendiente de la línea (tasa de cambio de E(Y) ante un cambio unitario en X.

SUPUESTOS Las observaciones de la variable dependiente Yi se asumen como observaciones aleatorias tomadas de poblaciones de variables aleatorias donde la media de cada población está dada por E(Yi). La desviación de una observación Yi desde la media de su población, E(Yi) se considera añadiendo un término de error aleatorio ei para dar el siguiente modelo:

SUPUESTOS El subíndice indica cada unidad de observación en particular, i= 1, 2, …n. Los Xi son las n ésimas observaciones de la variable dependiente, que se supone son tomadas sin error. Es decir, son constantes conocidas; los Yi y los Xi son observaciones pareadas, tomadas en cada unidad observacional.

ESTIMACION DE MINIMOS CUADRADOS Los parámetros en el modelo son b y a, a ser estimados desde los datos (muestra). Si no existiese error aleatorio en Yi, cualquier par de puntos podría ser utilizado para resolver los valores de los parámetros. La variación aleatoria de Y, sin embargo, hace que cada par de valores de resultados diferentes (Todos los estimadores serían idénticos sólo si los datos observados cayeran exactamente sobre una línea recta.)

ESTIMACION DE MINIMOS CUADRADOS Por lo tanto, el método de resolución debe combinar toda la información para dar una sola solución que sea la “mejor” en base a algún criterio. El procedimiento de estimación de mínimos cuadrados utiliza el criterio de que la solución debe dar la suma más pequeña posible para las desviaciones al cuadrado desde los valores observados de Yi hasta sus medias verdaderas dadas por la solución.

ESTIMACION DE MINIMOS CUADRADOS Sean b y a los estimadores numéricos de los parámetros b y a, respectivamente, y sea el promedio estimado de Y para cada Xi, i= 1, 2,…, n. Se debe observar que Yi es obtenida sustituyendo los parámetros en la forma funcional del modelo que relaciona E(Yi) con Xi, dado por la ecuación de la recta.

El principio de los mínimos cuadrados escoge valores de a y b que minimizan la suma de cuadrados de los residuales, SC(Res): Donde es el valor residual observado para la iésima observación. La suma indicada por S es sobre todos los valores del conjunto como lo indican los índices i= 1 hasta n Los estimadores de b y a se obtienen usando cálculo para encontrar los valores que minimizan SC(Res). Las derivadas de SC(Res) con respecto a b y a son definidas iguales a cero.

S(Xi-X)(Yi-Y) Sxiyi b= = S(Xi-X)2 Sx2i a= Y - bX Las ecuaciones normales son: n(a) + (SXi)b= SYi (SXi)a + (SX2i)b= SXiYi Resolviendo las ecuaciones simultáneamente para a y b, da los estimadores para a y b: S(Xi-X)(Yi-Y) Sxiyi b= = S(Xi-X)2 Sx2i a= Y - bX

Para facilidad de cálculo: (SXi)2 Sx2i= SX2i - n (SXi)(SYi) Sxiyi= SXiYi - Lo que da la siguiente fórmula de cálculo para la pendiente:

Cálculo de la pendiente (b) X Y ozono (ppm) rendimiento (gr/pl) 0.02 242 0.07 237 0.11 231 0.15 201

Cálculo de la constante (a) y ecuación: La ecuación de mínimo cuadrado que caracteriza el efecto del ozono sobre el rendimiento promedio de la soya en este estudio, asumiendo que el modelo lineal es correcto es: