La descarga está en progreso. Por favor, espere

La descarga está en progreso. Por favor, espere

14 Introducción al Análisis de Correlación y de Regresión Lineal

Presentaciones similares


Presentación del tema: "14 Introducción al Análisis de Correlación y de Regresión Lineal"— Transcripción de la presentación:

1 14 Introducción al Análisis de Correlación y de Regresión Lineal

2 Correlación y Regresión lineal
Se dan situaciones donde el análisis involucra considerar la relación de dos o más variables…..

3 Ejemplos Un analista financiero podría estar interesado en la relación entre el comportamiento de los precios de las acciones y la política de dividendos de las compañías del mercado de valores. Un gerente de ventas puede estar interesado en examinar la relación entre las ventas y el gasto en publicidad. El gerente de créditos de un banco podría estar interesado en la relación entre el precio de una casa y diversos factores, como su área, antigüedad, etc. El análisis de correlación y el de regresión lineal son técnicas estadísticas de aplicación difundida para estas situaciones.

4 Objetivos Calcular e interpretar la correlación entre dos variables.
Determinar si la correlación es significativa. Calcular e interpretar la ecuación de regresión lineal simple para un conjunto de datos. Entender los supuestos detrás del análisis de regresión. Determinar si el modelo de regresión es significativo. Continua….

5 Objetivos (continuación) Calcular e interpretar intervalos de confianza para coeficientes de regresión. Reconocer aplicaciones de análisis de regresión para situaciones de predicción y descripción. Reconocer algunos problemas portenciales si el análisis de regresión es usado incorrectamente.

6 Gráficos de Dispersión
Un gráfico de dispersión (o diagrama de dispersión) es usado para mostrar la relación entre dos variables cuantitativas. La relación lineal puede ser: Positiva – cuando “x” crece, “y” crece Cuando la inversión en publicidad crece, las ventas crecen. Negativa – cuando “x” crece, “y” decrece Cuando el gasto crece, el ingreso neto decrece.

7 Gráficos de Dispersión: Ejemplo
Relaciones lineales Relaciones curvilíneas y y x x y y x x

8 Gráficos de Dispersión: Ejemplo
(continuación) Relaciones fuertes Relaciones débiles y y x x y y x x

9 Gráficos de Dispersión: Ejemplo
(continuación) No hay relación y x y x

10 Coeficiente de Correlación
La correlación mide la intensidad de la asociación lineal (relación lineal) entre dos variables. Enfocada solamente en la intensidad de la relación. No implica relaciones de causa-efecto. El coeficiente de correlación muestral r es una medida de la intensidad de la relación lineal entre dos variables, basado en observaciones muestrales. Se tiene una correlación espuria cuando existe una asociación lineal entre variables aparentemente no relacionadas. Ejemplo, la correlación entre las ventas de las compañías y el número de hijos que tienen los empleados.

11 Características de r No tiene unidad de medida. Varía entre -1 y 1.
La cercanía a -1 indica fuerte relación lineal negativa. La cercanía a 1 indica fuerte relación lineal positiva. La cercanía a 0 indica débil relación lineal. +1 ó -1 son correlaciones perfectas donde todos los datos (puntos) caen sobre una línea recta.

12 Ejemplos de Valores Aproximados de r
y y y x x x r = -1 r = -.6 r = 0 y y x x r = +.3 r = +1

13 Calculando el Coeficiente de Correlación
Coeficiente de correlación muestral: O el equivalente algebraico: Donde: r = Coeficiente de correlación muestral n = Tamaño muestral x = Valor de una variable (eje horizontal) y = Valor de la otra variable (eje vertical)

14 Correlación: Ejemplo Altura del árbol Diámetro del tronco y x xy y2 x2
35 8 280 1225 64 49 9 441 2401 81 27 7 189 729 33 6 198 1089 36 60 13 780 3600 169 21 147 45 11 495 2025 121 51 12 612 2601 144 =321 =73 =3142 =14111 =713

15 Correlación: Ejemplo (continuación)
Gráfico de dispersión Altura del árbol, y r = → Asociación lineal positiva relativamente fuerte entre x e y Diámetro del tronco, x

16 Correlación: Usando Excel
Pasos en Excel para calular la correlación Datos / Análisis de datos / Coeficiente de correlation: Correlación entre altura del árbol y diámetro del tronco

17 Prueba de Significancia para la Correlación
Hipótesis H0: ρ = (No hay correlación) HA: ρ ≠ (Existe correlación) Estadístico de prueba (con n – 2 grados de libertad) Supuestos: La medida de los datos es de intervalo o de razón x e y están normalmente distribuidos La letra griega ρ (rho) representa el coeficiente de correlación poblacional Se pierde 1 grado de libertad por cada media muestral

18 Prueba de Significancia para la Correlación
(continuación) ¿Es significativa la relación lineal entre las alturas de los árboles y los diámetros de sus troncos al nivel de significancia de 0.05? H0: ρ = 0 (No hay correlación) H1: ρ ≠ 0 (Existe correlación)  =0.05 , gl = = 6

19 Prueba de Significancia para la Correlación
(continuación) Región de rechazo: g.l. = 8-2 = 6 a/2=0.025 a/2=0.025 Rechazar H0 No rechazar H0 Rechazar H0 -tα/2 tα/2 2.4469 Estadístico de prueba: Decisión: Como t = 4.68 > 2.45 = tα/2 , entonces se rechaza H0 Conclusión: Hay suficiente evidencia para concluir que existe relación lineal significativa entre las alturas de los árboles y los diámetros de sus troncos al nivel de significancia de 0.05.

20 Prueba de Significancia para la Correlación
La prueba t para la determinación de si la correlación poblacional es significativamente diferente de cero requiere de los siguientes dos supuestos: La data es de intervalo o de ratio. Las dos variables (x e y) se distribuyen según una distribución normal bivariada (la distribución conjunta es normal). Sin embargo, respecto del supuesto de normalidad, la prueba es robusta; esto es, las inferencias son correctas, aún cuando se tenga algunas desviaciones respecto de la distribución mormal.

21 Advertencia La correlación entre dos variables no implica ninguna relación de causa-efecto. El cálculo de una alta correlación positiva entre años de experiencia y ventas en los vendedores de una empresa no es una prueba estadística que los años de experiencia tenga como consecuencia mayores ventas, solo significa que marchan en forma conjunta. Para un período determinado se podría calcular una alta correlación entre el salario promedio de los ingenieros del Ecuador y el precio de las uvas en Francia, esto de ninguna forma significa que lo uno cause lo otro. Se está ante lo que se denomina correlación espúrea. La correlación también se puede dar por los efectos de un factor común que incide sobre las dos variables en cuestión. Por ejemplo las mayores ventas de los vendedores de mayor experiencia podría ser debido a que los vendedores de más edad se les asigna los mejores territorios. Relaciones de causa-efecto requieren de construcción de modelos vinculados al fenómeno que se analiza.

22 Regresión Lineal Simple
Suponga que se ha calculado y validado la correlación entre los años de venta de los vendedores y su volumen de ventas, se quiere analizar esa relación. El método estadístico para este fin es el Análisis de Regresión. Si solo se tienen dos variables la técnica se refiere como Análisis de Regresión Lineal Simple, el cual se ve en esta sesión. La siguiente sesión considerará el caso del Análisis de Regresión Lineal Múltiple.

23 Regresión Lineal X, Y Análisis X, Y Correlacionadas Regresión Lineal y = β0 + β1x + ε

24 Introducción al Análisis de Regresión
El análisis de regresión es usado para: Predecir el valor de una variable dependiente (y) basado en el valor de al menos una variable independiente (x). Explicar el impacto de cambios de una variable independiente sobre la variable dependiente. Variable dependiente: Variable que se desea explicar. Variable independiente: Variable usada para explicar la variable dependiente.

25 Modelo de Regresión Lineal Simple
Sólo una variable independiente, x. La relación entre x e y es descrita por una función lineal. Se asume que los cambios en y son causados por cambios en x.

26 Tipos de Regresión Lineal
Relación Lineal Positiva Relación NO Lineal Relación Lineal Negativa No Hay Relación

27 Modelo de Regresión Lineal Simple (Poblacional)
Pendiente de regresión poblacional Intercepto y poblacional Variable independiente Error aleatorio, o residual Variable dependiente Componente lineal Componente error aleatorio

28 Supuestos de la Regresión Lineal
Los términos de error (ε) son realizaciones estadísticamente independientes de una variable aleatoria para cada nivel de x. Para un valor dado de x, pueden existir muchos valores de y por lo tanto muchos valores de e. La distribución de los posibles errores para cualquier valor de x es normal. Las distribuciones de los valores de e tienen igual varianza para todos los valores de x. Las medias de la variable dependiente, y, para todos los valores especificados de la variable independiente, x, pueden ser conectados por una línea recta la cual es el componente lineal del modelo de regresión poblacional. Supuestos RL - Gráfica.pdf

29 Regresión Lineal Poblacional
(continuación) y Valor observado de y para xi εi Pendiente = β1 Valor estimado de y para xi Error aleatorio pa-ra este valor de x Intercepto = β0 xi x

30 Coeficientes del Modelo Poblacional
Pendiente β1 Cambio promedio en la variable dependiente (y) ante una variación unitaria de la variable independiente (x). Cambio en μy/x ante una variación unitaria de x. Intercepto β0 Valor promedio de la variable dependiente (y) cuando la variable independiente (x) es cero. Interpretación válida si x puede asumir el valor 0, caso contrario, no se tiene una interpretación válida.

31 Regresión Lineal Estimada
La línea de regresión muestral proporciona un estimado de la línea de regresión poblacional Valor predecido de y Estimado del intercepto de regresión Estimado de la pendiente de regresión Variable independiente Los términos de errores individuales (ei) tienen una media de cero

32 Interpretación de la Pendiente y del Intercepto
Modelo regresión lineal poblacional: Componente lineal poblacional: Modelo regresión lineal muestral: Regresión lineal muestral: b0 es el estimado del valor promedio de y cuando el valor de x es cero. b1 es el estimado del cambio en el valor promedio de y que resulta de un cambio de una unidad en x.

33 Criterio de Mínimos Cuadrados
b0 y b1 son obtenidos hallando los valores de b0 y b1 que minimizan la suma de cuadrados de los residuales (error)

34 Ecuación de Mínimos Cuadrados
Las ecuaciones para b1 y b0 son: El equivalente algebraico para b1 es: y

35 Regresión de Mínimos Cuadrados: Propiedades
La suma de los residuales de la línea de regresión de mínimos cuadrados es siempre cero. La suma de los cuadrados de los residuales es la mínima. La línea de regresión siempre pasa a través del punto ( x , y ). Los coeficientes de mínimos cuadrados son estimados insesgados de b0 y b1

36 Hallando la Ecuación de Mínimos Cuadrados
Los coeficientes b0 y b1 usualmente son hallados usando programas como Excel, SPSS, etc. Otras medidas de regresión también son calculadas como parte del análisis de regresión de los programas.

37 Regresión Lineal Simple: Pasos
Especificar la variable independiente (x) y la dependiente (y) Desarrollar un gráfico de dispersión Calcular el coeficiente de correlación Determinar la ecuación de regresión lineal

38 Regresión Lineal Simple: Ejemplo
Un agente inmobilario desea examinar la relación entre los precios de venta de casas y sus áreas (pies cuadrados) Una muestra al azar de 10 casas fue seleccionada Variable dependiente (y) = Precio ($1000s) Variable independiente (x) = Área (pies cuadrados)

39 Datos Muestrales para el Modelo de Precios de Casas
Precio de casa, $1000s (y) Área, pies cuadrados (x) 245 1400 312 1600 279 1700 308 1875 199 1100 219 1550 405 2350 324 2450 319 1425 255

40 Regresión usando Excel
Pasos: Datos / Análisis de datos / Regresión

41 Excel: Resultado La ecuación de regresión es:

42 Presentación Gráfica Modelo de precio de casa: Gráfico de dispersión y línea de regresión Pendiente = Intercepto =

43 Interpretación del estimado del intercepto, b0
b0 es el estimado del valor promedio de y cuando el valor de x es cero (si x = 0 está en el rango de los valores observados de x) Como no hay casas que tengan de área 0 pies cua-drados, entonces b0 = indica que, para las casas cuyas áreas estén dentro del rango observado, $98, es la porción del precio promedio de de la casa no explicado por el área.

44 Interpretación del estimado de la pendiente, b1
b1 mide el estimado del cambio en el valor promedio de “y” que resulta de un cambio de una unidad de “x” b1 = indica que el valor promedio de una casa se incrementa en ($1000) = $109.77, por cada unidad de pie cuadrado adicional.

45 Variación Explicada y No Explicada
La variación total se desagrega en dos partes: Suma Total de Cuadrados Suma de Cuadra-dos del Error Suma de Cuadra-dos de Regresión Donde: = Valor promedio de la variable dependiente y = Valor observado de la variable dependiente = Valor predecido de y para un valor x dado

46 Variación Explicada y No Explicada
(continuación) SST = Suma Total de Cuadrados Mide la variación de los valores yi respecto a su media y SSE = Suma de Cuadrados del Error Variación atribuible a otros factores no incluidos en la relación entre x e y SSR = Suma de Cuadrados de Regresión Variación explicada atribuible a la relación lineal entre x e y

47 Variación Explicada y No Explicada
(continuación) y yi y SSE = (yi - yi )2 _ SST = (yi - y)2 _ y SSR = (yi - y)2 _ _ y y x Xi

48 Coeficiente de Determinación, R2
El coeficiente de determinación es la porción de la variación total de la variable dependiente que es explicada por su relación lineal con la variable independiente El coeficiente de determinación es también llamado R-cuadrado y es denotado como R2 donde

49 Coeficiente de Determinación, R2
(continuación) Coeficiente de determinación Nota: Para el caso de una sola variable independiente, el coeficiente de determinación es Donde: R2 = Coeficiente de determinación r = Coeficiente de correlación muestral

50 Ejemplos de Valores R2 y R2 = 1 Relación lineal perfecta entre x e y:
El100% de la variación en y es explicada por la variacion en x x R2 = 1 y x R2 = 1

51 Ejemplos de Valores R2 y 0 < R2 < 1
(continuación) y 0 < R2 < 1 Relación lineal no perfecta entre x e y: Parte de la variación en y es explicada por la variación en x x y x

52 Ejemplos de Valores R2 y R2 = 0 No hay relación lineal entre x e y: x
(continuación) y R2 = 0 No hay relación lineal entre x e y: Los valores de Y no dependen de X. (Nada de la variación en y es explicada por la variación en x) x R2 = 0 y x R2 = 0

53 Excel: Resultado El 58.08% de la variación en los precios de casas es explicada por la variación en el área (pies cuadrados)

54 Pruebas de Significancia
El coeficiente de correlación (r), el coeficiente de determinación (R2) y los coeficientes de regresión (b0 y b1) son estimados puntuales, a partir de la muestra, de los respectivos verdaderos valores poblacionales: ρ, ρ2 y β0, β1. Por lo tanto están sujetos a error muestral. Se requieren procedimientos de pruebas estadística para determinar la significancia estadística de estos estimados.

55 Pruebas de Significancia
Para la regresión lineal simple hay tres pruebas estadísticas equivalentes: Prueba para la significancia de la correlación (ρ) entre x e y Prueba para la significancia del coeficiente de determinación (ρ 2) Prueba para la significancia de la pendiente de regresión (b1)

56 Prueba para la Significancia del Coeficiente de Determinación
Hipótesis H0: ρ2 = 0 HA: ρ2 > 0 Estadístico de prueba (con glnumerador = 1 y gldenominador = n – 2) H0: La variación de la variable independiente no explica la variación de la variable dependiente HA: La variación de la variable independiente explica una porción de la variación de la variable dependiente

57 Excel: Resultado El valor crítico F para  = 0.05 y glnumerador=1 y gldenominador=8 es Como > 5.31 entonces se rechaza H0 (ρ2 = 0)

58 Significancia Estadística de la Pendiente

59 Población Media β1 Muestra1 Muestra 2 Muestra n b1(1)
Valores que puede tomar la variable aleatoria b1(2) Describir b1 a través de una distribución muestral b1(3)

60 Distribución muestral de b1

61 Desviación Estándar de la Pendiente de Regresión
Donde, : Desviación estándar de la estimación de la pendiente de regresión : Error estándar de la estimación es estimado por: Donde: = Estimador de la desviación estándar de la pendiente de regresión de mínimos cuadrados = Error (desviación) estándar muestral de la estimación

62 Error Estándar de la Estimación
Es la desviación estándar de la variación de observaciones alrededor de la línea de regresión simple estimada por: Donde: SSE = Suma de cuadrados del error n = Tamaño de la muestra

63 Comparando los Errores Estándar
Variación de los valores obser-vados y respecto a la línea de regresión Variación en la pendiente de las líneas de regresión de diferentes muestras posibles y y x x y y x x

64 Excel: Resultado

65 Evaluación de la Pendiente de Regresión: Prueba t
Prueba t para una pendiente poblacional ¿Hay relación lineal entre x e y? Hipótesis nula y alternativa H0: β1 = 0 (No hay relación lineal) HA: β1  0 (Existe relación lineal) Estadístico de prueba Donde: b1 = Coeficiente de la pen- diente de regresión muestral β1 = Pendiente (hipótesis) sb1 = Estimador del error es- tandar de la pendiente

66 Evaluación de la Pendiente de Regresión: Prueba t
(continuación) Ejemplo: Ecuación de regresión estimada: Precio de casa, $1000s (y) Área, pies cuadrados (x) 245 1400 312 1600 279 1700 308 1875 199 1100 219 1550 405 2350 324 2450 319 1425 255 La pendiente de este modelo es ¿Los precios de las casas son afectados por sus áreas?

67 Evaluación de la Pendiente de Regresión: Prueba t
(continuación) Ejemplo: H0: β1 = 0 HA: β1  0 b1 Excel, resultado: Coeficiente Error Estándar t Valor p Intercepto Área Estadístico de prueba: t = 3.329 g.l. = 10-2 = 8 a/2=0.025 a/2=0.025 Rechazar H0 No rechazar H0 Rechazar H0 -tα/2 tα/2 2.3060 Decision: Rechazar H0 Conclusion: Hay suficiente evidencia para concluir que la pendiente no es cero

68 Usos del Análisis de Regresión
Para descripción Para predicción

69 Intervalo de Confianza para la Pendiente

70 Análisis de Regresión para la Descripción
Intervalo de confianza para la pendiente: g.l. = n - 2 Excel, resultados: Con un nivel de confianza del 95%, el intervalo de confianza para la pendiente es (0.0337, )

71 Análisis de Regresión para la Descripción
(continuación) Como la variable precio de casa está expresada en miles de dólares, estamos 95% seguros que el impacto promedio sobre el precio de casa está entre $33.70 y $ por pie cuadrado Este intervalo de confianza (al 95%) no incluye 0. Conclusión: Hay una relación lineal estadísticamente significativa entre el precio de casa y el área al nivel de significancia de 0.05

72 Intervalo de Confianza para ŷ
Descripción Intervalo de Confianza para ŷ

73 Intervalos para Diferentes Valores de x
y Intervalo de confianza para la media de y, dado xp y = b0 + b1x x xp x

74 Intervalo de Confianza para el Promedio de y, Dado x
Intervalo de confianza para la media de y dado un valor particular xp

75 Intervalo de Confianza para el Promedio de y, Dado x
El intervalo de confianza depende en forma importante de la distancia de xp respecto del valor medio de x. Cuanto más lejos xp del punto medio, el intervalo de confianza será más amplio, para un mismo nivel de confianza.

76 Intervalos para Diferentes Valores de x
y Intervalo de confianza para la media de y, dado xp y = b0 + b1x x xp x

77 Intervalo de Confianza para el Promedio de y, Dado x
Xp - X y precisión de predicción.pdf

78 Intervalo de Predicción para un “y” dado un “x”

79 Intervalo de Predicción para un y particular, Dado x
Intervalo de predicción para un valor individual de y dado un xp particular Este término extra alarga el intervalo al reflejar la incertidumbre adicional considerada en un caso individual

80 Intervalo de Predicción para un y particular, Dado x
Intervalo de predic-ción para un y indi-vidual, dado xp y Intervalo de confianza para la media de y, dado xp y = b0 + b1x x xp x

81 Análisis de Regresión para Predicción, Ejemplo: Precios de Casas
Ecuación de regresión estimada: Precio de casa, $1000s (y) Área, pies cuadrados (x) 245 1400 312 1600 279 1700 308 1875 199 1100 219 1550 405 2350 324 2450 319 1425 255 Predecir el precio para una casa de 2000 pies cuadrados

82 Análisis de Regresión para Predicción, Ejemplo: Precios de Casas
(continuación) Predecir el precio para una casa de 2000 pies cuadrados El precio predecido para una casa de 2000 pies cuadrados es ($1,000s) = $317,850

83 Estimación de Promedios: Ejemplo
Intervalo de Confianza para E(y)|xp Hallar el intervalo de confianza al 95% para el precio promedio de casas de 2000 pies cuadrados Precio Predecido Yi = ($1,000s) El intervalo de confianza es , o $280, $354,970

84 Predicción para y’s Individuales: Ejemplo
Intervalo de predicción para y|xp Hallar el intervalo de predicción al 95% para el precio de una casa de 2,000 pies cuadrados Precio Predecido Yi = ($1,000s) El intervalo de predicción es , o $215, $420,130

85 Problemas con Regresión
Aplicando análisis de regresión con fines predictivos Pueden ocurrir errores grandes de predicción No suponer que correlación implica causalidad Un alto coeficiente de determinación, R2, no garantiza que el modelo sea un buen predictor R2 es simplemente el ajuste de la línea de regresión a los datos muestrales

86 Resumen Se introdujo el análisis de correlación
Se discutió la correlación para medir la intensidad de una asociación lineal Se introdujo el análisis de regresión lineal simple Se calculó los coeficientes para la ecuación de regresión lineal simple Se describió medidas de variación (R2 y sε) Se expuso los supuestos de correlación y regresión

87 Resumen Se describió la inferencia acerca de la pendiente
(continuación) Se describió la inferencia acerca de la pendiente Se expuso la estimación de promedios de y, así como la predicción de y’s individuales


Descargar ppt "14 Introducción al Análisis de Correlación y de Regresión Lineal"

Presentaciones similares


Anuncios Google