REGRESIÓN Y CORRELACIÓN REGRESIÓN Es un Proceso estadístico que consiste en predecir una variable a partir de otra utilizando datos anteriores. INGA. ASTRID MÉRIDA
DIAGRAMA DE DISPERSIÓN Es una gráfica en la que se traza cada uno de los puntos que representan un par de valores observados para las variables independiente y dependiente. INGA. ASTRID MÉRIDA
DIAGRAMAS DE DISPERSIÓN INGA. ASTRID MÉRIDA
REGRESIÓN LINEAL Se refiere a la relación entre dos variables para la predicción de una en base a la otra. Sostiene que a medida que x cambia, y cambia en una cantidad constante. INGA. ASTRID MÉRIDA
El método que comúnmente se utiliza para realizar este ajuste es el llamado método de mínimos cuadrados. Se llama así porque reduce al mínimo el cuadrado de las distancias verticales entre cada uno de los puntos y la recta ajustada. Cuando de manera manual se ajusta la recta al diagrama de dispersión, normalmente se intenta ubicarla lo mas centrada posible en la nube de puntos. Esta forma intuitiva de colocar la recta pretende minimizar la distancia vertical entre cada uno de los puntos y la recta. Es precisamente esto lo que se hace cuando se utiliza el método de mínimos cuadrados, sin embargo con este método, por ser un procedimiento numérico, se garantiza que la suma de los cuadrados de esas desviaciones es mínima. INGA. ASTRID MÉRIDA
Fórmulas Para obtener los valores de a y b ∑y = n a + b ∑x ∑ x y = a ∑x + b ∑ x 2 INGA. ASTRID MÉRIDA
MODELO DE REGRESIÓN Y SUS SUPUESTOS El modelo utilizado es: Se basa en la forma pendiente-ordenada al origen de una recta. Representa un modelo determinístico, ya que dado un valor de x se obtiene uno para y. Tiene la siguiente forma general: El modelo probabilístico que incluye el componente de error es: INGA. ASTRID MÉRIDA
En donde es el termino del error, la diferencia entre cada uno de los valores observados de la variable y; y los estimados para cada valor de x, de acuerdo con la ecuación de regresión de mínimos cuadrados La suma de todos los errores, cuando se construye una ecuación de regresión lineal, debe ser igual a cero. INGA. ASTRID MÉRIDA
ERROR ESTÁNDAR DE LA ESTIMACIÓN Es la desviación estándar de la dispersión vertical con respecto a la línea. Sirve para medir la confiabilidad de la ecuación de estimación. Formula Se = √ [ ∑ y2 - a ∑y - b ∑ xy ] / ( n – 2 ) INGA. ASTRID MÉRIDA
Ejemplo: Para el siguiente conjunto de datos: a) graficar b) desarrollar la ecuación de estimación que mejor describa los datos, c) Calcular el error estándar de estimación d) Pronosticar Y para X = 15, 8, 20 x y INGA. ASTRID MÉRIDA
a) Gráficar INGA. ASTRID MÉRIDA
ESTIMACIÓN DE INTERVALOS DE CONFIANZA Y PRUEBA DE HIPÓTESIS EN LA REGRESIÓN LINEAL INTERVALO DE CONFIANZA PARA LA PENDIENTE donde: t se trabaja con n-2 grados de libertad INGA. ASTRID MÉRIDA
PRUEBA DE HIPÓTESIS SOBRE LA PENDIENTE β1 Existen 2 maneras de probar la hipótesis nula, a través de la t de Student y utilizando la F de Fisher. El estadístico de prueba para la t de Student es: Donde: = valor de la pendiente en la ecuación estimada INGA. ASTRID MÉRIDA
INTERVALO DE CONFIANZA PARA (βo), LA INTERSECCIÓN DE LA LÍNEA DE REGRESIÓN Donde: t con n-2 grados de libertad. INGA. ASTRID MÉRIDA
DONDE: = = Pronóstico basado en el punto de análisis X= x INGA. ASTRID MÉRIDA
Ejemplo: Para el siguiente conjunto de datos: a) calcular ecuación b) probar que no existe relación entre las 2 variables, es decir, que la pendiente de la recta de regresión es cero, con α = 0.01 c) Hacer una estimación por intervalo para β1 con un nivel de confianza de 99 por ciento. d) haga una estimación por intervalo para el valor de y, dado x=15, con un nivel de confianza de 95 por ciento. x y INGA. ASTRID MÉRIDA
Solución: a) calcular ecuación Y est = 6/11 + 7/11 x b) probar que no existe relación entre las 2 variables, es decir, que la pendiente de la recta de regresión es cero, con α = 0.01 = / √ 132 S β1 = = [(7/11) - 0 ] / t = t con α=0.01 y gl= n -2 t = Se rechaza la hipótesis nula para concluir que si existe una relación entre las 2 variables, en otras palabras, β1 es diferente de cero. c) Hacer una estimación por intervalo para β1 con un nivel de confianza de 99 por ciento. S β1 = ( ) / √132 = = 7/11 ± * ≤ β1 ≤ Con una confianza de 99% de estar en lo correcto, se estima que la pendiente de la recta de regresión que relaciona x con y, se encuentra entre y INGA. ASTRID MÉRIDA
d) haga una estimación por intervalo para el valor de y, dado x=15, con un nivel de confianza de 95 por ciento. Primero realizar el pronóstico para x = 15 Y est = 6/11 + 7/11 (15) = = = ± (2.447* ) * √ [ (1/8) + ( 15 – 7)² / 132 ] = ± ( * * ) = ± ≤ ≤ Se estima, con una confianza de 95% de estar en lo correcto, que y para un x = 15 esta entre y INGA. ASTRID MÉRIDA