REGRESION LINEAL SIMPLE Mat. Jessica Jacqueline Machuca Vergara
Regresión Lineal En la búsqueda de mejoras o en la solución de problemas es necesario, frecuentemente, investigar la relación entre factores (o variables). Para lo cual existen varias herramientas estadísticas, entre las que se encuentran el diagrama de dispersión, el análisis de correlación y el análisis de regresión. El análisis de regresión puede usarse para explicar la relación de un factor con otro(s). Para ello, son necesarios los datos, y estos pueden obtenerse de experimentos planeados, de observaciones de fenómenos no controlados o de registros históricos.
Regresión lineal simple Sean dos variables X y Y. Supongamos que se quiere explicar el comportamiento de Y con el de X. Para esto, se mide el valor de Y sobre un conjunto de n valores de X, con lo que se obtienen n parejas de puntos (X1 ,Y1 ), (X2 ,Y2 ),...,(Xn ,Yn ). A Y se le llama la variable dependiente o la variable de respuesta y a X se le conoce como variable independiente o variable regresora.
Patrones de diagramas de dispersión Existe una tendencia fuertemente positiva ya que los puntos dibujados forman una línea casi recta, por lo cual se argumenta en este caso que las dos variables están positiva y fuertemente relacionadas. Existe una tendencia negativa ya que los puntos dibujados se encuentran en sentido opuesto, por lo cual se argumenta en este caso que las dos variables están negativamente relacionadas.
Patrones de diagramas de dispersión No existe tendencia hacia arriba ni hacia abajo. Las dos variables no se encuentran relacionadas. Existe tendencia lineal de las variables. Las dos variables se encuentran relacionadas de manera positiva.
Regresión lineal simple Supongamos que las variables X y Y están relacionadas linealmente y que para cada valor de X, Y es una variable aleatoria. Es decir, supongamos que cada observación de Y puede ser descrita por el modelo general: Y=ß0 +ß1X+e donde e es un error aleatorio con media cero y varianza 2 y es de suponerse que los errores no están correlacionados, lo que significa que el valor de un error no depende del valor de cualquier otro error.
METODO DE MINIMOS CUADRADOS Estimación de los parámetros ß0 y ß1 METODO DE MINIMOS CUADRADOS Los parámetros ß0 y ß1 son desconocidos y se deben de estimar con los datos de la muestra. Para estimar ß0 y ß1 se usa el método de mínimos cuadrados 𝒚 𝒊 = 𝜷 𝟎 + 𝜷 𝟏 𝒙 𝒊 + 𝜺 𝒊 , i=1,2….n Se puede considerar que la ecuación anterior es un modelo muestral de regresión, escritos en términos de los n pares de datos 𝒙 𝒊 𝒚 𝒊 , (𝒊=𝟏,𝟐,⋯,𝒏). Así el criterio de mínimos cuadrados es
RECTA ESTIMADA 𝑦 𝑖 𝑦 𝑖 = 𝛽 0 + 𝛽 1 𝑥 1 + 𝜀 𝑖 𝜀 𝑖 = 𝑦 𝑖 − 𝑦 𝑖 𝛽 0 ? 𝑦 𝑖 Y 𝑦 𝑖 = 𝛽 0 + 𝛽 1 𝑥 1 + 𝜀 𝑖 𝑦 𝑖 𝜀 𝑖 = 𝑦 𝑖 − 𝑦 𝑖 X Como logro obtener la recta estimada? RECTA ESTIMADA 𝛽 0 ? 𝛽 1 ?
S 𝛽 0 , 𝛽 1 = 𝐼=1 𝑁 𝑦 𝑖 − 𝛽 0 − 𝛽 1 𝑥 𝑖 2 Los estimadores, por mínimos cuadrados, de 𝛽 0 y 𝛽 1 , que se designaran por 𝛽 0 y 𝛽 1 , deben satisfacer 𝜕𝑆 𝜕 𝛽 0 𝛽 0 , 𝛽 1 =−2 𝑖=1 𝑛 𝑦 𝑖 − 𝛽 0 − 𝛽 1 𝑥 1 )=0 𝜕𝑆 𝜕 𝛽 1 𝛽 0 , 𝛽 1 =−2 𝑖=1 𝑛 𝑦 𝑖 − 𝛽 0 − 𝛽 1 𝑥 1 ) 𝑥 1 =0
Se simplifican estas dos ecuaciones y se obtiene 𝑛 𝛽 0 + 𝛽 1 𝑖=1 𝑛 𝑥 𝑖 = 𝑖=1 𝑛 𝑦 𝑖 𝛽 0 𝑖=1 𝑛 𝑥 𝑖 + 𝛽 1 𝑖=1 𝑛 𝑥 𝑖 2 = 𝑖=1 𝑛 𝑥 𝑖 𝑦 𝑖 Estas ecuaciones son llamadas ecuaciones normales de mínimos cuadrados. Su solución es la siguiente:
𝛽 1 = 𝑖=1 𝑛 𝑥 𝑖 𝑦 𝑖 − 𝑖=1 𝑛 𝑦 𝑖 𝑖=1 𝑛 𝑥 𝑖 𝑛 𝑖=1 𝑛 𝑥 𝑖 2 − 𝑖=1 𝑛 𝑥 𝑖 2 𝑛 = 𝑺 𝒙𝒚 𝑺 𝒙𝒙 𝛽 0 = 𝑦 − 𝛽 1 𝑥 En donde 𝑦 = 1 𝑛 𝑖=1 𝑛 𝑦 𝑖 y 𝑥 = 1 𝑛 𝑖=1 𝑛 𝑥 𝑖
Además 𝑆 𝑥𝑥 = 𝑖=1 𝑛 𝑥 𝑖 2 − 𝑖=1 𝑛 𝑥 𝑖 2 𝑛 = 𝒊=𝟏 𝒏 𝒙 𝒊 − 𝒙 𝟐 𝑆 𝑥𝑦 = 𝑖=1 𝑛 𝑦 𝑖 𝑥 𝑖 − 𝑖=1 𝑛 𝑦 𝑖 𝑖=1 𝑛 𝑥 𝑖 𝑛 = 𝒊=𝟏 𝒏 𝒚 𝒊 𝒙 𝒊 − 𝒙 De esta forma 𝜷 𝟏 = 𝑺 𝒙𝒚 𝑺 𝒙𝒙
La diferencia entre el valor observado 𝑦 𝑖 y el valor ajustado correspondiente 𝑦 𝑖 se llama residual. Matemáticamente, el i- ésimo residual es 𝜀 𝑖 = 𝑦 𝑖 − 𝑦 𝑖 = 𝑦 𝑖 − 𝛽 0 + 𝛽 1 𝑥 i , Los residuales tienen un papel importante para investigar la adecuación del modelo de regresión ajustado, y para detectar diferencias respecto a las hipótesis básicas.
Ejemplo: Relación de estatura y peso de los estudiantes. Con el interés de encontrar una relación de la estatura y peso de los estudiantes, para ello se midieron a 12 estudiantes y sus correspondientes estaturas y pesos se muestran a continuación. ALUMNO Y=Peso X=Estatura 1 83.4 1.75 2 58.9 1.69 3 79.7 1.74 4 64.1 1.83 5 61.7 1.68 6 81.3 7 71.7 1.67 8 68.8 9 67.7 1.79 10 66.5 11 73.6 1.72 12 53.7
𝑆 𝑥𝑥 = 𝑖=1 𝑛 𝑥 𝑖 2 − 𝑖=1 𝑛 𝑥 𝑖 2 𝑛 =35.7703− 428.9041 12 =0.02829167 𝑆 𝑥𝑦 = 𝑖=1 𝑛 𝑦 𝑖 𝑥 𝑖 − 𝑖=1 𝑛 𝑦 𝑖 𝑖=1 𝑛 𝑥 𝑖 𝑛 = 1434.971− 831.1 20.71 12 =0.63091667 𝜷 𝟏 = 𝑺 𝒙𝒚 𝑺 𝒙𝒙 = 0.63091667 0.02829167 =22.3004418 𝜷 𝟎 = 𝒚 − 𝜷 𝟏 𝒙 =69.2583333− 22.3004418 (1.72583333)=30.7714875 𝒚 =30.7714875−22.3004418𝒙
𝒚 =30.7714875−22.3004418𝒙
Después de obtener el ajuste por mínimos cuadrados, surgen varias preguntas interesantes: ¿Qué tan bien se ajusta esta ecuación a los datos? ¿Es probable que el modelo sea útil para predecir?
𝒚=30.7714875−22.3004418𝒙 Y=Peso X=Estatura 83.4 1.75 58.9 1.69 79.7 1.74 64.1 1.83 61.7 1.68 81.3 71.7 1.67 68.8 67.7 1.79 66.5 73.6 1.72 53.7 y1 =30.7714875−22.3004418(1.75) y1 =69,7973 y2 =30.7714875−22.3004418(1.69) y2 =68,4592 y3 =30.7714875−22.3004418(1.74) y3 =69.5743 y12 =30.7714875−22.3004418(1.74) y12 =69.5743
Estimación de 𝝈 𝟐 Además de estimar 𝛽 0 y 𝛽 1 , se requiere un estimado de 𝜎 2 y estimar un intervalo pertinente al modelo de regresión. 𝑆𝑆 𝑅𝑒𝑠 = 𝑖=1 𝑛 𝑒 𝑖 2 = 𝐼=1 𝑛 𝑦 𝑖 − 𝑦 𝑖 2 Observado Ajustado 𝑒 𝑖 𝑒 𝑖 2 83.4 69.7973 83.4-69.7973=13.6027 185.0334473 58.9 68.4592 58.9 -68.4592=-9.5592 91.37830464 79.7 69.5743 79.7-69.5743=10.1257 102.5298005 64.1 71.5813 64.1-71.5813=-7.4813 55.96984969 61.7 68.2362 61.7-68.2362=-6.5362 42.72191044 81.3 81.3-69.7973= 11.5027 132.3121073 71.7 68.0132 71.7-68.0132=3.6868 13.59249424 68.8 68.8-68.0132=0.7868 0.61905424 67.7 70.6893 67.7-70.6893=-2.9893 8.93591449 66.5 66.5-68.2362=-1.7362 3.01439044 73.6 69.1282 73.6-69.1282=4.4718 19.99699524 53.7 53.7-69.5743=-15.8743 251.9934005 𝑺𝑺 𝑹𝒆𝒔 = 𝒊=𝟏 𝒏 𝒆 𝒊 𝟐 =908.097669 𝜎 2 = 𝑆𝑆 𝑅𝑒𝑠 𝑛−2 = 𝟗𝟎𝟖.𝟎𝟗𝟕𝟔𝟔𝟗 𝟏𝟎 𝜎 2 =90.8097669 Error estándar de estimación de la regresión
Se rechaza Ho, si 𝑡 0 > 𝑡 𝛼 2,𝑛−2 PRUEBA DE HIPOTESIS DE LOS PARAMETROS DE REGRESION Uso de la prueba t-student para probar las hipótesis de los parámetros de regresión. Supongamos que se desea probar la hipótesis que la pendiente es igual a una constante, por ejemplo, a 𝛽´ 𝑖 . Las hipótesis correspondientes son Estadístico de prueba 𝒕 𝟎 = 𝜷 𝐢 − 𝜷´ 𝐢 𝑫𝒆𝒔𝒗 𝜷 𝒊 𝑯 𝟎 : 𝜷 𝒊 = 𝜷´ 𝒊 𝑯 𝒂 : 𝜷 𝒊 ≠ 𝜷´ 𝒊 i=0,1,2…. Se rechaza Ho, si 𝑡 0 > 𝑡 𝛼 2,𝑛−2
VARIANZA DE LOS ESTIMADORES DE LOS PARAMETROS DE REGRESION 𝑉𝑎𝑟 𝛽 1 = 𝜎 2 𝑆 𝑥𝑥 𝑉𝑎𝑟 𝛽 0 = 𝜎 2 1 𝑛 + 𝑥 2 𝑆 𝑥𝑥 𝒙 =𝟏.𝟕𝟐𝟓𝟖𝟑 𝑺 𝒙𝒙 =𝟎.𝟎𝟐𝟖𝟐𝟗𝟏𝟔𝟕 𝜎 2 =90.8097669 𝑉𝑎𝑟 𝛽 1 = 90.8097669 𝟎.𝟎𝟐𝟖𝟐𝟗𝟏𝟔𝟕 =3,209.770469 𝑫𝒆𝒔𝒗 𝜷 𝟏 = 𝟑,𝟐𝟎𝟗.𝟕𝟕𝟎𝟒𝟔𝟗 =𝟓𝟔.𝟔𝟓𝟒
VARIANZA DE LOS ESTIMADORES DE LOS PARAMETROS DE REGRESION 𝑉𝑎𝑟 𝛽 0 = 𝜎 2 1 𝑛 + 𝑥 2 𝑆 𝑥𝑥 𝜎 2 =90.8097 𝑺 𝒙𝒙 =𝟎.𝟎𝟐𝟖𝟐𝟗𝟏𝟔𝟕 𝒙 =𝟏.𝟕𝟐𝟓𝟖𝟑 𝑽𝒂𝒓 𝜷 𝟎 =𝟗𝟎.𝟖𝟎𝟗𝟕 𝟏 𝟏𝟐 + 𝟐.𝟗𝟕𝟖𝟒 𝟎.𝟎𝟐𝟖𝟐𝟗𝟏𝟔𝟕 𝑉𝑎𝑟 𝛽 0 =9567.5407 𝑫𝒆𝒔𝒗 𝜷 𝟎 = 𝟗𝟓𝟔𝟕.𝟓𝟒𝟎𝟕 =𝟗𝟕.𝟖𝟏
Ejemplo para 𝐻 0 : 𝛽 1 =0 𝐻 𝑎 : 𝛽 1 ≠0 𝒕 𝟎 = 𝜷 𝟏 −𝟎 𝑫𝒆𝒔𝒗 𝜷 𝒊 𝑡 0 = 𝟐𝟐.𝟑𝟎𝟎𝟒−𝟎 𝟓𝟔.𝟔𝟓𝟒 =𝟎.𝟑𝟗𝟑𝟔 𝑡 𝛼 2,𝑛−2 = 𝑡 0.025,10 =2.2281 0.3936 <2.2281 No Se rechaza la hipótesis Ho, por lo que podemos concluir que la pendiente es cero. 𝜷 𝟏 =22.3004418 Ejemplo para 𝐻 0 : 𝛽 0 =0 𝐻 𝑎 : 𝛽 0 ≠0 𝑡 0 = 𝛽 0 −0 𝐷𝑒𝑠𝑣 𝜷 𝟎 𝒕 𝟎 = 𝟑𝟎.𝟕𝟕𝟏𝟒−𝟎 𝟗𝟕.𝟖𝟏 =𝟎.𝟑𝟏𝟒𝟔 𝑡 𝛼 2,𝑛−2 = 𝑡 0.025,10 =2.2281 0.31467 >2.445 No Se rechaza la hipótesis Ho, por lo que podemos concluir que el intercepto es cero. 𝜷 𝟎 =30.7714875
Significancia del modelo de regresión Fuente de variación Suma de cuadrados Grados de libertad Cuadrado medio 𝑭 𝟎 Regresión 𝑺𝑺 𝑹 = 𝜷 𝟏 𝑺 𝒙𝒚 1 𝑴𝑺 𝑹 𝑴𝑺 𝑹 / 𝑴𝑺 𝑹𝒆𝒔 Residual 𝑺𝑺 𝑹𝒆𝒔 = 𝑺𝑺 𝑻 − 𝜷 𝟏 𝑺 𝒙𝒚 𝒏−𝟐 𝑴𝑺 𝑹𝒆𝒔 Total 𝑺𝑺 𝑻 𝒏−𝟏 𝛽 1 =22.3004418 𝒚 =69.2583333 𝒊=𝟏 𝒏 𝒚 𝒊 𝟐 = 𝟖𝟑.𝟒 𝟐 + 𝟓𝟑.𝟗 𝟐 +…+ 𝟓𝟑.𝟕 𝟐 =58482.77 𝑺𝑺 𝑻 = 𝒊=𝟏 𝒏 𝒚 𝒊 𝟐 −𝒏 𝒚 𝟐 =𝟓𝟖𝟒𝟖𝟐.𝟕𝟕−𝟏𝟐 𝟔𝟗.𝟐𝟓𝟖𝟑𝟑𝟑 𝟐 =𝟗𝟐𝟐.𝟏𝟔𝟗𝟕
Significancia del modelo de regresión Fuente de variación Suma de cuadrados Grados de libertad Cuadrado medio 𝑭 𝟎 Regresión 𝑺𝑺 𝑹 = 𝜷 𝟏 𝑺 𝒙𝒚 1 𝑴𝑺 𝑹 𝑴𝑺 𝑹 / 𝑴𝑺 𝑹𝒆𝒔 Residual 𝑺𝑺 𝑹𝒆𝒔 = 𝑺𝑺 𝑻 − 𝜷 𝟏 𝑺 𝒙𝒚 𝒏−𝟐 𝑴𝑺 𝑹𝒆𝒔 Total 𝑺𝑺 𝑻 𝒏−𝟏 𝛽 1 =22.3004418 𝑺 𝒙𝒚 = 𝒊=𝟏 𝒏 𝒚 𝒊 𝒙 𝒊 − 𝒊=𝟏 𝒏 𝒚 𝒊 𝒊=𝟏 𝒏 𝒙 𝒊 𝒏 = 1434.971− 831.1 𝟐𝟎.𝟕𝟏 𝟏𝟐 =0.63091667 𝑺𝑺 𝑹 = 𝟐𝟐.𝟑𝟎𝟎𝟒𝟏𝟖 𝟎.𝟔𝟑𝟎𝟗𝟏𝟔𝟔𝟕 =14.06970546 𝑴𝑺 𝑹 =14.06970546/1= 14.06970546 𝑺𝑺 𝑹𝒆𝒔 =𝟗𝟐𝟐.𝟏𝟔𝟗𝟕−14.06970546=𝟗𝟎𝟖.𝟎𝟗𝟗 Fo=14.06970546/90.8099=0.1527 𝑴𝑺 𝑹𝒆𝒔 =908.099/10=90.809
El modelo es significativo Fuente de variación Suma de cuadrados Grados de libertad Cuadrado medio 𝑭 𝟎 Regresión 14.06970546 1 0.1527 Residual 𝟗𝟎𝟖.𝟎𝟗𝟗 10 90.8099 Total 𝟗𝟐𝟐.𝟏𝟔𝟗𝟕 11 si 𝑭 𝟎 > 𝑭 α, 𝒏−𝟐 El modelo es significativo 𝑭 𝟎 =𝟎,𝟏𝟓𝟐𝟕𝒛< 𝑭 𝟎.𝟎𝟓, 𝟏𝟎 =𝟒.𝟗𝟔 Por lo tanto el modelo no es significativo. 𝑭 𝟎.𝟎𝟓, 𝟏𝟎 =4.96 R-CUADRADA 𝑹−𝒄𝒖𝒂𝒅𝒓𝒂𝒅𝒂= 𝑺𝑺 𝑻 − 𝑺𝑺 𝒓𝒆𝒔 𝑺𝑺 𝑻 = 𝟗𝟐𝟐.𝟏𝟔𝟗𝟕−𝟗𝟎𝟖.𝟎𝟗𝟗 𝟗𝟐𝟐.𝟏𝟔𝟗𝟕 X100=1.525
COEFICIENTE DE CORRELACION 𝒓= 𝑹−𝑪𝑼𝑨𝑫𝑹𝑨𝑫𝑨 𝟏𝟎𝟎 𝒓= 𝟏.𝟓𝟐𝟓 𝟏𝟎𝟎 =0.1234