Descargar la presentación
La descarga está en progreso. Por favor, espere
1
ANALISIS DE REGRESION SIMPLE
Dr. Porfirio Gutiérrez González Mat. Jessica Jaqueline Machuca Vergara
2
Regresión Lineal En la búsqueda de mejoras o en la solución de problemas es necesario, frecuentemente, investigar la relación entre factores (o variables). Para lo cual existen varias herramientas estadísticas, entre las que se encuentran el diagrama de dispersión, el análisis de correlación y el análisis de regresión. El análisis de regresión puede usarse para explicar la relación de un factor con otro(s). Para ello, son necesarios los datos, y estos pueden obtenerse de experimentos planeados, de observaciones de fenómenos no controlados o de registros históricos.
3
Regresión lineal simple
Sean dos variables X y Y. Supongamos que se quiere explicar el comportamiento de Y con el de X. Para esto, se mide el valor de Y sobre un conjunto de n valores de X, con lo que se obtienen n parejas de puntos (X1 ,Y1 ), (X2 ,Y2 ),...,(Xn ,Yn ). A Y se le llama la variable dependiente o la variable de respuesta y a X se le conoce como variable independiente o variable regresora.
4
Regresión lineal simple
Supongamos que las variables X y Y están relacionadas linealmente y que para cada valor de X, Y es una variable aleatoria. Es decir, supongamos que cada observación de Y puede ser descrita por el modelo: Y=ß0 +ß1X+e donde e es un error aleatorio con media cero y varianza 2 y es de suponerse que los errores no están correlacionados, lo que significa que el valor de un error no depende del valor de cualquier otro error.
5
Estimación de los parámetros ß0 y ß1
Los parámetros ß0 y ß1 son desconocidos y se deben de estimar con los datos de la muestra. Para estimar ß0 y ß1 se usa el método de mínimos cuadrados 𝑦 𝑖 = 𝛽 0 + 𝛽 1 𝑥 1 + 𝜀 𝑖 , i=1,2….n Se puede considerar que la ecuación anterior es un modelo muestral de regresión, escritos en términos de los n pares de datos 𝑦 𝑖 , 𝑥 𝑖 (𝑖=1,2,⋯,𝑛). Así el criterio de mínimos cuadrados es
6
S 𝛽 0 , 𝛽 1 = 𝐼=1 𝑁 𝑦 𝑖 − 𝛽 0 − 𝛽 1 𝑥 𝑖 2 Los estimadores, por mínimos cuadrados, de 𝛽 0 y 𝛽 1 , que se designaran por 𝛽 0 y 𝛽 1 , deben satisfacer 𝜕𝑆 𝜕 𝛽 𝛽 0 , 𝛽 1 =−2 𝑖=1 𝑛 𝑦 𝑖 − 𝛽 0 − 𝛽 1 𝑥 1 )=0 𝜕𝑆 𝜕 𝛽 𝛽 0 , 𝛽 1 =−2 𝑖=1 𝑛 𝑦 𝑖 − 𝛽 0 − 𝛽 1 𝑥 1 ) 𝑥 1 =0
7
Se simplifican estas dos ecuaciones y se obtiene
𝑛 𝛽 𝛽 1 𝑖=1 𝑛 𝑥 𝑖 = 𝑖=1 𝑛 𝑦 𝑖 𝛽 0 𝑖=1 𝑛 𝑥 𝑖 + 𝛽 1 𝑖=1 𝑛 𝑥 𝑖 2 = 𝑖=1 𝑛 𝑥 𝑖 𝑦 𝑖 Estas ecuaciones son llamadas ecuaciones normales de mínimos cuadrados. Su solución es la siguiente:
8
𝛽 0 = 𝑦 − 𝛽 1 𝑥 𝛽 1 = 𝑖=1 𝑛 𝑥 𝑖 𝑦 𝑖 − 𝑖=1 𝑛 𝑦 𝑖 𝑖=1 𝑛 𝑥 𝑖 𝑛 𝑖=1 𝑛 𝑥 𝑖 2 − 𝑖=1 𝑛 𝑥 𝑖 𝑛 En donde 𝑦 = 1 𝑛 𝑖=1 𝑛 𝑦 𝑖 y 𝑥 = 1 𝑛 𝑖=1 𝑛 𝑥 𝑖
9
Además 𝑆 𝑥𝑥 = 𝑖=1 𝑛 𝑥 𝑖 2 − 𝑖=1 𝑛 𝑥 𝑖 𝑛 = 𝑖=1 𝑛 𝑥 𝑖 − 𝑥 2 𝑆 𝑥𝑦 = 𝑖=1 𝑛 𝑦 𝑖 𝑥 𝑖 − 𝑖=1 𝑛 𝑦 𝑖 𝑖=1 𝑛 𝑥 𝑖 𝑛 = 𝑖=1 𝑛 𝑦 𝑖 𝑥 𝑖 − 𝑥 De esta forma 𝜷 𝟏 = 𝑺 𝒙𝒚 𝑺 𝒙𝒙
10
La diferencia entre el valor observado 𝑦 𝑖 y el valor ajustado correspondiente 𝑦 𝑖 se llama residual. Matemáticamente, el i- ésimo residual es 𝑒 𝑖 = 𝑦 𝑖 − 𝑦 𝑖 = 𝑦 𝑖 − 𝛽 𝛽 1 𝑥 1 , Los residuales tienen un papel importante para investigar la adecuación del modelo de regresión ajustado, y para detectar diferencias respecto a las hipótesis básicas.
11
Ejemplo: Datos del propelente
Un motor de cohete se forma pegando entre si un propelente de ignición y un propelente de sostenimiento dentro de una caja metálica. La resistencia al corte de la pegadura entre los dos propelentes es una característica importante de calidad. Se cree que la resistencia al corte se relaciona con la edad, en semanas, del lote del propelente de sostenimiento. Se hicieron 20 observaciones de resistencia al corte y la edad del lote correspondiente de propelente, y se ven en la siguiente tabla
12
observacion y x 1 2158.7 15.5 2 23.75 3 2316 8 4 2061.3 17 5 2207.5 5.5 6 1708.3 19 7 1784.7 24 2575 2.5 9 2357.9 7.5 10 2256.7 11 2165.2 13 12 3.75 1779.8 25 14 9.75 15 1765.3 22 16 2053.5 18 2414.4 2200.5 12.5 2654.2 20 1753.7 21.5
13
𝑆 𝑥𝑥 = 𝑖=1 𝑛 𝑥 𝑖 2 − 𝑖=1 𝑛 𝑥 𝑖 𝑛 = − = 𝑆 𝑥𝑦 = 𝑖=1 𝑛 𝑦 𝑖 𝑥 𝑖 − 𝑖=1 𝑛 𝑦 𝑖 𝑖=1 𝑛 𝑥 𝑖 𝑛 = − =− 𝛽 1 = 𝑆 𝑥𝑦 𝑆 𝑥𝑥 = − =−37.15 𝛽 0 = 𝑦 − 𝛽 1 𝑥 = − − = 𝑦 = −37.15𝑥
15
Después de obtener el ajuste por mínimos cuadrados, surgen varias preguntas interesantes:
¿Qué tan bien se ajusta esta ecuación a los datos? ¿Es probable que el modelo sea útil como predictor? ¿Se viola alguna de los supuestos básicos (como la de la varianza constante y la de errores no correlacionados)? Y en caso afirmativo ¿Qué tan grave es eso?
16
Estimación de 𝝈 𝟐 Además de estimar 𝛽 0 y 𝛽 1 , se requiere un estimado de 𝜎 2 y estimar un intervalo pertinente al modelo de regresión. 𝑆𝑆 𝑅𝑒𝑠 = 𝑖=1 𝑛 𝑒 𝑖 2 = 𝐼=1 𝑛 𝑦 𝑖 − 𝑦 𝑖 2 Observado Ajustado 𝑒 𝑖 𝑒 𝑖 2 2158.7 106.76 -67.27 2316 -14.59 2061.3 65.09 2207.5 1708.3 1921.9 -213.6 1784.7 48.56 2575 40.06 2357.9 8.73 2256.7 37.57 2165.2 20.37 2488.5 -88.95 1779.8 80.82 71.18 1765.3 -45.14 2053.5 94.44 2414.4 2404.9 9.5 90.25 2200.5 2163.4 37.1 2654.2 100.68 1753.7 -75.32 𝑆𝑆 𝑅𝑒𝑠 = 𝑖=1 𝑛 𝑒 𝑖 2 = 𝜎 2 = 𝑆𝑆 𝑅𝑒𝑠 𝑛−2 = Error estándar de estimación de la regresión 𝜎 =
17
VARIANZA DE LOS ESTIMADORES DE LOS PARAMETROS DE REGRESION
𝑉𝑎𝑟 𝛽 0 = 𝜎 𝑛 + 𝑥 2 𝑆 𝑥𝑥 𝑉𝑎𝑟 𝛽 1 = 𝜎 2 𝑆 𝑥𝑥 𝜎 2 = 𝑆𝑆 𝑅𝑒𝑠 𝑛−2 = 𝑥 = 𝑆 𝑥𝑥 = 𝑉𝑎𝑟 𝛽 1 = =8.3468 𝜎 𝛽 1 = =2.88 𝑉𝑎𝑟 𝛽 0 = 𝑉𝑎𝑟 𝛽 0 = 𝜎 𝛽 0 = =44.18
18
Se rechaza Ho, si 𝑡 0 > 𝑡 𝛼 2,𝑛−2
PRUEBA DE HIPOTESIS DE LOS PARAMETROS DE REGRESION Uso de la prueba t-student para probar las hipótesis de los parámetros de regresión. Supongamos que se desea probar la hipótesis que la pendiente es igual a una constante, por ejemplo, a 𝛽 10 . Las hipótesis correspondientes son Estadístico de prueba 𝑡 0 = 𝛽 1 − 𝛽 10 𝜎 𝛽 1 𝐻 0 : 𝛽 1 = 𝛽 10 𝐻 𝑎 : 𝛽 1 ≠ 𝛽 10 Se rechaza Ho, si 𝑡 0 > 𝑡 𝛼 2,𝑛−2
19
Se rechaza Ho, si 𝑡 0 > 𝑡 𝛼 2,𝑛−2
PRUEBA DE HIPOTESIS DE LOS PARAMETROS DE REGRESION Uso de la prueba t-student para probar las hipótesis de los parámetros de regresión. Supongamos que se desea probar la hipótesis que el intercepto es igual a una constante, por ejemplo, a 𝛽 00 . Las hipótesis correspondientes son Estadístico de prueba 𝑡 0 = 𝛽 0 − 𝛽 00 𝜎 𝛽 0 𝐻 0 : 𝛽 0 = 𝛽 00 𝐻 𝑎 : 𝛽 0 ≠ 𝛽 00 Se rechaza Ho, si 𝑡 0 > 𝑡 𝛼 2,𝑛−2
20
Ejemplo para 𝐻 0 : 𝛽 1 =0 𝐻 𝑎 : 𝛽 1 ≠0 𝑡 0 = 𝛽 1 − 𝛽 10 𝜎 𝛽 1 𝑡 0 = −37.15− =−12.85 𝑡 𝛼 2,𝑛−2 = 𝑡 0.025,18 =2.445 −37.15 >2.445 Se rechaza la hipótesis Ho, por lo que podemos concluir que la pendiente no es cero. Ejemplo para 𝐻 0 : 𝛽 0 =0 𝐻 𝑎 : 𝛽 0 ≠0 𝑡 0 = 𝛽 0 − 𝛽 00 𝜎 𝛽 0 𝑡 0 = − =59.47 𝑡 𝛼 2,𝑛−2 = 𝑡 0.025,18 =2.445 59.47 >2.445 Se rechaza la hipótesis Ho, por lo que podemos concluir que el intercepto no es cero.
21
Significancia del modelo de regresión
Fuente de variación Suma de cuadrados Grados de libertad Cuadrado medio 𝑭 𝟎 Regresión 𝑺𝑺 𝑹 = 𝜷 𝟏 𝑺 𝒙𝒚 1 𝑴𝑺 𝑹 𝑴𝑺 𝑹 / 𝑴𝑺 𝑹𝒆𝒔 Residual 𝑺𝑺 𝑹𝒆𝒔 = 𝑺𝑺 𝑻 − 𝜷 𝟏 𝑺 𝒙𝒚 𝒏−𝟐 𝑴𝑺 𝑹𝒆𝒔 Total 𝑺𝑺 𝑻 𝒏−𝟏 𝑆𝑆 𝑇 = 𝑖=1 𝑛 𝑦 𝑖 2 −𝑛 𝑦 2 =1693,737.60 𝛽 1 =−37.15 𝑆 𝑥𝑦 = 𝑖=1 𝑛 𝑦 𝑖 𝑥 𝑖 − 𝑖=1 𝑛 𝑦 𝑖 𝑖=1 𝑛 𝑥 𝑖 𝑛 = − =− 𝑺𝑺 𝑹 = − − = Fo= / =165.21 𝑴𝑺 𝑹 = /1= 𝑺𝑺 𝑹𝒆𝒔 = − = 𝑴𝑺 𝑹𝒆𝒔 = /18=
22
El modelo es significativo
Fuente de variación Suma de cuadrados Grados de libertad Cuadrado medio 𝑭 𝟎 Regresión 1 165.21 Residual 𝟏𝟔𝟔𝟒𝟎𝟐.𝟔𝟓𝟑𝟎 18 Total 𝟏𝟔𝟗𝟑𝟕𝟑𝟕.𝟔𝟎 19 si 𝑭 𝟎 > 𝑭 α, 𝒏−𝟐 El modelo es significativo 𝑭 𝟎.𝟎𝟓, 𝟏𝟖 =𝟒.𝟒𝟏𝟒 𝑭 𝟎 =𝟏𝟔𝟓.𝟐𝟏> 𝑭 𝟎.𝟎𝟓, 𝟏𝟖 =𝟒.𝟒𝟏𝟒 Por lo tanto el modelo es significativo.
23
Mínimos Cuadrados Estándar Estadístico Parámetro Estimado Error T
Mínimos Cuadrados Estándar Estadístico Parámetro Estimado Error T Valor-P Intercepto 0.0000 Pendiente Fuente Suma de Cuadrados Gl Cuadrado Medio Razón-F Valor-P Modelo E6 1 165.38 0.0000 Residuo 18 Total (Corr.) E6 19
24
COEFICIENTE DE DETERMINACIÓN
𝑅 2 = 𝑆𝑆 𝑅 𝑆𝑆 𝑇 =1− 𝑆𝑆 𝑅𝑒𝑠 𝑆𝑆 𝑇 Por tanto, el 90.18% de la variabilidad de la resistencia queda explicada por el modelo de regresión. 𝑅 2 = 𝑆𝑆 𝑅 𝑆𝑆 𝑇 = =0.9018
25
COEFICIENTE DE CORRELACION
𝑟= 𝑖=0 𝑛 𝑦 𝑖 𝑥 𝑖 − 𝑥 𝑖=0 𝑛 𝑥 𝑖 − 𝑥 𝑖=0 𝑛 𝑦 𝑖 − 𝑦 = 𝑆 𝑥𝑦 𝑆 𝑥𝑥 𝑆𝑆 𝑇 Con frecuencia es útil probar la hipótesis que el coeficiente de correlación es cero, esto es 𝐻 0 : 𝜌=0 𝐻 1 : 𝜌≠0 𝑡 0 = 𝑟 𝑛−2 1− 𝑟 2 Que sigue la distribución 𝑡 con 𝑛−2 grados de libertad si 𝐻 0 : 𝜌=0 es cierta. Así, se rechazaría la hipótesis nula si 𝑡 0 > 𝑡 𝛼 2 ,𝑛−2 .
26
𝑟= 𝑆 𝑥𝑦 𝑆 𝑥𝑥 𝑆𝑆 𝑇 = − )( 𝑟= − 𝒓= −𝟒𝟏𝟏𝟏𝟐.𝟔𝟓 𝟒𝟑.𝟐𝟖𝟖.𝟑𝟕 =−𝟎.𝟗𝟒𝟗𝟕 𝒕 𝟎 = −𝟎.𝟗𝟒𝟗𝟕 𝟐𝟎−𝟐 𝟏− (−𝟎.𝟗𝟒𝟗𝟕) 𝟐 =−𝟒𝟏.𝟏𝟏 𝒕 𝟎.𝟎𝟐𝟓,𝟏𝟖 =𝟐.𝟒𝟒𝟓 −𝟒𝟏.𝟏𝟏 >𝟐.𝟒𝟒𝟓 Se rechaza la hipótesis Ho, por lo que podemos concluir que el 𝝆≠𝟎
28
Patrones de diagramas de dispersión
No existe tendencia hacia arriba ni hacia abajo. Las dos variables no se encuentran relacionadas. Existe tendencia lineal de las variables. Las dos variables se encuentran relacionadas de manera positiva.
29
Patrones de diagramas de dispersión
Existe una tendencia fuertemente positiva ya que los puntos dibujados forman una línea casi recta, por lo cual se argumenta en este caso que las dos variables están positiva y fuertemente relacionadas. Existe una tendencia negativa ya que los puntos dibujados se encuentran en sentido opuesto, por lo cual se argumenta en este caso que las dos variables están negativamente relacionadas.
Presentaciones similares
© 2025 SlidePlayer.es Inc.
All rights reserved.