Procedimiento completo de regresión múltiple MEP- II
Conferencia # 4. Regresión lineal múltiple. Sumario: Introducción. El modelo de regresión lineal múltiple La ecuación de regresión lineal múltiple estimada. Inferencias de la regresión. Dócima de la regresión Múltiple. Dócima de la Falta de Ajuste. Variables cualitativas en la regresión.
Objetivos. Que los estudiantes conozcan las situaciones en las que es útil un análisis de regresión múltiple. Que conozcan como estimar la ecuación de regresión. Que sepan realizar e interpretar las dócimas de la Falta de ajuste y la regresión múltiple. Que conozcan las facilidades de Minitab para realizar un análisis de regresión múltiple y la interpretación de sus resultados.
Bibliografía. Ronald E. Walpole. Probabilidad y estadística para ingenieros. Sexta edición. Cap. 12; epíg. 12.1, 12.2, 12.5 y 12.6 Materiales en la red. Correlación y Regresión Múltiple Variables “dummy”
Regresión lineal múltiple. Modelo de regresión que permite estimar el valor esperado de una variable Y (dependiente o respuesta) a partir del conocimiento de varias variables independientes Xj (regresoras o predictoras). E (Y/X1, X2, …Xk) = B0 + B1X1 + B2X2 + …. + BkXk donde: B1, B2, …Bk, son los coeficientes de regresión. Un valor particular de Y:
Estimación de los coeficientes de regresión Muestra: (x1i , x2i , … , xki , yi ) i = 1, 2, … , n Modelo estimado:
Predicción del tiempo promedio para producir una pieza Procedimiento completo de regresión múltiple Predicción del tiempo promedio para producir una pieza Y: tiempo empleado en la producción de una pieza X1: número de operaciones de maquinado a ejecutar X2: dureza del material a utilizar X3: área total de maquinado
DATOS Pieza Tiempo Operaciones Dureza Área 1 109,2 11 55 9 2 102,7 3 71 17 95,9 7 52 6 4 87,6 31 8 5 72,5 22 93,1 54 18 115,9 21 47 83,9 40 23 109,4 10 68 74,3 29 15 78,5 26 12 113,3 66 13 104,3 56
Matriz de correlaciones en minitab
Matriz de correlaciones en minitab (continuación)
Matriz de correlaciones Procedimiento completo de regresión múltiple Matriz de correlaciones Correlations (Pearson) Tiempo Cant Ope Dureza Cant Ope 0.730 Dureza 0.816 0.229 Area -0.534 -0.824 -0.139 multicolinealidad
Acerca de la multicolinealidad Puede distorsionar el error estándar de estimación: conclusiones incorrectas sobre significación de variables independientes. Remedio usual: eliminar una de las v.i. que están fuertemente correlacionadas. Por lo general, correlaciones entre las v. i. entre -0.70 y 0.70 no ocasionan dificultades.
Graph> Matrix Plot…
Diagramas de dispersión: Matrix Plot
Ajustando la ecuación y = 0 + 1 x 1 + 2 x 2 + 3 x 3 + Procedimiento completo de regresión múltiple Ajustando la ecuación y = 0 + 1 x 1 + 2 x 2 + 3 x 3 + The regression equation is Tiempo = 48.2 + 1.70 Cant Operac + 0.657 Dureza + 0.254 Area Predictor Coef StDev T P Constant 48.16 3.93 12.26 0.000 Cant Ope 1.70 0.21 8.27 0.000 Dureza 0.66 0.04 14.79 0.000 Area 0.25 0.19 1.37 0.205 S = 2.321* R-Sq = 98.2% R-Sq(adj) = 97.6%* Los valores calculados son de particular importancia en la regresión múltiple porque constituyen la forma principal de detectar la multicolinealidad. Si el analista no está seguro de incluir dos variables en la misma regresión debido a su alta interrelación, se corre la regresión y se verifican los valores t. Si son suficientemente grandes, la correlación entre las dos variables predictoras no es un problema. *CALIDAD DEL AJUSTE
Análisis de varianza de la regresión múltiple Source DF SS MS F P Regression 3 2664.95 888.3 164.86 0.000 Error 9 48.49 5.4 Total 12 2713.45 Source DF Seq SS Cant Ope 1 1447.66 Dureza 1 1207.22 Area 1 10.07 Ho: B1 = B2 = B3 = 0 H1: Al menos uno es 0 RC: F>F; 3; 9 No replicates. Cannot do pure error test.
Eliminando una variable que no hace un aporte significativo Tiempo = 52.6 + 1.47 Cant Operac + 0.662 Dureza Predictor Coef StDev T P Constant 52.60 2.299 22.88 0.000 Cant Ope 1.47 0.122 12.02 0.000 Dureza 0.66 0.046 14.36 0.000 S =2.420* R-Sq =97.8% R-Sq(adj)=97.4%*
Tiempo = 52.6 + 1.47 Cant Operac + 0.662 Dureza Analysis of Variance Source DF SS MS F P Regression 2 2654.9 1327.4 226.66 0.000 Error 10 58.6 5.9 Total 12 2713.4 Source DF Seq SS Cant Ope 1 1447.7 Dureza 1 1207.2
Variables cualitativas en regresión Meramente indica cuando un “sujeto” pertenece o no a una particular categoría o posee o no una particular cualidad. Su introducción no cambia el procedimiento de realización de la regresión. Su efecto práctico es el cambio del coeficiente b0.
Regresión con variables cualitativas (variables dummy) Turno trabajo Variable cualitativa Variable dummy T1 T2 Primer turno 1 Segundo turno 2 Tercer turno 3 En este caso, el 3er turno ha sido seleccionada como categoría de referencia y no se incluye directamente en la ecuación de regresión. El coeficiente b3 es la diferencia en el valor predicho de Tiempo para el primer turno, respecto al que se obtendría en el tercer turno.
DATOS con la variable cualitativa turno Pieza Tiempo Operaciones Dureza Área Turno T1 T2 1 109,2 11 55 9 2 102,7 3 71 17 95,9 7 52 6 4 87,6 31 8 5 72,5 22 93,1 54 18 115,9 21 47 83,9 40 23 109,4 10 68 74,3 29 15 78,5 26 12 113,3 66 13 104,3 56
PROCEDIMIENTOS Y HERRAMIENTAS PARA EJECUTARLOS Selección preliminar de variables independientes Matriz de correlaciones Matriz de diagramas de dispersión Si es necesario, creación de nuevas variables mediante transformaciones. Ajuste mediante mínimos cuadrados Dócima de la ecuación y de los coeficientes de cada variable independiente.
Consideraciones o supuestos acerca de la correlación y regresión lineal Las variables independientes y dependientes tienen una relación lineal. La variable dependiente es continua y al menos con escala de intervalo. La diferencia (y - ŷ) debe ser aproximadamente igual para todos los valores de ŷ. Presencia de Homocedasticidad. Los residuos, (y – ŷ), están distribuidos de forma normal con media igual a cero. Las observaciones sucesivas de la variable dependiente no están correlacionadas. No presencia de Autocorrelación
Trabajo independiente Estudiar los epígrafes señalados en la bibliografía. Analizar y dar respuesta a los incisos del ejercicio # 8 página 458.
R2 ajustado A diferencia de R2, el R2 ajustado no varía apreciablemente cuando una variable que no aporta se adiciona al modelo
Interpretación de la multicolinealidad V(y) explicada por X1 V(y) explicada tanto por X1 como por X2 (multicolinealidad) V(y) explicada por X2 V(y)