Facultad de Ingeniería Informática Modelos y Simulación
PARÁBOLA DE LA EDUCACIÓN Iba un hombre caminando por el desierto cuando oyó una voz que le dijo: Levanta unos guijarros, mételos a tu bolsillo y mañana te sentirás a la vez triste y contento. Aquel hombre obedeció. Se inclinó, recogió un puñado de guijarros y se los metió en el bolsillo. A la mañana siguiente, vio que los guijarros se habían convertido en diamantes, rubíes y esmeraldas. Y se sintió feliz y triste. Feliz, por haber recogido los guijarros Triste por no haber recogido más!! Lo mismo ocurre con la educación
ANÁLISIS DE REGRESIÓN Y = f ( X 1, X 2,......, X j ; E ) Análisis confirmatorio Análisis exploratorio
ALGUNOS EJEMPLOS Y : ventas mensuales de un producto X 1 : precio del producto cada mes X 2 : precio del competidor cada mes X 3 : gastos de publicidad cada mes Y : cosecha anual de un cultivo en una región agrícola X 1 : área sembrada del cultivo cada año X 2 : lluvia caída en la región en un período del año Y : demanda diaria de gas en una ciudad X 1 : pronóstico de la temperatura X 2 : demanda del día anterior X 3 : día feriado o laborable
MODELO LINEAL GENERAL Y = B 0 + B 1 X 1 + B 2 X B j X j + E MODELO LINEAL SIMPLE Y = B 0 + B 1 X + E
UN PRIMER EJEMPLO Y : ventas mensuales de autos en unidades X 1 : gastos de publicidad en $ del mes anterior X 2 : tasa de interés anual en % Y X 1 X , , , , , , , , , ,2
MODELOS A EXPLORAR Modelo 1 : Y = B 0 + B 1 X 1 + E Modelo 2 : Y = B 0 + B 2 X 2 + E Modelo 1, 2 : Y = B 0 + B 1 X 1 + B 2 X 2 + E
MODELO 1 Y = B 0 + B 1 X 1 + E FUNCIÓN DE REGRESIÓN POBLACIONAL E(Y/X) = B 0 + B 1 X 1 FUNCIÓN PREDICTORA y = b 0 + b 1 X 1
NUBE DE PUNTOS Y X * * * * * * * * * * 1445 FP
ANÁLISIS CONFIRMATORIO Aspecto 1 : Estimación de B 0 y B 1 y = b 0 + b 1 X 1 y = 114,45 + 0,2168 X 1 y = 114,45 + 0,2168 * = U. Aspecto 2 : Validación del modelo ¿Es ésta la mejor ecuación de predicción?
VARIABILIDAD Variaciones Previsibles Fuentes sistemáticas ( X j ) Variaciones Imprevisibles Fuentes fortuitas ( E )
VALIDACIÓN DEL MODELO Método 1: Coeficiente de determinación R 2 0 < R 2 < 1 ¿Cuál es el valor apropiado de R 2 ? Procesos físicos e industriales: 0,8 a 0,9 Variables macro y microeconómicas: 0,6 a 0,7 Sociología y Psicología: 0,4 a 0,6
VENTAS DE AUTOS R 2 = 0,87 = 87% El 87% de los cambios en las ventas está explicado estadísticamente por los cambios en los gastos de publicidad El 13% restante está explicado por fuentes fortuitas (ruido) Coeficiente de correlación ( -1 < R < 1 ) R = 0,911 = 91,1%
ACLARACIÓN Un valor alto de R 2 implica la existencia de una relación estadística entre X e Y, pero no demuestra que haya relación causa-efecto Si existe causalidad implica que habrá una relación estadística Una relación estadística, por sí misma, no implica causalidad
VALIDACIÓN DEL MODELO Método 2 : Ensayo de hipótesis B 1 = 0 El rechazo de este supuesto con un riesgo bajo, se considera una prueba concluyente de la relación entre X e Y En nuestro ejemplo se rechaza este supuesto con un riesgo muy pequeño
ANÁLISIS EXPLORATORIO Modelo 1 : Y = B 0 + B 1 X 1 + E Modelo 2 : Y = B 0 + B 2 X 2 + E Modelo 1, 2 : Y = B 0 + B 1 X 1 + B 2 X 2 + E
LA VARIANZA RESIDUAL Las diferencias entre las ventas observadas y las estimadas con la ecuación de predicción se llaman “residuos” El conjunto de esos residuos expresan la variabilidad no explicada por el modelo, y se resumen en un indicador que se llama “varianza” S 2
MODELOS CANDIDATOS Condiciones necesarias pero no suficientes R 2 mayor a 0,6 Menor S 2 Un modelo puede tener un alto R 2 y ser el de menor S 2, pero puede tener problemas de superposición de información
VEAMOS UN EJEMPLO Y : facturación de una telefónica en millones de $ X 1 : cantidad de clientes en miles X 2 : cantidad de líneas en miles X 1 X 2 Y 560, ,430 73, , ,974 27, , ,461 30, , ,154 29, , ,463 76, , ,299 19, , ,823 48, , ,314 34,188365
ANÁLISIS EXPLORATORIO ModeloEcuación de predicción R 2 S 2 1y = 1,54 + 0,132X 1 0, ,1 2y = 3,79 + 0,116X 2 0, ,4 1, 2y = 4,24 - 0,03X 1 + 0,138X 2 0, ,2 ¿Cuáles son los modelos candidatos? ¿Cuál es el hecho anómalo que se observa en el modelo 1, 2 ?
LA MULTICOLINEALIDAD 1.Es la existencia de fuertes asociaciones entre los datos de las variables explicativas. 2.Conlleva errores muestrales altos para la estimación de los parámetros, pudiendo producir signos contrarios a su naturaleza. 3.Cuando hay multicolinealidad hay que ser precavido en la predicción, no debe extrapolarse. 4.Es un problema que está contenido en los datos, y es independiente del planteo teórico del modelo. 5.Es un problema de grado, no de ausencia o presencia.
¿CÓMO SE DETECTA? El determinante de la matriz de correlaciones es un indicador global de la multicolinealidad 0 < DET < 1 Si toma valor 0 la multicolinealidad es total y si toma valor 1 hay ausencia absoluta Si es menor a 0,1 el problema es severo Siempre que agreguemos variables a un modelo estaremos agregando multicolinealidad
PRINCIPIO DE PARSIMONIA En la selección del mejor modelo de Regresión Múltiple deberá tener importancia prioritaria la sencillez del mismo, dada por el menor número de variables explicativas
EL PRESS Y EL CP PRESS : Prediction Sum of Squares Es una medida de la capacidad predictiva del modelo A menor PRESS el modelo dará mejores pronósticos CP : Coeficiente P ( P = cantidad de variables ) Indica si en un modelo hay pérdida de información Para el modelo completo el CP es igual a P Para modelos incompletos, si el CP es mucho mayor a P, hay pérdida de información
ANÁLISIS EXPLORATORIO 1. Ventas de autos 2. Facturación de una telefónica 3. Consumo de vino 4. Humedad del tabaco
HUMEDAD DEL TABACO DESCRIPCIÓN DE LAS VARIABLES Y : Humedad del tabaco a la entrada del silo X 1 : Humedad del tabaco a la salida del secadero X 2 : Humedad ambiente X 3 : Temperatura ambiente TABLA DE DATOS y x 1 x 2 x 3 y x 1 x 2 x 3 17,10 18,27 70,0 26,50 16,99 18,41 70,0 26,50 16,55 17,85 62,0 30,50 18,20 19,80 62,0 30,50 18,20 19,80 62,0 30,50 16,80 18,20 60,0 31,00 16,80 18,20 60,0 31,00 17,70 19,96 53,0 29,00 17,70 19,96 53,0 29,00 16,50 18,75 50,0 29,00 16,50 18,75 50,0 29,00 15,40 17,63 50,0 29,00 15,40 17,63 50,0 29,00
TABLA DE INDICADORES Modelos R 2 S 2 DET CP PRESS Modelos R 2 S 2 DET CP PRESS 10,718 0, ,0 2,665 20,1510, ,9 7,229 30,002 0, ,6 7,273 1, 20,9580,0417 0,987 17,8 0,505 1, 30,7200,2757 0, ,8 3,348 1, 30,7200,2757 0, ,8 3,348 2, 30,2110,2757 0, ,8 8,369 1, 2, 30,9910,0105 0,783 4,0 0,176
MODELO CANDIDATO Y = B 0 + B 1 X 1 + B 2 X 2 + B 3 X 3 + E CoeficienteDesvíot obs AlfaVIF b 0 = -5,89 b 0 = -5,89 b 1 = 0,87460, ,10,001,0 b 1 = 0,87460, ,10,001,0 b 2 = 0,06080, ,30,001,3 b 3 = 0,09980, ,00,021,3
ECUACIÓN DE PREDICCIÓN y = b 0 + b 1. X 1 + b 2. X 2 + b 3. X 3 y = -5,89 + 0,8746. X 1 + 0,0608. X 2 + 0,0998. X 3 SOLUCIÓN AL PROBLEMA ¿Qué parámetro de humedad debe tener el tabaco a la entrada del silo? Respuesta: 16,55
ENTONCES dada la ecuación 16,55 = -5,89 + 0,8746. X 1 + 0, , ,5 la humedad a la salida del secadero debe ser: X 1 = 18,345 Los resultados prácticos que se obtuvieron con este procedimiento fueron excelentes Los resultados prácticos que se obtuvieron con este procedimiento fueron excelentes
BIBLIOGRAFÍA MYERS, R. “Classical and Modern Regression with Applications” PWS-KENT, Boston. CANAVOS, G. “Probabilidad y Estadística” McGraw-Hill. México, GUJARAT,I D. “Econometría” GUJARAT,I D. “Econometría” McGraw-Hill. México, HINES, W. – MONTGOMERY, D. “Probabilidad y Estadística para Ingeniería y Administración” CECSA. México, AZNAR, A. – TRIVEZ, F. “Métodos de Predicción en Economía” Ariel. Barcelona, 1993.
Si no entendieron nada la culpa es sólo mía. Si entendieron todo el mérito es de ustedes. Si entendieron algo agarren los libros que no muerden. Muchas Gracias