Modelos Lineales Tema 4
Contenido programático Modelos basados en datos Entrada-Salida Modelos lineales Regresión Lineal Simple Regresión Multivariada Etapas para la construcción de un modelo Test de hipótesis
Construcción de Modelos Modelos lineales Modelo de regresión logística Modelos de supervivencia
Naturaleza de los Modelos Los modelos considerados están caracterizados por un conjunto de datos de entrada-salida x1 Ausencia de un modelo físico o matemático x2 CAJA NEGRA y x... xp
Datos de entrada-salida Variables de entrada Variable de salida OBSERVACIONES Y X1 X2.......Xp 15 2 7 12 3 5 2 19 8 2 7 32
Propósitos Predicción Comprender mejor el proceso Identificar variables significativas Visualizar la naturaleza de la relación entre variables de entrada y salida Determinar el impacto individual de las variables de entrada en la respuesta
Estrategias del Modelado ETAPAS: Identificación de la estructura Estimación de parámetros Validación del modelo y = b0+ b1 x1+ b2 x2 Test de validación
¿Qué es regresión simple? Cuantificar el efecto de una variable independiente X sobre una dependiente Y Ajustar una recta a la nube de datos Intensidad del efecto está dada por la pendiente de la recta Yi=b0+b1x+ei
Ejemplo X Y 1 2 3 4 5
e e
E(y)=b0+b1x b1=pendiente (intensidad del efecto. Cambio por cada unidad de X) b0=Punto en el que la línea corta al eje Y
Matriz de covarianza de e = Is2 e ~ N(0,Is2) . Generalmente la distribución de probabilidad de e es normal Los errores asociados a cualquier par de observaciones distintas son independientes ei ~ N(0,s2) Errores positivos Errores negativos
Se quiere estudiar la asociación entre el consumo de sal y la tensión arterial. A una serie de voluntarios se les administra distintas dosis de sal en su dieta y se mide su tensión arterial un tiempo después. Se obtienen los siguientes datos: Sal (grs diarios) Presión arterial 1,8 100 2,2 98 3,5 110 4,0 4,3 112 5,0 120 ¿Cuáles serían las matrices X, Y y b? ¿Qué representan b0 y b1? ? Y = b0 + b1X b0: presión media de los que no toman nada de sal b1: cambio de la presión arterial por aumentar un gramo el consumo de sal
Y = Xb + e E(Y) = Xb Var(Y) = Is2 Y ~ N(Xb,Is2)
¿ Cómo se determina la recta? Método de mínimos cuadrados Minimiza la suma de cuadrados de las diferencias entre las observaciones y las predicciones del modelo es decir minimiza la suma de residuales X Y ei Residual:
Estimación
¿Regresión o correlación? Correlación: grado de asociación entre dos variables aleatorias Regresión: se asume “causalidad” aunque la relación entre la variable X causal y la variable respuesta Y es estadística!! La variable X suele ser determinística
Supuestos del modelo Los residuales son independientes Su valor esperado es 0 Para algunas pruebas se suponen distribuidos Normales La varianza de los residuales es igual para todos lo xi (homoscedasticidad). Las X son determinísticas La aleatoriedad de Y se debe a la del residual
Ejemplo X = Edad (AGE) e Y = presión sistólica (SBP) 33 mujeres adultas
Minimizar suma de cuadrados de residuales
Descomposición de la suma de cuadrados totales = + Y Total SS Total SS SS debido al modelo SS debido al modelo SS residuales = +
Descomposición de la suma de cuadrados totales Si suponemos que x no contribuye con información a la predicción de y, la mejor predicción de y será la media de la muestra
Descomposición de la suma de cuadrados totales SS Total SS Residual SS Modelo Total SS SS debido al modelo SS residuales (SSE) = +
Si x contribuye con información a la predicción de y, entonces Si x contribuye con poca o ninguna información a la predicción de y, las sumas de los cuadrados de SStotal y SSE serán casi iguales Si x contribuye con información a la predicción de y, entonces SSE < SStotal De hecho, ¿qué pasa si todos caen en la línea de mínimos cuadrados? Si x contribuye con poca o ninguna información a la predicción de y, las sumas de los cuadrados de SStotal y SSE serán casi iguales. Esto ocurre porque la recta de mínimos cuadrados se iría “acostando” y entonces la recta va a ser casi igual a la recta de la media SSE = 0
Applet con la curva de regresión: http://www.math.csusb.edu/faculty/stanton/m262/regress/regress.html Si x contribuye con poca o ninguna información a la predicción de y, las sumas de los cuadrados de SStotal y SSE serán casi iguales. Esto ocurre porque la recta de mínimos cuadrados se iría “acostando” y entonces la recta va a ser casi igual a la recta de la media
Error aleatorio no observable Punto de datos Valor de y x1 x2 . . . xp Error aleatorio no observable 1 y1 x11 x21 x1p ε1 2 y2 x22 x2p ε2 . n yn xn1 xn2 xnp εn y1 y2 . yn β0 β 1 . β p 1 x11 x21 x1p x22 x2p . xn1 xn2 xnp ε1 ε 2 . ε n Y= β = ε = X=
* + = y1 y2 . yn 1 x11 x21 x1p x22 x2p . xn1 xn2 xnp ε1 ε 2 . ε n β0 β 1 . β p = * + X β ε Y
Medidas de ajuste global R cuadrado R2=1-(SS RESIDUAL / TOTAL SS) El valor de R2 aumenta conforme se agregan más variables al modelo. R2 es 1 cuando el número de términos del modelo es igual al número de puntos de datos.
Medidas de ajuste global Toma en cuenta tanto el tamaño de la muestra (N) como el número de parámetros b del modelo (p) R cuadrado ajustado SS RESIDUAL Grados de libertad del error TOTAL SS Grados de libertad total
Interpretación de R2 Aproximadamente el R2 % de la variación total en los valores de y, es explicada por la regresión.
¿Es computacionalmente costoso calcular esta inversa? ¿Cómo se estima? Se minimiza la suma de cuadrados de los errores y se determinan los parámetros del modelo Operaciones matriciales con las matrices de datos arrojan los siguientes estimadores: ¿Es computacionalmente costoso calcular esta inversa? ¿De qué depende?
Matrices de proyección El objetivo de una proyección es transformar Y en un espacio n dimensional a un vector tal que esté lo más cerca posible de Y. = PY donde P es la matriz de proyección. Ejemplos de matrices de proyección: 1/3 1/3 1/3 0 0 0 1 0 0 0 1 Propiedades: Idempotencia y Simetría
Nivel de hidrocarburo (%) Ejemplo 1 Nivel de hidrocarburo (%) Pureza (%) X Y 0,99 90,01 1,02 89,05 1,15 91,43 1,29 93,74 1,46 96,73 1,36 94,45 0,87 87,59 1,23 91,77 1,55 99,42 , Pureza del oxígeno producido en un proceso de destilación químico Porcentaje de hidrocarburos presentes en el condensador principal de la unidad de destilación
SS debido al modelo (SSR) SS residuales (SSE) n – número de parámetros ¿Cuál sería la estimación del nivel de pureza si el porcentaje de hidrocarburo es 1%? Estadísticas de la regresión Coeficiente de correlación múltiple 0,937155851 Coeficiente de determinación R^2 0,878261088 R^2 ajustado 0,871497816 Error típico 1,08367414 Observaciones 20 ANÁLISIS DE VARIANZA Grados de libertad Suma de cuadrados Promedio de los cuadrados Regresión 1 152,498001 152,4980014 Residuos 18 21,138293 1,174349642 Total 19 173,636295 Coeficientes Estadístico t Intercepción 74,267 1,589 46,729 Variable X 1 14,966 1,313 11,395 Y=74.26+14.97*1= 89.23 SS debido al modelo (SSR) SS residuales (SSE) n – número de parámetros Error cuadrático medio (MSE) n-1
Y = 74.26 + 14.97X
Ejemplo 2 Se piensa que la potencia eléctrica consumida al mes por una planta química está relacionada con la temperatura ambiente promedio (x1), el número de días del mes (x2), la pureza promedio del producto (x3) y las toneladas de producto producidas (x4). Los datos correspondientes al años pasado son las siguientes: Y x1 x2 x3 x4 240 25 24 91 100 236 31 21 90 95 290 45 88 110 274 60 87 301 65 94 316 72 26 99 300 80 97 296 84 86 96 267 75 276 105 288 50 261 38 23 89 98
Estadísticas de la regresión Coeficiente de correlación múltiple 0,86298887 Coeficiente de determinación R^2 0,74474978 R^2 ajustado 0,59889252 Error típico 15,5793327 Observaciones 12 ANÁLISIS DE VARIANZA Grados de libertad Suma de cuadrados Promedio de los cuadrados Regresión 4 4957,240744 1239,310186 Residuos 7 1699,009256 242,7156081 Total 11 6656,25 Coeficientes Estadístico t Intercepción -102,713236 207,8588509 -0,494148967 Variable X 1 0,60537054 0,368896954 1,641028833 Variable X 2 8,9236442 5,300522238 1,683540564 Variable X 3 1,43745673 2,391620508 0,601038806 Variable X 4 0,01360931 0,733821444 0,018545803
Prediga el consumo de potencia para un mes en el que x1 = 75oF, x2 = 24 días, x3 = 90% y x4 = 98 toneladas -102.71+0.60*75+8.92*24+1.43*90+0.0136*98 = 287,5618328
Ejemplo 3 Edad Vol. del Higado 0,5 41 0,7 55 2,5 4,1 39 5,9 50 6,1 32 7 8,2 42 10 26 10,1 35 10,9 25 11,5 31 21,1 14,1 29 15 23 Una muestra aleatoria simple de 15 niños aparentemente sanos con edades entre 6 meses y 15 años produjo los siguientes datos con respecto a la edad (X), y el volumen del hígado por unidad de peso corporal (ml/kg), Y:
Estadísticas de la regresión Coeficiente de correlación múltiple 0,704398266 Coeficiente de determinación R^2 0,496176917 R^2 ajustado 0,457421296 Error típico 6,770916984 Observaciones 15 ANÁLISIS DE VARIANZA Grados de libertad Suma de cuadrados Promedio de los cuadrados Regresión 1 586,9442148 Residuos 13 595,9891185 45,84531681 Total 14 1182,933333 Coeficientes Intercepción 45,822078 Variable X 1 -1,14589796
Coeficientes Intercepción 45,822078 Variable X 1 -1,14589796
Tipos de Residuales r r Ausencia de patrones ü
Tendencias en los residuales Modelo Comportamiento cuadrático X Y Residual ¿Qué hacer? Incluir una variable cuadrática en el modelo
Análisis de residuales ¿Homoscedasticidad? Predicción Residual Grupo 1 Grupo 2 Grupo 3 Variabilidad residual creciente
Intervalos de confianza Se separan a medida que la variable se aleja del centro de la distribución La extrapolación es imprecisa
Modelos Lineales El modelo lineal (análisis de regresión) es una metodología para examinar la asociación cuantitativa entre una variable de respuesta y con otras p variables de predicción xj Donde existen n mediciones de la respuesta yi observadas bajo un conjunto de condiciones experimentales de las variables de predicción xj
Formulación Los errores ei son variables aleatorias independientes de media 0 La varianza de los errores ei es constante para todas las observaciones La linealidad se establece sobre los parámetros no sobre las variables
Modelos lineales y no lineales
Dos modelos alternativos para una data de la población de EEUU
Etapas para construir un buen Modelado Identificación de la estructura de entrada Formulación y estimación del modelo Análisis global Análisis individual de los parámetros Reformulación del modelo
Etapas del Modelado Seleccionar los mejores modelos alternativos Estudio de residuales Coherencia con la realidad Elección del mejor modelo e interpretación del mismo Predicción
Identificación de la estructura de entrada Identificar variables candidatas Experiencia experta (tormenta de ideas) Correlación de las variables causales con la respuesta Estudio de interacción entre las variables seleccionadas Análisis de correlación múltiple entre las variables causales Componentes principales
Formulación: Resultados Fundamentales Formulación vectorial Las dimensiones de y, X, b, y e son: Y n*1 X n*p b p*1 e
Estimación de Parámetros por mínimos cuadrados ¿Qué se estima?
¿Cómo se estima? Se minimiza la suma de cuadrados de los errores y se determinan los parámetros del modelo Operaciones matriciales con las matrices de datos arrojan los siguientes estimadores: ¡El Software lo Hace por Uds!
Ajuste Global del Modelo X2 X1 Y Modelo SS Total SS Residual SS
Ajuste Global del Modelo Error medio cuadrático MSE (mean square error) El coeficiente de determinación R-Square El coeficiente de determinación ajustado ADJR-Square El número de parámetros
Análisis Individual de los Parámetros Pruebas de hipótesis para determinar si cada uno de los parámetros es distinto de 0 Eliminar la que tenga menor tratio ßà mayor p-value Las variables en un modelo de regresión deben ser eliminadas de una en una:
Estimación del modelo de población
Estimación del modelo de población
Seleccionar los Mejores Modelos Alternativos En función de: Error medio cuadrático MSE El coeficiente de determinación R-Square El coeficiente de determinación AdjR-Square El número p de variables en el modelo
El principio de Parsimonia “.... everything should be made as simple as possible but not simpler” Albert Einstein
Estudio de Residuales Graficar los residuales contra cada una de las variables de entrada en busca de patrones La ausencia de patrones es una buena señal Comportamiento cuadrático
Estudio de Residuales Graficar los residuales contra las predicciones La ausencia de patrones es una buena señal Residuales del modelo cuadrático de población
Ejemplo X= Edad (AGE) e Y=presión sistólica (SBP) 33 mujeres adultas
Modelo Lineal de Presión Sistólica
Residuales
Modelo Cuadrático de Presión Sistólica
Residuales
Coherencia con la realidad Interpretación de los coeficientes: bj representa el incremento de la respuesta por unidad de cambio de la variable de entrada xj El signo de bj debe corresponder con el tipo de asociación esperada. Condición aeróbica = b0+ b1 BMI + b2 pulsoreposo + e ¿Qué signo esperamos de los coeficientes?
Comparación final de modelos posibles Criterios sí ok 5 .883 22.01 II 3 .873 24.73 I coherencia residuales Parámetros AdjR2 MSE Modelo min max min
Consumo de oxigeno por unidad de tiempo y peso en una carrera de 2 km
Se excluyó RSTPULSE
Se excluyó WEIGHT
¿Es un modelo coherente? Se excluyó MAXPULSE ¿Es un modelo coherente?
Cohe_ rencia Ad-jR2 RMSE modelo OK 3 .7901 2.4406 ? 4 .8117 2.3116 5 Número variables Ad-jR2 RMSE modelo OK 3 .7901 2.4406 -MAXPULSE ? 4 .8117 2.3116 -WEIGHT 5 .8176 2.2752 -RSTPULSE 6 .8108 2.3169 full
Predicción Se estima la predicción Intervalos de confianza de la predicción