Modelos Lineales Tema 4.

Modelos Lineales Tema 4

Contenido programático
Modelos basados en datos Entrada-Salida Modelos lineales Regresión Lineal Simple Regresión Multivariada Etapas para la construcción de un modelo Test de hipótesis

Construcción de Modelos
Modelos lineales Modelo de regresión logística Modelos de supervivencia

Naturaleza de los Modelos
Los modelos considerados están caracterizados por un conjunto de datos de entrada-salida x1 Ausencia de un modelo físico o matemático x2 CAJA NEGRA y x... xp

Datos de entrada-salida
Variables de entrada Variable de salida OBSERVACIONES Y X1 X Xp 15 19 32

Propósitos Predicción Comprender mejor el proceso
Identificar variables significativas Visualizar la naturaleza de la relación entre variables de entrada y salida Determinar el impacto individual de las variables de entrada en la respuesta

Estrategias del Modelado
ETAPAS: Identificación de la estructura Estimación de parámetros Validación del modelo y = b0+ b1 x1+ b2 x2 Test de validación

¿Qué es regresión simple?
Cuantificar el efecto de una variable independiente X sobre una dependiente Y Ajustar una recta a la nube de datos Intensidad del efecto está dada por la pendiente de la recta Yi=b0+b1x+ei

Ejemplo X Y 1 2 3 4 5

E(y)=b0+b1x b1=pendiente (intensidad del efecto.
Cambio por cada unidad de X) b0=Punto en el que la línea corta al eje Y

Matriz de covarianza de e = Is2 e ~ N(0,Is2) .
Generalmente la distribución de probabilidad de e es normal Los errores asociados a cualquier par de observaciones distintas son independientes ei ~ N(0,s2) Errores positivos Errores negativos

Se quiere estudiar la asociación entre el consumo de sal y la tensión arterial. A una serie de voluntarios se les administra distintas dosis de sal en su dieta y se mide su tensión arterial un tiempo después. Se obtienen los siguientes datos: Sal (grs diarios) Presión arterial 1,8 100 2,2 98 3,5 110 4,0 4,3 112 5,0 120 ¿Cuáles serían las matrices X, Y y b? ¿Qué representan b0 y b1? ? Y = b0 + b1X b0: presión media de los que no toman nada de sal b1: cambio de la presión arterial por aumentar un gramo el consumo de sal

Y = Xb + e E(Y) = Xb Var(Y) = Is2 Y ~ N(Xb,Is2)

¿ Cómo se determina la recta?
Método de mínimos cuadrados Minimiza la suma de cuadrados de las diferencias entre las observaciones y las predicciones del modelo es decir minimiza la suma de residuales X Y ei Residual:

Estimación

¿Regresión o correlación?
Correlación: grado de asociación entre dos variables aleatorias Regresión: se asume “causalidad” aunque la relación entre la variable X causal y la variable respuesta Y es estadística!! La variable X suele ser determinística

Supuestos del modelo Los residuales son independientes
Su valor esperado es 0 Para algunas pruebas se suponen distribuidos Normales La varianza de los residuales es igual para todos lo xi (homoscedasticidad). Las X son determinísticas La aleatoriedad de Y se debe a la del residual

Ejemplo X = Edad (AGE) e Y = presión sistólica (SBP)
33 mujeres adultas

Minimizar suma de cuadrados de residuales

Descomposición de la suma de cuadrados totales
= + Y Total SS Total SS SS debido al modelo SS debido al modelo SS residuales = +

Si suponemos que x no contribuye con información a la predicción de y, la mejor predicción de y será la media de la muestra

SS Total SS Residual SS Modelo Total SS SS debido al modelo SS residuales (SSE) = +

Si x contribuye con información a la predicción de y, entonces
Si x contribuye con poca o ninguna información a la predicción de y, las sumas de los cuadrados de SStotal y SSE serán casi iguales Si x contribuye con información a la predicción de y, entonces SSE < SStotal De hecho, ¿qué pasa si todos caen en la línea de mínimos cuadrados? Si x contribuye con poca o ninguna información a la predicción de y, las sumas de los cuadrados de SStotal y SSE serán casi iguales. Esto ocurre porque la recta de mínimos cuadrados se iría “acostando” y entonces la recta va a ser casi igual a la recta de la media SSE = 0

Applet con la curva de regresión:
Si x contribuye con poca o ninguna información a la predicción de y, las sumas de los cuadrados de SStotal y SSE serán casi iguales. Esto ocurre porque la recta de mínimos cuadrados se iría “acostando” y entonces la recta va a ser casi igual a la recta de la media

Error aleatorio no observable
Punto de datos Valor de y x1 x2 . . . xp Error aleatorio no observable 1 y1 x11 x21 x1p ε1 2 y2 x22 x2p ε2 . n yn xn1 xn2 xnp εn y1 y2 . yn β0 β 1 . β p 1 x11 x21 x1p x22 x2p . xn1 xn2 xnp ε1 ε 2 . ε n Y= β = ε = X=

* + = y1 y2 . yn 1 x11 x21 x1p x22 x2p . xn1 xn2 xnp ε1 ε 2 . ε n β0
β 1 . β p = * + X β ε Y

Medidas de ajuste global
R cuadrado R2=1-(SS RESIDUAL / TOTAL SS) El valor de R2 aumenta conforme se agregan más variables al modelo. R2 es 1 cuando el número de términos del modelo es igual al número de puntos de datos.

Medidas de ajuste global
Toma en cuenta tanto el tamaño de la muestra (N) como el número de parámetros b del modelo (p) R cuadrado ajustado SS RESIDUAL Grados de libertad del error TOTAL SS Grados de libertad total

Interpretación de R2 Aproximadamente el R2 % de la variación total en los valores de y, es explicada por la regresión.

¿Es computacionalmente costoso calcular esta inversa?
¿Cómo se estima? Se minimiza la suma de cuadrados de los errores y se determinan los parámetros del modelo Operaciones matriciales con las matrices de datos arrojan los siguientes estimadores: ¿Es computacionalmente costoso calcular esta inversa? ¿De qué depende?

Matrices de proyección
El objetivo de una proyección es transformar Y en un espacio n dimensional a un vector tal que esté lo más cerca posible de Y. = PY donde P es la matriz de proyección. Ejemplos de matrices de proyección: 1/3 1/3 1/3 0 0 Propiedades: Idempotencia y Simetría

Nivel de hidrocarburo (%)
Ejemplo 1 Nivel de hidrocarburo (%) Pureza (%) X Y 0,99 90,01 1,02 89,05 1,15 91,43 1,29 93,74 1,46 96,73 1,36 94,45 0,87 87,59 1,23 91,77 1,55 99,42 , Pureza del oxígeno producido en un proceso de destilación químico Porcentaje de hidrocarburos presentes en el condensador principal de la unidad de destilación

SS debido al modelo (SSR) SS residuales (SSE) n – número de parámetros
¿Cuál sería la estimación del nivel de pureza si el porcentaje de hidrocarburo es 1%? Estadísticas de la regresión Coeficiente de correlación múltiple 0, Coeficiente de determinación R^2 0, R^2 ajustado 0, Error típico 1, Observaciones 20 ANÁLISIS DE VARIANZA Grados de libertad Suma de cuadrados Promedio de los cuadrados Regresión 1 152,498001 152, Residuos 18 21,138293 1, Total 19 173,636295 Coeficientes Estadístico t Intercepción 74,267 1,589 46,729 Variable X 1 14,966 1,313 11,395 Y= *1= 89.23 SS debido al modelo (SSR) SS residuales (SSE) n – número de parámetros Error cuadrático medio (MSE) n-1

Ejemplo 2 Se piensa que la potencia eléctrica consumida al mes por una planta química está relacionada con la temperatura ambiente promedio (x1), el número de días del mes (x2), la pureza promedio del producto (x3) y las toneladas de producto producidas (x4). Los datos correspondientes al años pasado son las siguientes: Y x1 x2 x3 x4 240 25 24 91 100 236 31 21 90 95 290 45 88 110 274 60 87 301 65 94 316 72 26 99 300 80 97 296 84 86 96 267 75 276 105 288 50 261 38 23 89 98

Estadísticas de la regresión Coeficiente de correlación múltiple
0, Coeficiente de determinación R^2 0, R^2 ajustado 0, Error típico 15, Observaciones 12 ANÁLISIS DE VARIANZA Grados de libertad Suma de cuadrados Promedio de los cuadrados Regresión 4 4957,240744 1239,310186 Residuos 7 1699,009256 242, Total 11 6656,25 Coeficientes Estadístico t Intercepción -102,713236 207, -0, Variable X 1 0, 0, 1, Variable X 2 8, 5, 1, Variable X 3 1, 2, 0, Variable X 4 0, 0, 0,

Prediga el consumo de potencia para un mes en el que x1 = 75oF, x2 = 24 días, x3 = 90% y x4 = 98 toneladas * * * *98 = 287,

Ejemplo 3 Edad Vol. del Higado 0,5 41 0,7 55 2,5 4,1 39 5,9 50 6,1 32 7 8,2 42 10 26 10,1 35 10,9 25 11,5 31 21,1 14,1 29 15 23 Una muestra aleatoria simple de 15 niños aparentemente sanos con edades entre 6 meses y 15 años produjo los siguientes datos con respecto a la edad (X), y el volumen del hígado por unidad de peso corporal (ml/kg), Y:

Estadísticas de la regresión Coeficiente de correlación múltiple
0, Coeficiente de determinación R^2 0, R^2 ajustado 0, Error típico 6, Observaciones 15 ANÁLISIS DE VARIANZA Grados de libertad Suma de cuadrados Promedio de los cuadrados Regresión 1 586, Residuos 13 595, 45, Total 14 1182,933333 Coeficientes Intercepción 45,822078 Variable X 1 -1,

Coeficientes Intercepción 45,822078 Variable X 1 -1,

Tipos de Residuales r r Ausencia de patrones ü

Tendencias en los residuales
Modelo Comportamiento cuadrático X Y Residual ¿Qué hacer? Incluir una variable cuadrática en el modelo

Análisis de residuales
¿Homoscedasticidad? Predicción Residual Grupo 1 Grupo 2 Grupo 3 Variabilidad residual creciente

Intervalos de confianza
Se separan a medida que la variable se aleja del centro de la distribución La extrapolación es imprecisa

Modelos Lineales El modelo lineal (análisis de regresión) es una metodología para examinar la asociación cuantitativa entre una variable de respuesta y con otras p variables de predicción xj Donde existen n mediciones de la respuesta yi observadas bajo un conjunto de condiciones experimentales de las variables de predicción xj

Formulación Los errores ei son variables aleatorias independientes de media 0 La varianza de los errores ei es constante para todas las observaciones La linealidad se establece sobre los parámetros no sobre las variables

Modelos lineales y no lineales

Dos modelos alternativos para una data de la población de EEUU

Etapas para construir un buen Modelado
Identificación de la estructura de entrada Formulación y estimación del modelo Análisis global Análisis individual de los parámetros Reformulación del modelo

Etapas del Modelado Seleccionar los mejores modelos alternativos
Estudio de residuales Coherencia con la realidad Elección del mejor modelo e interpretación del mismo Predicción

Identificación de la estructura de entrada
Identificar variables candidatas Experiencia experta (tormenta de ideas) Correlación de las variables causales con la respuesta Estudio de interacción entre las variables seleccionadas Análisis de correlación múltiple entre las variables causales Componentes principales

Formulación: Resultados Fundamentales
Formulación vectorial Las dimensiones de y, X, b, y e son: Y n*1 X n*p b p*1 e

Estimación de Parámetros por mínimos cuadrados
¿Qué se estima?

¿Cómo se estima? Se minimiza la suma de cuadrados de los errores y se determinan los parámetros del modelo Operaciones matriciales con las matrices de datos arrojan los siguientes estimadores: ¡El Software lo Hace por Uds!

Ajuste Global del Modelo
X2 X1 Y Modelo SS Total SS Residual SS

Ajuste Global del Modelo
Error medio cuadrático MSE (mean square error) El coeficiente de determinación R-Square El coeficiente de determinación ajustado ADJR-Square El número de parámetros

Análisis Individual de los Parámetros
Pruebas de hipótesis para determinar si cada uno de los parámetros es distinto de 0 Eliminar la que tenga menor tratio ßà mayor p-value Las variables en un modelo de regresión deben ser eliminadas de una en una:

Estimación del modelo de población

Seleccionar los Mejores Modelos Alternativos
En función de: Error medio cuadrático MSE El coeficiente de determinación R-Square El coeficiente de determinación AdjR-Square El número p de variables en el modelo

El principio de Parsimonia
“.... everything should be made as simple as possible but not simpler” Albert Einstein

Estudio de Residuales Graficar los residuales contra cada una de las variables de entrada en busca de patrones La ausencia de patrones es una buena señal Comportamiento cuadrático

Estudio de Residuales Graficar los residuales contra las predicciones
La ausencia de patrones es una buena señal Residuales del modelo cuadrático de población

Ejemplo X= Edad (AGE) e Y=presión sistólica (SBP) 33 mujeres adultas

Modelo Lineal de Presión Sistólica

Residuales

Modelo Cuadrático de Presión Sistólica

Residuales

Coherencia con la realidad
Interpretación de los coeficientes: bj representa el incremento de la respuesta por unidad de cambio de la variable de entrada xj El signo de bj debe corresponder con el tipo de asociación esperada. Condición aeróbica = b0+ b1 BMI + b2 pulsoreposo + e ¿Qué signo esperamos de los coeficientes?

Comparación final de modelos posibles
Criterios sí ok 5 .883 22.01 II 3 .873 24.73 I coherencia residuales Parámetros AdjR2 MSE Modelo min max min

Consumo de oxigeno por unidad de tiempo y peso en una carrera de 2 km

Se excluyó RSTPULSE

Se excluyó WEIGHT

¿Es un modelo coherente?
Se excluyó MAXPULSE ¿Es un modelo coherente?

Cohe_ rencia Ad-jR2 RMSE modelo OK 3 .7901 2.4406 ? 4 .8117 2.3116 5
Número variables Ad-jR2 RMSE modelo OK 3 .7901 2.4406 -MAXPULSE ? 4 .8117 2.3116 -WEIGHT 5 .8176 2.2752 -RSTPULSE 6 .8108 2.3169 full

Predicción Se estima la predicción
Intervalos de confianza de la predicción

Modelos Lineales Tema 4.

Presentaciones similares

Presentación del tema: "Modelos Lineales Tema 4."— Transcripción de la presentación:

Presentaciones similares

Sobre el proyecto

Feedback

Iniciar la sesión

Autorizarse a través de una red social:

Modelos Lineales Tema 4.

Presentaciones similares

Presentación del tema: "Modelos Lineales Tema 4."— Transcripción de la presentación:

Presentaciones similares

Sobre el proyecto

Feedback