Modelos Lineales Tema 4.

Slides:



Advertisements
Presentaciones similares
ANOVA DE UN FACTOR.
Advertisements

Tema 6: Regresión lineal.
Regresión lineal simple
Regresión mínimo cuadrada (I)
REGRESION LINEAL SIMPLE
Error Estándar de la Media
ESTRATEGIAS Y DISEÑOS AVANZADOS DE INVESTIGACIÓN SOCIAL
MÉTODOS DE MEDICIÓN DE COSTOS.
ESTUDIO DE MERCADO. MÉTODOS DE PROYECCIÓN
Pronósticos, Series de Tiempo y Regresión
UNIVERSIDAD AUTÓNOMA DEL CARIBE
REGRESION Y CORRELACION LINEALES. REGRESION LINEAL SIMPLE Finalidad Estimar los valores de y (variable dependiente) a partir de los valores de x (variable.
Modelado y simulación en Ingeniería Química. Manuel Rodríguez
MODELO DE REGRESIÓN MÚLTIPLE
ESTRATEGIAS Y DISEÑOS AVANZADOS DE INVESTIGACIÓN SOCIAL
Econometria 2. Modelo de Regresión Lineal Simple
Modelo básico de regresión Lineal
Capitulo 10: La metodología Box-Jenkins
Regresión y correlación
Estadística Descriptiva: 4. Correlación y Regresión Lineal
بسم الله الرحمن الرحيم.
Tema 1- Regresión lineal simple.
Estadística Descriptiva: 4. Correlación y Regresión Lineal Ricardo Ñanculef Alegría Universidad Técnica Federico Santa María.
Regresión lineal Es un modelo matemático para predecir el efecto de una variable sobre otra, ambas cuantitativas. Una variable es la dependiente y otra.
Regresión Lineal Simple
9 Regresión Lineal Simple
División de Estudios Políticos, CIDE
MEDIDAS DE DISPERSIÓN:
Facultad: Turismo Y Hotelería
Pronósticos, Series de Tiempo y Regresión
Pronósticos, Series de Tiempo y Regresión
REGRESION LINEAL III Mario Briones L. MV, MSc 2005.
ESTADÍSTICA BÁSICA EN ECOLOGÍA EVOLUTIVA Juan J. Soler Cruz Estación Experimental de Zonas Áridas Almería.
Modelo de regresión con dos variables: Estimación
Métodos de calibración: regresión y correlación
Departamento de Informática Universidad Técnica Federico Santa María
Titular: Agustín Salvia
Introducción a la Inferencia Estadística
CORRELACION Y REGRESION LINEAL: Introducción
LA RECTA DE REGRESIÓN CONTENIDOS:
Variables estadísticas bidimensionales
Regresión lineal simple
Regresión lineal múltiple
REGRESION LINEAL II Mario Briones L. MV, MSc
SEMINARIO DE INVESTIGACION Titular: Agustín Salvia
Definición del Modelo de Regresión Simple Estimaciones por MCO Método de MCO Valores Esperados y Varianzas por MCO.
ANÁLISIS DE REGRESIÓN SIMPLE
Estadística II Regresión Lineal.
Análisis de los Datos Cuantitativos
Regresión Lineal Simple
Aplicaciones Estadísticas a las Finanzas Clase 1
Licenciatura en Administración Pública Jorge Alan Garcidueñas Villa Estadística 4° Cuatrimestre Actividad 15.1.
Construcción de modelos con regresión y correlación
Ejercicios Dado un conjunto de datos, aplicar el Criterio de Fourier para desechar los posibles valores atípicos.
Variables estadísticas bidimensionales
Regresión lineal simple Nazira Calleja
MODELOS DE PRONOSTICOS Primer semestre 2010 Modelo de Regresión con dos variables.
Unidad 4 Análisis de los Datos.
ANÁLISIS DE LA INFORMACIÓN La relación entre variables.
TEMA : ANALISIS DE REGRESION
EPE MA 148 ESTADÍSTICA INFERENCIAL TEMA:
Departamento de Informática Universidad Técnica Federico Santa María EconometríaEconometría Capitulo II.
Tema 2: Estadística bidimensional
REGRESIÓN LINEAL SIMPLE
RELACIÓN ENTRE UNA VARIABLE DEPENDIENTE Y UNA O MAS INDEPENDIENTES.
REGRESIÓN LINEAL SIMPLE. Temas Introducción Análisis de regresión (Ejemplo aplicado) La ecuación de una recta Modelo estadístico y suposiciones Estimación.
ESTADISTICA DESCRIPTIVA BIVARIADA MEDIDAS DE RELACIÓN ENTRE VARIABLES CUANTITATIVAS.
REGRESIÓN LINEAL SIMPLE TEMA INTRODUCCIÓN Determinar la ecuación de regresión sirve para: – Describir de manera concisa la relación entre variables.
1 REGRESIÓN CON VARIABLES DICOTÓMICAS TEMA 1 (CONTINUACIÓN)
M.E. ADA PAULINA MORA GONZALEZ. Esta parte describe las técnicas para ajustar curvas en base a datos para estimaciones intermedias. Una manera de hacerlo.
Transcripción de la presentación:

Modelos Lineales Tema 4

Contenido programático Modelos basados en datos Entrada-Salida Modelos lineales Regresión Lineal Simple Regresión Multivariada Etapas para la construcción de un modelo Test de hipótesis

Construcción de Modelos Modelos lineales Modelo de regresión logística Modelos de supervivencia

Naturaleza de los Modelos Los modelos considerados están caracterizados por un conjunto de datos de entrada-salida x1 Ausencia de un modelo físico o matemático x2 CAJA NEGRA y x... xp

Datos de entrada-salida Variables de entrada Variable de salida OBSERVACIONES Y X1 X2.......Xp 15 2 7 12 3 5 2 19 8 2 7 32

Propósitos Predicción Comprender mejor el proceso Identificar variables significativas Visualizar la naturaleza de la relación entre variables de entrada y salida Determinar el impacto individual de las variables de entrada en la respuesta

Estrategias del Modelado ETAPAS: Identificación de la estructura Estimación de parámetros Validación del modelo y = b0+ b1 x1+ b2 x2 Test de validación

¿Qué es regresión simple? Cuantificar el efecto de una variable independiente X sobre una dependiente Y Ajustar una recta a la nube de datos Intensidad del efecto está dada por la pendiente de la recta Yi=b0+b1x+ei

Ejemplo X Y 1 2 3 4 5

e e

E(y)=b0+b1x b1=pendiente (intensidad del efecto. Cambio por cada unidad de X) b0=Punto en el que la línea corta al eje Y

Matriz de covarianza de e = Is2 e ~ N(0,Is2) . Generalmente la distribución de probabilidad de e es normal Los errores asociados a cualquier par de observaciones distintas son independientes ei ~ N(0,s2) Errores positivos Errores negativos

Se quiere estudiar la asociación entre el consumo de sal y la tensión arterial. A una serie de voluntarios se les administra distintas dosis de sal en su dieta y se mide su tensión arterial un tiempo después. Se obtienen los siguientes datos: Sal (grs diarios) Presión arterial 1,8 100 2,2 98 3,5 110 4,0 4,3 112 5,0 120 ¿Cuáles serían las matrices X, Y y b? ¿Qué representan b0 y b1? ? Y = b0 + b1X b0: presión media de los que no toman nada de sal b1: cambio de la presión arterial por aumentar un gramo el consumo de sal

Y = Xb + e E(Y) = Xb Var(Y) = Is2 Y ~ N(Xb,Is2)

¿ Cómo se determina la recta? Método de mínimos cuadrados Minimiza la suma de cuadrados de las diferencias entre las observaciones y las predicciones del modelo es decir minimiza la suma de residuales X Y ei Residual:

Estimación

¿Regresión o correlación? Correlación: grado de asociación entre dos variables aleatorias Regresión: se asume “causalidad” aunque la relación entre la variable X causal y la variable respuesta Y es estadística!! La variable X suele ser determinística

Supuestos del modelo Los residuales son independientes Su valor esperado es 0 Para algunas pruebas se suponen distribuidos Normales La varianza de los residuales es igual para todos lo xi (homoscedasticidad). Las X son determinísticas La aleatoriedad de Y se debe a la del residual

Ejemplo X = Edad (AGE) e Y = presión sistólica (SBP) 33 mujeres adultas

Minimizar suma de cuadrados de residuales

Descomposición de la suma de cuadrados totales = + Y Total SS Total SS SS debido al modelo SS debido al modelo SS residuales = +

Descomposición de la suma de cuadrados totales Si suponemos que x no contribuye con información a la predicción de y, la mejor predicción de y será la media de la muestra

Descomposición de la suma de cuadrados totales SS Total SS Residual SS Modelo Total SS SS debido al modelo SS residuales (SSE) = +

Si x contribuye con información a la predicción de y, entonces Si x contribuye con poca o ninguna información a la predicción de y, las sumas de los cuadrados de SStotal y SSE serán casi iguales Si x contribuye con información a la predicción de y, entonces SSE < SStotal De hecho, ¿qué pasa si todos caen en la línea de mínimos cuadrados? Si x contribuye con poca o ninguna información a la predicción de y, las sumas de los cuadrados de SStotal y SSE serán casi iguales. Esto ocurre porque la recta de mínimos cuadrados se iría “acostando” y entonces la recta va a ser casi igual a la recta de la media SSE = 0

Applet con la curva de regresión: http://www.math.csusb.edu/faculty/stanton/m262/regress/regress.html Si x contribuye con poca o ninguna información a la predicción de y, las sumas de los cuadrados de SStotal y SSE serán casi iguales. Esto ocurre porque la recta de mínimos cuadrados se iría “acostando” y entonces la recta va a ser casi igual a la recta de la media

Error aleatorio no observable Punto de datos Valor de y x1 x2 . . . xp Error aleatorio no observable 1 y1 x11 x21 x1p ε1 2 y2 x22 x2p ε2 . n yn xn1 xn2 xnp εn y1 y2 . yn β0 β 1 . β p 1 x11 x21 x1p x22 x2p . xn1 xn2 xnp ε1 ε 2 . ε n Y= β = ε = X=

* + = y1 y2 . yn 1 x11 x21 x1p x22 x2p . xn1 xn2 xnp ε1 ε 2 . ε n β0 β 1 . β p = * + X β ε Y

Medidas de ajuste global R cuadrado R2=1-(SS RESIDUAL / TOTAL SS) El valor de R2 aumenta conforme se agregan más variables al modelo. R2 es 1 cuando el número de términos del modelo es igual al número de puntos de datos.

Medidas de ajuste global Toma en cuenta tanto el tamaño de la muestra (N) como el número de parámetros b del modelo (p) R cuadrado ajustado SS RESIDUAL Grados de libertad del error TOTAL SS Grados de libertad total

Interpretación de R2 Aproximadamente el R2 % de la variación total en los valores de y, es explicada por la regresión.

¿Es computacionalmente costoso calcular esta inversa? ¿Cómo se estima? Se minimiza la suma de cuadrados de los errores y se determinan los parámetros del modelo Operaciones matriciales con las matrices de datos arrojan los siguientes estimadores: ¿Es computacionalmente costoso calcular esta inversa? ¿De qué depende?

Matrices de proyección El objetivo de una proyección es transformar Y en un espacio n dimensional a un vector tal que esté lo más cerca posible de Y. = PY donde P es la matriz de proyección. Ejemplos de matrices de proyección: 1/3 1/3 1/3 0 0 0 1 0 0 0 1 Propiedades: Idempotencia y Simetría

Nivel de hidrocarburo (%) Ejemplo 1 Nivel de hidrocarburo (%) Pureza (%) X Y 0,99 90,01 1,02 89,05 1,15 91,43 1,29 93,74 1,46 96,73 1,36 94,45 0,87 87,59 1,23 91,77 1,55 99,42 , Pureza del oxígeno producido en un proceso de destilación químico Porcentaje de hidrocarburos presentes en el condensador principal de la unidad de destilación

SS debido al modelo (SSR) SS residuales (SSE) n – número de parámetros ¿Cuál sería la estimación del nivel de pureza si el porcentaje de hidrocarburo es 1%? Estadísticas de la regresión Coeficiente de correlación múltiple 0,937155851 Coeficiente de determinación R^2 0,878261088 R^2 ajustado 0,871497816 Error típico 1,08367414 Observaciones 20 ANÁLISIS DE VARIANZA   Grados de libertad Suma de cuadrados Promedio de los cuadrados Regresión 1 152,498001 152,4980014 Residuos 18 21,138293 1,174349642 Total 19 173,636295 Coeficientes Estadístico t Intercepción 74,267 1,589 46,729 Variable X 1 14,966 1,313 11,395 Y=74.26+14.97*1= 89.23 SS debido al modelo (SSR) SS residuales (SSE) n – número de parámetros Error cuadrático medio (MSE) n-1

Y = 74.26 + 14.97X

Ejemplo 2 Se piensa que la potencia eléctrica consumida al mes por una planta química está relacionada con la temperatura ambiente promedio (x1), el número de días del mes (x2), la pureza promedio del producto (x3) y las toneladas de producto producidas (x4). Los datos correspondientes al años pasado son las siguientes: Y x1 x2 x3 x4 240 25 24 91 100 236 31 21 90 95 290 45 88 110 274 60 87 301 65 94 316 72 26 99 300 80 97 296 84 86 96 267 75 276 105 288 50 261 38 23 89 98

Estadísticas de la regresión Coeficiente de correlación múltiple 0,86298887 Coeficiente de determinación R^2 0,74474978 R^2 ajustado 0,59889252 Error típico 15,5793327 Observaciones 12 ANÁLISIS DE VARIANZA   Grados de libertad Suma de cuadrados Promedio de los cuadrados Regresión 4 4957,240744 1239,310186 Residuos 7 1699,009256 242,7156081 Total 11 6656,25 Coeficientes Estadístico t Intercepción -102,713236 207,8588509 -0,494148967 Variable X 1 0,60537054 0,368896954 1,641028833 Variable X 2 8,9236442 5,300522238 1,683540564 Variable X 3 1,43745673 2,391620508 0,601038806 Variable X 4 0,01360931 0,733821444 0,018545803

Prediga el consumo de potencia para un mes en el que x1 = 75oF, x2 = 24 días, x3 = 90% y x4 = 98 toneladas -102.71+0.60*75+8.92*24+1.43*90+0.0136*98 = 287,5618328

Ejemplo 3 Edad Vol. del Higado 0,5 41 0,7 55 2,5 4,1 39 5,9 50 6,1 32 7 8,2 42 10 26 10,1 35 10,9 25 11,5 31 21,1 14,1 29 15 23 Una muestra aleatoria simple de 15 niños aparentemente sanos con edades entre 6 meses y 15 años produjo los siguientes datos con respecto a la edad (X), y el volumen del hígado por unidad de peso corporal (ml/kg), Y:

Estadísticas de la regresión Coeficiente de correlación múltiple 0,704398266 Coeficiente de determinación R^2 0,496176917 R^2 ajustado 0,457421296 Error típico 6,770916984 Observaciones 15 ANÁLISIS DE VARIANZA   Grados de libertad Suma de cuadrados Promedio de los cuadrados Regresión 1 586,9442148 Residuos 13 595,9891185 45,84531681 Total 14 1182,933333   Coeficientes Intercepción 45,822078 Variable X 1 -1,14589796

  Coeficientes Intercepción 45,822078 Variable X 1 -1,14589796

Tipos de Residuales r r Ausencia de patrones ü

Tendencias en los residuales Modelo Comportamiento cuadrático X Y Residual ¿Qué hacer? Incluir una variable cuadrática en el modelo

Análisis de residuales ¿Homoscedasticidad? Predicción Residual Grupo 1 Grupo 2 Grupo 3 Variabilidad residual creciente

Intervalos de confianza Se separan a medida que la variable se aleja del centro de la distribución La extrapolación es imprecisa

Modelos Lineales El modelo lineal (análisis de regresión) es una metodología para examinar la asociación cuantitativa entre una variable de respuesta y con otras p variables de predicción xj Donde existen n mediciones de la respuesta yi observadas bajo un conjunto de condiciones experimentales de las variables de predicción xj

Formulación Los errores ei son variables aleatorias independientes de media 0 La varianza de los errores ei es constante para todas las observaciones La linealidad se establece sobre los parámetros no sobre las variables

Modelos lineales y no lineales

Dos modelos alternativos para una data de la población de EEUU

Etapas para construir un buen Modelado Identificación de la estructura de entrada Formulación y estimación del modelo Análisis global Análisis individual de los parámetros Reformulación del modelo

Etapas del Modelado Seleccionar los mejores modelos alternativos Estudio de residuales Coherencia con la realidad Elección del mejor modelo e interpretación del mismo Predicción

Identificación de la estructura de entrada Identificar variables candidatas Experiencia experta (tormenta de ideas) Correlación de las variables causales con la respuesta Estudio de interacción entre las variables seleccionadas Análisis de correlación múltiple entre las variables causales Componentes principales

Formulación: Resultados Fundamentales Formulación vectorial Las dimensiones de y, X, b, y e son: Y n*1 X n*p b p*1 e

Estimación de Parámetros por mínimos cuadrados ¿Qué se estima?

¿Cómo se estima? Se minimiza la suma de cuadrados de los errores y se determinan los parámetros del modelo Operaciones matriciales con las matrices de datos arrojan los siguientes estimadores: ¡El Software lo Hace por Uds!

Ajuste Global del Modelo X2 X1 Y Modelo SS Total SS Residual SS

Ajuste Global del Modelo Error medio cuadrático MSE (mean square error) El coeficiente de determinación R-Square El coeficiente de determinación ajustado ADJR-Square El número de parámetros

Análisis Individual de los Parámetros Pruebas de hipótesis para determinar si cada uno de los parámetros es distinto de 0 Eliminar la que tenga menor tratio ßà mayor p-value Las variables en un modelo de regresión deben ser eliminadas de una en una:

Estimación del modelo de población

Estimación del modelo de población

Seleccionar los Mejores Modelos Alternativos En función de: Error medio cuadrático MSE El coeficiente de determinación R-Square El coeficiente de determinación AdjR-Square El número p de variables en el modelo

El principio de Parsimonia “.... everything should be made as simple as possible but not simpler” Albert Einstein

Estudio de Residuales Graficar los residuales contra cada una de las variables de entrada en busca de patrones La ausencia de patrones es una buena señal Comportamiento cuadrático

Estudio de Residuales Graficar los residuales contra las predicciones La ausencia de patrones es una buena señal Residuales del modelo cuadrático de población

Ejemplo X= Edad (AGE) e Y=presión sistólica (SBP) 33 mujeres adultas

Modelo Lineal de Presión Sistólica

Residuales

Modelo Cuadrático de Presión Sistólica

Residuales

Coherencia con la realidad Interpretación de los coeficientes: bj representa el incremento de la respuesta por unidad de cambio de la variable de entrada xj El signo de bj debe corresponder con el tipo de asociación esperada. Condición aeróbica = b0+ b1 BMI + b2 pulsoreposo + e ¿Qué signo esperamos de los coeficientes?

Comparación final de modelos posibles Criterios sí ok 5 .883 22.01 II 3 .873 24.73 I coherencia residuales Parámetros AdjR2 MSE Modelo min max min

Consumo de oxigeno por unidad de tiempo y peso en una carrera de 2 km

Se excluyó RSTPULSE

Se excluyó WEIGHT

¿Es un modelo coherente? Se excluyó MAXPULSE ¿Es un modelo coherente?

Cohe_ rencia Ad-jR2 RMSE modelo OK 3 .7901 2.4406 ? 4 .8117 2.3116 5 Número variables Ad-jR2 RMSE modelo OK 3 .7901 2.4406 -MAXPULSE ? 4 .8117 2.3116 -WEIGHT 5 .8176 2.2752 -RSTPULSE 6 .8108 2.3169 full

Predicción Se estima la predicción Intervalos de confianza de la predicción