Regresión lineal múltiple Tema 2 Regina Kaiser Depto. Estadística, Universidad Carlos III
Descripción breve del tema Introducción Hipótesis del modelo Linealidad, homogeneidad, homocedasticidad, independencia, normalidad, otras hipótesis Modelo en forma matricial Estimación de los parámetros Propiedades de los estimadores Inferencia y predicción Multicolinealidad y diagnosis Extensiones del modelo Regina Kaiser Depto. Estadística, Universidad Carlos III
Depto. Estadística, Universidad Carlos III Objetivos Formulación del modelo de regresión múltiple Métodos de estimación para dichos modelos Tomar decisiones acerca de los parámetros Aprendizaje de utilización de gráficos para detectar el tipo de relación entre las variables Cuantificación del grado de relación lineal Regina Kaiser Depto. Estadística, Universidad Carlos III
Descripción breve del tema Introducción Hipótesis del modelo Linealidad, homogeneidad, homocedasticidad, independencia, normalidad, otras hipótesis Modelo en forma matricial Estimación de los parámetros Propiedades de los estimadores Inferencia y predicción Multicolinealidad y diagnosis Extensiones del modelo Regina Kaiser Depto. Estadística, Universidad Carlos III
Depto. Estadística, Universidad Carlos III Introducción Estudio conjunto de varias variables (más de dos). Varias variables independientes xi se utilizan para explicar otra dependiente y Utilizamos toda la información disponible Regina Kaiser Depto. Estadística, Universidad Carlos III
El modelo de regresión múltiple n observaciones de la forma (xi1,…, xik,yi) Objetivo: aproximar y a partir de x1,…,xk x1,…,xk : variables independientes o explicativas y: variable dependiente o respuesta (a explicar) Regina Kaiser Depto. Estadística, Universidad Carlos III
Ejemplo: semiconductores Regina Kaiser Depto. Estadística, Universidad Carlos III
Ejemplo: semiconductores Regina Kaiser Depto. Estadística, Universidad Carlos III
Ejemplo: semiconductores Regina Kaiser Depto. Estadística, Universidad Carlos III
Descripción breve del tema Introducción Hipótesis del modelo Linealidad, homogeneidad, homocedasticidad, independencia, normalidad, otras hipótesis Modelo en forma matricial Estimación de los parámetros Propiedades de los estimadores Inferencia y predicción Multicolinealidad y diagnosis Extensiones del modelo Regina Kaiser Depto. Estadística, Universidad Carlos III
Depto. Estadística, Universidad Carlos III Linealidad Los datos se ajustan aproximadamente a la ecuación: Con dos variables explicativas: Los datos están aproximadamente contenidos en un plano. En general, en un hiperplano. Regina Kaiser Depto. Estadística, Universidad Carlos III
Depto. Estadística, Universidad Carlos III Homogeneidad El valor promedio de la perturbación es cero, Regina Kaiser Depto. Estadística, Universidad Carlos III
Homocedasticidad: Var[ui]=s2 Varianza de perturbaciones constante Regina Kaiser Depto. Estadística, Universidad Carlos III
Depto. Estadística, Universidad Carlos III Independencia Perturbaciones ui independientes entre sí. En particular E[uiuj]= 0 para i ¹ j Regina Kaiser Depto. Estadística, Universidad Carlos III
Depto. Estadística, Universidad Carlos III Normalidad Las perturbaciones siguen distribución normal ui~N(0, s2) En consecuencia: Regina Kaiser Depto. Estadística, Universidad Carlos III
Depto. Estadística, Universidad Carlos III Otras hipótesis El número de datos n es mayor que k+1 Ninguna variable explicativa es combinación lineal de las demás (las xi son linealmente independientes) Regina Kaiser Depto. Estadística, Universidad Carlos III
Descripción breve del tema Introducción Hipótesis del modelo Linealidad, homogeneidad, homocedasticidad, independencia, normalidad, otras hipótesis Modelo en forma matricial Estimación de los parámetros Propiedades de los estimadores Inferencia y predicción Multicolinealidad y diagnosis Extensiones del modelo Regina Kaiser Depto. Estadística, Universidad Carlos III
Forma matricial del modelo Habitualmente escribimos el modelo como Y = Xb + U con: Regina Kaiser Depto. Estadística, Universidad Carlos III
Descripción breve del tema Introducción Hipótesis del modelo Linealidad, homogeneidad, homocedasticidad, independencia, normalidad, otras hipótesis Modelo en forma matricial Estimación de los parámetros Propiedades de los estimadores Inferencia y predicción Multicolinealidad y diagnosis Extensiones del modelo Regina Kaiser Depto. Estadística, Universidad Carlos III
Método de Mínimos Cuadrados Valor observado Dato (y) Valor observado Dato (y) Recta de regresión estimada Recta de regresión estimada Regina Kaiser Depto. Estadística, Universidad Carlos III
Depto. Estadística, Universidad Carlos III Mínimos Cuadrados Objetivo: Buscar los valores de b0,b1,…,bk que mejor ajustan nuestros datos. Ecuación: Residuo: Minimizar: Regina Kaiser Depto. Estadística, Universidad Carlos III
Depto. Estadística, Universidad Carlos III Mínimos Cuadrados Resultado en forma matricial: Regina Kaiser Depto. Estadística, Universidad Carlos III
Ejemplo: semiconductores Regina Kaiser Depto. Estadística, Universidad Carlos III
Interpretación geométrica Hemos calculado: Tenemos: Definimos la matriz: H es idempotente, simétrica y del mismo rango que X, (k+1). Es una matriz de proyección. Regina Kaiser Depto. Estadística, Universidad Carlos III
Interpretación geométrica H simétrica (obvio) H idempotente Residuos ortogonales a valores ajustados Residuos ortogonales a matriz de diseño X Regina Kaiser Depto. Estadística, Universidad Carlos III
Interpretación geométrica Subespacio vectorial generado por las columnas de X Regina Kaiser Depto. Estadística, Universidad Carlos III
Depto. Estadística, Universidad Carlos III Varianza Para estimar s2 utilizamos la varianza residual Es insesgado como estimador de s2 y además Regina Kaiser Depto. Estadística, Universidad Carlos III
Descripción breve del tema Introducción Hipótesis del modelo Linealidad, homogeneidad, homocedasticidad, independencia, normalidad, otras hipótesis Modelo en forma matricial Estimación de los parámetros Propiedades de los estimadores Inferencia y predicción Multicolinealidad y diagnosis Extensiones del modelo Regina Kaiser Depto. Estadística, Universidad Carlos III
Propiedades de los estimadores Normalidad. Sabemos Y=Xb +U, de donde Y~N(Xb,s2I). Como también es normal. Esperanza. Varianza. Regina Kaiser Depto. Estadística, Universidad Carlos III
Propiedades de los estimadores Tenemos La varianza s2 suele ser desconocida y utilizamos el error estándar estimado Regina Kaiser Depto. Estadística, Universidad Carlos III
Descripción breve del tema Introducción Hipótesis del modelo Linealidad, homogeneidad, homocedasticidad, independencia, normalidad, otras hipótesis Modelo en forma matricial Estimación de los parámetros Propiedades de los estimadores Inferencia y predicción Multicolinealidad y diagnosis Extensiones del modelo Regina Kaiser Depto. Estadística, Universidad Carlos III
Inferencia. Contrastes para b Para averiguar si la variable xi afecta a la respuesta, debemos plantear el contraste Rechazamos la hipótesis nula si: Regina Kaiser Depto. Estadística, Universidad Carlos III
Ejemplo: semiconductores Regina Kaiser Depto. Estadística, Universidad Carlos III
Inferencia. Int. de confianza para b Podemos construir un intervalo de confianza para b con nivel de confianza 1-a como Si n > 30 y a = 0.05, sabemos que tn-k-1,a/2 @ 2. Regina Kaiser Depto. Estadística, Universidad Carlos III
Inferencia. Contraste de regresión Igual que en la regresión simple VT=VE+VNE Regina Kaiser Depto. Estadística, Universidad Carlos III
Inferencia. Contraste de regresión Para averiguar si existe relación lineal entre la variable respuesta y las explicativas, realizamos Rechazamos la hipótesis nula si: Regina Kaiser Depto. Estadística, Universidad Carlos III
Ejemplo: semiconductores Regina Kaiser Depto. Estadística, Universidad Carlos III
Coeficiente de determinación El coeficiente de determinación se define: El coeficiente de determinación ajustado es más interesante ya que sólo aumenta si disminuye la varianza residual Regina Kaiser Depto. Estadística, Universidad Carlos III
Ejemplo: semiconductores Regina Kaiser Depto. Estadística, Universidad Carlos III
Predicción para la media Buscamos estimador puntual e I.C. para el valor medio de la respuesta cuando x=x0 Regina Kaiser Depto. Estadística, Universidad Carlos III
Predicción para la media El intervalo de confianza para la media que obtenemos es: Regina Kaiser Depto. Estadística, Universidad Carlos III
Ejemplo: semiconductores ¿Cúal sería el I.C. para para la respuesta media si la longitud del cable es 8 y la altura de la estructura es 275? Regina Kaiser Depto. Estadística, Universidad Carlos III
Ejemplo: semiconductores Regina Kaiser Depto. Estadística, Universidad Carlos III
Predicción para una nueva observación Intervalo de predicción Ejemplo: semiconductores (long. 8, altura 175) Regina Kaiser Depto. Estadística, Universidad Carlos III
Descripción breve del tema Introducción Hipótesis del modelo Linealidad, homogeneidad, homocedasticidad, independencia, normalidad, otras hipótesis Modelo en forma matricial Estimación de los parámetros Propiedades de los estimadores Inferencia y predicción Multicolinealidad y diagnosis Extensiones del modelo Regina Kaiser Depto. Estadística, Universidad Carlos III
Depto. Estadística, Universidad Carlos III Multicolinealidad Problema frecuente que se presenta cuando las variables explicativas son muy dependientes entre sí. No es un problema del modelo, sino de los datos, surge cuando det(XtX) próximo a cero. Las variables explicativas son significativas en el modelo simple, pero dejan de serlo en el múltiple. Regina Kaiser Depto. Estadística, Universidad Carlos III
Índice de condicionamiento Los autovalores de XtX son mayores o iguales que cero, para que haya multicolinealidad, alguno tiene que ser aproximadamente cero. Si 10 £ Ind.Cond. £ 30, multiolinealidad moderada Si Ind.Cond. > 30, multicolinealidad alta Regina Kaiser Depto. Estadística, Universidad Carlos III
Ejemplo: Sabor del queso Regina Kaiser Depto. Estadística, Universidad Carlos III
Ejemplo: sabor del queso Multicolinealidad moderada Regina Kaiser Depto. Estadística, Universidad Carlos III
Ejemplo: sabor del queso Regina Kaiser Depto. Estadística, Universidad Carlos III
Ejemplo: sabor del queso Regresión simple Láctico Antes 30.73 Regina Kaiser Depto. Estadística, Universidad Carlos III
Ejemplo: sabor del queso Regresión simple Acético Antes 3.9 Regina Kaiser Depto. Estadística, Universidad Carlos III
Ejemplo: sabor del queso Regresión simple: H2S Antes 1.2 Regina Kaiser Depto. Estadística, Universidad Carlos III
Ejemplo: sabor del queso Regina Kaiser Depto. Estadística, Universidad Carlos III
Ejemplo: sabor del queso Regresión múltiple: Acético y H2S Acético + H2S 64.5% Acético 50.61% H2S 57.11% Regina Kaiser Depto. Estadística, Universidad Carlos III
Ejemplo: sabor del queso Regresión múltiple: Láctico y H2S Láctico + H2S 65.1% Láctico 49.59% H2S 57.11% Regina Kaiser Depto. Estadística, Universidad Carlos III
Ejemplo: sabor del queso Regresión múltiple: Láctico y Acético Láctico + Acético 50.7% Acético Láctico 49.59% Regina Kaiser Depto. Estadística, Universidad Carlos III
Ejemplo: sabor del queso Regina Kaiser Depto. Estadística, Universidad Carlos III
Ejemplo: sabor del queso Regresión múltiple: Láctico y H2S Láctico + H2S 65.1% Láctico 49.59% H2S 57.11% Regina Kaiser Depto. Estadística, Universidad Carlos III
Depto. Estadística, Universidad Carlos III Diagnosis Más compleja que en la regresión simple. Gráficos de residuos frente a valores previstos para detectar falta de linealidad y heterocedasticidad. Gráficos probabilísticos (pp-plots) para los residuos para detectar falta de normalidad. Análisis de datos influyentes. Regina Kaiser Depto. Estadística, Universidad Carlos III
Descripción breve del tema Introducción Hipótesis del modelo Linealidad, homogeneidad, homocedasticidad, independencia, normalidad, otras hipótesis Modelo en forma matricial Estimación de los parámetros Propiedades de los estimadores Inferencia y predicción Multicolinealidad y diagnosis Extensiones del modelo Regina Kaiser Depto. Estadística, Universidad Carlos III
Variables dicotómicas En un muestra pueden aparecer grupos de observaciones. Ejemplo: En una muestra de alumnos los grupos pueden venir dados por el sexo. Regina Kaiser Depto. Estadística, Universidad Carlos III
Variables dicotómicas Podemos introducir variables ficticias, dicotómicas o dummies del siguiente modo: Regina Kaiser Depto. Estadística, Universidad Carlos III
Variables dicotómicas Regina Kaiser Depto. Estadística, Universidad Carlos III
Variables politómicas En numerosas ocasiones las variables cualitativas toman valores en más de dos características. Si tenemos s categorías, introducimos s-1 variables dicotómicas zt Regina Kaiser Depto. Estadística, Universidad Carlos III